Le comportement spontané est structuré par renforcement sans récompense explicite

Nature volume 614, pages 108-117 (2023)Citer cet article

48 000 accès

10 citations

296 Altmétrique

Détails des métriques

Le comportement spontané des animaux est construit à partir de modules d’action concaténés par le cerveau en séquences1,2. Cependant, les mécanismes neuronaux qui guident la composition des comportements naturalistes et motivés restent inconnus. Nous montrons ici que la dopamine fluctue systématiquement dans le striatum dorsolatéral (DLS) lorsque les souris expriment spontanément des modules comportementaux inférieurs à la seconde, malgré l'absence de structure de tâche, d'indices sensoriels ou de récompense exogène. Les enregistrements photométriques et les manipulations optogénétiques calibrées en boucle fermée pendant le comportement en champ ouvert démontrent que les fluctuations de la dopamine DLS augmentent la variation de séquence au fil des secondes, renforcent l'utilisation de modules comportementaux associés au fil des minutes et modulent la vigueur avec laquelle les modules sont exprimés, sans influencer directement l'initiation du mouvement ou cinématique d'instant en instant. Bien que les effets de renforcement des manipulations optogénétiques de la dopamine DLS varient selon les modules comportementaux et les souris individuelles, ces différences sont bien prédites par la variation observée dans les relations entre la dopamine endogène et l'utilisation du module. Conformément à la possibilité que les fluctuations de la dopamine DLS agissent comme un signal d'enseignement, les souris construisent des séquences au cours de l'exploration comme pour maximiser la dopamine. Ensemble, ces résultats suggèrent un modèle dans lequel les mêmes circuits et calculs qui régissent les choix d'action dans les tâches structurées jouent un rôle clé dans la sculpture du contenu d'un comportement spontané, sans contrainte, de grande dimension.

Le comportement spontané présente une structure. Les éthologues soutiennent depuis longtemps que le comportement motivé des animaux dans la nature est construit de manière flexible à partir de composants modulaires liés entre eux au fil du temps de manière prévisible mais probabiliste1. De nombreux comportements en laboratoire bien étudiés, notamment la chimiotaxie, le toilettage, la recherche de proies, la parade nuptiale, le chant des oiseaux et la locomotion exploratoire, sont également caractérisés par la modularité et la prévisibilité2,3,4,5. Cependant, on ne sait toujours pas comment le cerveau régule l'expression de modules comportementaux individuels à un moment donné, ni comment il compose dynamiquement ces modules dans les comportements fluides observés lorsque les animaux agissent de leur propre gré en l'absence de contrainte expérimentale, de structure de tâche ou de facteurs exogènes. récompense.

Étant donné que la perte de neurones dopaminergiques de la substance noire pars compacta (SNc) entraîne des déficits diffus dans l'initiation et le séquençage de l'action, il est probable que la dopamine neuromodulatrice influence l'architecture du comportement spontané6,7,8. Pourtant, nous savons peu de choses sur la relation précise entre la dopamine et le comportement lorsque les animaux explorent librement un environnement. Bien que l’on pense que la dopamine motive le comportement spontané et influence la vigueur avec laquelle les actions sont exprimées, les preuves sont mitigées quant à savoir si les transitoires phasiques de la dopamine sont permissifs ou causals pour les mouvements, si la dopamine augmente ou diminue lorsque les animaux initient un mouvement, et si les fluctuations de la dopamine spécifier la cinématique du mouvement chez les animaux au comportement libre6,9,10,11,12,13,14,15,16,17,18,19. En revanche, lors de tâches structurées dans lesquelles les animaux recherchent des récompenses explicites et souvent indiquées, la dopamine phasique transmet clairement des informations liées aux erreurs de récompense et de prédiction de récompense, renforce les actions associées à la récompense et influence les choix effectués entre des actions alternatives20,21,22,23. ,24,25.

La dopamine peut jouer des rôles distincts lors de comportements spontanés et structurés par des tâches, compte tenu de leurs nombreuses différences ; par exemple, les comportements spontanés présentent généralement une plus grande variété de modules comportementaux exprimés, incluent des séquences comportementales plus complexes et ont tendance à mettre l'accent sur les mouvements auto-initiés associés à la détection active2,4,26. Néanmoins, le comportement spontané et les tâches structurées exigent que les animaux choisissent des actions sur une base continue parmi une distribution de possibilités, ce qui suggère que la dopamine peut influencer l'assemblage continu de séquences naturalistes par le biais de mécanismes similaires à ceux utilisés pour soutenir la sélection d'actions axées sur un objectif en réponse à récompenses.

0.05 for controls, two-sided Mann–Whitney U test comparing stimulation with catch trials). Syll, syllable. j, Sequence context changes from baseline to post-stimulation for an example mouse–target pair. Sequences proceed from left (incoming syllables) to right (outgoing syllables). Nodes are sorted by decreasing frequency at baseline. k, Average change in inbound and outbound transitions for target syllables on stimulation day sorted by the baseline rank of the transition. Traces are smoothed with a five-point rolling average. Shading indicates bootstrap s.e.m. l, Average kinematic parameters aligned to stimulation in Opto-DA mice and controls. Shading as in i. No comparisons between stimulation and catch trials in any of the mice were significant (P > 0.05, one-sided Mann–Whitney U test). m, As in l, but following 3-s-long stimulation. The solid bar indicates significance (P < 0.05, one-sided Mann–Whitney U test)./p>

6 kHz, and voltage signals driving the UV and blue LEDs were also stored for offline analysis./p>

1% of the time in an example experiment. Syllables are sorted by total usage in the experiment, with the most-used syllable at the top and least used on the bottom. The colors above each segment of the plot indicate the time intervals used to compute the transition matrices in Extended Data Fig. 2g. g) State maps computed for each colored section of the example experiment shown in Extended Data Fig. 2f, summarizing the transition statistics between behavioural syllables, and demonstrating that transitions are also non-stationary over each imaging experiment. Each node is a syllable, and each line represents the transition from one syllable to the next (whose width specifies the observed likelihood of each transition, per the legend)./p>