Раскрыт механизм рабочей памяти в мозге, а в работе нейронов нашли аналог алгоритма машинного обучения

Июл 29, 2022

Nature: мгновенная взаимосвязь между областями коры мозга поддерживает оперативную память, а дофаминовые нейроны в мозге реализуют алгоритм машинного обучения.

Нейробиологи Университетского колледжа Лондона раскрыли механизм рабочей или оперативной памяти, которая помогает манипулировать ограниченным объемом информации для рассуждений и принятия решений. Оказалось, что ключевую роль играет мгновенная взаимная коммуникация между различными областями мозга, называемая реципрокными взаимодействиями. Об этом сообщается в статье, опубликованной в журнале Nature.

Исследователи изучили взаимодействия между двумя областями мозга, поддерживающими оперативную визуальную память у мышей — теменной и премоторной корой. Грызунам давали визуальный стимул — изображение из черных и белых полос под углом 45 градусов — с последующей задержкой. Затем животные должны были сопоставить следующий стимул, который являлся зеркальным отображением предыдущего, с первым, получив за это вознаграждение. Для успешного выполнения задачи мыши должны были удерживать в оперативной памяти информацию о первом стимуле. В контрольном испытании мыши выполняли простую задачу на различение изображения, которое не было связано с предыдущим.

В ходе эксперимента исследователи воспользовались оптогенетическим методом инактивации определенных областей коры во время задержки или во время получения стимула. Исследователи стимулировали с помощью света тормозные нейроны, кратковременно (в течение 600 миллисекунд) блокируя активность нейросетей в теменной (зрительной), соматосенсорной и премоторной области. Оказалось, что инактивация всех областей, кроме соматосенсорной, во время задержки мешала мышам правильно выполнять задачи с использованием оперативной памяти.

Сопоставляя результаты инактивации при выполнении мышами различных задач, ученые смогли отличить ту часть нейронной активности, которая зависела именно от рабочей памяти, от активности, которая связана с решением любых визуальных задач. Они обнаружили, что большая часть нейронной активности не была связана именно с оперативной памятью, которая вместо этого была встроена в «многомерные» режимы нейронной активности. То есть информация в рабочей памяти была закодирована в совокупных колебаниях возбуждений отдельных нейронов.

В ходе дальнейших экспериментов исследователи отключали одну из двух областей — зрительную или премоторную — и одновременно отслеживали активность аксонов (длинных отростков нейронов) другой области, которые соединяют их друг с другом. Хотя подавление одной области не влияло на среднюю активность другой области, межобластная связь нарушалась, а информация в рабочей памяти терялась.

В следующем исследовании ученые планируют заняться поиском паттернов активности, которые являются общими для премоторной и зрительной областей. Они также планируют изучить связь активности нейронов с конкретными типами информации в оперативной памяти.

Между тем, ученые Гарвардского университета (США), Нагойского университета и Медицинской школы Университета Кэйо (Япония) доказали сходство между обучением животных и типом машинного обучения, называемым обучением временной разнице (англ. temporal difference, TD). В статье, опубликованной в журнале Nature Neuroscience, исследователи продемонстрировали, что дофаминергические нейроны реализуют биологический аналог функции ошибки в алгоритме TD.

Обучение временной разнице — это тип обучения, при котором сначала создается модель, предсказывающая наступление какого-либо события в будущем, а потом эта модель корректируется с течением времени. Например, модель, которая предсказывает погоду в субботу по погоде в понедельник, корректируется с учетом погоды в пятницу, когда можно сделать более точный прогноз на субботу. Важную роль в этом алгоритме, как и в обычном обучении, играет функция ошибки, которая сообщает о разнице между ожиданием и реальностью, однако в алгоритме TD ошибка может вычисляться для каждого момента времени между первым стимулом и вознаграждением.

В конце XX века нейробиологи увидели, что у обучающихся животных частота возбуждения дофаминовых нейронов, расположенных в таких областях мозга, как вентральная область покрышки и черная субстанция, имитирует функцию ошибки в алгоритме TD. В начале обучения животное не связывает стимул с последующим вознаграждением в виде вкусной еды, поэтому при получении пищи дофаминовые клетки резко увеличивают частоту возбуждения. Со временем это усиление начинает происходить все раньше и раньше, пока не достигает стимула, надежно предсказывающего вознаграждение. Когда животное обучено, вознаграждение уже не вызывает усиленную работу нейронов. Однако многие исследования не смогли подтвердить, что дофаминовые сигналы действительно воспроизводят алгоритм TD.

Исследователи подробно изучили динамику дофамина во время ассоциативного обучения мышей. Для этого они ввели в вентральную часть полосатого тела, куда тянутся аксоны дофаминергических нейронов, аденоассоциированный вирусный вектор, несущий ген сенсора GRAB(DA2m). При связывании с дофамином сенсор начинает испускать флуоресцентный сигнал, который измеряли оптоволоконным флуориметром. Мышей обучали ассоциировать запах с вознаграждением водой, при этом стимул длился одну секунду, а задержка перед вознаграждением — две секунды. Со временем дофаминовые сигналы усиливались в ответ на запах, при этом уменьшаясь в ответ на вознаграждение. У каждого животного ученые наблюдали сдвиг пика активности дофамина на 3,5 миллисекунды за каждое из нескольких сотен испытаний.

*Схема эксперимента с реверсивным обучением*
При реверсивном обучении проверяется, может ли животное, которое уже было обучено связывать определенный стимул с вознаграждением, перестать реагировать на этот стимул, который уже не связан с вознаграждением, и обучиться новой ассоциативной связи. Изображение: Amo et al.

На втором этапе исследования ученые проверили, будет ли наблюдаться временной сдвиг дофаминовых сигналов при реверсивном обучении. Для этого животных обучали классической задаче запах-вознаграждение в течение 12 дней, а затем меняли первоначальный стимул на другой запах. Дофаминовый сигнал также продемонстрировал временной сдвиг в течение периода задержки, но с более высокой скоростью. То же самое наблюдалось, когда мыши не получали ожидаемого вознаграждения; в этом случае сдвигающийся назад дофаминовый сигнал в виде впадины соответствовал отрицательной TD-ошибке.

Результаты исследования, подтверждающие сходство между работой дофаминовых нейронов и ТD-алгоритмом, позволяют лучше понять, каким образом в мозге реализуются алгоритмы обучения, основанные на вознаграждении, и насколько они похожи на те алгоритмы, что используются в машинном обучении. В будущем это поможет разработать новые, более эффективные методы разработки искусственного интеллекта.