Процесс обучения требует сложной способности постоянно обновлять наши ожидания относительно будущих вознаграждений, чтобы мы могли делать точные прогнозы относительно этих вознаграждений в условиях меняющейся среды. Хотя точно, как мозг управляет этим процессом, остается неясным, новое исследование, проведенное исследователями из Калифорнийского технологического института, предполагает, что наше поведение определяется комбинацией двух различных стратегий обучения.
Статья о работе появится в номере журнала Neuron от 27 мая.
Одна принятая стратегия обучения, называемая обучением без моделей, основывается на сравнении методом проб и ошибок между вознаграждением, которое мы ожидаем в данной ситуации, и вознаграждением, которое мы действительно получаем. Результатом этого сравнения является генерация "ошибка предсказания вознаграждения," что соответствует этой разнице. Например, ошибка прогноза вознаграждения может соответствовать разнице между прогнозируемой денежной отдачей от финансовых вложений и нашими реальными доходами.
Во втором механизме, называемом обучением на основе моделей, мозг создает когнитивную карту окружающей среды, которая описывает взаимосвязь между различными ситуациями. "Обучение на основе моделей связано с генерацией «ошибки прогнозирования состояния», которая представляет уровень неожиданности мозга в новой ситуации с учетом его текущей оценки окружающей среды," говорит Ян Глэшер, научный сотрудник Калифорнийского технологического института и ведущий автор исследования.
"Подумайте о ситуации, когда вы всегда выбираете один и тот же маршрут, когда едете домой после работы, но в определенный день обычный путь заблокирован из-за строительных работ," Gläscher говорит. "Безмодельная обучающая система была бы безнадежно потеряна; он связан только с действиями, которые в прошлом были полезными, поэтому, если эти действия больше не доступны, он не сможет решить, куда идти дальше. Но система, основанная на модели, сможет запросить свою когнитивную карту и вычислить эффективный объезд, используя альтернативный маршрут."
"Хотя более простой механизм обучения без использования моделей хорошо изучен, а его базовый механизм обучения, обусловленный ошибками прогнозирования вознаграждения, относительно хорошо изучен, механизмы, лежащие в основе более сложной системы обучения на основе моделей, с ее богатой адаптируемостью и гибкостью, менее понятны" говорит Джон П. О’Догерти, профессор психологии Калифорнийского технологического института и Томаса Н. Митчелл, профессор когнитивной неврологии в Тринити-колледже в Дублине, Ирландия.
Чтобы дополнительно охарактеризовать неврологические основы этих двух обучающих систем, Глэшер, О’Догерти и их коллеги разработали компьютерную задачу принятия решений, которая позволила им измерить, когда и где мозг вычисляет как вознаграждение, так и сигналы ошибки прогнозирования состояния, и чтобы определить, действительно ли два типа ошибок производят разные нейронные сигнатуры.
В этом задании испытуемые должны были сделать выбор между движением влево и вправо, что позволяло им переключаться между разными движениями "состояния"- обозначены графическими значками – в виртуальной среде; процесс похож на навигацию в простой видеоигре. Каждый выбор влево или вправо, сделанный в этой виртуальной среде, приводил субъекта к новому состоянию. Их цель состояла в том, чтобы достичь определенного состояния цели, чтобы получить денежное вознаграждение, "и их шансы попасть в это целевое состояние сильно зависели от конкретной модели последовательных выборов, которые они сделали," О’Догерти объясняет.
Система на основе модели может узнать о структуре виртуальной среды, а затем использовать эту информацию для вычисления действий, необходимых для перехода в состояние вознаграждения, аналогично тому, как шахматист может попытаться продумать необходимые последовательные шахматные ходы. выиграть матч. С другой стороны, безмодельная система научится только слепо выбирать те действия, которые приносили вознаграждение в прошлом, без оценки последствий в текущей ситуации.
Восемнадцать участников были просканированы с помощью функциональной магнитно-резонансной томографии, когда они изучали задание. Сканирование мозга показало характерную, ранее охарактеризованную нейронную сигнатуру ошибки предсказания вознаграждения, генерируемую во время обучения без использования модели, в области в середине мозга, называемой вентральным полосатым телом. Однако во время обучения на основе модели нейронная сигнатура ошибки прогнозирования состояния проявлялась в двух разных областях на поверхности мозга в коре больших полушарий: внутри теменной борозды и в боковой префронтальной коре.
Эти наблюдения предполагают, что два уникальных типа сигналов ошибки вычисляются в человеческом мозгу, возникают в разных областях мозга и могут представлять отдельные вычислительные стратегии для управления поведением. "Система без модели работает очень эффективно в ситуациях, которые сильно автоматизированы и часто повторяются – например, если я регулярно езжу домой с работы одним и тем же маршрутом," Gläscher говорит, "в то время как система, основанная на модели, хотя и требует гораздо большей вычислительной мощности, способна гибко адаптироваться к новым ситуациям, таким как необходимость найти новый маршрут после контрольно-пропускного пункта."
По словам Глэшера, эти два различных механизма обучения выполняют взаимодополняющие роли в управлении человеческим поведением. "Поскольку вычислительная мощность нашего мозга ограничена, нет смысла развертывать более требовательную к вычислениям систему на основе моделей для управления всем, что мы делаем. Вместо этого лучше полагаться на безмодельную систему для большей части нашего повседневного поведения и использовать модельную систему только для новых или сложных ситуаций. Важной областью для дальнейших исследований будет попытка понять факторы, определяющие, как эти системы взаимодействуют вместе, чтобы контролировать поведение, и определить, как это реализуется в мозге."