Ваша способность распознавать предметы замечательна. Если вы видите чашку при необычном освещении или с неожиданного направления, велика вероятность, что ваш мозг все равно вычислит, что это чашка. Такое точное распознавание объектов – один из святых Граалей для разработчиков искусственного интеллекта, например тех, кто занимается улучшением навигации на беспилотных автомобилях.
Хотя моделирование распознавания объектов приматов в зрительной коре произвело революцию в системах искусственного визуального распознавания, современные системы глубокого обучения упрощены и не могут распознавать некоторые объекты, которые являются детской забавой для приматов, таких как люди.
В результатах, опубликованных в Nature Neuroscience, исследователь Института Макговерна Джеймс ДиКарло и его коллеги обнаружили доказательства того, что обратная связь улучшает распознавание трудно распознаваемых объектов в мозгу приматов, и что добавление схемы обратной связи также улучшает производительность искусственных нейронных сетевых систем, используемых для зрения. Приложения.
Глубокие сверточные нейронные сети (DCNN) в настоящее время являются наиболее успешными моделями для точного распознавания объектов в быстром масштабе времени (менее 100 миллисекунд) и имеют общую архитектуру, вдохновленную вентральным визуальным потоком приматов, кортикальными областями, которые постепенно создают доступное и уточненное представление. просмотренных объектов. Однако большинство DCNN просты по сравнению с вентральным потоком приматов.
"Долгое время мы были далеки от модельного понимания. Таким образом, наша область приступила к этому поиску, моделируя визуальное распознавание как процесс прямой связи," – объясняет старший автор ДиКарло, который также является главой Департамента мозговых и когнитивных наук Массачусетского технологического института и соруководителем исследований в Центре мозга, разума и машин (CBMM). "Однако мы знаем, что существуют повторяющиеся анатомические связи в областях мозга, связанные с распознаванием объектов."
Подумайте о сетях DCNN с прямой связью и о той части визуальной системы, которая сначала пытается захватить объекты, как о линии метро, которая проходит через серию станций. Дополнительные повторяющиеся мозговые сети похожи на улицы выше, они взаимосвязаны и не однонаправлены. Поскольку мозгу требуется всего около 200 мс, чтобы достаточно точно распознать объект, было неясно, играли ли эти повторяющиеся взаимосвязи в мозге какую-либо роль в распознавании основного объекта. Возможно, эти повторяющиеся связи существуют только для того, чтобы визуальная система оставалась в гармонии в течение длительного периода времени. Например, обратные желоба на улицах помогают медленно очищать их от воды и мусора, но не являются строго необходимыми для быстрого перемещения людей из одного конца города в другой. ДиКарло вместе с ведущим автором и постдоком CBMM Кохитием Каром решили проверить, не упускается ли из виду тонкая роль повторяющихся операций в быстром распознавании визуальных объектов.
Сложное признание
Авторам сначала нужно было идентифицировать объекты, которые тривиально декодируются мозгом приматов, но являются сложными для искусственных систем. Вместо того, чтобы пытаться угадать, почему при глубоком обучении возникают проблемы с распознаванием объекта (это связано с беспорядком на изображении? вводящая в заблуждение тень?) авторы проявили объективный подход, который оказался критическим.
Кар объясняет далее, что "мы поняли, что у моделей искусственного интеллекта на самом деле нет проблем с каждым изображением, где объект закрыт или загроможден. Люди, пытающиеся угадать, почему возникли проблемы с моделями ИИ, оказались сдерживающими факторами."
Вместо этого авторы представили систему глубокого обучения, а также обезьян и людей с изображениями, ориентированными на "вызов изображения" где приматы могли легко распознавать объекты на этих изображениях, но DCNN с прямой связью столкнулась с проблемами. Когда они и другие добавили к этим DCNN соответствующую периодическую обработку, распознавание объектов в изображениях задач внезапно стало проще простого.
Время обработки
Кар использовал методы нейронной записи с очень высокой пространственной и временной точностью, чтобы определить, действительно ли эти изображения настолько тривиальны для приматов. Примечательно, что они обнаружили, что, хотя изображения с вызовами изначально казались детской забавой для человеческого мозга, на самом деле они требуют дополнительного времени нейронной обработки (около дополнительных 30 мс), что позволяет предположить, что повторяющиеся петли действуют и в нашем мозгу.
"Чего недавно удалось достичь сообществу компьютерного зрения, наложив все больше и больше слоев на искусственные нейронные сети, эволюция достигла за счет архитектуры мозга с повторяющимися связями," говорит Кар.
Дайан Бек, профессор психологии и сопредседатель темы интеллектуальных систем в Институте Бекмана, а не автор исследования, объясняет дальше. "Поскольку глубокие сверточные сети с прямой связью теперь очень хорошо предсказывают активность мозга приматов, возникают вопросы о роли обратных связей в мозге приматов. Это исследование показывает, что да, обратная связь, скорее всего, все-таки играет роль в распознавании объектов."
Что это значит для беспилотного автомобиля? Он показывает, что архитектуры глубокого обучения, участвующие в распознавании объектов, нуждаются в повторяющихся компонентах, если они должны соответствовать мозгу приматов, а также показывает, как реализовать эту процедуру для следующего поколения интеллектуальных машин.
"Рекуррентные модели позволяют предсказывать нейронную активность и поведение с течением времени," говорит Кар. "Теперь мы можем моделировать более сложные задачи. Возможно, однажды системы будут не только распознавать объект, например человека, но и выполнять когнитивные задачи, с которыми так легко справляется человеческий мозг, например, понимание эмоций других людей."