Люди лучших искусственного интеллекта в классических аркадах

Мечта об искусственно интеллектуальном компьютере, который может изучить проблему и получить экспертные знания все самостоятельно, является теперь действительностью. Система, дебютировавшая сегодня бригадой исследователей Google, не достаточно умна, чтобы провести операцию или вести автомобиль безопасно, но это действительно справлялось с несколькими дюжинами классических аркад, во многих случаях превосходя лучших человеческих игроков, никогда не наблюдая, как они играют.

“Результаты являются впечатляющими”, говорит Томазо Поджо, директор Центра Мозгов, Умов и Машин в Массачусетском технологическом институте в Кембридже.В теории компьютеры могли освоить новые навыки на невероятной скорости, если они не должны были ждать человеческих учителей для предоставления обратной связи на том, являются ли они на правильном пути. Но этот подход — известный как безнадзорное изучение — редко работал на навыки, более сложные, чем правильное признание рукописных почтовых индексов, или делал запись образцов популярных песен.

Тогда год назад, Демис Хассабис, программист вундеркинда и бывший проектировщик видеоигры, сделал доклад на технологической конференции в Париже и обеспечил проблеск успеха. Всего за несколько месяцев до этого, маленький запуск искусственного интеллекта Хассабиса под названием DeepMind — приблизительно 50 сотрудников, базируемых в Лондоне — был получен Google больше чем за $500 миллионов.

Видео, играющее позади Хассабиса, показало то, что казалось невозможным: компьютер, учащийся самостоятельно для игры сложные видеоигры как Прорыв (смотрят видео ниже), в котором Вы должны сломать стену путем подпрыгивания шара от него. После исследования игры путем игры его компьютер обнаружил передовые стратегии, что немного людей знают о, такие как рытье ямы заставлять шар отскочить вдоль задней стороны стены.Видео кредит: Google DeepMind (с разрешения Atari Interactive Inc.)

В исследовании, изданном онлайн сегодня по своей природе, бригада DeepMind наконец показывает, как они осуществили ее. Исследователи называют свою компьютерную систему изучения Deep-Q-Network (DQN), потому что это объединяет две различных стратегии: глубокие нейронные сети и Q-изучение. Глубокая нейронная сеть является системой восприятия — очень свободно вдохновленный видением животных, добившимся огромных успехов в последние годы. DQN видит и взаимодействует с игрой точно как люди, сделайте: создание шагов и наблюдение пиксельного изменения игры.

«Q» в DQN – то, как система знает, что это на правильном пути. Q-изучение является математической версией понятия от психологии, названной изучением укрепления, премиальная система, которая, как думают, вела процесс изучения в людях и других животных.

В этом случае вознаграждение DQN поступает в форму пунктов игры. Поскольку это испытывает различные шаги в игре, это отслеживает, которых комбинации приводят к более высоким пунктам.Для испытания системы исследователи DeepMind выпускают его на 49 классических Atari 2 600 игр с 1980-х. Эти игры в “приятном пятне”, Хассабис говорит — не столь легкий, чтобы быть тривиальным, но достаточно трудно, что люди фактически изо всех сил пытаются стать экспертами.

Они дали DQN только скромные запасы: всего 2 недели игры для каждой игры с энергией единственного настольного компьютера.Это было далеко от решенного вопроса, что эта стратегия будет работать. Исследователи попытались заставить компьютеры изучить видеоигры путем простой оптимизации для пунктов, но компьютеры застревают на играх как Прорыв или Space Invaders, где долго, сложные стратегии часто требуются, чтобы добиваться больших успехов.

В Прорыве, например, у Вас должно быть терпение обнаружить, что подготовка отверстия к задней стороне стены окупится позже.Для приблизительно половины игр, мало того, что компьютер не застрял в колеи, но он также изучил, как выиграть у лучших человеческих игроков.

DQN выиграл приблизительно 20% к на 30% большему количеству пунктов, чем люди в классических играх как Space Invaders и Вонь, и для других, таких как Прорыв и Видео Пинбол, это мучило больше чем 10 раз число очков. Следующий шаг, Хассабис говорит, является «передачей знаний»: то, чтобы учить систему применить то, что это уже изучило от одной игры до другого. Например, это должно учиться играть в игры с веслами и прыгающими мячами быстрее теперь, когда это знает, как играть в одну такую игру.Открытие “предполагает, что [компьютерное использование] укрепление, учащееся, может быть в состоянии изучить подобные реалистические задачи, такие как вождение автомобиля”, говорит Поджо.

Однако он скептичен, что один только этот подход может позволить компьютерам “изучить абстрактное мышление с нуля, или рассуждение или способности, такие как социальное восприятие”. Даже самоходный автомобиль должен сделать больше, чем мучают высокий счет.