Компьютер учится признавать звуки, смотря ролик: система машинного обучения не требует дорогостоящих аннотируемых рукой данных

Но признание естественных звуков – таких как приветствие толп или авария волн – отстало. Поэтому наиболее автоматизированные системы признания, обрабатывают ли они аудио или визуальную информацию, являются результатом машинного обучения, в котором компьютеры ищут образцы в огромных резюме данных тренировки. Обычно, данные тренировки должен быть сначала аннотирован вручную, который является предельно дорогим для всех кроме приложений самого высокого требования.Звуковое признание может нагонять, однако, благодаря исследователям в Лаборатории Информатики и Искусственного интеллекта MIT (CSAIL).

На Нервной конференции по Обработке информации Систем на следующей неделе, они представят систему нормального признания, которая выигрывает у ее предшественников, но не потребовала аннотируемых рукой данных во время обучения.Вместо этого исследователи обучили систему на видео. Во-первых, существующие компьютерные системы видения, которые признают сцены и объекты, категоризировали изображения в видео.

Новая система тогда нашла корреляции между теми визуальными категориями и естественными звуками.«Компьютерное видение стало столь хорошим, что мы можем передать его другим областям», говорит Карл Вондрик, аспирант MIT в электротехнике и информатике и одном из двух первых авторов газеты. «Мы извлекаем выгоду из естественной синхронизации между видением и звуком. Мы расширяемся с тоннами немаркированного видео, чтобы учиться понимать звук».Исследователи проверили свою систему на двух стандартных базах данных аннотируемых аудиозаписей, и это было между 13 и на 15 процентов более точно, чем лучшее выполнение предыдущая система.

На наборе данных с 10 различными здравыми категориями это могло категоризировать звуки с 92-процентной точностью, и на наборе данных с 50 категориями это выступило с 74-процентной точностью. На тех тех же самых наборах данных люди – 96 процентов и точный 81 процент, соответственно.«Даже люди неоднозначны», говорят Юсуф Эйтэр, другой первый автор газеты и postdoc в лаборатории преподавателя MIT электротехники и информатики Антонио Торрэлба.

Торрэлба – заключительный соавтор на бумаге.«Мы сделали эксперимент с Карлом», говорит Эйтэр. «Карл смотрел на компьютерный монитор, и я не мог видеть его.

Он играл бы запись, и я попытаюсь предположить, каково это было. Оказывается, что это действительно, действительно трудно.

Я мог сказать внутренний от наружных, основных предположений, но когда дело доходит до деталей – ‘Действительно ли это – ресторан?’ – те детали отсутствуют. Даже в целях аннотации, задача действительно трудна».

Дополнительные методыПоскольку требуется намного меньше права собрать и обработать аудиоданные, чем это делает, чтобы собрать и обработать визуальные данные, исследователи предполагают это, система нормального признания могла использоваться, чтобы улучшить чувствительность контекста мобильных устройств.Когда вместе с данными о GPS, например, система нормального признания могла решить, что пользователь сотового телефона находится в кинотеатре и что фильм начался, и телефон мог автоматически требования маршрута к записанному заранее исходящему сообщению.

Точно так же звуковое признание могло улучшить ситуативное осознание автономных роботов.«Например, думайте о самоходном автомобиле», говорит Эйтэр. «Есть прибытие машины скорой помощи, и автомобиль не видит его. Если это слышит его, это может сделать будущие предсказания для машины скорой помощи – какой путь это собирается взять – просто просто на основе звука».

Визуальный языкСистема машинного обучения исследователей – нейронная сеть, так называемая, потому что ее архитектура свободно напоминает архитектуру человеческого мозга. Нервная сеть состоит из обработки узлов, которые, как отдельные нейроны, могут выполнить только элементарные вычисления, но плотно связаны. Информация – говорит, пиксельные значения цифрового изображения – питается нижний слой узлов, который обрабатывает ее и кормит ею следующий слой, который обрабатывает ее и кормит ею следующий слой и так далее.

Учебный процесс все время изменяет параметры настройки отдельных узлов, пока продукция заключительного слоя достоверно не выступает, некоторая классификация данных – говорят, определяя объекты по изображению.Vondrick, Aytar и Torralba сначала обучили нервную сеть на двух больших, аннотируемых наборах изображений: один, набор данных ImageNet, содержит маркированные примеры изображений 1 000 различных объектов; другой, набор данных Мест, созданный группой Торрэлбы, содержит маркированные изображения 401 различного типа сцены, такие как детская площадка, спальня или конференц-зал.

Как только сеть была обучена, исследователи накормили ее видео от 26 терабайт видео данных загруженный с места обмена фотографиями Flickr. «Это – приблизительно 2 миллиона уникальных видео», говорит Вондрик. «Если бы Вы должны были наблюдать за всеми ними вплотную, Вам потребовались бы приблизительно два года». Тогда они обучили вторую нейронную сеть на аудио от тех же самых видео. Цель второй сети состояла в том, чтобы правильно предсказать объект и признаки сцены, произведенные первой сетью.

Результатом была сеть, которая могла интерпретировать естественные звуки с точки зрения категорий изображения. Например, это могло бы решить, что звук пения птиц имеет тенденцию быть связанным с лесными сценами и картинами деревьев, птиц, гнезд и кормушек.Сопоставительный анализЧтобы сравнить работу сети нормального признания с тем из ее предшественников, однако, исследователям был нужен способ перевести ее язык изображений на знакомый язык звуковых имен.

Таким образом, они обучили простую систему машинного обучения связывать продукцию сети нормального признания с рядом стандартных звуковых этикеток.Для этого исследователи действительно использовали базу данных аннотируемого аудио – один с 50 категориями звука и приблизительно 2 000 примеров. Те аннотации поставлялись людьми. Но намного легче маркировать 2 000 примеров, чем маркировать 2 миллиона.

И сеть исследователей MIT, обученная сначала на немаркированном видео, значительно выиграла у всех предыдущих сетей, обученных только на 2 000 маркированных примеров.