Когда он разработан для обработки звука на основе знакомых шаблонов, компьютерное распознавание звука становится более надежным.
Компьютеры, машины и даже смартфоны могут с очевидной легкостью обрабатывать звуки и аудиосигналы, но все они требуют значительной вычислительной мощности. Исследователи из Института исследований инфокоммуникаций A * STAR в Сингапуре предложили способ улучшения компьютерной обработки звука, применяя уроки, основанные на том, как мозг обрабатывает звуки1.
"Метод, предложенный в нашем исследовании, может не только способствовать лучшему пониманию механизмов, с помощью которых работают биологические акустические системы, но также повысить эффективность и результативность обработки звука," комментирует Хуацзинь Тан, инженер-электрик из исследовательской группы.
Когда вы слушаете кого-то, говорящего в тихой комнате, легко узнать говорящего и понять его слова. Хотя те же слова, произнесенные на громкой полосе, сложнее обработать, наш мозг все еще способен отличить голос говорящего от фонового шума. С другой стороны, у компьютеров все еще есть значительные проблемы с распознаванием сложных звуков на шумном фоне; даже смартфоны должны отправлять аудиосигналы на мощный централизованный сервер для обработки.
Требуется значительная вычислительная мощность на сервере, потому что компьютер непрерывно обрабатывает весь спектр человеческих звуковых частот. Мозг, однако, анализирует информацию более избирательно: он обрабатывает звуковые паттерны, локализованные во времени и по частоте (см. Изображение). Например, когда кто-то говорит низким голосом, мозг не анализирует высокие звуки. Поэтому, когда говорящий в баре с громкой связью перестает говорить, мозг перестает пытаться улавливать и обрабатывать звуки, из которых состоят его слова.
Тан и его команда эмулировали стратегию распознавания звука мозгом, определяя ключевые точки в звуковом спектре звука. Этими точками могут быть характерные частоты в голосе или повторяющиеся узоры, например, в сигнальном звонке. Они проанализировали сигнал более подробно только вокруг этих ключевых точек, ища знакомые звуковые частоты, а также временные шаблоны. Этот анализ позволил надежно выделить совпадающие сигналы при наличии шума. Чтобы улучшить обнаружение с течением времени, исследователи загрузили совпадающие частотные паттерны в неврологический алгоритм, который имитирует способ обучения мозга посредством повторения известных паттернов.
В компьютерных экспериментах алгоритм успешно обрабатывал известные сигналы цели даже при наличии шума. Расширяя этот подход, говорит Тан, "может привести к лучшему пониманию того, как мозг обрабатывает звук; и, помимо этого, он также может включать осязание, зрение и другие чувства."
Аффилированные с A * STAR исследователи, участвующие в этом исследовании, представляют Институт исследований инфокоммуникаций