Глубокое обучение снова одержало победу. Вы можете надеть наушники, посмотреть на разговаривающего человека, и с этого момента система будет следить за ним, чтобы вы могли слышать его, когда он отойдет или захлебнется в шуме. Это максимальный эффект коктейльной вечеринки.
Команда из Центра компьютерных наук и инженерии имени Пола Г. Аллена при Университете Вашингтона сделала то, что лично я посчитал бы невероятно сложным. Прошлые работы доказали, что отследить говорящего можно, но только если уже имеется чистая высококачественная запись его голоса. Даже это является сложной задачей без искусственного интеллекта. Алгоритмы обработки сигнала не так-то просто реализовать, и пытаться извлечь признаки, необходимые для идентификации говорящего, очень сложно. Но нам это и не нужно - ИИ может сделать эту работу за нас.
Новый подход использует искусственный интеллект как для поиска важных особенностей заданного диктора, так и для их отслеживания. Массив микрофонов с формированием луча используется для улавливания звука в том направлении, куда смотрит пользователь. Поскольку пользователь смотрит на цель, между каждым ухом не должно быть временной задержки, и это может быть использовано для выбора целевого сигнала. Предварительно обученная нейронная сеть извлекает характеристики целевого диктора, которые затем подаются во вторую нейронную сеть, отслеживающую цель без предположения, что пользователь смотрит прямо на нее.

Все это звучит очень затратно с точки зрения вычислений, но все это работает в реальном времени на Orange Pi 5B - очень дешевом IoT-устройстве. На обработку 8-минутного фрагмента аудио система затрачивает 5,47 мс, что весьма примечательно и оставляет место, а точнее время, для дополнительных возможностей. Скорость была получена путем преобразования версии PyTorch в модель ONNX.
То, что она работает, видно из этого видео:
Это первый шаг на интересном пути. Помимо возможности общения в сложных ситуациях и способности помочь слабослышащим людям следить за разговором, его можно развивать и интегрировать в более крупные системы. Можно добавить сеть распознавания речи и создать стенограмму. При некоторой доработке и усовершенствовании он станет подарком для любого шпиона. Что может быть проще, чем просто посмотреть на человека, которого вы хотите подслушать, а затем отвернуться и принять совершенно незаинтересованный вид.
Если вас привлекает попытка реализовать любую из этих и других идей, хорошая новость заключается в том, что код с открытым исходным кодом доступен на GitHub.
Понравилась новость? Тогда не забудь оставить свой комментарий.
А так же, добавь наш сайт в закладки (нажми Ctrl+D), не теряй нас.
Комментарии