Шумно И Напряженно? Или Шумно И Весело? Ваш Телефон Слышит Разницу



Новейшие чипы для смартфонов Qualcomm смогут распознавать звуковые ландшафты благодаря британскому стартапу Audio Analytics. Audio Analytics может охарактеризовать окружающий звуковой ландшафт, а также идентифицировать отдельные звуки, например звук дымовой сигнализации (на фото ниже).



Шумно и напряженно? Или шумно и весело? Ваш телефон слышит разницу

Аудио аналитика Смартфоны уже много лет могут распознавать слова пробуждения, такие как «Привет, Siri» и «Привет, Google», не расходуя при этом слишком много заряда батареи.

Эти системы пробуждения работают на специальных процессорах с низким энергопотреблением, встроенных в более крупный чипсет телефона.

Они полагаются на алгоритмы, используемые для обучения нейронной сети распознаванию широкого спектра голосов, акцентов и речевых шаблонов.

Но они признают только свои слова пробуждения.

Более общие алгоритмы распознавания любой речи требуют использования более мощных телефонных процессоров.

Сегодня Qualcomm объявила, что Snapdragon 8885G, ее новейший набор микросхем для мобильных устройств, будет включать в себя дополнительную часть программного обеспечения в той части полупроводникового пространства, в которой находится механизм распознавания слов пробуждения.

Созданный стартап Audio Analytic (Кембридж, Великобритания) компактная программная платформа для распознавания звука ai3-нано будет использовать маломощный процессор Snapdragon для прослушивания звуков помимо речи.

В зависимости от приложений, предоставляемых производителями смартфонов, телефоны смогут реагировать на такие звуки, как дверной звонок, кипение воды, плач ребенка, набор текста на клавиатуре - библиотека из около 50 звуков, которая, как ожидается, увеличится до 150-200 в ближайшее будущее.

Audio Analytic называет AI Acoustic Scene Recognition первым приложением, доступным для этой системы распознавания звука.

Вместо прослушивания только одного звука технология распознавания отслеживает характеристики всех окружающих звуков, чтобы определить окружающую среду как хаотичную, оживленную, скучную или спокойную.

Генеральный директор и основатель Audio Analytic Крис Митчелл объясняет:

«У окружающей среды есть два аспекта: событийность, которая означает, сколько различных звуков существует и насколько они приятны для нас.

Допустим, я пошел на пробежку в парке и услышал много звуков птиц.

Мне оно, скорее всего, понравится, поэтому окружение будет относиться к категории «живое».

Или может быть среда, в которой много неприятных звуков.

Его можно назвать «хаотичным».

Команда Митчелла выбрала эти четыре категории после изучения исследований восприятия звука.

Затем они использовали специально созданный набор данных из 30 миллионов аудиозаписей для обучения нейронной сети.

То, что мобильное устройство будет делать с этим новым пониманием окружающих звуков, будет зависеть от производителей, использующих платформу Qualcomm. У Митчелла есть несколько идей:

«Например, шумовую среду в поезде метро можно охарактеризовать как «скучную», поэтому вам нужно усилить активное шумоподавление в наушниках, чтобы избавиться от низкочастотного шума.

Но когда вы выходите из метро, вам нужно больше прозрачности, чтобы услышать, например, сигнал велосипедиста или автомобиля, поэтому шумоподавление необходимо уменьшить.

На своем смартфоне вы также можете настроить уведомления в зависимости от типа окружающей среды, режима без звука/вибрации/будильника и включенной мелодии звонка».

Я впервые встретил Митчелла два года назад, когда компания демонстрировала прототипы того, как ее технология аудиоаналитики будет работать в умных колонках.

С тех пор, по словам Митчелла, продукты, использующие технологии компании, доступны примерно в 150 странах.

Большинство из них представляют собой системы безопасности, которые обнаруживают звук разбитого стекла, дымовую сигнализацию или детский крик.

Подход Audio Analytic, как объяснил мне Митчелл, использует глубокое обучение для разбиения звуков на стандартные компоненты.

Для обозначения этих компонентов он использует слово «идеофоны».

Этот термин также относится к представлению звука в речи, например, «шарлатанство».

Когда звуки закодированы как идеофоны, каждый звук можно распознать так же, как системы цифровых помощников распознают слова пробуждения.

Такой подход позволяет движку ai3-nano занимать всего 40 КБ и полностью работать на телефоне без подключения к облачному процессору.

Митчелл ожидает, что как только эта технология будет реализована в смартфонах, ее приложения выйдут за рамки безопасности и защиты окружающей среды.

Он ожидает, что первые примеры будут включать в себя теги мультимедиа, игры и доступность.

По его словам, медиатегирование предполагает возможность системы искать видео, записанное с телефона, по аудио.

Так, например, родитель легко сможет найти ролик, в котором смеется ребенок.

Или дети могут использовать эту технологию в играх, которые учат, какие звуки издают животные.

Что касается доступности, Митчелл считает эту технологию благом для людей с нарушениями слуха, которые уже полагаются на сотовые телефоны как на вспомогательные устройства.

«Это поможет им обнаружить и идентифицировать стук в дверь, лай собаки или детектор дыма», — говорит он.

Как только они развернут больше возможностей распознавания звука, они планируют работать над определением контекста, выходящего за рамки конкретных событий или сцен.

«Мы начали проводить ранние исследования в этой области.

Итак, наша система может сказать: «Похоже, вы готовите завтрак» или «Похоже, вы собираетесь выйти из дома».

Это позволит приложениям использовать эту информацию при включении системы безопасности, настройке освещения или температуры.






В качестве рекламы

Прямо сейчас в ОТУС начал Рождественская распродажа .

Скидка распространяется абсолютно на все курсы.

Сделайте подарок себе или своим близким - зайти на сайт и пройди курс со скидкой.

И в качестве бонуса мы предлагаем вам зарегистрироваться на абсолютно бесплатные демо-уроки :

  • Вы можете просмотреть календарь предстоящих демо-уроков и вебинаров Здесь .



Шумно и напряженно? Или шумно и весело? Ваш телефон слышит разницу

ПОЛУЧИТЕ СВОЮ СКИДКУ Теги: #Машинное обучение #Популярная наука #Звук #qualcomm #Гаджеты #стартап #распознавание речи
Вместе с данным постом часто просматривают:

Автор Статьи


Зарегистрирован: 2019-12-10 15:07:06
Баллов опыта: 0
Всего постов на сайте: 0
Всего комментарий на сайте: 0
Dima Manisha

Dima Manisha

Эксперт Wmlog. Профессиональный веб-мастер, SEO-специалист, дизайнер, маркетолог и интернет-предприниматель.