Одноканальный Разделитель Голоса: На Пути К Продукту (Превью)

Анализ голоса, звука, звуковых волн: акустика — один из наиболее интересных и сложных каналов сбора данных в мультимодальной логике обнаружения и распознавания эмоций человека.

Помимо прочего, обращение к этому источнику информации ставит перед исследователями различные проблемы, решение которых открывает новые научные и технологические перспективы.

Мы в Лаборатория Нейродата , занимаясь темой эмоций, смогли одновременно справиться с фундаментальной проблемой: одноканальным разделением голоса, добившись точности, превышающей 91-93% для английского, русского и некоторых других ключевых языков (эксперименты над ними продолжаются, приоритет отдается первым двум).



Одноканальный разделитель голоса: на пути к продукту (превью)

Конечно, сейчас мы находимся на стадии подготовки полноценной статьи, а также сборки и упаковки будущего коммерческого продукта, поэтому здесь мы лишь кратко изложим нашу деятельность в этой области с приглашением обсудить результаты после их получения.

опубликованы и представлены на конференциях в первой половине 2018 года.

Итак, что мы имеем на сегодняшний день? Рабочий прототип системы, предназначенный для решения следующих задач при следующих условиях:

  • На входе имеется одноканальная запись разговора двух (возможно, большего количества) людей в формате WAV;
  • Из записи удаляются все фрагменты, где одновременно слышны два (или более) голоса; удаление связано с необходимостью дальнейшей обработки речи конкретного человека, например, для определения особенностей голоса и эмоционального состояния говорящего;
  • Остальные фрагменты записи разделены на две группы так, что каждая из них содержит речь только одного конкретного человека;
  • Выход состоит из двух аудиоканалов: первый содержит речь одного человека, второй – другого человека; тайминг сохраняется.

Технологической основой решения являются три подсистемы:
  1. (Речевой) маркер фраз;
  2. Детектор одновременной речи;
  3. Голосовой идентификатор.



Выделение фраз

Под фразой в данном контексте понимается непрерывный отрезок речи между двумя микропаузами.

Понятие неточное, условное, результат использования фразового маркера сильно зависит от особенностей произношения (короткая или «сглаженная», слитная речь), от параметров «микропауз» и т. д. Типовые настройки фразового селектора приводят к тот факт, что фраза, как правило, представляет собой последовательность фонем, слогов, а иногда и слов длительностью от 0,2 до нескольких секунд. Точные настройки детектора фраз будут указаны в его техническом описании.

Смысл использования выделения фраз заключается в следующем.

Если убрать из речи моменты одновременного звучания двух голосов, то оставшаяся запись будет состоять из чередующихся (без перекрытия) участков одноголосой речи, причем в большинстве случаев смена говорящего будет происходить на границах фраз.

Это предположение не совсем верно; на практике имеет место безпаузный переход речи от одного говорящего к другому.

Однако эти случаи действительно редки, и в предлагаемом прототипе основное негативное влияние таких безпаузных переходов сводится к неправильному формированию опорных основных фрагментов голосов двух людей и частично купируется принципом формирования таких опорных фрагментов.

Таким образом, по модулю отсутствия фраз с переходом голосов дальнейшая работа (после выделения фраз и выбрасывания моментов одновременной речи) сводится к задаче голосового распознавания фраз.



Детектор одновременной речи

Помимо исходной функции (нам нужны только фрагменты одноголосной речи), детектор позволяет оставить только те фразы (или их части), где звучит один голос (по модулю фраз с голосовым переходом, как говорилось выше), тем самым сведение проблемы к проблеме распознавания голосов.

Работа детектора одновременной речи основана на визуальном наблюдении: лог-спектрограмма или ее производная по времени в областях одновременной речи содержит характерные неровности, которые отсутствуют в одноголосных областях и легко различимы глазом.

Примеры будут приведены в описании детектора.

В связи с этим наблюдением решение основано на 2D-сверточных сетях, которые специально предназначены для выделения графических особенностей.

Однако текущий прототип содержит дополнительные одномерные решения на основе сверточных нейронных сетей для улучшения качества обнаружения.

Идея, положенная в основу детектора, оказалась весьма удачной в том плане, что определяются не только моменты одновременной речи, но, как правило, и другие вредные звуковые события: аплодисменты, смех (особенно смех в зале) и т. д. Результатом работы детектора является число от 0 до 1. Для классификации предполагается, что если это число меньше 0,5, то в рассматриваемом фрагменте записи нет одновременного звучания двух голосов, в противном случае имеет место «наложение» голосов.

Основным ограничением в использовании детектора сейчас являются записи с заметной реверберацией («гулкие» помещения, заметное эхо и т. д.), на которых в некотором смысле воспроизводится эффект одновременной речи.



Идентификатор голоса

Это одна из основных подсистем прототипа, которая решает следующую задачу.

Даны два одноголосных фрагмента речи произвольной длины, нужно определить, принадлежат ли они голосу одного человека, или это голоса разных людей.

Он основан на решении нейронной сети, обученном на основе 100 мужских и 100 женских голосов (выборки постоянно расширяются и диверсифицируются).

Результатом является число от 0 до 1. Если оно меньше 0,5, то фрагменты считаются принадлежащими голосу одного человека, в противном случае – разным людям.

Качество решения напрямую зависит от длины речевых фрагментов: чем они короче, тем ниже качество.

На практике ошибка на фрагментах длительностью менее 0,3-0,4 секунды становится существенной.

Подробнее об этом мы еще раз расскажем в техническом описании идентификатора и в статье.

В настоящее время мы продолжаем дорабатывать решение для максимально коротких фрагментов речи, и результаты, безусловно, обнадеживают. Схема представлена графически на рисунке:

Одноканальный разделитель голоса: на пути к продукту (превью)

Куратор проекта: Михаил Гриненко, доктор физико-математических наук, научный консультант Лаборатория Нейродата по глубокому обучению и анализу данных.

Теги: #распознавание голоса #речь #акустика #Анализ и проектирование систем #Алгоритмы #Машинное обучение

Вместе с данным постом часто просматривают:

Автор Статьи


Зарегистрирован: 2019-12-10 15:07:06
Баллов опыта: 0
Всего постов на сайте: 0
Всего комментарий на сайте: 0
Dima Manisha

Dima Manisha

Эксперт Wmlog. Профессиональный веб-мастер, SEO-специалист, дизайнер, маркетолог и интернет-предприниматель.