Эксперимент По Интеграции Видеорасширения В Систему Распознавания Речи



Вместо того, чтобы представить

Продолжаю вести серию отчетов о научно-исследовательской работе, которую я проводил на протяжении нескольких месяцев во время учебы в университете и в первые месяцы после защиты диплома.

За весь период работы многие элементы разработанной мной системы подверглись переоценке и серьезно изменился вектор работы в целом.

Тем интереснее было посмотреть на свой предыдущий опыт и опубликовать ранее неопубликованные материалы с новыми комментариями.

В этом отчете я публикую материалы почти 2-летней давности со свежими дополнениями, которые, надеюсь, еще не утратили своей актуальности.



Содержание:

1. Поиск и анализ оптимального цветового пространства для построения привлекающих внимание объектов на заданном классе изображений 2. Определение доминирующих классификационных признаков и разработка математической модели изображений выражений лица» 3. Синтез оптимального алгоритма распознавания выражения лица 4. Реализация и тестирование алгоритма распознавания выражений лица 5. Создание тестовой базы изображений губ пользователей в различных состояниях для повышения точности работы системы.

6. Поиск оптимальной системы распознавания речи на базе открытого исходного кода 7. Поиск оптимальной системы распознавания речи с закрытым исходным кодом, но с открытыми API для интеграции 8. Ээксперимент по интеграции видеорасширения в аудиосистему распознавания речи с протоколом испытаний

Цели:

На основе накопленного опыта предыдущих исследовательских работ провести пробную интеграцию видеорасширения в систему распознавания речи, составить протоколы испытаний и сделать выводы.



Задания:

Рассмотрим подробно, как можно интегрировать видеорасширение с программой распознавания речи, изучим сам принцип синхронизации аудио-видео, а также проведем пробную интеграцию разрабатываемого видеорасширения в систему распознавания аудио речи и оценим эффективность решение разрабатывается.



Введение

В ходе предыдущих исследовательских работ были сделаны выводы о целесообразности использования систем распознавания аудио речи на основе открытого и закрытого исходного кода для наших целей и задач.

Как мы определили: внедрение собственной системы распознавания речи – это очень сложная, трудоемкая и ресурсоемкая задача, которую сложно выполнить в рамках данной работы.

Поэтому мы решили интегрировать представленную технологию видеоидентификации в системы распознавания речи, имеющие для этого специальные возможности.

Поскольку системы распознавания речи с закрытым исходным кодом реализованы более качественно и точность распознавания речи в них выше за счет более емкого содержимого словаря, поэтому более перспективным следует считать интеграцию наших видеоразработок в их работу.

направлении по сравнению с системами распознавания речи на основе открытого исходного кода.

Однако необходимо иметь в виду тот факт, что системы распознавания речи с закрытым исходным кодом зачастую имеют сложную документацию для возможности интеграции сторонних решений в свою работу с серьезными ограничениями на использование системы на основании лицензионного соглашения.

либо эта территория платная, то есть необходимо приобрести специальную лицензию на использование речевых технологий, предоставляемую лицензиатом.

Для начала в качестве эксперимента было решено попробовать улучшить качество распознавания речи системы распознавания речи Google Speech Recognition API за счет работы нашего разрабатываемого видеорасширения.

Замечу, что на момент тестирования Google Speech API на базе браузера Chrome еще не имел функции распознавания непрерывной речи Google, которая на тот момент уже была встроена в технологию распознавания непрерывной речи Speech Input на базе ОС Android. В основе обработки видео лежит наше решение для анализа движения губ пользователя и алгоритмы записи фазы движения точек объекта интереса совместно с обработкой звука.

Ниже вы можете увидеть, что у нас получилось.



Эксперимент по интеграции видеорасширения в систему распознавания речи



Логика анализатора движения губ в повышении производительности систем распознавания речи

Использование дополнительной визуализации в задачах повышения точности распознавания речи в представленном видеорасширении состоит из следующих технологических особенностей: За счет параллельной обработки движений губ пользователя и анализа частоты голоса говорящего представленное видеорасширение более точно определяет речевой поток, напрямую связанный с речью реального пользователя.

Для этого разрабатываемое программное обеспечение постоянно анализирует звуковой сигнал и движение губ пользователя.

Однако запись сигнала для определения речи пользователя, выделения пауз в речи говорящего и других обстоятельств, необходимых для последующей отправки и обработки аудиосигнала в базе данных систем распознавания речи, происходит только после ряда причин.

Давайте рассмотрим их подробнее: • Решение записывает и впоследствии обрабатывает те звуковые частоты, которые попадают в системный микрофон.

Однако если пользователь не совершает никаких активных движений губ в сочетании с этими звуковыми колебаниями, то система не начинает запись речи для последующих задач распознавания.

На рисунке 1 показан процесс анализа движения губ пользователя и звуковой волны, записанной в тот период времени, когда не наблюдается активных звуковых колебаний и пользователь не активно двигает губами.

В этот момент система не записывает тот аудиофрагмент, который необходимо начать запись для последующих задач распознавания речи;

Эксперимент по интеграции видеорасширения в систему распознавания речи



Эксперимент по интеграции видеорасширения в систему распознавания речи

Рисунок 1. Пример работы системы, когда в динамике не наблюдается активного движения губ пользователя и активного колебания речевой волны – соответственно, речь не записывается для последующих задач распознавания.

• Также расширение не записывает и в последующем не обрабатывает частоту звука при активном движении губ пользователя, при этом микрофон пользователя выключен или не чувствителен к шуму, то есть активных звуковых вибраций нет. В этом случае система начинает анализировать данные с течением времени.

Если движение губ пользователя не сопровождается дальнейшими звуковыми колебаниями, то, соответственно, изобретение не должно записывать этот речевой поток для последующих задач распознавания.

На рисунке 2 представлен такой возможный пример, когда пользователь менял движение губ, но этот процесс не сопровождался какими-либо активными звуковыми вибрациями с течением времени;

Эксперимент по интеграции видеорасширения в систему распознавания речи



Эксперимент по интеграции видеорасширения в систему распознавания речи

Рисунок 2. Пример работы системы, когда фиксируется активное движение губ (в представленном случае пользователь улыбается), но во временной динамике за этим не следует активное колебание звуковой частоты – соответственно, речь не записано для последующего признания.

• Также представленное решение не записывает и в последующем не обрабатывает звуковой сигнал для задач распознавания, если есть звуковые колебания, но нет активного движения губ конкретного пользователя, что можно проследить во временной динамике.

На рисунке 3 показан один из таких возможных примеров: губы пользователя сомкнуты и их положение в динамике активно не меняется, но при этом присутствуют определенные звуковые колебания – поэтому в этом случае устройство не записывает звуковую дорожку в течение последующие задачи распознавания.



Эксперимент по интеграции видеорасширения в систему распознавания речи



Эксперимент по интеграции видеорасширения в систему распознавания речи

Рисунок 3. Пример работы системы, когда активное движение губ пользователя не фиксируется во временной динамике, при этом наблюдаются активные колебания частоты звука (в представленном случае речь идет о включенной музыке) вкл) - соответственно, речь не записывается для последующего распознавания.

• Если микрофон пользователя включен и правильно настроен, а также камера устройства включена и правильно настроена, устройство включено.

Запись и последующая обработка звукового сигнала начинается только после того, как активные звуковые колебания начнут совпадать с активным движением губ пользователя.

Необходимо иметь в виду следующее: а) Пользователь, как правило, начинает произносить активные движения губ несколько раньше, чем возникают активные звуковые колебания.

В этом случае представленное решение отслеживает движения губ пользователя и активные звуковые вибрации с течением времени.

Если дальнейшее активное движение губ пользователя начинает совпадать с активным колебанием звуковой частоты, то в этом случае в месте начала активной фазы движения губ и звуковой частоты совпадают настолько, насколько Возможно, представленное решение начинает записывать речь пользователя для ее дальнейшей обработки и распознавания в базе данных системы распознавания речи.

Пример начала активного движения губ пользователя и последующей активной звуковой вибрации представлен на рисунке 4.

Эксперимент по интеграции видеорасширения в систему распознавания речи



Эксперимент по интеграции видеорасширения в систему распознавания речи

Рисунок 4. Пример, где записано начало звуковой дорожки, которую необходимо записать, чтобы затем отправить для последующего анализа в базу данных системы распознавания речи.

Как видите, система фиксировала активное движение губ пользователя, которое по временной динамике совпадало с активными звуковыми колебаниями.

В тот момент, когда звуковые колебания и движения губ пользователя становились наиболее активными, определялось для записи начало речи.

б) Однако бывают случаи, когда в результате коартикуляции - наложения артикуляционной характеристики последующего звука на весь предыдущий звук движение губ пользователя по разным причинам не успевает полностью сомкнуться в тот момент, когда оратор сделал паузу в своей предыдущей части речи.

Это связано с тем, что в открытом состоянии губам пользователя приходится тратить меньше времени и усилий на создание движения в сочетании с аудиоречевым потоком пользователя.

В этом случае начало записи речи обязательно будет в тот момент, когда наиболее активное движение губ пользователя наиболее точно совпадает с активным колебанием звуковой частоты при анализе аудио-видеопотока во временной динамике.

Этот принцип актуален и для момента, когда говорящий прекращает говорить, но только в этом случае речь идет о том, что активная фаза движения губ говорящего и колебания его частоты начинают прекращаться.

В точке максимального одновременного прекращения активной фазы этих показателей речи пользователя представленное решение прекращает запись речи пользователя и отправляет записанный фрагмент в базу данных систем распознавания речи для соответствующего распознавания.

Пример работы системы в данной ситуации представлен на рисунке 5.

Эксперимент по интеграции видеорасширения в систему распознавания речи



Эксперимент по интеграции видеорасширения в систему распознавания речи

На рисунке 5 показан пример, когда губы пользователя находились в открытом состоянии, но активная звуковая вибрация началась немного позже по времени.

В этом случае система начинает записывать речь для последующих задач распознавания в тот момент, когда наблюдается наиболее активный период колебания движения губ и частоты голоса пользователя.

Как видно из рисунка, активная фаза звуковой волны, которую записывают для последующего распознавания, определялась представленным изобретением несколько раньше, чем начались активные звуковые колебания речи.

Момент фиксации определялся именно путем параллельного анализа движения губ и частоты голоса пользователя во временной динамике на основе среднего значения наиболее релевантного значения.

Окончание записи речи для задач постобработки определяется, когда пользователь перестает активно двигать губами и колебать свою звуковую частоту.

Этот момент рассматривается для анализа во временном пространстве.

Для удобства система сама разбивает речь пользователя на паузы и микропаузы, руководствуясь принципом выбора наиболее корректного речевого фрагмента, который необходимо выделить из потока, не записываемого для дальнейших задач распознавания, а также принцип быстрой и качественной обработки данных во временном пространстве.

Таким образом, система сама адаптируется к стилю речи конкретного пользователя.

Если пользователь произносит свою речь быстро, то представленная система начинает записывать паузы в речи для выделения отдельных речевых фрагментов, это могут быть как отдельные выражения, так и предложения.

Если пользователь произносит свою речь четко и ясно, то в этом случае система начинает фиксировать в речи говорящего более короткие речевые фрагменты, это могут быть выражения, предложения или отдельные слова и так далее.

При желании можно регулировать интенсивность анализа аудиовизуального потока во временном пространстве и способность системы автоматически обнаруживать паузы в речи конкретного пользователя.

Как и в случае записи начала речи пользователя для последующих задач распознавания, необходимо руководствоваться тем, что движение губ пользователя, как правило, заканчивается несколько позже вибрации голоса.

Поэтому, чтобы прекращение речи определялось наиболее корректно, система фиксирует прекращение речи пользователя по среднему значению момента, когда прекращение активных звуковых колебаний максимально совпадает с активным прекращением движений губ пользователя.

На рисунке 6 показан момент, когда пользователь полностью сомкнул губы и система прекратила запись речи для последующих задач распознавания.



Эксперимент по интеграции видеорасширения в систему распознавания речи



Эксперимент по интеграции видеорасширения в систему распознавания речи

Рисунок 6. Пример возможного прекращения записи речи пользователя для дальнейших задач распознавания.

Также необходимо иметь в виду, что разрабатываемая система основной упор в своей работе на обработку аудиопотока для последующих задач распознавания делает именно на основе параллельного анализа активного движения губ пользователя и активных звуковых вибраций пользователя.

в масштабе времени.

При этом разработанная система фиксирует наиболее актуальный, наиболее точный момент, когда сочетание или прекращение сочетания активного движения губ пользователя происходит вместе с вибрацией звуковой волны.

Но в целом разрабатываемая система основной упор в своей работе делает на определение и анализ движения губ пользователя.

Это связано с тем, что система видеоидентификации, как дополнение к средствам аудиораспознавания речи реального пользователя, является более надежной системой (за счет дополнительного источника видеоинформации) по сравнению с другими системами, фокусирующими исключительно на обработке аудиоданных речи пользователя.

Итак, если разрабатываемая система начинает определять активную звуковую вибрацию речи, при этом этот процесс не сопровождается какими-либо активными движениями губ пользователя во временном пространстве, то это означает, что речь идет о речевых частотах, не имеющих никакого отношения к с пользовательской речью – следовательно, ее не нужно обрабатывать.

То же самое касается и момента прекращения речи – если пользователь остановил активную фазу движения губ и зафиксировал их на определенный период времени в статическом положении, то, следовательно, разработанная система, за счет решения визуализации , прекращает запись речи, несмотря на то, что могут наблюдаться активные звуковые колебания.



Тестовое видео



Протоколы испытаний



плюсы

Таким образом, за счет параллельной обработки движений губ пользователя совместно с анализом частоты его голоса во временной динамике представленное видеорасширение повышает точность систем распознавания речи за счет предварительной визуальной обработки аудиоданных в реальном времени: • Разработанная система не обрабатывает звуковые частоты, не имеющие никакого отношения к речи пользователя – следовательно, эти аудиоданные не попадают в базу данных систем распознавания речи для последующих задач распознавания; • Разработанная система за счет параллельной обработки аудио-видеопотока речи пользователя способна автоматически более точно определять начало и конец речи конкретного пользователя – после того, как система записала этот аудиофайл, она отправляет его на последующие задачи распознавания в базу данных систем распознавания речи; • Разработанная система адаптируется к стилю речи пользователя.

Для более надежной записи пауз и микропауз разработанная система определяет интервалы, в которых может быть запущена или остановлена запись речи для последующих задач распознавания, на основе представленной речевой информации говорящего во временной динамике.

При желании этот процесс анализа можно настроить под конкретного пользователя; • Разрабатываемая система непрерывно записывает речь.

То есть устройство, с которого производится аудиовизуальная запись речи, не прекращает свою работу в течение всего процесса распознавания речи и пользователь представленного изобретения имеет возможность распознавать свою речь непрерывно, не отвлекаясь на само устройство; • Полученные данные после прохождения соответствующего процесса распознавания автоматически отображаются на устройстве пользователя; • Основной акцент в своей работе представленной системой отдается движениям губ пользователя во временной динамике и сочетанию активной фазы движения губ пользователя с активной фазой сочетания частоты его голоса.

.

Это связано с тем, что движение губ дает более информативное представление о реальном пользователе данной системы и его речи, чем использование исключительно аудиоинформации.

• За счет предварительной обработки аудиопотока на основе определения движения губ реального пользователя совместно с анализом частоты его голоса снижается общая скорость обработки данных.

Поскольку, с одной стороны, в базу данных систем распознавания речи не входят посторонние аудиопотоки, не имеющие никакого отношения к речи говорящего; с другой стороны, в базе данных систем распознавания речи после предварительной аудиовизуальной обработки частота речи пользователя поступает отдельными небольшими структурированными фрагментами, а не как общий речевой поток.

• Действительно, за счет использования дополнительного источника информации качество распознавания речи повышается.



Минусы

• Неестественность.

Чтобы программа фиксировала движения губ, объект съемки всегда должен находиться в кадре, что неестественно для большинства потенциальных пользователей и делает программу неудобной.

Это противоречит главному преимуществу систем распознавания речи = эффекту свободы, отвязанности от устройства и его клавиатуры; • Чувствительность к качеству изображения.

Для работы системы обычно требуется фон без артефактов.

Любой внешний пестрый вид объекта съемки или темно-светлое, контрастное или другое помещение с большим количеством шума на заднем плане может негативно повлиять на качество работы системы; • Чувствительность камеры.

Для работы системы обычно требуется широкоформатная камера, которая должна считывать информацию с видео с максимально возможным качеством; • Чувствительность устройства.

Для корректной работы системы требуется устройство, способное рассчитывать данные в реальном времени, вычисляя информацию в виде видео с частотой 25 кадров в секунду; • Расстояние.

Для корректной работы программы необходимо сохранять субординацию между камерой и объектом съемки.

Программа должна иметь возможность видеть все лицо человека анфас перед камерой.

При этом расстояние должно быть достаточным, чтобы обеспечить максимально эффективное считывание информации с губ; • Поведенческие характеристики.

Человек в кадре должен вести себя спокойно, при общении не использовать лишние жесты и т.п.

, которые могут помешать работе системы.

• Наличие помех на лице человека.

Информация с изображений лица человека должна быть легко читаемой – не должно быть бороды, посторонних предметов и т.п.

, которые будут закрывать интересующий объект работы системы.

• При нарушении представленных условий качество распознавания речи может не только не улучшиться, но даже ухудшиться.



Заключение

Таким образом, рассмотрев наиболее распространенные системы распознавания речи с закрытым исходным кодом, мы решили использовать речевые инструменты Google, которые являются более встроенными, точными и быстрыми за счет большей вычислительной мощности и не имеют ограничений на количество речевых запросов в день.

Учитывая данные обстоятельства, в представленной исследовательской работе нам удалось провести пробную интеграцию разработанного видеорасширения в существующую систему распознавания речи на базе Google Speech Recognition API. Нам удалось экспериментально доказать, что видео (а именно, анализатор движений губ пользователя во время распознавания речи) может быть дополнительным источником информации.

Однако представленное решение далеко от пользовательской реализации, поскольку на текущий момент исследования оно не естественно в работе и противоречит главному преимуществу речевых технологий: «эффекту свободы от устройства».

Далее мы планируем, исходя из накопленного опыта, подкорректировать архитектуру системы и сделать так, чтобы видео было средством уточнения для повышения точности систем распознавания речи и средством быстрой выверки речи говорящего из общего потока.

, а также отличное решение для аудио-видео идентификации и авторизации пользователя без использования клавиатуры.

Продолжение следует Теги: #api #google api распознавания речи #распознавание видео #анализ движения в интересующем объекте #запись видео #синхронизация аудио-видеопотоков #распознавание изображений #распознавание речи #обработка изображений #математика

Вместе с данным постом часто просматривают:

Автор Статьи


Зарегистрирован: 2019-12-10 15:07:06
Баллов опыта: 0
Всего постов на сайте: 0
Всего комментарий на сайте: 0
Dima Manisha

Dima Manisha

Эксперт Wmlog. Профессиональный веб-мастер, SEO-специалист, дизайнер, маркетолог и интернет-предприниматель.