Эта история о том, как мы в 4-й раз запускаем стартап.
Как возникла идея
Все началось с увиденного мной поста о новой платформе Максин с ИИ для модернизации видеосвязи от Nvidia, одной из особенностей этой платформы является синхронный перевод в виде титров, эта возможность реализована с помощью фреймворка от той же Nvidia под названием Джарвис Эта платформа предназначена для мультимодальных диалоговых служб искусственного интеллекта, обеспечивающих производительность графического процессора в реальном времени.Именно эта концепция синхронного перевода лежит в основе нашей платформы аудио- и видеокоммуникаций.
Поскольку это новая платформа, она должна иметь ряд особенностей по сравнению с другими аналогичными платформами, поэтому мы решили добавить в эти субтитры голос, формируя голосовой профиль пользователя и синтезируя речь с учетом тона и цвета голос говорящего.
Преобразование речи в текст или распознавание речи
Что лучше использовать Google, Яндекс или Mozilla? Google по сравнению с Яндексом имеет большую точность распознавания, мы запустили 5 тестовых голосовых сообщений: 3 на английском и 2 на русском через Google API и точность распознавания составила 100% (5/5), Яндекс 60% (3/5).).
Google поддерживает 125 языков, Яндекс — 3 языка.
Преимуществом Mozilla Deepspeech является точность распознавания, так как она составляет 92,5%, для сравнения человек распознает с точностью 94,2%, поэтому точность распознавания тестовых голосовых сообщений составила 100% (5/5), это тоже плюс.
что этот движок с открытым исходным кодом, в отличие от Google и Яндекса.
Минусом этого движка является количество распознаваемых языков – английского, русского и французского.
В итоге выбор пал на Google Speech to Text из-за соотношения количества языков и точности распознавания.
Перевод текста
Для решения этой проблемы первое, что приходит на ум, — использовать готовое API от Google или Яндекса.Первой проблемой, с которой мы столкнулись, была неточность перевода.
Например, перевод предложения «Визуально невидим для жителей Китая» с русского на английский.
Яндекс Переводчик: «Людей в Китае видимо-невидимо» и Google Переводчик: «В Китае очень много людей», в данном случае Google справился лучше.
На данный момент не существует панацеи для решения этой проблемы.
Основная задача таких переводчиков сегодня — научить алгоритм понимать смысл предложения/текста.
Если алгоритм поймет смысл, то перевод будет гораздо качественнее.
Перевод ряда предложений, связанных с бизнес-тематикой, через Google Translate и Яндекс Переводчик показал, что Google делает это более грамотно, поэтому воспользуемся Google Translate.
Анализ и получение голосового профиля
Чтобы получить голосовой профиль, нам нужно собрать некоторый набор данных.Поскольку задача состоит в том, чтобы синтезировать переведенный текст с речью говорящего, нам необходимо собрать набор данных от каждого пользователя.
Это осуществляется путем чтения специализированного текста, содержащего необходимый набор буквосочетаний, синтаксических конструкций и знаков препинания.
Продолжительность чтения текста составляет примерно 15 минут, поэтому мы получим достаточное количество информации о частотных и интонационных характеристиках каждого пользователя.
Чтение текста можно повторять для улучшения конечных результатов.
Синтез речи с учетом голосового профиля
Синтезировать речь человека на языке, на котором он никогда не говорил, — задача непростая.Для этого необходимо собрать первичный набор данных с помощью людей-билингвов, которые также будут читать специализированный текст, затем читать аналогичный текст на другом языке, а после этого дополнительные тексты для расширения набора данных.
На основе этого обучения и выявленных взаимосвязей впоследствии будет генерироваться речь пользователя на другом языке.
Также в этом процессе помогут существующие автоматизированные решения по синтезу речи на различных языках, поскольку собрать полностью независимый набор данных необходимого масштаба не является ни эффективным, ни реалистичным.
Заключение
Наша основная задача на данный момент — совмещение голосового профиля с синтезом речи, так как перенос голосового профиля на другой язык — непростая задача и нам необходимо обучить нейросеть так, чтобы она понимала, как это сделать, имея всего лишь два набора данных на разных языках.По мере развития проекта мы будем делать публикации, связанные с более конкретными задачами и способами их решения.
Теги: #Разработка стартапов #искусственный интеллект #стартап #Видеоконференции #Google API #синтез речи #Биллинговые системы #распознавание голоса
-
Блумфилд, Леонард
19 Oct, 24 -
Комбинаторика В Python
19 Oct, 24 -
Opera — Гарант Безопасного Веб-Серфинга
19 Oct, 24 -
Создана Компьютерная Модель Паники Толпы
19 Oct, 24