Набор Данных Sova С Открытым Исходным Кодом: Аудио Для Распознавания И Синтеза Речи

Всем привет! Мы — команда компании «Наносемантика» и недавно запустили проект SOVA, где собираем набор данных для использования в обучении нейронных сетей и создании виртуальных помощников на основе искусственного интеллекта.

Мы подготовили большой набор данных для обучения механизмов распознавания речи и хотим поделиться им, чтобы компании могли использовать его для решения различных бизнес-задач.

Данные — это новая нефть, и одной из наиболее важных причин прогресса в системах распознавания на основе машинного обучения является доступность помеченных наборов данных.

Если вас интересуют исследования и разработки в области речевой аналитики, переходите под кат. В 2019 году «Наносемантика» получила грант Фонда РВК, в рамках которого необходимо к концу 2022 года подготовить один из крупнейших открытых наборов данных в России.

Для нас это отличная возможность сделать действительно полезный набор данных.

Он будет включать в себя 30 000 часов аудиозаписей с текстами, 3 языка (русский, английский и китайский) и огромное количество динамиков, аудио с которых будет использоваться в датасете.

Набор данных будет постепенно становиться общедоступным.

(бесплатно) , чтобы разработчики со всего мира могли использовать его для обучения нейронных сетей, создания собственных виртуальных помощников с искусственным интеллектом и обучения систем распознавания речи.

Прежде чем мы начали работать с данными и создавать набор данных, у нас возникли вполне очевидные вопросы: какие данные можно использовать и где такие данные найти.

Мы приняли для себя четыре важных решения:

  1. Набор данных должен быть актуальным и универсальным.

    , то есть содержат данные, необходимые для решения широкого круга современных задач.

    На данный момент англоязычная часть датасета представлена аудиокнигами, русскоязычная – чтением текста и живой речью.

    К концу года мы планируем добавить значительно больше живой речи.

  2. Набор данных должен содержать исходные данные.

    Очень часто можно встретить датасеты, содержащие только аннотации и ссылки на исходные аудио, опубликованные где-то в сети, т.е.

    само аудио не публикуется.

    Такой подход, несомненно, прост и снимает с автора набора данных ответственность за использование данных, перекладывая ее на пользователя набора данных.

    Но ссылки на исходные материалы устаревают, опубликованные материалы удаляются авторами, а датасет приходит в негодность.

  3. Набор данных должен содержать юридические данные и распространяться по разрешительной лицензии.

  4. Данные в наборе данных должны быть высокого качества.

    Мы стараемся избегать добавления искусственного шума и дополнений и тщательно следим за тем, чтобы текст и звук как можно ближе соответствовали друг другу.

Эти четыре условия сложно соблюсти, но без них вся работа бессмысленна, ведь качество данных — основа качественного продукта.

Как ни странно, одним из самых сложных для реализации пунктов оказался третий: не так-то просто получить доступ к большим данным, не нарушив ни одного закона и не нарушив чьи-то права интеллектуальной собственности.

Поэтому, прежде чем перейти к описанию данных, нам придется немного углубиться в юридические аспекты, тем более, что именно с этого мы начали свою работу.



Правовые вопросы

Что такое РИД РИД (результат интеллектуальной деятельности) — юридический термин, обозначающий результат использования творческих и духовно-интеллектуальных процессов человеческого мышления.

Например, фильм, рисунок, книга, аудиокнига, игра, программный код, стул и т. д. (в) Википедия Кто вообще может владеть правами? Права на РИД могут принадлежать одному лицу или нескольким лицам: автору, издателю, докладчику, переводчику, а также РИД может находиться в свободном доступе.

«Общественное достояние»: это RIA, для которого истек срок защиты авторских прав.

Например, в Российской Федерации произведения обычно переходят в общественное достояние через 70 лет после смерти автора.

Но есть исключения, когда права переходят по наследству родственникам или компании.

Понимание общественного достояния в разных странах разное, поэтому с зарубежными РИД нужно быть осторожными.

Подробнее о различиях в разных странах можно прочитать здесь , но лучше проконсультироваться с юристом.

Кроме того, существуют РИД, созданные на основе общественного достояния.

Например, аудиокниги Пушкина.

Само произведение находится в открытом доступе, но аудио с голосом диктора уже является РИД издателя, и для использования такой аудиокниги необходимо получить разрешение от издателя.

РИД, размещенные в сети Интернет (сайты, социальные сети, результаты поисковых систем и т.п.

), также защищены авторским правом, поэтому необходимо обращать внимание на лицензию, под которой они публикуются.

Как правило, название лицензии указывается рядом с РИД, либо создается отдельная страница с текстом лицензии на ресурсе, где расположен РИД.

Например, «Правила цитирования/использования материалов сайта», «Пользовательское соглашение» и т.п.

, содержащие необходимую информацию.

В результате какие RID можно использовать для создания набора данных? Чтобы создать набор данных, вы можете использовать RID:

  • законно полученный
  • не нарушая права первоначальных владельцев
  • не имеющий ограничений на модификацию
  • не имеющий ограничений на использование и последующее распространение
Этим требованиям соответствуют следующие RID:
  • полученные на основании лицензионного договора или письма-согласия
  • находятся в общественном достоянии и не обременены смежными правами
  • с лицензией С указанием авторства Creative Commons – CC BY (но при обязательном соблюдении условий, указанных в лицензии)
  • с лицензией Creative Commons Zero — CC0
  • с лицензией WTFPL - Делай, что хочешь, согласно публичной лицензии
В целях хорошего тона и подтверждения чистоты мы решили указать все источники и авторов данных, используемых в наборе данных.

Что нужно сделать, чтобы получить права на использование РИА (коммерческий источник)? Все коммерческие организации и частные лица обязаны заключить лицензионный договор, в котором должна быть указана формальная стоимость лицензии в соответствии с Гражданским кодексом Российской Федерации.

Согласно пункту 5.1 статьи 1235 ГК РФ не допускается безвозмездное предоставление права использования результата интеллектуальной деятельности или средства индивидуализации в отношениях между коммерческими организациями во всем мире и для весь срок действия исключительного права на условиях исключительной лицензии, если иное не установлено настоящим Кодексом.

Что нужно сделать, чтобы получить права на использование РИА (некоммерческого источника)? Поскольку Гражданский кодекс РФ предъявляет требования только к коммерческим организациям и исключительной лицензии, при работе с некоммерческими источниками будет достаточно получить официальное письмо о согласии на использование РИД.

При необходимости лицензионное соглашение может быть подписано бесплатно.

Разобравшись с юридическими тонкостями, вернемся к сути и расскажем, какие источники данных мы в итоге решили использовать и как мы это сделали.



Типы данных

Аудиокниги Наш подход к этому типу данных мы начали с изучения рынка аудиокниг в РФ и знакомства с издательствами.

Как оказалось, это достаточно небольшой и закрытый рынок.

С большим трудом нам удалось связаться с 20 издательствами различного уровня.

Половина из нас отказалась сразу по первому звонку, четверть — через какое-то время.

Основные причины неудач:

  • отсутствие соответствующих прав или их ограниченный срок действия
  • отсутствие интереса к бесплатному обмену данными
  • боюсь, что у нас отберут работу дикторов
  • банальное отсутствие желания тратить свое время
Однако нам удалось найти несколько издателей, которые согласились поделиться данными.

Мы подписали лицензионное соглашение о передаче данных с каждым издателем.

Мы не будем предоставлять весь текст соглашения, но, например, согласно одному из условий соглашения, мы обязуемся использовать в наборе данных только обезличенные фрагменты книг и не публиковать все произведение в исходном виде.

Таким образом, мы снижаем риски и опасения авторов данных.

Конечно, всегда есть относительно простой способ получить данные от издателей: покупка прав на использование RID, но это окажется слишком дорого, учитывая, что на подготовку и разметку данных все равно придется тратиться.

Особую благодарность хотелось бы выразить первопроходцам — «Литру» и издательству ИДДК за интерес и помощь.

Запись текста Запись подготовленного текста хороша с точки зрения качества данных и понятна с юридической стороны.

В этом случае мы сами нанимаем спикеров, готовим для них тексты и оплачиваем их работу.

Очевидные преимущества этого метода:

  • Можно подготовить разнообразные тексты с большим количеством слов, выражений, сделать текст сбалансированным.

  • Опытные спикеры практически не допускают ошибок при записи, поэтому нет необходимости тратить много ресурсов на перепроверку записей.

  • Большое количество говорящих разного возраста и пола помогает создать большую вариативность набора данных.

  • Мы подписываем договор с каждым диктором, права на РИД передаются нам, и в дальнейшем мы можем использовать записи или программы, сделанные с использованием этих записей.

Недостатки этого метода:
  • Переговоры и подписание контракта с диктором занимают много времени.

    От начала переговоров до первой записи может пройти несколько месяцев

  • Довольно высокая стоимость записи
Также стоит отметить, что найти спикеров – довольно сложная задача.

Дикторы привыкли работать с понятными им проектами: записывать рекламные ролики, озвучивать аудиокниги, озвучивать фразы для голосового приветствия.

Когда речь идет о записях для искусственного интеллекта, дикторы часто не понимают, как будут использоваться их работы, и боятся подписывать контракт. Многие люди не хотят работать с синтезом голоса, думая, что полученная программа сможет их полностью заменить: например, рекламные ролики, игры, фильмы будут озвучены голосом диктора, и диктор, таким образом, станет невостребованным.

Зачастую объяснение всего процесса и пунктов договора занимает много времени.

Сразу же возникает вопрос об управлении этим процессом.

Допустим, у вас одновременно записывают 20 дикторов.

Некоторые скоро закончат свою работу, другие только приступили к первому тексту.

Как получать от них аудиозаписи, как контролировать, сколько часов было записано каждым спикером; Как проверить записи динамиков на наличие ошибок, помех или шумов? И это только часть возникающих вопросов.

Для их решения мы разработали собственную программу аудиозаписи.

Его основные преимущества:

  • Диктор может легко переключаться между текстами.

  • Диктор может прослушать свои ранее сделанные записи и при необходимости перезаписать звук.

  • Диктор и наша команда видят, сколько звука было записано с точностью до секунды, поэтому легко оценить проделанную работу.

  • Аудио из программы можно быстро проверить в админ-панели программы; при желании их также можно легко загрузить в нашу специализированную программу разметки — Маркер .

  • Программу можно открыть на компьютере в студии (подключив компьютер к микрофону и звуковой карте), благодаря чему можно получить очень качественную запись.

  • Режим с выделением ударения в слове, который можно включить, если говорящему удобнее так работать.

  • Все записанные данные уже хранятся в нашей базе данных; диктору или профессиональной студии не нужно присылать его нам после каждой новой записи.

С помощью этой программы мы делаем все записи подготовленного текста на данный момент, а также используем ее для создания наборов данных для синтеза речи.



Набор данных SOVA с открытым исходным кодом: аудио для распознавания и синтеза речи

Программа для записи динамиков После подписания договора аудиозапись производится достаточно быстро и так же быстро может быть проверена и добавлена в датасет. Живая речь Наличие живой речи очень важно в наборе данных распознавания речи, поскольку в реальной жизни люди не читают текст, а нейронная сеть, обученная исключительно на чтении, плохо справляется с распознаванием реальных разговоров.

Чтобы решить эту проблему, мы договорились с командой Голосовой бот , который предоставляет пользователям мессенджера Telegram возможность распознавать голосовые сообщения в текст с помощью бота.

Ребята согласились включить наш сервис распознавания речи в список тех, которые можно выбрать при установке бота, и мы начали получать поток живой речи.

Разумеется, выбирая наше решение, пользователи предупреждаются о том, что их данные могут быть использованы.

Нам также очень хотелось добавить в набор данных телефонные звонки.

Это особый тип данных, который невозможно эффективно смоделировать с помощью дополнений, а распознавание телефонных звонков — одна из наиболее распространенных задач, возникающих на рынке распознавания речи.

Однако получить разрешение на размещение записей разговоров из контакт-центров или предприятий в Open Source практически невозможно: записи будут содержать коммерческую информацию и личные данные.

Мы попробовали пойти необычным путем: разработали сервис, который позволяет совершать бесплатные звонки, а взамен мы будем использовать записи разговоров, о чем заранее предупреждаем пользователей.

К сожалению, этот сервис пока не предоставил нам достаточно данных, но мы работаем над этим.

В качестве временного решения мы все же добавили в набор данных несколько тысяч часов дополненных данных.

YouTube Мы с этим источником практически не работали и делаем только первые шаги.

Права на все видеоролики, опубликованные на Youtube, принадлежат их авторам (каналу), осуществившим публикацию.

Единственным законным способом будет получение письма от автора, разрешающего использование видео с канала с указанием условий, либо подписание лицензионного соглашения.

Первые шаги мы решили начать с каналов крупнейших университетов нашей страны.

Мы получили разрешение на использование материалов, опубликованных на каналах Дальневосточного федерального университета (ДВФУ) и МГИМО, за что очень благодарны нашим коллегам.

Чуть позже мы также заметили, что есть видео , которые при публикации были отмечены лицензией Creative Commons – CC BY. Эта лицензия позволяет вам изменять и повторно использовать RIA при соблюдении условий.

лицензии .

Такие видео можно найти с помощью стандартного поиска YouTube, а затем применить фильтр «Лицензия Creative Commons».

Чтобы упростить работу, вы можете использовать официальный API Youtube.

Текущий состав набора данных

EngАудиокнигиОригинал — Аудиокниги на английском языке, оригинальные репродукции дикторов, запись на профессиональном оборудовании.

EngАудиокнигиШумные — Английские аудиокниги с дополнениями для телефонных звонков.

РуАудиокнигиУстройства — Русские аудиокниги, оригинальные репродукции дикторов, запись на профессиональном оборудовании.

РуУстройства — Русская живая речь, запись на мобильные устройства и другое непрофессиональное оборудование.



Набор данных SOVA с открытым исходным кодом: аудио для распознавания и синтеза речи

Набор данных SOVA с открытым исходным кодом

Качество

Типичными ошибками в наборах данных являются обрезанные в начале или конце слова, небольшие ошибки в текстах.

Очень редко и только в аудиокнигах можно встретить строки, не совпадающие полностью.

Для измерения качества набора данных мы использовали параметр CER — Char Error Rate. Эта опция показывает символическое Расстояние Левенштейна между правильным текстом и доступным вариантом.

Мы использовали его нормализованную форму, то есть его отношение к длине символов строки.

Среднее значение нормализованного CER для каждого набора данных не превышает 5. Проще говоря, можно предположить, что 95% всех пар аудио-текст верны.



Подготовка данных

Перед обработкой данных мы определили стандартные параметры для всех аудиозаписей:

Набор данных SOVA с открытым исходным кодом: аудио для распознавания и синтеза речи

Стандартные настройки для всех аудиозаписей Кроме того, мы договорились о форме, в которой будут представлены наборы данных: набор аудиофайлов, каждый из которых имеет одноименный текстовый файл и соответствующий текст. Помимо приведения всех полученных фрагментов к стандартным параметрам, мы очищаем все полученные фрагменты от излишней тишины и шума в конце и начале фрагмента.

Для описания технической подготовки данных удобно разделить их на два типа: данные с заранее известным текстом и без него.

В первый входят аудиокниги, чтение текста и Youtube (при наличии субтитров), а во второй — живая речь.

Их обработка принципиально отличается.

Посты с известным текстом Сейчас этот тип наиболее широко представлен в размещенных нами данных, поскольку получение и обработка таких данных в больших количествах оказалось проще и дешевле, чем живая речь.

Главной особенностью обработки является использование технологии принудительное выравнивание или «выравнивание» текста, которое позволяет получать временные метки последовательных текстовых фрагментов для соответствующего им аудио с помощью синтеза речи.

Эффективность его работы напрямую зависит от степени соответствия аудио и текста, что сразу усложняет обработку аудиокниг, поскольку они постоянно содержат неточности, которые сложно отследить заранее.

Это может быть другой перевод, перепутанный порядок глав, дополнительные комментарии читателя или целая глава, посвященная используемой электронной библиотеке.

Поэтому после «выравнивания» полученный результат необходимо проверить.

Эту проверку мы реализовали с помощью распознавания речи: распознаём полученные фрагменты по наилучшей доступной модели.

Речь НЛаб а затем сравнить результаты с текстом, полученным после «выравнивания».

Таким образом мы удаляем почти все неправильные пары аудио-текст. Стоит отметить, что тексты, читаемые спикерами, не нужно «выравнивать», поскольку созданное нами приложение позволяет читать и записывать небольшие фрагменты текста отдельно друг от друга.

Однако для этих данных мы также используем проверку на случай, если во время чтения что-то пошло не так.

Живая речь При обработке живой речи текст нам заранее неизвестен, поэтому наша первая задача здесь — максимально качественно обрезать звук, не допуская разрывов слов в середине.

Для этого мы используем Voice Activity Detector — нейросеть, способную обнаружить присутствие человеческой речи в заданном образце.

Длина выборки выбирается небольшой: от 30 до 100 миллисекунд. Получив речевую разметку для аудиозаписи, мы разрезаем ее на фрагменты с речью не короче 100 миллисекунд и не длиннее 10 секунд. Причиной такого верхнего предела является не только возможное ограничение обучаемой модели, но и ухудшение качества следующего этапа: ручной маркировки.

Перед ручной разметкой мы также готовим предварительный текст для каждого фрагмента с помощью распознавания речи: наши эксперименты показали, что разметка записи происходит гораздо удобнее и быстрее, если в ней уже есть хотя бы примерный текст. Для ручной разметки мы написали собственное приложение «Маркер», уже упомянутое выше.

На этом этапе наша команда маркеров исправляет текст, если есть несоответствие аудио, а также отмечает все фрагменты, не подходящие для обучения: записи на другом языке, наложение голосов, шум и так далее.



Альтернативы/Другие наборы данных

По-настоящему полезных открытых наборов данных на русском языке практически нет. Мы потратили некоторое время на поиск и постарались собрать все известные нам русскоязычные датасеты в единый список.

Общий голос .

Открытый и многоязычный набор голосовых данных, который каждый может использовать для обучения голосовых приложений.

На данный момент набор данных состоит из 7 335 тестировал часы на 60 языки База данных русской речи (НТЦ Русский) .

Набор данных был записан в 1996-1998 годах для исследования и содержит речь 89 человек разного возраста и пола.

Фактически набор данных состоит из 5 предложений.

Каждый говорящий читает каждое предложение 15 раз в разное время в течение 1-3 месяцев.

Датасет распространяется на коммерческой основе, стоимость варьируется от 200 до 4000 евро в зависимости от типа лицензии.

Владельцем набора данных является Европейская ассоциация языковых ресурсов.

В каталоге на сайте можно найти еще несколько датасетов на русском языке, обычно не превышающих 10-30 часов.

CSS10 English: набор речевых данных одного говорящего.

Набор данных был создан двумя специалистами по данным как часть коллекции.

CSS10 (Коллекция наборов данных речи одного говорящего для 10 языков) и содержит около 22 часов русской речи, полученной из аудиокниг из LibriVox. Распространяется по лицензии CC0: общественное достояние .

Набор речевых данных M-AILABS .

Набор данных содержит около 46 часов русской речи, полученной из аудиокниг от LibriVox. Распространяется по собственной свободной лицензии.

Русская LibriSpeech (РуЛС) .

Еще один набор данных, созданный исключительно с использованием аудиокниг от LibriVox. Содержит около 98 часов и распространяется по свободной лицензии.

Набор данных русской открытой речи в текст (STT/ASR) , также известный как OpenSTT. Пожалуй, единственный полезный набор данных в этом списке.

Коллеги собрали около 20 000 часов аудио (около 2,3 ТБ в формате .

wav).

Данные получены из различных источников, таких как YouTube, радио, телефонные звонки и аудиокниги.

Набор данных активен и периодически обновляется данными.

Распространяется по лицензии CC-BY-NC (коммерческое использование возможно только после согласования с авторами).

Эти наборы данных представляют большой интерес для разработчиков, но имеют ряд проблем:

  • во всех датасетах, кроме OpenSTT, размер данных очень мал, что не позволяет полноценно обучать такие сложные алгоритмы, как нейронные сети
  • OpenSTT не имеет одинакового качества для всех данных; текстовые тексты не всегда соответствуют аудиозаписям.

    Проводить обучение с использованием такого набора данных уже гораздо интереснее, но общее качество данных не гарантирует успеха в обучении.

  • OpenSTT нельзя использовать в коммерческих целях по двум причинам: лицензия не позволяет + данные не имеют легального происхождения.

Таким образом, перечисленных выше наборов данных недостаточно для качественного обучения нейронных сетей.

Мы постарались учесть эти моменты при подготовке нашего набора данных SOVA и запланировать его последующие обновления.

В будущих обновлениях мы планируем расширить вариативность данных в наборе данных; вместе с соответствием текстов и аудиозаписей это даст набору данных SOVA преимущество перед всеми вышеперечисленными наборами данных.

Поделитесь с нами в комментариях, если знаете другие датасеты на русском языке, и мы добавим список.



Текущее состояние

По состоянию на февраль 2021 года набор данных SOVA содержит 11 402 часа размеченных данных.

Это примерно 1,1 ТБ аудио в формате .

wav. Датасет в основном состоит из аудиокниг на русском и английском языках, а также записей живых разговоров.

Набор данных публикуется с открытым исходным кодом и распространяется по лицензии.

CC-BY 4.0 .

Лицензия позволяет использовать данные для коммерческие цели , копировать, распространять и создавать производные материалы.

Ссылка для загрузки набора данных доступна в репозитории набора данных SOVA по адресу: GitHub .



Планы развития

В течение текущего года запланировано несколько небольших обновлений, в том числе технических.

Мы постараемся оптимизировать размеры и предоставить альтернативные способы загрузки набора данных.

Основное обновление набора данных произойдет в декабре 2021 года.

В набор данных будет добавлено около 10 000 часов данных на русском, английском и китайском языках.

Источники будут пополняться публичными живыми выступлениями, профессиональными записями чтений, аудио с Youtube и радио.

Если мы посмотрим еще дальше в будущее, то к концу 2022 года набор данных будет содержать как минимум 30 000 часов данных .

Набор данных SOVA, упомянутый в статье, является частью более крупного проекта с открытым исходным кодом.

СОВА.

ай : Мы делаем открытую платформу для создания голосовых помощников.

Нас поддержал государственный фонд РВК .

Государство в принципе поддерживает проекты Open Source, в том числе в рамках Федеральный проект «Искусственный интеллект» .

Например, в этом году запланированы соревнования Фонд помощи , Фонд Сколково И РФРИТ для компаний, разрабатывающих ИИ и библиотеки с открытым исходным кодом для ИИ.

Мы очень хотим внести свой вклад в развитие технологий распознавания и синтеза речи в нашей стране и мире.

Мы надеемся, что набор данных SOVA будет полезен студентам, специалистам по обработке данных и предприятиям.

Мы всегда рады отзывам, предложениям и помощи.

Если у вас есть аудио, которым вы хотели бы поделиться, свяжитесь с нами по почте.

партнерство@sova.ai .

Теги: #Машинное обучение #искусственный интеллект #распознавание речи #синтез речи #набор данных #речевая аналитика

Вместе с данным постом часто просматривают: