Зачем нам это надо Когда речь идет о распознавании речи, невозможно оставаться исключительно в области «анализа сигналов» (то есть отдельных работ и отраслей науки).
Мы всегда должны помнить, что анализируя речь, мы работаем с особым типом сигнала, который воспроизводится определенной биологической системой.
С одной стороны, оно ограничено его амплитудно-частотными характеристиками (АЧХ), а с другой – самим языком и стандартным набором звуков, которые может произнести его говорящий (например, при анализе русского языка).
, возможность щелчков и свиста учитывать не будем).
Исходя из поставленной задачи, можно достаточно точно определить характеристики речевого сигнала и его основные свойства.
С другой стороны, для этого сигнала природа разработала приемник, близкий к идеальному.
Это наш слуховой тракт. До сих пор не изобретена и не найдена другая система, которая могла бы выполнять распознавание речи с такой же точностью и качеством.
Было бы кощунством пренебречь возможностью научиться этому у природы.
Если поближе познакомиться с особенностями слухового тракта, то начинаешь понимать, что вейвлеты и преобразование Фурье в таких задачах не появились на пустом месте.
А системы, обеспечивающие разложение сигнала в частотный спектр, появились гораздо раньше, чем первые наскальные рисунки.
Голосовой тракт
Голосовой сигнал создается воздушными волнами, исходящими из рта и носовых отверстий говорящего.В большинстве языков мира состав фонем можно разделить на 2 основных класса:
- согласные - произносится при сдавлении горла или препятствиях в ротовой полости (языке, зубах, губах) говорящего;
- гласные - произносится при отсутствии каких-либо препятствий в речевом тракте.
Эти параметры генерируются на основе анатомии различных артикуляторов человека и точек их контакта с речевым трактом.
Значительный вклад в речеобразование вносят легкие, трахея, гортань, полость глотки (горло), ротовая и носовая полости.
- Легкие - Это источник воздуха во время речи.
- Голосовые связки: когда голосовые связки находятся на небольшом расстоянии друг от друга и во время речи колеблются относительно друг друга, звук называют вокализованным.
Если связки не вибрируют, то говорят, что звук глухой.
- Мягкое небо: работает как заслонка, открывающая проход воздуха в полость носа.
- Сплошное небо: длинная, сравнительно твердая поверхность верхней стенки ротовой полости в сочетании с языком позволяет произносить согласные звуки.
- Язык: гибкий артикулятор.
При удалении от нёба он позволяет произносить гласные, а при приближении к нёбу — согласные.
- Зубы: в сочетании с языком используются при произнесении некоторых согласных звуков.
- Губы: Их можно закруглять или растягивать, изменяя звучание гласных, или закрывать, чтобы остановить поток воздуха при произнесении некоторых согласных.
Озвученные звуки имеют квазипериодическую составляющую в своей частотной и временной структуре.
Его вводят, когда при произношении звука участвуют голосовые связки, колеблющиеся на разных частотах (от 60 Гц у взрослого мужчины до 300 Гц и выше у девочки или ребенка).
Частоту вибрации голосовых связок называют основной частотой звука, поскольку она является базовой частотой для других высокочастотных гармоник, создаваемых в полости гортани и полости рта.
Кроме того, основная частота влияет на высоту речи больше, чем любой другой фактор.
На рисунке показаны этапы цикла состояний голосовых связок человека при прохождении через них потока воздуха.
На стадия (а) , голосовая щель закрывается и поток воздуха перед голосовыми связками прекращается.
В какой-то момент ( этап б ), давление воздуха перед связками преодолевает преграду, и воздух устремляется наружу через голосовую щель.
Однако ткани и мышцы голосовых связок благодаря своей естественной эластичности возвращаются в исходное состояние, закрывая голосовую щель ( этап в ).
При этом создается последовательность звуковых колебаний, которая является источником энергии для всех вокализуемых звуков.
При произнесении глухой звуков голосовые связки либо расслаблены, либо сильно напряжены, в результате чего они не производят звуковых колебаний.
Воздух свободно проходит из легких в ротовую и/или носовую полость речевого тракта.
В результате взаимодействия воздуха с различными артикуляторами происходит преобразование воздушного потока, что приводит к произнесению того или иного звука.
На рисунке показан пример сигнала, соответствующего двум звукам: звонкому «О» и глухому «Т».
Очевидно, что они обладают совершенно разными свойствами, которые необходимо учитывать при анализе.
Проблема с распознаванием речи возникает, когда слово начинается или заканчивается глухим звуком.
В этом случае необходимо использовать специальные алгоритмы, позволяющие отличить этот звук от постороннего шума и точно определить момент начала (конца) речевого сигнала.
О таких алгоритмах мы поговорим в следующих частях.
Слуховой тракт
Система восприятия речи имеет 2 основных компонента: наружные слуховые органы и слуховой отдел мозга.Ухо обрабатывает сигнал, переносимый звуковой волной, преобразуя его в механическую вибрацию барабанной перепонки, а затем преобразуя эту вибрацию в последовательность импульсов, передаваемых слуховым нервом.
Полезная информация извлекается из различных участков слухового мозга человека.
Человеческое ухо состоит из 3 отделов: наружного уха, среднего уха и внутреннего уха.
Наружное ухо состоит из видимой части и наружного слухового прохода, который заканчивается барабанной перепонкой.
Звук, проходя по внешнему звуковому каналу, воздействует на барабанную перепонку и она вибрирует. Среднее ухо – это воздушная область объемом около 6 см3. Вибрации от барабанной перепонки передаются системой слуховых косточек (молоточек, наковальня и стремечко) на мембрану, называемую овальным окном.
Это граница между средним ухом и внутренним ухом (улиткой), поскольку остальная поверхность внутреннего уха состоит из костной ткани.
Важнейшей структурой внутреннего уха для восприятия звука является улитка , который сообщается непосредственно со слуховым нервом.
Продольная мембрана делит спираль улитки на две заполненные жидкостью части.
Внутренняя поверхность улитки покрыта реснитчатыми рецепторными клетками, которые связаны непосредственно со слуховым нервом и воспринимают информацию о давлении жидкости в определенной точке улитки.
Строение внутреннего уха устроено таким образом, что при разных частотах исходного сигнала максимальная амплитуда изменения давления жидкости в улитке будет фиксироваться на определенном расстоянии от ее основания (см.
рисунок).
Таким образом, Улитку можно рассматривать как набор фильтров, выходные данные которых упорядочены по расстоянию от основания улитки.
.
Фильтры, расположенные ближе к основанию улитки, отвечают за более высокие частоты.
Слуховой нерв представляет собой совокупность частотных каналов.
Каждый частотный канал включает в себя группу нейронов, связанных с одним или соседними фильтры для улиток , то есть те, которые имеют одинаковые или близкие характеристические частоты.
Этот набор признаков отправляется в виде мгновенного изображения сигнала в мозг человека, где через сложную нейронную сеть из полученного сигнала извлекается полезная информация.
К сожалению, нет точных данных о том, как эта информация извлекается внутри человеческого мозга.
Существует лишь ряд теорий, которые по-разному описывают возможные нейронные структуры внутри мозга и их взаимодействия.
Весы
Многие элементы различных систем распознавания речи основаны на слуховом тракте человека и пытаются имитировать механизмы его работы.Таким образом, наиболее популярная сегодня характеристика речевого сигнала ( Коэффициенты MFCC ) основан на изучении методов преобразования сигналов во внутреннем ухе человека.
Также разработка и развитие нейросетевых алгоритмов связаны с исследованием человеческого мозга.
Было проведено исследование с целью извлечения градаций частот, которые могли бы моделировать естественную реакцию системы восприятия речи человека, в которой улитка действует как анализатор спектра.
Сложный механизм внутреннего уха и слухового нерва предполагает, что свойства восприятия звуков разных частот, очевидно, не могут быть простыми или линейными.
Широко известно, что в современной западной культуре музыкальный тон делится на октавы и полутона.
Частота f1 выше частоты f2 на октава тогда и только тогда, когда f1=2f2. В 1 октаве 12 полутонов, поэтому f1 выше f2 на полутон тогда и только тогда, когда
В результате различных исследований, основанных на ощущениях человеком звуков разной частоты, был выведен ряд шкал, позволивших представить частоту звука в значениях, более близких к человеческому восприятию.
Так, в одной из первых попыток создания такой шкалы была разработана шкала Лаять .
Ожидалось, что обработка спектральной энергии на основе шкалы Барка обеспечит более точное соответствие звуковой информации человека.
Шкала Барка разделена на 24 основных диапазона слышимости.
Звуковое разрешение на низких частотах выше, чем на более высоких частотах.
Вы можете преобразовать частоту из Гц в шкалу Барка, используя следующую формулу:
где f — частота звука в Гц,
б – частота звука в Барке.
Но большее распространение в распознавании человеческой речи получила другая шкала – мел-шкала , линейный на частотах ниже 1 кГц и логарифмический на частотах выше 1 кГц.
Шкала Мел была получена в результате экспериментов с модельными тонами (синусоидальными волнами), в которых испытуемым предлагалось разделить эти частотные диапазоны на 4 равных интервала или отрегулировать частоту необходимого тона так, чтобы она была вдвое ниже частоты исходного.
.
1 мел определяется как 1 тысячная уровня тона на частоте 1 кГц.
Как и все попытки создать подобные шкалы, шкала mel рассчитывается для более точного моделирования чувствительности человеческого уха.
Расчет значений mel грубо можно представить следующей формулой:
где f — частота звука в Гц,
Б – частота звука в мел.
На использовании таких шкал основан ряд современных методов обработки речевых сигналов.
Главная Чтение Ссылки
- Хуан Сюэдун.
Обработка разговорной речи: руководство по теории, алгоритмам и разработке систем.
– Нью-Джерси: Prentice Hall PTR, 2001. 910 стр.
(Справочник для всех, кто хочет заняться распознаванием речи.
Многое из того, что дано в серии моих заметок, взято из этой книги.
Must Have.)
- Чистович Л.
А.
, Венцов А.
В.
, Гранстрем М.
П.
Физиология речи.
Восприятие речи человека.
– Л.
: Наука, 1976. (Книги по распознаванию речи на русском языке, к сожалению, перестали издаваться в 80-е годы.
Но даже те, что были изданы, достойны изучения.
Из этой книги я почерпнул информацию о слуховом тракте, строении улитки.
Если кому интересно, ТТХ слухового прохода - пожалуйста.
)
- Дон Сук Юк.
Надежное распознавание речи с использованием нейронных сетей и скрытых моделей Маркова.
Адаптации с использованием нелинейных преобразований.
– Нью-Джерси: Государственный университет Нью-Джерси, 1999. (Многие американские учёные выкладывают в свободный доступ тексты своих диссертаций.
За это им большое спасибо.
)
-
Интеграция 3Cx С Office 365 Через Azure Api
19 Oct, 24 -
Клава
19 Oct, 24 -
Знакомьтесь, Рао
19 Oct, 24 -
Оцените Проект? Или «Реклама Ради Рекламы!»
19 Oct, 24