Использование Кратковременных Характеристик При Обработке Речи

Ниже вольный перевод записи с сайта Виртуальные лаборатории Сакшата Потребность в краткосрочной обработке речи В статье содержится информация об одном из методов сбора характеристик речевого сигнала и о трех основных характеристиках, лежащих в основе многих алгоритмов обработки звуковых сигналов и речи.

Большинство средств обработки сигналов работают в стационарных системах, т.е.

подразумевают стационарный сигнал.

Речь воспроизводится системой речевого тракта и поэтому носит нестационарный характер.

Следовательно, обычные инструменты, используемые для обработки сигналов, не подходят для обработки речи.

Их использование напрямую нарушает лежащие в их основе предположения.

И даже если вы будете ими слепо пользоваться, результат все равно не будет иметь практического значения.

Например, инструмент расчета полной энергии имеет основополагающее значение в области обработки сигналов:

Использование кратковременных характеристик при обработке речи

Предположим, что мы можем использовать эту формулу для расчета энергии речи.

Это, несомненно, даст нам энергию, присутствующую в речевом сигнале.

Однако полученное значение нам ничего не даст. Причина в природе речи — мы знаем, что она имеет изменяющуюся во времени амплитуду и энергию, поэтому необходим инструмент, который бы предоставлял информацию об изменениях энергии с течением времени.

Было предложено решение обработки речи, заключающееся в использовании уже известных методов из области обработки сигналов с их небольшой модификацией.

То есть используемые средства обработки по-прежнему предполагали стационарный сигнал.

Стационарный речевой сигнал получается при просмотре небольшими блоками по 10-30 мс.

Следовательно, при обработке речи разными средствами обработки сигнала она рассматривается блоками по 10-30 мс (далее будем называть такой участок речевым сигналом).

Эта обработка называется краткосрочной обработкой (STP).

Речевая STP может выполняться во временной или частотной области.

Выбор области зависит от того, какую информацию мы хотим извлечь из речи.

Например, такие параметры, как краткосрочная энергия, краткосрочная скорость пересечения нуля и краткосрочная автокорреляция, могут быть рассчитаны во временной области, а преобразования Фурье могут быть рассчитаны в частотной области.

Каждый из этих параметров предоставляет некоторую информацию о речи и может использоваться для обработки.

Краткосрочная энергия

Назовем энергией абстрактную величину, характеризующую сигнал.

Энергия речи меняется со временем в силу своей природы и поэтому для любой автоматической ее обработки важно знать, как эта энергия меняется с течением времени.

По происхождению речевой сигнал состоит из речевых/неречевых участков/молчания.

Энергия области с речью по величине больше энергии неречевой области, а энергия тишины близка к нулю.

Таким образом, краткосрочная энергетическая характеристика может использоваться для классификации вокальных и невокальных областей на основе присутствия речи или тишины.

Формула для нахождения кратковременной энергии может быть получена из формулы полной энергии, определенной в области обработки сигналов.

Там полная энергия сигнала рассчитывается следующим образом:

Использование кратковременных характеристик при обработке речи

Для расчета кратковременной энергии рассмотрим речевой сегмент длительностью 10-30 мс.

Предположим, что мы перечисляем выборки в кадре как от «n=0 до n=N-1», где N — продолжительность кадра (количество выборок).

За пределами кадра энергия будет равна нулю.

Таким образом мы получаем:

Использование кратковременных характеристик при обработке речи

То есть формула дает полную энергию в речевом блоке.

Использование кратковременных характеристик при обработке речи

где w(n) — оконная функция; в литературе по обработке сигналов упоминается несколько таких функций.

Чаще всего используется прямоугольное окно:

Использование кратковременных характеристик при обработке речи

Окно Ханны:

или окно Хэмминга:

Для всех характеристик, рассчитанных во временной области, мы будем использовать прямоугольное окно из-за его простоты.

Теперь вы можете полностью записать формулу расчета кратковременной энергии:

Использование кратковременных характеристик при обработке речи

где n — сдвиг выборок.

Поскольку изменения энергии при речи незначительны, рассматривать кратковременную энергию с небольшим сдвигом нет смысла.

Поэтому чаще всего его устанавливают равным или меньшим половины кадра.

Использование кратковременных характеристик при обработке речи

Последнее, что стоит отметить в отношении кратковременной энергии, — это размер кадра.

Поскольку речь становится приблизительно стационарной в блоках от 10 до 30 мс, обычно выбирается размер кадра 20 мс.

Если мы выберем больший размер, мы получим более плавную картину энергии и можем не заметить, как она меняется.

Краткосрочная скорость пересечения нуля (ZCR)

Скорость пересечения нуля предоставляет информацию о количестве изменений знака функции (пересечений функцией оси OX).

Если количество пересечений в определенном сигнале велико, то сигнал содержит высокочастотную информацию и наоборот. Таким образом, ZCR предоставляет информацию о частотном составе сигнала.

В случае стационарного сигнала ZCR рассчитывается следующим образом:

Использование кратковременных характеристик при обработке речи

Эту формулу можно исправить для нестационарного сигнала, такого как речь, и назвать ее кратковременным ZCR:

Использование кратковременных характеристик при обработке речи

Из-за особенностей речи сигнал меняется со временем через несколько миллисекунд. Чтобы получить некоторую информацию, ZCR необходимо рассчитывать на кадрах с одинаковой длительностью 10-30мс и сдвигом, равным половине кадра.

Выше приведен график обработки записанного предложения «она целый год хранила твой костюм в жирной воде для стирки».

На гласном звуке «ы» значение характеристики существенно выше, чем на гласном «а».

Краткосрочная автокорреляция

При обработке сигналов взаимная корреляция может использоваться для поиска сходства между двумя последовательностями, в то время как автокорреляция требует только одной последовательности и определяет, насколько сигнал похож сам на себя с течением времени.

Для нестационарного сигнала автокорреляция рассчитывается по следующей формуле:

Использование кратковременных характеристик при обработке речи

где с_ш =s(m) w(n-m) — оконная версия s(n).

В результате мы получаем кратковременную автокорреляционную последовательность.

Характер этой последовательности различается в зависимости от области с речью и без нее.

Использование кратковременных характеристик при обработке речи

И хотя тема автокорреляции раскрыта не полностью, не упомянуть о ней в контексте данной темы было бы неуместно.