Уважаемые пользователи Хабра!
Продолжаем то, что начали недавно традиция публикации проектов стандартов , разработанный нашей компанией в рамках деятельности технического комитета по стандартизации ТК-234 «Системы сигнализации и противокриминальной защиты» Представляем Вашему вниманию стандарт «Телевизионные системы безопасности.
Сжатие оцифрованных аудиоданных.
Общие технические требования и методы оценки алгоритмов».
Мы будем чрезвычайно признательны за конструктивную критику проекта, а все ценные замечания и предложения будут включены в следующую редакцию стандарта.
Текст стандарта находится под катом.
Для лучшего понимания структуры настоящего стандарта и общего подхода рекомендуем сначала ознакомиться с уже принятым стандарт сжатия оцифрованных видеоданные , разработанный нами еще в 2011 году.
НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ
Системы охранного телевидения.
Сжатие оцифрованных аудиоданных.
Классификация.
Общие технические требования и методы оценки алгоритмов Введение Активное использование в системах охранного телевидения (СТС) методов сжатия оцифрованных аудиоданных, заимствованных из мультимедийных приложений телевидения, привело к невозможности проведения следственных мероприятий, а также оперативных функций с использованием большинства существующих СТС.
Важной отличительной особенностью методов сжатия оцифрованных аудиоданных для COT является необходимость обеспечения высокого качества звука в восстанавливаемых аудиоданных.
Этот стандарт позволяет оптимизировать существующие и разрабатываемые методы сжатия оцифрованных аудиоданных, предназначенных для использования в составе систем антикриминальной защиты.
В качестве критерия классификации алгоритмов сжатия оцифрованных аудиоданных настоящий стандарт устанавливает значения метрики качества, характеризующие степень отклонения исходных и соответствующих им восстановленных оцифрованных аудиоданных .
Настоящий стандарт следует использовать совместно с ГОСТ Р 51558-2008 «Телевизионные охранные средства и системы.
Классификация.
Общие технические требования.
Методы испытаний».
1 область использования Настоящий стандарт применяется к системам цифрового охранного телевидения (далее — DSTS) и устанавливает общие технические требования и методы оценки алгоритмов сжатия оцифрованных аудиоданных в DSTS. Настоящий стандарт распространяется на алгоритмы сжатия (декомпрессии) независимо от их аппаратной реализации.
Этот стандарт устанавливает классификацию алгоритмов сжатия (декомпрессии) оцифрованных аудиоданных.
Этот стандарт определяет методологию сравнения различных алгоритмов сжатия и распаковки оцифрованных аудиоданных.
Настоящий стандарт применяется совместно со стандартами ГОСТ Р МЭК 60065, ГОСТ Р 51558, ГОСТ 13699, ГОСТ 15971, ГОСТ Р 52633.5-2011. 2 Нормативные ссылки В настоящем стандарте используются нормативные ссылки на следующие стандарты: ГОСТ Р 51558-2008 Оборудование и системы телевизионные охранные.
Общие технические требования и методы испытаний ГОСТ Р МЭК 60065-2009 Аппаратура аудио-, видео- и аналогичная электронная.
Требования безопасности ГОСТ 13699-91 Запись и воспроизведение информации.
Понятия и определения ГОСТ 15971-90 Системы обработки информации.
Понятия и определения ГОСТ Р 52633.5-2011 Защита информации.
Технология информационной безопасности.
Автоматическое обучение нейросетевых преобразователей кода биометрического доступа 3 Термины и определения В настоящем стандарте используются термины по ГОСТ 15971-90, ГОСТ 13699, ГОСТ Р 51558, ГОСТ Р 52633.5-2011, ГОСТ Р МЭК 60065-2009, а также следующие термины с соответствующими определениями: 1. аудиоданные (аудиоданные), аудиосигнал (аудиосигнал), одноканальный аудиосигнал (монофонический звук): аналоговый сигнал, несущий информацию об изменении амплитуды звука с течением времени.
2. многоканальный звуковой сигнал (многоканальное аудио): аудиосигнал, состоящий из комбинации определенного количества аудиосигналов (каналов), несущих информацию об одном и том же звуке; предназначен для лучшей передачи звука с учетом пространственной ориентации.
3. стерео двухканальный аудиосигнал (стереофонический звуковой сигнал), стерео аудиосигнал (стерео аудиосигнал), двухканальный аудиосигнал (стерео аудиосигнал): многоканальный аудиосигнал, состоящий из двух моноканальных аудиосигналов.
4. оцифрованные аудиоданные (оцифрованные аудиоданные): данные, полученные аналого-цифровым преобразованием аудиоданных, представляющие собой последовательность байтов в каком-либо формате (WAV или другие).
5. аналого-цифровой преобразователь, АЦП Аналого-цифровой преобразователь (АЦП): устройство, преобразующее входной аналоговый аудиосигнал в оцифрованные аудиоданные.
6. частота дискретизации Частота дискретизации: Частота дискретизации непрерывного во времени сигнала при его преобразовании из аналогового в цифровой в оцифрованные аудиоданные.
7. емкость АЦП (разрешение АЦП): количество битов, с помощью которых кодируется каждая выборка сигнала во время процесса АЦП.
8. рамка (кадр): фрагмент аудиосигнала с заданным количеством значений (длиной кадра).
9. формат оцифрованных аудиоданных (формат оцифрованных аудиоданных): представление оцифрованных аудиоданных, позволяющее обрабатывать их с помощью цифровых вычислительных средств.
10. сжатие (сжатие) оцифрованных аудиоданных (сжатие звука): обработка оцифрованных аудиоданных для уменьшения их громкости.
11. сжатые аудиоданные (сжатые аудиоданные): данные, полученные путем сжатия оцифрованных аудиоданных.
12. сжатие оцифрованных аудиоданных с потерями (сжатие звука с потерями): сжатие оцифрованных аудиоданных, при котором информация теряется, и в результате восстановленные (в результате декомпрессии) оцифрованные аудиоданные отличаются от исходных оцифрованных аудиоданных.
13. сжатие без потерь оцифрованных аудиоданных (сжатие звука без потерь): сжатие оцифрованных аудиоданных, при котором не происходит потери информации, и в результате восстановленные (в результате декомпрессии) оцифрованные аудиоданные не отличаются от исходных оцифрованных аудиоданных.
14. декомпрессия сжатых аудиоданных (декомпрессия звука): восстановление оцифрованных данных из сжатых аудиоданных.
15. восстановленные аудиоданные (декодированные аудиоданные): данные, полученные из сжатых аудиоданных после их распаковки.
16. аудиокодер (аудиокодер): программное обеспечение, аппаратные средства или аппаратно-программные средства, сжимающие оцифрованные аудиоданные.
17. аудио декодер (аудиодекодер): программное обеспечение, оборудование или встроенное ПО, которое распаковывает сжатые аудиоданные.
18. кодек аудиоданных (аудиокодек): программный, аппаратный или встроенный модуль, способный выполнять как сжатие, так и распаковку аудиоданных.
19. коэффициент сжатия Коэффициент сжатия: Коэффициент уменьшения объема оцифрованных аудиоданных в результате сжатия.
20. битрейт (скорость передачи данных): выраженная в битах оценка объема сжатых аудиоданных, определенная для определенного интервала времени и связанная с длительностью выбранного интервала времени в секундах.
21. качество восстановленных аудиоданных (качество декодированных аудиоданных): объективная оценка соответствия восстановленных аудиоданных исходным оцифрованным аудиоданным на основе рассчитанных показателей качества.
22. показатель качества (метрика качества): аналитически определяемые параметры, характеризующие степень отклонения восстановленных аудиоданных от исходных оцифрованных аудиоданных.
23. метод оценки алгоритма сжатия (метод оценки алгоритма сжатия): метод аналитического определения значений показателей качества на соответствие требованиям, предъявляемым к алгоритмам сжатия аудиоданных.
24. алгоритм сжатия (алгоритм сжатия): точный набор инструкций и правил, описывающих последовательность действий, согласно которым исходные аудиоданные преобразуются в сжатые данные, реализуемые с помощью аудиокодера.
25. алгоритм декомпрессии (алгоритм декомпрессии): точный набор инструкций и правил, описывающий последовательность действий, согласно которым сжатые аудиоданные преобразуются в восстановленный звук, реализуемый с помощью аудиодекодера.
26. частотно-временной показатель (метрика время-частота): показатель качества, основанный на сравнении спектрограмм оцифрованных и реконструированных аудиоданных.
27. амплитудно-временная метрика (показатель время-амплитуда): показатель качества, основанный на сравнении оцифрованных и реконструированных аудиоданных по форме сигнала.
28. передискретизация Передискретизация звука: изменяет частоту дискретизации аудиосигнала.
29. психоакустическая модель (модель психоакустики): модель сжатия звука с потерями, которая использует преимущества того, как человеческое ухо воспринимает звук.
30. психоакустическая маскировка (психоакустическая маскировка): сокрытие одного звука при определенных условиях другим звуком вследствие особенностей восприятия звука человеческим ухом.
31. порог маскировки (порог маскировки): Пороговый уровень сигнала, который не различим человеком из-за эффекта психоакустической маскировки.
32. шум (шум): совокупность апериодических звуков различной интенсивности и частоты, не несущих полезной информации.
33. спектр сигнала (частотный спектр): результат разложения сигнала на простые синусоидальные функции (гармоники).
34. дискретное преобразование Фурье, ДПФ (дискретное преобразование Фурье, ДПФ): преобразование, которое отображает N выборок дискретного сигнала в N выборок спектра дискретного сигнала.
35. алгоритм быстрого преобразования Фурье (быстрое преобразование Фурье, БПФ): алгоритм быстрого вычисления дискретного преобразования Фурье.
36. спектрограмма (спектрограмма): характеристика плотности мощности сигнала в частотно-временном пространстве.
37. окно (оконная функция): весовая функция, которая используется для управления эффектами боковых лепестков в спектральных оценках (спектральное расширение).
Существующую конечную запись данных или существующую конечную корреляционную последовательность удобно рассматривать как некоторую часть соответствующей бесконечной последовательности, видимую через прикладное окно.
38. Трансформация окна Ханны (кратковременное преобразование Фурье с окном Ханна): ДПФ с весовой функцией – окно Ханна.
39. искусственная нейронная сеть (искусственная нейронная сеть, ИНС): математическая модель, а также ее программная или аппаратная реализация, построенная в некотором смысле по образу сетей нервных клеток живого организма и используемая для аппроксимации непрерывных функций.
Искусственная нейронная сеть состоит из входного слоя с нейронами и выходного слоя с нейронами.
Между этими слоями имеется один или несколько промежуточных, скрытых слоев с нейронами.
40. искаженный кадр (искаженный кадр): кадр, для которого максимальное отношение шума к порогу маскировки превышает 1,5 дБ.
41. пиковое соотношение сигнал/шум пиковое соотношение сигнал/шум: соотношение между максимально возможным значением сигнала и мощностью шума.
42. дифференциация (от лат. Differentia — отличие) — выделение особи из общей совокупности по определённым признакам.
4 Общие технические требования Требования к сжатию оцифрованных аудиоданных направлены на оценку качества восстанавливаемых аудиоданных, которое определяется качеством каждого отдельного звукового фрагмента восстанавливаемых аудиоданных.
Размер звукового фрагмента определяется в секундах или по количеству оцифрованных значений внутри фрагмента.
Качество звукового фрагмента восстановленных аудиоданных определяется значениями показателей качества, характеризующих степень искажения восстановленных после сжатия аудиоданных по сравнению с исходными оцифрованными аудиоданными.
Порядок расчета метрик приведен в главе 6 настоящего документа.
По значениям показателей качества восстановленных аудиоданных алгоритмы сжатия оцифрованных аудиоданных относятся к одному из трех классов (см.
главу 5 настоящего документа).
Принадлежность алгоритма сжатия оцифрованных данных к определенному классу определяется рассчитанными для него значениями показателей качества и таблицей 1, приведенной в главе 5. 5 Классификация алгоритмов сжатия 5.1 Для оценки качества восстановленных аудиоданных и классификации алгоритмов сжатия используются следующие показатели качества: пиковое отношение сигнал/шум (PSNR); коэффициент разности формы сигнала; метрика, основанная на объективной оценке аудиоданных с точки зрения человеческого восприятия (перцепционная оценка качества звука, PEAQ).
5.2 Классификация алгоритмов сжатия оцифрованных аудиоданных осуществляется на основе значений показателей качества, отражающих те аспекты изменения оцифрованных аудиоданных после их обработки алгоритмами сжатия и декомпрессии, которые могут иметь критическое значение.
влияние на возможность использования восстановленных аудиоданных для определения наличия звуковых сигналов, различения звуков и речи.
5.3 В зависимости от значений показателей качества, рассчитанных при оценке, алгоритмы сжатия оцифрованных аудиоданных можно отнести к одному из следующих классов (см.
таблицу 1):
- класс I — полнофункциональные алгоритмы сжатия, обеспечивающие неотличимость качества восстановленных аудиоданных от качества исходных аудиоданных;
- класс II - алгоритмы сжатия, обеспечивающие качество восстановленных аудиоданных, достаточное для установления наличия аудиосигналов, различения звуков, речи и не уступающее качеству исходных аудиоданных, но отличимое от качества исходного аудио.
данные;
- класс III - алгоритмы сжатия, обеспечивающие качество восстанавливаемых звуковых данных, достаточное для установления наличия звуковых сигналов и не уступающее по этому качеству исходным звуковым данным, но создающее помехи при различении звуков и понимании речи.
Таблица 1 – Классификация алгоритмов сжатия 5.4 Значения метрик качества определяются для каждого аудиофрагмента (длиной пять секунд) оцифрованных аудиоданных и в качестве результирующей оценки выбираются: наименьшее значение метрик PSNR и PEAQ; самое высокое значение коэффициента различия формы сигнала.
Чтобы вычислить показатели PSNR и разницы в форме сигнала, исходные и восстановленные цифровые аудиоданные должны быть представлены с частотой дискретизации 44 100 Гц, 16 битами памяти на значение выборки и одним аудиоканалом.
Длина пятисекундного звукового фрагмента в этом случае составляет 220 500 оцифрованных значений.
Для расчета метрики PEAQ исходные и восстановленные цифровые аудиоданные должны быть представлены с частотой дискретизации 48 000 Гц, 16 битами памяти на значение выборки и одним или двумя аудиоканалами.
Длина пятисекундного аудиофрагмента в этом случае составляет 240 000 оцифрованных значений для каждого канала.
Для сигналов с частотой, отличной от требуемой, необходимо сначала передискретизировать аудиосигнал.
Методы оценки алгоритмов сжатия
6.1 Общее описание методов оценки Общая схема работы CSOT с точки зрения использования алгоритмов сжатия и распаковки представлена на рисунке 1.Рисунок 1 — Общая схема работы КСОТ Аналоговые аудиоданные подвергаются аналого-цифровому преобразованию, в результате которого получаются оцифрованные аудиоданные с определенной частотой дискретизации и количеством битов на оцифрованное значение выборки.
На компьютере оцифрованные аудиоданные должны храниться в одном из форматов хранения оцифрованных аудиоданных.
Оцифрованные аудиоданные подвергаются сжатию, в результате чего аудиоданные сжимаются.
Сжатые аудиоданные используются для архивного хранения или для передачи по сети, после чего они распаковываются.
В результате распаковки сжатых аудиоданных формируются восстановленные аудиоданные, которые используются для воспроизведения оператору и подаются на вход в программные модули анализа аудиоданных.
В соответствии с представленной общей схемой работы КСОТ классификация алгоритмов сжатия оцифрованных аудиоданных осуществляется путем оценки показателей качества восстановленных аудиоданных из исходных оцифрованных аудиоданных.
В зависимости от особенностей технической реализации конкретной КСОТ различают два метода оценки: — на основе разделения оцифрованных аудиоданных; - на основе разделения аудиоданных.
Прежде чем оценивать значения показателей качества, оба аудиосигнала (исходный и восстановленный) необходимо преобразовать в сигналы с частотой дискретизации 44 100 Гц и 48 000 Гц.
Для обеих частот (44100 Гц и 48000 Гц) количество бит на дискретное цифровое значение должно быть 16. 6.1.1 Метод оценки алгоритма, основанный на разделении оцифрованных аудиоданных Для применения этого метода техническая реализация CSOT должна позволять получать оцифрованные аудиоданные до их обработки алгоритмами сжатия и декомпрессии.
Общая схема реализации метода оценки, основанного на разделении оцифрованных аудиоданных, представлена на рисунке 2.
Рисунок 2 — Общая схема реализации метода оценки на основе разделения оцифрованных аудиоданных
Алгоритм оценки выполняется в следующей последовательности действий:
— на вход тестируемого КСОТ подается последовательность аудиоданных;
— с использованием возможностей КСОТ оцифрованные и восстановленные аудиоданные сохраняются на запоминающих устройствах;
— рассчитать значения метрик качества и классифицировать алгоритм сжатия по таблице 1.
— рассчитываются значения метрик качества и классифицируется алгоритм сжатия согласно Таблице 1. 6.1.2 Метод оценки алгоритма, основанный на разделении аудиоданных
Метод оценки, основанный на разделении аудиоданных, следует использовать только в том случае, если техническая реализация DSOT не позволяет использовать метод оценки, основанный на разделении оцифрованных аудиоданных.
Использование этого метода требует наличия в составе испытательного стенда дополнительного КСОТ, предназначенного для сохранения оцифрованных аудиоданных.
Общая схема реализации метода оценки на основе разделения аудиоданных представлена на рисунке 3.
Рисунок 3 — Общая схема реализации метода оценки на основе
Алгоритм оценки с использованием этого метода предполагает выполнение следующих действий:
— на вход тестируемого ДСОТ подаются последовательные аудиоданные, которые дублируются на другой ДСОТ с помощью делителя аудиосигнала (со стенда);
— используя возможности КСОТ, восстановленные аудиоданные сохраняются на запоминающих устройствах;
— с использованием возможностей КСОТ стенда осуществляется сохранение оцифрованных аудиоданных на запоминающих устройствах;
— рассчитать значения метрик качества и классифицировать алгоритм сжатия по таблице 1. 6.2. Алгоритм расчета PEAQ Данная метрика предназначена для оценки качества обработанного сигнала относительно исходного с учетом слуховых особенностей человека (психоакустическая модель).
Этот показатель для оценки качества аудиосигнала рекомендован стандартом ITU-R BS 1387.1. Требования к аудиовходу: • оба аудиосигнала (исходный и восстановленный) должны иметь частоту дискретизации 48 кГц для расчета метрики PEAQ. Для сигналов с частотой, отличной от 48 кГц, необходимо сначала выполнить повторную дискретизацию аудиосигнала; • оба аудиосигнала должны иметь одинаковую длину (состоять из одинакового количества оцифрованных значений).
> Обозначения
— частота дискретизации сигнала;
— количество оцифрованных значений сигнала, определяющих длину звукового фрагмента (размер кадра);
— оцифрованные данные кадра,
Покадровый шаг вперед:
, поэтому перекрытие кадров составляет 50 %;
— частота дискретизации кадров с учетом шага кадров;
— количество полос частотной фильтрации.
Расчет метрики должен состоять из 5 этапов.
I Предварительная обработка сигналов Применение преобразования окна Исходные оцифрованные данные делятся на кадры.
Оцифрованные данные каждого кадра подвергаются масштабированному оконному преобразованию Ханна с использованием формулы (2).
Оконная функция Ханны выглядит следующим образом:
(1)
Масштабированная версия оконной функции Ханны:
(2)
Переход в частотную область осуществляется применением дискретное преобразование Фурье (ДПФ):
(3) Модель наружного и среднего уха
Частотную характеристику наружного и среднего уха следует рассчитывать по следующей формуле:
(4)
По формулам (4) вектор весовых коэффициентов рассчитывается следующим образом:
(5)
Используя эти веса (5), вычисляем взвешенная энергия ДПФ :
(6) Слушание критического распада полосы
Ниже приведены формулы, необходимые для перевода в шкалу Барка (7) и обратного преобразования (8):
(7)
где z измеряется в Барксе.
(8) Полосы частот
Полосы частот определяются путем установки низких, средних и высоких частот каждого диапазона.
Эти значения в шкале Барка указываются следующим образом:
(9)
Обратное преобразование выполняется по следующим формулам:
(10)
Значение i = 1, 2,…,
.
энергетический диапазон частот
Для i-го диапазона частот энергетический вклад k-й основной частоты ДПФ рассчитывается по следующей формуле:
(11)
Тогда энергия i-й полосы частот равна:
(12)
Ниже приведена окончательная формула энергии i-го диапазона частот:
(13) Внутренний шум в ушах
Чтобы компенсировать внутренний шум в самом ухе, мы вводим надбавку к энергии каждой полосы частот:
(14)
где внутренний шум моделируется следующим образом:
(15)
Ээнергия
мы позвоним в будущем изображения высоты .
Ээнергия распространения в пределах одного кадра
Энергетическая характеристика распространения в шкале Барка рассчитывается следующим образом:
(16)
Где
(17)
Функция С (я, л, Е) имеет следующую форму:
(18)
Где
(19)
Ниже приведены формулы расчета слагаемых
И
:
(20)
И
(21)
Ээнергия
— изображения необычного возбуждения .
Энергетическая фильтрация Пусть n — индекс кадра (индексация кадров начинается с n = 0).
Тогда энергия n-го кадра, соответствующая формуле (16), обозначается следующим образом:
Фильтрация энергии осуществляется по следующей формуле:
(22)
Где
Теги: #Звук #сжатие аудиоданных #телевизионные системы безопасности #аудиоданные #оцифрованные аудиоданные
-
Выбор Подходящего Мобильного Телефона
19 Oct, 24 -
Кремний
19 Oct, 24 -
Лучшая Реклама Суперкубка Всех Времен
19 Oct, 24 -
Мелисса И Дсп В Газовой Камере С Atmotube
19 Oct, 24 -
Тенденции Веб-Разработки 2007 Года
19 Oct, 24