Фото Мэтью Поттер CC-BY
Как соединить аудио и визуальную информацию? Этот вопрос часто задают ученые и любители со всего мира.
Так, в феврале 2006 года по Интернету быстро распространилась новость о том, что ученым удалось воспроизвести звуки из глиняного горшка возрастом более 6500 лет. Гончар якобы применил к горшку музыкальный ритм при его изготовлении.
К сожалению, на бельгийском телевидении это оказалось неудачной первоапрельской шуткой.
Однако Патрик Фистер удалось обработать запись возрастом более 1000 лет. По этому поводу в мае 2011 года он выступил на конференции ARSC (Ассоциации коллекций звукозаписей) с открытием «палеоспектрофонии».
Погружение в историю: расшифровка записей прошлого
Патрик использует современные технологии (в данном случае не особенно современные, поскольку спектрограмма была изобретена довольно давно) для преобразования визуальных объектов в аудио.Однако человечество не всегда шло по этому пути и, наоборот, пыталось «запечатлеть» звук в изображениях.
Долгое время (до создания фонографа Томасом Дисоном) людей волновал вопрос: как придумать способ записи музыки, который помог бы смотрящему на запись воспроизвести в голове мелодию так же легко, как профессиональные музыканты делают это, глядя на партитуру.
К сожалению, по мнению доктора Фистера, такая задача в принципе недостижима, поскольку наш мозг в большинстве случаев недостаточно хорошо умеет преобразовывать визуальную информацию в звуковую.
Решение этой проблемы, возможно, не было успешным в прошлом, но история оставила нам множество свидетельств того, как люди в разные эпохи пытались создать схожие системы звукозаписи.
Самая известная из этих систем легла в основу фонавтографа, предшественника фонографа, изобретенного французом Дуаром Мартенвилем.
Фонавтограф представлял собой устройство, в котором звук проходил через конус, заставляя вибрировать мембрану, соединенную с иглой.
Игла, в свою очередь, рисовала волнистые линии на стеклянном цилиндре, покрытом копченой бумагой.
С помощью фонавтографа можно было уловить звук, но не было возможности его воспроизвести.
Фистер решил эту проблему.
В 2008 году он, его коллеги и аудиоэксперт Дэвид Джованнони собрались в Национальной лаборатории Лоуренса Беркли, чтобы расшифровать одну из наиболее хорошо сохранившихся фонавтограмм Мартинвилля.
Лаборатория Лоуренса разработала технологии извлечения звуков из высококачественных фотографий, на которых запечатлены изображения хрупких восковых носителей или сломанных дисков.
С помощью этих технологий ученые получили из фонавтограммы запись песни «Лунный свет» («Au Clair de la Lune»), сделанную в 1860 году.
Считается, что это первая запись, на которой можно услышать человеческий голос.
Однако решения этой задачи Фистеру оказалось недостаточно: впоследствии он не только записал звук более чем 50 фонавтограмм, но и исследовал более ранние попытки «записать звук».
Как ни странно, в этом учёному помог сервис Google Books. Используя его, Фистер записывал символы из книг, которые постоянно игнорировались как исторические причуды.
Он нашел самую старую волнистую линию в книге 1806 года.
С помощью других методов он смог расшифровать мелодию 1677 года, написанную множеством точек.
Другая была найдена в записях X века, где линии показывали, в какой тональности нужно петь.
Примеры таких записей можно найти на его сайте.
фонозой .
Другой подход
Исследователи из MIT, Microsoft и Adobe идут другим путём: они реконструируют звук, основанный на движущейся (вернее, вибрирующей) картинке.Исследователи разработали алгоритм получения аудиосигнала из вибраций, записанных на видео.
В одном из таких экспериментов им удалось извлечь разборчивую речь из записи пустого пакета из-под картофельных чипсов.
В ряде других экспериментов то же самое проделывали с поверхностью алюминиевой фольги, стаканом воды и даже с листьями комнатного растения.
В 2014 году команда представила свои достижения на ежегодной конференции SIGGRAPH. ( видео из выступления на TED одного из исследователей, работавших над проектом.
) Дело в том, что когда звук соприкасается с предметом, он заставляет его вибрировать.
Движения, создаваемые этими вибрациями, настолько малы и незаметны, что человек не может их увидеть.
Однако их может «увидеть» камера: для выделения аудиосигнала из видео ученые использовали видеозапись с частотой кадров, превышающей частоту аудиосигнала.
Первоначально в экспериментах использовались камеры со скоростью съемки 2000 и 6000 кадров в секунду, но исследователи попробовали использовать и другие, более бюджетные камеры.
Из записанного видео с частотой 60 кадров в секунду, конечно, не удалось извлечь членораздельную речь, но понять, сколько людей было в комнате, их пол и даже особенности произношения все же удалось.
Конечно, при размышлениях об использовании подобных разработок на ум приходят «шпионские истории», но сами исследователи называют свой проект возможностью открыть новые грани в изображении предметов и изучить их ранее неизведанные свойства.
И если сотни лет назад люди пытались придумать способ «записывать звук», то теперь такая «запись» становится побочным эффектом, который, в свою очередь, помогает раскрыть новые свойства привычных предметов.
Сделай сам
Как уже говорилось, первая фонавтограмма была расшифрована благодаря технологии воспроизведения звука по фотографиям старых пластинок (об этой технологии мы уже говорили).написал в одном из наших материалов - там же есть ссылки на расшифрованные аудиозаписи).
Однако Патрик Фистер подчеркивает, что с этой задачей сможет справиться каждый — если знает, что делать.
Подробный процесс описан в этот материал.
От себя отметим, что для решения задачи понадобится качественная фотография, базовые навыки фотошопа (волну, прорисованную на виниле, необходимо оцифровать, «выправить» — канавка на пластинке закручивается по спирали — удалить все виды шума и смещения), а также относительно мощный компьютер с большим объемом оперативной памяти.
Чтобы преобразовать полученное изображение в файл WAV, Патрик использует довольно экзотическое программное обеспечение: программу ImageToSound. Оно бесплатное, но, несмотря на это, его довольно сложно найти в Интернете (поделился Патрик).
источник ).
Программа последовательно преобразует каждый блок изображения (ширина блока — 1 пиксель) в аудиосэмпл.
К сожалению, данное программное обеспечение не поддерживает даже Windows 7 (автор использует для работы отдельный компьютер с Windows 98).
В качестве альтернативы Фистер предлагает использовать программа AEO-Light, но предупреждает, что сам не до конца знаком с тонкостями работы с ним.
Последний этап – регулировка скорости воспроизведения.
Здесь на помощь приходит простая математика.
Сначала необходимо узнать скорость воспроизведения исходной записи, длину одного оборота оцифрованной волны (после «деспирализации») в пикселях и частоту дискретизации конечного файла.
Если изображение было смонтировано в аудиофайл с частотой дискретизации 44,1 кГц, то это означает, что секунда аудиофайла будет равна 44 100 пикселям изображения.
Если, например, скорость песни на виниловой пластинке была 50 об/мин, а после оцифровки и деспирализации один оборот пластинки занял 30 000 пикселей, мы получим 1 500 000 пикселей в минуту (50х30 000).
Если разделить это число на 60, то получим количество пикселей в секунду (1 500 000/60 = 25 000).
Разделите частоту дискретизации на количество пикселей в секунду (44 100/25 000 = 1,764).
Умножаем полученное число на длину аудиофайла (время воспроизведения песни) и получаем время, в которое этот файл был изначально записан.
Если скорость воспроизведения оригинальной записи неизвестна, Патрик советует выбирать конечную скорость на слух.
Патрик Фистер предупреждает, что это довольно кропотливая работа, требующая времени и терпения, но при этом порой дающая удивительные результаты: особенно, когда речь идет о голосах прошлого, казалось бы, потерянных навсегда.
P.S. Больше материалов по теме аудиотехники можно найти в нашем блоге " Мир Hi-Fi ".
Теги: #Научно-популярная #аудиомания #Звук #Работа с видео #AR и VR #работа со звуком #звуковая визуализация
-
Исчезнет Ли Высокочастотная Торговля?
19 Oct, 24 -
Работа И Жизнь В Болгарии
19 Oct, 24 -
Протопотоки И Кооперативная Многозадачность
19 Oct, 24