Могут Ли Технологии Распознавания Голоса Сделать Услуги Транскрипции Ненужными

Многим предприятиям необходимо преобразовать записанный голос в текст, и они уже давно ищут способы сделать это быстро и недорого. Ярким примером является расшифровка медицинских диктантов.

Несколько лет назад, когда программное обеспечение для распознавания голоса стало коммерчески доступным, большинство людей ожидали, что решение наконец-то появилось. Компании с нетерпением ждали возможности сократить расходы на транскрипцию, а все, кто ненавидел печатать, с нетерпением ждали возможности избавиться от клавиатуры.

К сожалению, реальность оказалась совсем иной. Технология преобразования голоса в текст до сих пор сильно разочаровывала.

Дело в том, что программное обеспечение для распознавания голоса легко сбивается с толку из-за множества различных факторов. Если вы не говорите четко и отчетливо, это может не дать вам правильного результата. Если вы попытаетесь использовать его в шумном месте, чаще всего он потерпит неудачу. Если у вас есть акцент, он может вас не понять. Даже если вы сильно простудились, вы обнаружите, что программа может давать неправильные результаты!

Другими словами, программное обеспечение для распознавания голоса работает достаточно хорошо в идеальных лабораторных условиях, но не в типичных домашних или деловых условиях!

Медицинские работники, которые попытались использовать технологии распознавания голоса для устранения услуг транскрипции, обнаружили, что им необходимо «обучить» программное обеспечение для правильной работы. Это требует много времени и много работы. Большинство из них продолжили передавать свою медицинскую работу по транскрипции на аутсорсинг.

Конечно, есть много других ситуаций, когда необходима транскрипция. Примеры включают записи семинаров, телеконференций, интервью и занятий, которые необходимо преобразовать в текст.

В естественной речи люди склонны использовать много «ааа» и «умм», а также ненужные фразы, такие как «вы знаете». Современная технология распознавания голоса просто не способна отфильтровывать такие ненужные звуки или слова.

Кроме того, люди также объединяют несколько предложений, используя «и». Программное обеспечение не может разбить такую речь на осмысленные предложения. Он также не может разбить речь на значимые абзацы, как это может сделать транскрипционист.

А если запись наполнена фоновым шумом или если одновременно разговаривают несколько человек, программное обеспечение не будет работать надежно и стабильно.

Возможно, когда-нибудь в будущем кто-нибудь изобретет технологию распознавания голоса, которая сможет решить все вышеперечисленные проблемы. До тех пор предприятиям придется использовать услуги транскрипции, особенно для такой работы, как медицинская транскрипция, где точность имеет решающее значение.

Вместе с данным постом часто просматривают:

Автор Статьи


Зарегистрирован: 2011-07-23 05:15:35
Баллов опыта: 552966
Всего постов на сайте: 0
Всего комментарий на сайте: 0
Dima Manisha

Dima Manisha

Эксперт Wmlog. Профессиональный веб-мастер, SEO-специалист, дизайнер, маркетолог и интернет-предприниматель.