История Развития Систем Распознавания Речи: Как Мы Пришли К Siri

Оглядываясь назад, можно сказать, что развитие технологии распознавания речи было похоже на наблюдение за взрослением ребенка: сначала он распознавал отдельные слова, затем большие словари и, наконец, быстро отвечал на вопросы, как это делает Siri. Слушая Siri с ее слегка элегантным чувством юмора, мы поражаемся тому, как далеко продвинулась индустрия распознавания речи за эти годы.

Давайте посмотрим на прошлые десятилетия, которые позволяли человеку управлять устройствами, используя только голос.



1950 и 1960: Детский разговор

Первые системы распознавания речи могли понимать только числа (учитывая сложность языка, вполне правильно, что инженеры в первую очередь сосредоточились на числах).

Bell Laboratories разработала систему «Одри», которая распознавала числа, произносимые в один голос.

Десять лет спустя, в 1962 году, IBM продемонстрировала свое детище — компьютер коробка для обуви ", который понял 16 слов по-английски.

Лаборатории США, Японии, Англии и СССР разработали еще несколько устройств, распознававших отдельные произнесенные звуки, расширив технологию распознавания речи до поддержки четырех гласных и девяти согласных.

Звучали они не очень хорошо, но эти ранние попытки стали впечатляющим началом, особенно если учесть, насколько примитивными были компьютеры того времени.



1970-е: Системы постепенно набирают популярность

Системы распознавания речи добились больших успехов в семидесятые годы благодаря интересу и спонсорству со стороны Министерства обороны США.

Их программа исследований понимания речи (SUR) DARPA с 1971 по 1976 год была одной из крупнейших в истории распознавания речи, и, помимо всего прочего, она отвечала за систему «Гарпия» Университета Карнеги-Меллона.

«Гарпия» понимала 1011 слов, что соответствует среднему словарному запасу трехлетнего ребенка.

«Гарпия» стала важной вехой, поскольку она представила более эффективный подход к поиску, названный Поиск луча , «демонстрирующая сеть возможных предложений с конечным числом состояний» ( Чтения в распознавании речи ).

В 1970-е годы также произошло еще несколько вех в развитии этой технологии, таких как основание первой коммерческой компании Threshold Technology, которая представила систему, способную интерпретировать разные голоса.



1980-е: распознавание речи оправдывает прогнозы

В следующее десятилетие благодаря новым подходам и технологиям словарный запас таких систем вырос с нескольких сотен до нескольких тысяч слов и получил возможность распознавать неограниченное количество слов.

Одной из причин стал новый статистический метод, более известный как скрытая марковская модель .

Используя образцы слов и звуков, она рассмотрела возможность того, что неизвестные звуки могут быть словами.

Эта база использовалась другими системами еще двадцать лет ( Автоматическое распознавание речиКраткая история развития технологии ).

Благодаря расширенному словарю распознавание речи начало проникать в коммерческие приложения для бизнеса и специализированных отраслей, таких как медицина.

Она даже вошла в дома простых людей в 1987 году в виде куклы.

Кукла Джули из Worlds of Wonder , которые дети могли бы научить узнавать свой голос («Наконец-то кукла, которая тебя понимает»).

Хотя программы распознавания могли распознавать до 5000 слов, такие как программа преобразования текста в речь Курцвейла, у них был огромный недостаток — эти программы поддерживали дискретную диктовку, то есть вам приходилось останавливаться после каждого слова, чтобы программа его обработала.



1990-е: автоматическое распознавание речи становится мейнстримом

В девяностые годы у компьютеров наконец появились быстрые процессоры, и программы распознавания речи стали жизнеспособными.

В 1990 году была выпущена первая общедоступная программа Dragon Dictate по ошеломляющей цене в 9000 долларов.

Спустя семь лет вышла улучшенная версия – Дракон ЕстественноГоворящий .

Приложение распознавало обычную речь, поэтому вы могли говорить с нормальной скоростью около 100 слов в минуту.

Но, тем не менее, перед использованием программы приходилось обучать программу в течение 45 минут, а ее цена по-прежнему составляла 695 долларов.

Появление первого голосового портала VAL от BellSouth произошло в 1996 году.

Это была первая интерактивная система распознавания речи, которая предоставляла информацию на основе того, что вы говорите в телефон.

VAL проложил путь ко всем тогдашним неточным голосовым меню, которые будут беспокоить абонентов в течение следующих 15 лет.

2000-е: стагнация в распознавании речи – пока не появился Google

К 2001 году точность распознавания речи выросла до 80 процентов, и развитие технологии застопорилось.

Системы распознавания работали нормально, когда языковая вселенная была ограничена, но они все еще «угадывали», используя статистические модели среди похожих слов, поскольку языковая вселенная росла с развитием Интернета.

Знаете ли вы, что распознавание голоса и голосовые команды встроены в Windows Vista и Mac Os? Большинство пользователей понятия не имели, что такая функциональность существует. Распознавание речи Windows и голосовые команды OS X были интересны, но недостаточно точный и удобный, как клавиатура и мышь.

Технология распознавания речи получила второе дыхание после одного важного события: появления приложения Google Voice Search для iPhone. Влияние этого приложения было значительным по двум причинам.

Во-первых, телефоны и другие мобильные устройства являются идеальными объектами для распознавания речи, и желание заменить крошечные экранные клавиатуры альтернативными методами ввода было очень сильным.

Во-вторых, у Google была возможность разгрузить этот процесс, используя свои облачные центры обработки данных, направив все свои силы на крупномасштабный анализ данных, чтобы найти совпадения между словами пользователей и огромным количеством образцов голосовых запросов, которые они получили.

Короче говоря, узким местом в распознавании речи всегда была доступность данных и возможность их эффективной обработки.

Приложение добавило в свой анализ данные миллиардов поисковых запросов, чтобы лучше предсказать, что вы сказали.

В 2010 году Google добавила распознавание личности в голосовой поиск для телефонов Android. Программное обеспечение может записывать голосовые запросы пользователей, чтобы построить более точную голосовую модель.

В середине 2011 года компания также добавила распознавание голоса в свой браузер Chrome. Помните, как мы начали с 10 слов и дошли до нескольких тысяч? Итак, система Google теперь позволяет распознавать 230 миллиардов слов.

Затем появилась Сири.

Как и голосовой поиск Goggle, он основан на облачных вычислениях.

Она использует то, что знает о вас, чтобы генерировать контекстуальный ответ, и отвечает на ваш запрос, как если бы она была человеком.

Распознавание речи превратилось из инструмента в развлечение.



Будущее: точная и повсеместная речь

Бум приложений для распознавания речи указывает на то, что время распознавания речи пришло, и в будущем мы можем ожидать их массу.

Эти приложения не только позволят вам управлять компьютером с помощью голоса или преобразовывать голос в текст — они также смогут различать разные языки и позволят выбирать голос помощника из разных вариантов.

Вполне вероятно, что технология распознавания речи перейдет и на другие типы устройств.

Нетрудно представить, как в будущем мы будем управлять кофеварками, разговаривать с принтерами и приказывать выключать свет. Теги: #iphone #искусственный интеллект #Siri #распознавание речи #AI #голосовой поиск Google

Вместе с данным постом часто просматривают:

Автор Статьи


Зарегистрирован: 2019-12-10 15:07:06
Баллов опыта: 0
Всего постов на сайте: 0
Всего комментарий на сайте: 0
Dima Manisha

Dima Manisha

Эксперт Wmlog. Профессиональный веб-мастер, SEO-специалист, дизайнер, маркетолог и интернет-предприниматель.