Оглядываясь назад, можно сказать, что развитие технологии распознавания речи было похоже на наблюдение за взрослением ребенка: сначала он распознавал отдельные слова, затем большие словари и, наконец, быстро отвечал на вопросы, как это делает Siri. Слушая Siri с ее слегка элегантным чувством юмора, мы поражаемся тому, как далеко продвинулась индустрия распознавания речи за эти годы.
Давайте посмотрим на прошлые десятилетия, которые позволяли человеку управлять устройствами, используя только голос.
1950 и 1960: Детский разговор
Первые системы распознавания речи могли понимать только числа (учитывая сложность языка, вполне правильно, что инженеры в первую очередь сосредоточились на числах).Bell Laboratories разработала систему «Одри», которая распознавала числа, произносимые в один голос.
Десять лет спустя, в 1962 году, IBM продемонстрировала свое детище — компьютер коробка для обуви ", который понял 16 слов по-английски.
Лаборатории США, Японии, Англии и СССР разработали еще несколько устройств, распознававших отдельные произнесенные звуки, расширив технологию распознавания речи до поддержки четырех гласных и девяти согласных.
Звучали они не очень хорошо, но эти ранние попытки стали впечатляющим началом, особенно если учесть, насколько примитивными были компьютеры того времени.
1970-е: Системы постепенно набирают популярность
Системы распознавания речи добились больших успехов в семидесятые годы благодаря интересу и спонсорству со стороны Министерства обороны США.Их программа исследований понимания речи (SUR) DARPA с 1971 по 1976 год была одной из крупнейших в истории распознавания речи, и, помимо всего прочего, она отвечала за систему «Гарпия» Университета Карнеги-Меллона.
«Гарпия» понимала 1011 слов, что соответствует среднему словарному запасу трехлетнего ребенка.
«Гарпия» стала важной вехой, поскольку она представила более эффективный подход к поиску, названный Поиск луча , «демонстрирующая сеть возможных предложений с конечным числом состояний» ( Чтения в распознавании речи ).
В 1970-е годы также произошло еще несколько вех в развитии этой технологии, таких как основание первой коммерческой компании Threshold Technology, которая представила систему, способную интерпретировать разные голоса.
1980-е: распознавание речи оправдывает прогнозы
В следующее десятилетие благодаря новым подходам и технологиям словарный запас таких систем вырос с нескольких сотен до нескольких тысяч слов и получил возможность распознавать неограниченное количество слов.Одной из причин стал новый статистический метод, более известный как скрытая марковская модель .
Используя образцы слов и звуков, она рассмотрела возможность того, что неизвестные звуки могут быть словами.
Эта база использовалась другими системами еще двадцать лет ( Автоматическое распознавание речиКраткая история развития технологии ).
Благодаря расширенному словарю распознавание речи начало проникать в коммерческие приложения для бизнеса и специализированных отраслей, таких как медицина.
Она даже вошла в дома простых людей в 1987 году в виде куклы.
Кукла Джули из Worlds of Wonder , которые дети могли бы научить узнавать свой голос («Наконец-то кукла, которая тебя понимает»).
Хотя программы распознавания могли распознавать до 5000 слов, такие как программа преобразования текста в речь Курцвейла, у них был огромный недостаток — эти программы поддерживали дискретную диктовку, то есть вам приходилось останавливаться после каждого слова, чтобы программа его обработала.
1990-е: автоматическое распознавание речи становится мейнстримом
В девяностые годы у компьютеров наконец появились быстрые процессоры, и программы распознавания речи стали жизнеспособными.В 1990 году была выпущена первая общедоступная программа Dragon Dictate по ошеломляющей цене в 9000 долларов.
Спустя семь лет вышла улучшенная версия – Дракон ЕстественноГоворящий .
Приложение распознавало обычную речь, поэтому вы могли говорить с нормальной скоростью около 100 слов в минуту.
Но, тем не менее, перед использованием программы приходилось обучать программу в течение 45 минут, а ее цена по-прежнему составляла 695 долларов.
Появление первого голосового портала VAL от BellSouth произошло в 1996 году.
Это была первая интерактивная система распознавания речи, которая предоставляла информацию на основе того, что вы говорите в телефон.
VAL проложил путь ко всем тогдашним неточным голосовым меню, которые будут беспокоить абонентов в течение следующих 15 лет.
2000-е: стагнация в распознавании речи – пока не появился Google
К 2001 году точность распознавания речи выросла до 80 процентов, и развитие технологии застопорилось.Системы распознавания работали нормально, когда языковая вселенная была ограничена, но они все еще «угадывали», используя статистические модели среди похожих слов, поскольку языковая вселенная росла с развитием Интернета.
Знаете ли вы, что распознавание голоса и голосовые команды встроены в Windows Vista и Mac Os? Большинство пользователей понятия не имели, что такая функциональность существует. Распознавание речи Windows и голосовые команды OS X были интересны, но недостаточно точный и удобный, как клавиатура и мышь.
Технология распознавания речи получила второе дыхание после одного важного события: появления приложения Google Voice Search для iPhone. Влияние этого приложения было значительным по двум причинам.
Во-первых, телефоны и другие мобильные устройства являются идеальными объектами для распознавания речи, и желание заменить крошечные экранные клавиатуры альтернативными методами ввода было очень сильным.
Во-вторых, у Google была возможность разгрузить этот процесс, используя свои облачные центры обработки данных, направив все свои силы на крупномасштабный анализ данных, чтобы найти совпадения между словами пользователей и огромным количеством образцов голосовых запросов, которые они получили.
Короче говоря, узким местом в распознавании речи всегда была доступность данных и возможность их эффективной обработки.
Приложение добавило в свой анализ данные миллиардов поисковых запросов, чтобы лучше предсказать, что вы сказали.
В 2010 году Google добавила распознавание личности в голосовой поиск для телефонов Android. Программное обеспечение может записывать голосовые запросы пользователей, чтобы построить более точную голосовую модель.
В середине 2011 года компания также добавила распознавание голоса в свой браузер Chrome. Помните, как мы начали с 10 слов и дошли до нескольких тысяч? Итак, система Google теперь позволяет распознавать 230 миллиардов слов.
Затем появилась Сири.
Как и голосовой поиск Goggle, он основан на облачных вычислениях.
Она использует то, что знает о вас, чтобы генерировать контекстуальный ответ, и отвечает на ваш запрос, как если бы она была человеком.
Распознавание речи превратилось из инструмента в развлечение.
Будущее: точная и повсеместная речь
Бум приложений для распознавания речи указывает на то, что время распознавания речи пришло, и в будущем мы можем ожидать их массу.Эти приложения не только позволят вам управлять компьютером с помощью голоса или преобразовывать голос в текст — они также смогут различать разные языки и позволят выбирать голос помощника из разных вариантов.
Вполне вероятно, что технология распознавания речи перейдет и на другие типы устройств.
Нетрудно представить, как в будущем мы будем управлять кофеварками, разговаривать с принтерами и приказывать выключать свет. Теги: #iphone #искусственный интеллект #Siri #распознавание речи #AI #голосовой поиск Google
-
Морской Бой За 25 Мс
19 Oct, 24