Яндекс.перевод Офлайн. Как Компьютеры Научились Хорошо Переводить

Выпущено сегодня в App Store. обновленное приложение Яндекс.

Перевод для iOS. Теперь у него есть возможность переводить полный текст в автономном режиме.

Машинный перевод превратился из мэйнфреймов, занимавших целые комнаты и этажи, в мобильные устройства, которые помещаются в кармане.

Сегодня полнотекстовый статистический машинный перевод, ранее требовавший огромных ресурсов, стал доступен любому пользователю мобильного устройства – даже без подключения к сети.

Люди мечтали о "вабельская рыба" – универсальный компактный переводчик, который вы всегда можете взять с собой.

И кажется, эта мечта постепенно начинает сбываться.

Мы решили воспользоваться случаем, чтобы подготовить небольшой экскурс в историю машинного перевода и рассказать о том, как развивалось это интересное направление на стыке лингвистики, математики и информатики.



Яндекс.
</p><p>
Перевод офлайн.
</p><p>
 Как компьютеры научились хорошо переводить

«Все делает машина», «Электронный мозг переводит с русского на английский», «Двуязычный робот» — такими газетными заголовками увидели читатели ликующей прессы 8 января 1954 года.

А днем раньше, 7 января, научный компьютер IBM 701 принял участие в знаменитом Джорджтаунский эксперимент , переведя около шестидесяти русских фраз на английский язык.

«Семьсот один» использовал словарь из 250 слов и шесть синтаксических правил.

И, конечно же, очень тщательно отобранный набор предложений, на котором проводилось тестирование.

Получилось настолько убедительно, что восторженные журналисты со ссылками на ученых заявили, что через несколько лет машинный перевод практически полностью заменит классический «ручной» перевод. Джорджтаунский эксперимент был одним из первых шагов в развитии машинного перевода (и одним из первых применений ЭVM для работы с естественным языком).

В то время многие проблемы, с которыми предстояло столкнуться в будущем, еще не были столь очевидны.

Однако главной проблемой, как ни странно, было то, что было очевидно с самого начала — компьютеру труднее всего было работать с многозначными словами.

На более-менее естественных предложениях система практически полностью переставала справляться с задачей.

Сложная многокомпонентная структура таких систем тоже создавала проблемы: например, не всегда корректно работал парсинг, а сложное слово «гитара медиатор» можно было перевести как «медиатор гитары».

Плохо переводились и многозначные слова, значение которых зависело от контекста.

Например, текст «Маленький Джон искал свою коробку с игрушками.

Наконец он нашел его.

«Коробка была в загоне» вызывала (и продолжает вызывать) немало затруднений – и словосочетание «toy box», переводимое как «коробка для игрушек», и не «коробка для игрушек», а «в загоне», что переводилось как «в загоне», а не «в манеже».

Трудности были огромными, и в результате за 12 лет сдвинуться с мертвой точки было практически невозможно.

В 1966 году разгромный отчет. АЛЬПАК (Консультативный комитет по автоматической языковой обработке) положил конец исследованиям в области машинного перевода на следующие десять лет.

Яндекс.
</p><p>
Перевод офлайн.
</p><p>
 Как компьютеры научились хорошо переводить

В то время как настроения после Джорджтаунского эксперимента были еще очень радужными и машинному переводу предрекали большое будущее, американцы начали всерьез задумываться об использовании новой технологии в стратегических целях.

В полной мере это было реализовано в СССР.

В начале 1955 года АН СССР создало две исследовательские группы — в Математическом институте имени В.

А.

Стеклова (группу возглавил выдающийся математик и кибернетик Алексей Ляпунов) и в Институте точной механики и информатики АН СССР.

наук (его возглавил математик Д.

Ю.

Панов).

Обе группы начали с детального изучения Джорджтаунского эксперимента, и уже в 1956 году Панов опубликовал брошюру, в которой изложил результаты первых экспериментов по машинному переводу, проведенных на компьютере BCM. Также в 1956 году появилась публикация о подобных исследованиях в институте.

Стеклова Ольги Кулагиной и Игоря Мельчука, которая была опубликована в сентябрьском номере журнала «Вопросы языкознания».

«Эта публикация сопровождалась различными вступительными статьями, и тут-то обнаружилось нечто интересное: выяснилось, что в 1933 году в Академию естествознания СССР обратился некий Петр Петрович Троянский, эсперантист и один из соавторов Б.

С.

наук с проектом машинного переводчика и просьбой обсудить этот вопрос с лингвистами Академии.

Ученые отнеслись к идее скептически: дискуссии вокруг проекта продолжались одиннадцать лет, после чего контакт с Троянским внезапно был потерян, а сам он якобы покинул Москву.

Эта историческая находка удивила исследователей; начались исследования.

Удалось найти авторское свидетельство Троянского на «механизированный словарь», позволяющий быстро переводить тексты на несколько языков одновременно.

После очередного пленума, на котором Ляпунов зачитал доклад об этом изобретении, Академия наук создала специальную комиссию для изучения вклада Троянского.

Прошло несколько лет и, наконец, в 1959 году появилась статья «П.

Машина-переводчик П.

Троянского: сборник материалов о машине для перевода с одного языка на другой, предложенной П.

П.

Троянским в 1933 году».

И.

К.

Бельская и Д.

Ю.

Панов.

Вскоре было опубликовано авторское свидетельство, из которого было видно весьма оригинальное технологическое решение устройства.



Яндекс.
</p><p>
Перевод офлайн.
</p><p>
 Как компьютеры научились хорошо переводить

В проекте машина Троянского представляла собой стол с наклонной поверхностью, перед которым устанавливалась камера, совмещенная с пишущей машинкой.

Клавиатура пишущей машинки состояла из обычных клавиш, позволявших кодировать морфологическую и грамматическую информацию.

Ленту пишущей машинки и фотопленку нужно было соединить вместе и подавать синхронно.

На самой поверхности стола должно было находиться так называемое «глоссарное поле» — свободно перемещающаяся пластинка с напечатанными на ней словами.

Каждое из слов сопровождалось переводами на три, четыре и более языков.

Все слова нужно было дать в исходном виде и расположить на доске так, чтобы наиболее часто употребляемые слова находились ближе к центру — как буквы на клавиатуре.

Оператору станка приходилось выдвигать глоссарий и фотографировать слово и его переводы, одновременно печатая на пишущей машинке грамматическую и морфологическую информацию, связанную со словом.

В результате получились две ленты: одна со словами сразу на нескольких языках, а вторая с грамматическими пояснениями к ним.

Когда таким образом был набран весь исходный текст, материал попадал к носителям языка — аудиторам, которые должны были сравнить две ленты и составить из них тексты на своих языках.

Далее материалы нужно было передать редакторам, владеющим обоими языками.

Их задачей было привести текст к литературной форме.



Яндекс.
</p><p>
Перевод офлайн.
</p><p>
 Как компьютеры научились хорошо переводить

Основная идея изобретения состоит в том, чтобы разделить процесс перевода на три основных этапа (кстати, первый и последний в современной терминологии назвали бы «предредактирование» и «постредактирование»).

Интересно, что самые трудоемкие процессы (кодирование исходного текста и синтез на основе этой информации текстов на других языках) требуют от операторов лишь знания родного языка.

Таким образом, перевод осуществлялся сначала между естественным языком и его логической формой, затем между логическими формами двух языков, а после этого текст в логической форме целевого языка проверялся и приводился к естественной форме.

Троянский, как историк науки, несомненно, знал о теориях Лейбница и Декарта о создании универсального языка и переводе посредством интерлингва.

Предложенная им технология показывает влияние этих теорий.

Более того, Троянский был эсперантистом и построил систему кодирования грамматической информации на основе грамматики Сперанто (от которой позже был вынужден отказаться по политическим причинам).

Что особенно интересно, уже в сороковых годах Троянский рассматривал перспективы создания «мощного устройства перевода, основанного на современных коммуникационных технологиях».

Однако при жизни идеи изобретателя были встречены академическим сообществом с большим скептицизмом и впоследствии были преданы забвению.

Троянский умер в 1950 году, незадолго до начала работ по машинному переводу в Советском Союзе.

Английский исследователь машинного перевода Джон Хатчинс считает, что если бы вклад Троянского не был забыт, принципы его машины-переводчика легли бы в основу первых экспериментов по BCM, и это поставило бы изобретателя в ряд «отцов» машинного перевода с Уорреном Уивером.

Но, к сожалению, в истории нет сослагательного наклонения.

Перенесемся на сорок лет вперед, в восьмидесятые годы.

После ALPAC ни у кого, кроме самых отчаянных энтузиастов, не было серьезного желания заниматься машинным переводом.

Однако, как это часто бывает, двигателем прогресса стал бизнес.

В конце шестидесятых годов курс на глобализацию мира был уже очевиден.

Международные компании столкнулись с острой необходимостью поддерживать тесные торговые контакты одновременно с несколькими странами.

В 1980-е годы спрос бизнеса на технологии быстрого перевода документов и новостей возрос: а затем был «открыт» машинный перевод. Европейское экономическое сообщество, будущий Евросоюз, не отставало; в 1976 году эта организация начала активно использовать СИСТРАН – первый в истории коммерческий машинный переводчик.

Впоследствии эта система стала практически обязательным приобретением для любой уважающей себя международной компании: General Motors, Dornier и Aerospatiale. Япония тоже не осталась в стороне: постоянно растущие объемы работы с Западом заставляли крупные японские корпорации осуществлять свои разработки в этой области.

Правда, в большинстве случаев они (как и Систран) представляли собой в той или иной мере вариации правильных систем с их известными «родовыми» травмами – неумением правильно работать с многозначными словами, омонимами и идиоматическими выражениями.

Такие системы были еще и очень дорогими, так как создание словарей требовало работы большого штата профессиональных лингвистов, а также негибкости — адаптация к нужной предметной области, не говоря уже о новом языке, обходилась довольно затратно.

Исследователи по-прежнему предпочитали сосредотачиваться на системах, использующих правила, а также семантический, синтаксический и морфологический анализ.



Яндекс.
</p><p>
Перевод офлайн.
</p><p>
 Как компьютеры научились хорошо переводить

По-настоящему новая эра машинного перевода началась в 1990-х годах.

Исследователи поняли, что естественный язык очень сложно описать формально, и еще труднее применить формальные описания к живому тексту.

Это была слишком сложная и ресурсоемкая задача.

Пришлось искать другие пути.

Как всегда, когда проблема кажется почти непреодолимой, полезно изменить точку зрения.

IBM снова появилась на сцене: одна из ее исследовательских групп разработала систему статистического машинного перевода под названием Candide. Эксперты подошли к проблеме машинного перевода с точки зрения теории информации.

Ключевой идеей стала концепция так называемого шумового канала.

Модель канала ошибок рассматривает текст на языке А как зашифрованный текст на любом другом языке Б.

И задача переводчика — расшифровать этот текст. Приведем забавную иллюстрацию.

Представьте себе англичанина, который изучает французский язык и приезжает во Францию, чтобы практиковать его.

Поезд прибыл в Париж, и нашему герою необходимо найти камеру хранения багажа на вокзале Гар-дю-Нор.

После безуспешных поисков он наконец обращается к случайному прохожему и, заранее обдумав фразу на английском языке, спрашивает его по-французски, знает ли он, где можно найти шкафчик для хранения вещей.

Задуманная английская фраза как бы «искажается» и превращается во фразу на французском языке.

К сожалению, прохожий оказывается англичанином и довольно плохо знает французский.

Он реконструирует смысл фразы, пытаясь восстановить его с помощью своего знания французского языка и приблизительного представления о том, что, скорее всего, имел в виду его собеседник - то есть, проще говоря, он пытается угадать, какую английскую фразу он имел в виду.

Сотрудники IBM работали именно с французским и английским языками: в руках исследовательской группы было огромное количество параллельных документов из обращения канадского правительства.

Исследователи построили свои модели перевода, собрав вероятности всех комбинаций слов определенной длины на двух языках и вероятность того, что каждая из этих комбинаций соответствует комбинации на другом языке.

Далее наиболее вероятный перевод е , скажем, на английский, например, для французской фразы ж можно определить так:

Яндекс.
</p><p>
Перевод офлайн.
</p><p>
 Как компьютеры научились хорошо переводить

Где ? – это все английские фразы в модели.

Подобно тому, как англичанин пытался угадать мысли своего соотечественника, алгоритм пытается найти наиболее часто встречающуюся фразу на английском языке, которая имела бы хоть какое-то отношение к тому, что потенциально могло подразумеваться при произнесении французской фразы.

Этот простой подход оказался наиболее эффективным.

Сотрудники IBM не применяли никаких лингвистических правил, и фактически никто из группы не знал французского языка.

Несмотря на это, Кандид работал, и более того, работал неплохо! Результаты исследования и общий успех системы стали настоящим прорывом в области машинного перевода.

А самое главное, опыт Кандида доказал, что для составления правил перевода не обязательно иметь дорогостоящий штат первоклассных лингвистов.

Развитие Интернета дало доступ к огромному количеству данных, необходимых для создания крупных моделей перевода и языка.

Исследователи сосредоточили усилия на разработке алгоритмов перевода, сборе корпусов параллельных текстов и выравнивании предложений и слов на разных языках.

В то время как статистический машинный перевод находился на стадии промышленного развития и медленно доходил до пользователей Интернета, на рынке онлайн-переводов доминировали системы, основанные на правилах.

Здесь следует отметить, что перевод на основе правил появился задолго до появления Интернета и начал свое продвижение в массы с программ для настольных компьютеров, а чуть позже и портативных (ладонных и карманных) устройств.

Версии для онлайн-пользователей появились только в середине 90-х, и наибольшее распространение получил уже знакомый «Систран».

В 1996 году она стала доступна пользователям Интернета — система позволяла переводить небольшие тексты онлайн.

Вскоре после этого Систран начал использовать поисковую систему AltaVista, запустив сервис BabelFish, который благополучно просуществовал в составе Yahoo до 2012 года.

собственные технологии, но и работал в парадигме машинного перевода, основанной на правилах.

Пионер онлайн-статистического перевода компания Google запустила первую версию сервиса Translate только в 2007 году, но очень быстро завоевала всеобщую популярность.

Теперь сервис предлагает не только перевод более чем на 70 языков, но и множество полезных инструментов, таких как исправление ошибок, дубляж и т. д. Следом за ним выходит не столь популярный, но достаточно мощный и активно развивающийся онлайн-переводчик от Microsoft, предлагающий перевод на более чем 50 языков.

В 2011 году появился Яндекс.

Перевод, который сейчас поддерживает более 40 языков и предлагает разнообразные инструменты для упрощения набора текста и повышения качества перевода.



Яндекс.
</p><p>
Перевод офлайн.
</p><p>
 Как компьютеры научились хорошо переводить

История Яндекс.

Перевода началась летом 2009 года, когда Яндекс начал исследования в области статистического машинного перевода.

Все началось с экспериментов с открытыми статистическими системами перевода, с разработки технологий поиска параллельных документов и создания систем тестирования и оценки качества перевода.

В 2010 году мы начали работу над высокоэффективными алгоритмами перевода и программами построения моделей перевода.

16 марта 2011 года была запущена публичная бета-версия сервиса Яндекс.

Переводчик с двумя языковыми парами: англо-русский и украинско-русский.

В декабре 2012 года появилось мобильное приложение для iPhone, через полгода — версия для Android, а еще через полгода — версия для Windows Phone. Здесь мы возвращаемся к отправной точке истории – появлению офлайн-перевода.

Напомним, что статистический машинный перевод изначально разрабатывался для работы на мощных серверных платформах с неограниченными ресурсами оперативной памяти.

Но не так давно началось движение в обратном направлении — переработка мощных серверных приложений в компактные приложения для смартфонов.

Два года назад приложение Bing Translator для Windows Phone научилось работать без подключения к Интернету, а в 2013 году Google запустила полнотекстовый офлайн-перевод на платформе Android. Яндекс тоже поработал в этом направлении, и теперь в мобильном приложении Яндекс.

Перевод для iOS появилась возможность использовать оффлайн сначала словарь, а теперь и полнотекстовый перевод. То, что раньше требовало пола с мейнфреймом, а затем мощного сервера с десятками гигабайт оперативной памяти, сегодня помещается в кармане или сумочке и работает автономно — без доступа к удаленному серверу.

Такой переводчик будет работать там, где пока нет Интернета – высоко над облаками, в двадцати тысячах лиг под водой и даже в космосе.

Подводя итог, можно сказать, что за последние десятилетия в области машинного перевода был достигнут огромный прогресс.

И, хотя до мгновенного и незаметного для пользователя перевода с любого языка галактики еще очень далеко, тот факт, что за последние несколько десятилетий в этой области был сделан огромный скачок, не подлежит сомнению; Хотелось бы надеяться, что новые поколения систем машинного перевода будут неустанно стремиться к этому.

Теги: #Алгоритмы #Яндекс #история #история #машинный перевод #Яндекс.

перевод

Вместе с данным постом часто просматривают: