Как Работает Нейронный Машинный Перевод?



Описание процессов перевода на основе правил, фраз и нейронной трансляции.



Как работает нейронный машинный перевод?

В этом посте нашей пошаговой серии мы объясним, как работает нейронный машинный перевод, и сравним его с другими методами: технологией перевода на основе правил и технологией перевода на основе кадров (PBMT, наиболее популярным подмножеством которых является статистическая машина).

перевод – СМТ).

Результаты исследований, полученные с помощью Neural Machine Translation, удивляют с точки зрения декодирования нейронной сети.

Похоже, что сеть действительно «понимает» предложение, когда переводит его.

В этой статье мы рассмотрим вопрос семантического подхода, который используют нейронные сети для перевода.

Начнем с рассмотрения того, как все три технологии работают на разных этапах процесса перевода, и методы, которые используются в каждом случае.

Далее мы рассмотрим несколько примеров и сравним, как каждая технология обеспечивает наиболее правильный перевод. Очень простой, но все же полезной информацией о процессе любого типа автоматического перевода является следующий треугольник, сформулированный французским исследователем.

Бернар Вокуа (Бернар Вокуа) в 1968 году:

Как работает нейронный машинный перевод?

Этот треугольник показывает процесс преобразования исходного предложения в целевое тремя разными способами.

Левая сторона треугольника характеризует исходный язык, а правая — целевой язык.

Разница уровней внутри треугольника представляет собой глубину процесса анализа исходного предложения, например синтаксического или семантического.

Теперь мы знаем, что не можем выполнять синтаксический или семантический анализ отдельно, но теория состоит в том, что мы можем углубиться в каждую область.

Первая красная стрелка указывает на анализ предложения на языке оригинала.

Из данного нам предложения, представляющего собой просто последовательность слов, мы можем получить представление о внутренней структуре и степени возможной глубины анализа.

Например, на одном уровне мы можем определить части речи каждого слова (существительное, глагол и т. д.), а на другом — определить взаимодействие между ними.

Например, какое слово или фраза является предметом.

Когда анализ завершен, предложение «переносится» вторым процессом с равной или меньшей глубиной анализа на целевой язык.

Затем третий процесс, называемый «генерацией», генерирует фактическое целевое предложение на основе этой интерпретации, то есть создает последовательность слов на целевом языке.

Идея использования треугольника заключается в том, что чем выше (глубже) вы анализируете исходное предложение, тем легче будет фаза перевода.

В конечном итоге, если бы мы могли в ходе этого анализа преобразовать исходный язык в некий универсальный «интерлингвизм», нам вообще не пришлось бы выполнять процедуру перевода.

Все, что вам понадобится, это анализатор и генератор каждого языка для перевода на любой другой язык (прямой перевод прим.

пер.

) Эта общая идея объясняет промежуточные этапы, когда машина шаг за шагом переводит предложения.

Что еще более важно, эта модель описывает характер действий во время перевода.

Проиллюстрируем, как эта идея работает для трех разных технологий, на примере предложения «Умная мышь играет на скрипке» (В предложении, выбранном авторами публикации, есть небольшой подвох, поскольку слово «Smart» в английском языке, кроме того, к самому распространенному значению «умный», по словарю, как прилагательное имеет еще 17 значений, например, «проворный» или «ловкий» прим.

)



Машинный перевод на основе правил

Машинный перевод на основе правил является старейшим подходом и охватывает широкий спектр технологий.

Однако все они обычно базируются на следующих постулатах:

  • Процесс строго следует треугольнику Ваукуа, анализ очень часто переоценивается, а процесс генерации сводится к минимуму;
  • На всех трех этапах перевода используется база данных правил и лексических элементов, к которым эти правила применяются;
  • Правила и лексические элементы четко определены, но могут быть изменены лингвистом.

Например, внутреннее представление нашего предложения может быть таким:

Как работает нейронный машинный перевод?

Здесь мы видим несколько простых уровней анализа:
  • Нацеливание на части речи.

    Каждому слову присвоена своя «часть речи», представляющая собой грамматическую категорию.

  • Морфологический анализ: Слово «играет» признано искажением третьего лица и представляет собой форму глагола «Играть».

  • Семантический анализ: некоторым словам присваивается семантическая категория.

    Например, «Скрипка» — это инструмент.

  • Составной анализ: некоторые слова сгруппированы.

    «Умная мышь» — существительное.

  • Анализ зависимостей: слова и словосочетания связаны «связями», с помощью которых выявляются объект и субъект действия основного глагола «Играет».

При передаче такой конструкции будут соблюдаться следующие правила лексического преобразования:

Как работает нейронный машинный перевод?

Применение этих правил приведет к следующей интерпретации на целевом языке:

Как работает нейронный машинный перевод?

Тогда как правила генерации на французском языке будут выглядеть так:
  • Прилагательное, выраженное этой фразой, следует за существительным – за некоторыми перечисленными исключениями.

  • Модификатор согласуется по числу и роду с изменяемым им существительным.

  • Прилагательное согласуется по числу и роду с существительным, которое оно изменяет.
  • Глагол согласуется с подлежащим.

В идеале этот анализ приведет к созданию следующей версии перевода:

Как работает нейронный машинный перевод?



Машинный перевод на основе фраз

Фразовый машинный перевод — это самая простая и популярная версия статистического машинного перевода.

Сегодня он по-прежнему является основной рабочей лошадкой и используется в крупных онлайн-сервисах перевода.

С технической точки зрения машинный перевод на основе фраз не следует процессу, сформулированному Вокуа.

Этот тип процесса машинного перевода не только не требует анализа или генерации, но, что более важно, это предложение не является детерминированным.

Это означает, что технология может генерировать несколько разных переводов одного и того же предложения из одного и того же источника, и суть подхода заключается в выборе наилучшего варианта.



Как работает нейронный машинный перевод?

Эта модель перевода основана на трех основных методах:

  • Использование фразы-таблицы, дающей варианты перевода и вероятность их употребления в данной последовательности на исходном языке.

  • Таблица переупорядочения, показывающая, как можно переставлять слова при переносе из исходного языка в целевой язык.

  • Языковая модель, показывающая вероятность каждой возможной последовательности слов на целевом языке.

Поэтому на основе исходного предложения будет построена следующая таблица (это упрощенная форма, в действительности вариантов, связанных с каждым словом, было бы намного больше):

Как работает нейронный машинный перевод?

Далее из этой таблицы генерируются тысячи возможных вариантов перевода предложений, например:

Как работает нейронный машинный перевод?

Однако благодаря интеллектуальным вероятностным расчетам и использованию более совершенных алгоритмов поиска будут рассмотрены только наиболее вероятные варианты перевода, а лучший из них будет сохранен как окончательный.

В этом подходе модель целевого языка чрезвычайно важна, и мы можем получить представление о качестве результата, просто выполнив поиск в Интернете:

Как работает нейронный машинный перевод?

Алгоритмы поиска интуитивно предпочитают использовать последовательности слов, которые являются наиболее вероятными переводами исходных с учетом таблицы переупорядочения.

Это позволяет с высокой точностью генерировать правильную последовательность слов на целевом языке.

В этом подходе нет явного или неявного лингвистического или семантического анализа.

Нам предложили много вариантов.

Некоторые из них лучше, другие хуже, но, насколько нам известно, основные сервисы онлайн-переводов используют эту технологию.



Нейронный машинный перевод

Подход к организации нейромашинного перевода кардинально отличается от предыдущего и на основе треугольника Ваукуа его можно описать следующим образом:

Как работает нейронный машинный перевод?

Нейронный машинный перевод имеет следующие особенности:
  • «Анализ» называется кодированием, а его результатом является загадочная последовательность векторов.

  • «Передача» называется декодированием и непосредственно генерирует целевую форму без какой-либо фазы генерации.

    Это не строгое ограничение и могут быть вариации, но так работает базовая технология.

Сам процесс разделен на два этапа.

В первом каждое слово исходного предложения проходит через «кодер», который генерирует то, что мы называем «начальным контекстом», на основе текущего слова и предыдущего контекста:

Как работает нейронный машинный перевод?

Последовательность исходных контекстов (ContextS 1, .

ContextS 5) представляет собой внутреннюю интерпретацию исходного предложения согласно треугольнику Ваукуа и, как упоминалось выше, представляет собой последовательность чисел с плавающей запятой (обычно 1000 чисел с плавающей запятой, связанных с каждым исходное слово).

Мы не будем пока обсуждать, как кодировщик выполняет это преобразование, но хотелось бы отметить, что особенно интересно первоначальное преобразование слов в вектор «float».

На самом деле это технический блок, как и в системе перевода на основе правил, где каждое слово сначала сравнивается со словарем, и первым шагом кодировщика является поиск каждого исходного слова в таблице.

Предположим, вам нужно представить в двухмерном пространстве разные объекты с вариациями формы и цвета.

При этом объекты, расположенные ближе всего друг к другу, должны быть похожими.

Ниже приведен пример:

Как работает нейронный машинный перевод?

Ось X представляет фигуры и туда мы пытаемся разместить объекты другой формы, наиболее близкие по этому параметру (нам нужно будет указать, что делает фигуры похожими, но в случае с данным примером это кажется интуитивно понятным).

Ось Y — это зеленый цвет между желтым и синим.

Если бы наши фигуры имели разные размеры, мы могли бы добавить третий параметр следующим образом:

Как работает нейронный машинный перевод?

Если мы добавим больше цветов или форм, мы также сможем увеличить количество измерений, чтобы любая точка могла представлять разные объекты, а расстояние между ними отражало степень их сходства.

Основная идея заключается в том, что это работает и для размещения слов.

Вместо фигур есть слова, пространство намного больше — например, мы используем 800 измерений, но идея в том, что слова могут быть представлены в этих пространствах с теми же свойствами, что и фигуры.

Следовательно, слова, имеющие общие свойства и характеристики, будут располагаться близко друг к другу.

Например, можно представить, что слова определенной части речи – это одно измерение, слова по роду (если он есть) – другое, может быть признак положительного или отрицательного значения и так далее.

Мы не знаем точно, как формируются эти инвестиции.

В другой статье мы разберем насадки подробнее, но сама идея так же проста, как организация фигур в пространстве.

Вернемся к процессу перевода.

Второй шаг выглядит так:

Как работает нейронный машинный перевод?

На этом этапе формируется полная последовательность с ориентацией на «исходный контекст», после чего одно за другим генерируются целевые слова с помощью:

  • «Целевой контекст», образующийся совместно с предыдущим словом и дающий некоторую информацию о состоянии процесса перевода.

  • Значимость «контекстного источника», который представляет собой смесь различных «исходных контекстов», основана на конкретной модели, называемой «Модель внимания».

    Что это такое, мы рассмотрим в другой статье.

    Короче говоря, модели внимания выбирают исходное слово для использования в переводе на любом этапе процесса.

  • Ранее заданное слово использует встраивание слов для преобразования его в вектор, который будет обработан декодером.

Перевод завершается, когда декодер достигает стадии генерации фактического последнего слова в предложении.

Весь процесс, несомненно, весьма загадочный, и нам понадобится несколько публикаций, чтобы изучить работу его отдельных частей.

Главное помнить, что операции процесса нейромашинного перевода выстроены в той же последовательности, что и в случае машинного перевода на основе правил, но характер операций и обработка объектов совершенно иные.

И начинаются эти различия с преобразования слов в векторы посредством их встраивания в таблицы.

Понимания этого момента достаточно, чтобы понять, что происходит в следующих примерах.



Примеры перевода для сравнения

Давайте рассмотрим несколько примеров перевода и обсудим, как и почему некоторые из предложенных вариантов не работают в разных технологиях.

Мы выбрали несколько многозначных глаголов в английском языке и изучим их перевод на французский язык.



Как работает нейронный машинный перевод?



Как работает нейронный машинный перевод?

Мы видим, что машинный перевод на основе фраз интерпретирует слово «оказание» как значение, за исключением очень идиоматического варианта «оказание помощи».

Это можно легко объяснить.

Выбор значения зависит либо от проверки синтаксического значения структуры предложения, либо от смысловой категории объекта.

При нейронно-машинном переводе мы видим, что слова «помощь» и «содействие» обрабатываются корректно, что показывает некоторое превосходство, а также очевидную способность этого метода получать синтаксические данные на больших расстояниях между словами, что мы и посмотрим.

более подробно в другом посте.



Как работает нейронный машинный перевод?



Как работает нейронный машинный перевод?

Этот пример еще раз показывает, что нейронно-машинный перевод имеет семантические различия с двумя другими методами (в основном они касаются анимации, независимо от того, обозначает ли слово человека или нет).

Однако отметим, что неправильно было переведено слово «патроны», которое в данном контексте означает слово «пуля».

Мы объясним этот тип интерпретации в другой статье, посвященной обучению нейронных сетей.

Что касается перевода, основанного на правилах, то он признает только третий смысл слова «раунды», который относится к ракетам, а не к пулям.



Как работает нейронный машинный перевод?



Как работает нейронный машинный перевод?

Выше приведен еще один интересный пример того, как семантические вариации глагола при нейронном переводе взаимодействуют с объектом в случае однозначного употребления слова, предложенного для перевода (преступление или предназначение).

Другие варианты со словом «преступление» показали тот же результат. Переводчики, работающие на основе слов и фраз, также не допускали ошибок, поскольку использовали одни и те же глаголы, приемлемые в обоих контекстах.

Теги: #перевод #машинный перевод #нейронные сети #нейронный перевод #перевод на основе слов #перевод на основе фраз #Бернар Вокуа #лингвистика #Семантика #Семантика #Алгоритмы #Машинное обучение

Вместе с данным постом часто просматривают: