Улучшаем Свой Английский: Изобретая Субтитры Заново



1. Введение

Улучшаем свой английский: изобретая субтитры заново

— Татьяна Леонидовна, а можно посмотреть этот фильм с субтитрами? - Нет, юные дятлы, мы тренируем ваше слуховое восприятие, поэтому фильм вы будете смотреть без них! С субтитрами вы будете только читать текст, а не слушать.

— Татьяна Леонидовна, но без субтитров мы больше половины не понимаем! - Но это твоя проблема.

Начало 2000-х, диалог с учителем французской спецшколы, Санкт-Петербург.



2. В чем дело?

Сериалы и фильмы — отличный способ улучшить английский.

Вы уже знаете грамматику и имеете большой словарный запас.

Поддерживать свободную беседу с носителем языка рано, а отрабатывать тесты и упражнения уже скучно.

Вы начинаете смотреть фильмы и сериалы.

Вы посмотрите на себя и увидите.

Вроде все ясно и понятно, но тут начинается быстрый диалог двух персонажей, из которого понимаешь только предлоги.

Хорошо, включаем саб.

И они решают проблему — начинаешь понимать, что происходит. Однако после просмотра нескольких покорных видео люди часто замечают две вещи.

  • Вместо тренировки понимания на слух ты станешь мастером скорочтения сабы на иностранном языке.

    Теперь вы быстро понимаете фразу, просто взглянув на нее, но слуховое восприятие прогрессирует лишь незначительно.

    Выключив отображение сабов, вы снова перестаете понимать, что происходит в некоторых сценах на экране.

    Школьная учительница Татьяна Леонидовна была права, когда запретила нам смотреть французские фильмы с субтитрами – «юные дятлы» действительно не прогрессировали в понимании на слух и языковом мышлении.

  • Некоторый отдельные фрагменты фильма остаются совершенно непонятными потому что они содержат трудные слова.

    "Я не могу подвергать опасности успех моей компании»? Простите, что? Поставить под угрозу? .

    Окей, Google, я поставлю фильм на паузу, а ты скажешь мне, что это значит. Есть ребята, которые предлагают смотреть фильмы с субтитрами сразу на двух языках – английском и русском.

    Что быстро делает вас абсолютным чемпионом по быстрому чтению сабов на двух языках, но мало способствует слуховому восприятию и развитию языкового мышления.

Без сабов ничего не понять, а с сабами прогресс в слуховом восприятии тормозится и.

всё равно может быть непонятно.



3. Что теперь?



Улучшаем свой английский: изобретая субтитры заново

На этом скриншоте из Южного парка показано 7 слов.

6 из них знакомы практически всем изучающим английский язык.

И их можно узнать и понять, даже если они произнесены быстро и с акцентом.

Остается одно слово, с которым (с большой вероятностью) возникнут проблемы.

Слово утомленный - устал, устал.

  • Это слово встречается не так часто.

    Есть большая вероятность, что вы не узнаете его на слух.

  • Было бы неплохо показать перевод прямо на экране.

    В противном случае вам придется либо отвлекаться и переводить со словарем, либо просто опустить руки и искать дальше.

А остальные слова можно выкинуть.

Они знакомы практически каждому и их вообще не нужно показывать на экране.

Если применить эту логику к остальным сценам, то мы получим сабы, в которых фигурируют только сложные слова, а остальное нам придется слушать и понимать.

Как оказалось, эта идея вовсе не нова.

Быстрый поиск в Google показал, что по крайней мере несколько блоггеров написали статьи с похожей идеей, но предложили выполнить адаптацию субтитров вручную.

А мы, гики, будем делать автоматическую адаптацию сабов программно!

4. Сборка велосипеда

Задача сводится к поиску в тексте сложных слов, требующих перевода.

Основная идея в том, что вы можете проанализировать оооочень много текстов на английском языке, посчитать статистику употребления слов и понять, что некоторые слова используются гораздо реже, чем другие.

Это редкие слова и подпадают под понятие «сложное слово» — они встречаются редко, поэтому их перевод и написание вы не знаете.

Все это я уже делал в качестве хобби после работы (кстати, вот статья о том, как все началось).

Все это привело к созданию проекта Бамбуковый ниндзя , который позволяет анализировать книги на английском языке, находить в них сложные слова, вставлять переводы и собирать книгу воедино.

Субтитры тоже являются текстом, поэтому я возьму оттуда работу и применю ее к субтитрам.

Открываем сабы, разбиваем их на части, затем на отдельные слова и начинаем анализ.

Для каждого слова нам нужно решить задачу двоичной классификации — пропустить слово через алгоритм, который вернет на выходе 1 или 0 — независимо от того, легко ли это слово для изучающего английский язык или сложно.

Классификатор принимает решение на основании статистических данных, полученных в результате анализа ~40 ГБ текстовых данных из разных источников (вообще, стоило собрать данные из самых разных источников: потрошить логи чатов, новости, тексты песен.

Но мне было лень).

и использовал в основном книжные тексты, Но об этом позже).

Затем происходит определенная работа с базой данных, написание кода, и вы получаете сабвуферы, которые выглядят примерно так

Улучшаем свой английский: изобретая субтитры заново



5. Катаемся на собранном велосипеде

Я прогнал через программу 3-4 десятка сабов и оценил значения метрик, которые выдавал анализатор.

Я пробовал смотреть фильмы на том, что у меня есть.

Я показывал его друзьям, знакомым и посетителям сайта.

Для оценки результатов я использовал две классические метрики для задач машинного обучения:

  • Точность (точность) – умение правильно классифицировать слово
  • Полнота (напомнить) - возможность найти все слова, требующие перевода
Оказалось, что значения метрик имеют свойство прыгать от фильма к фильму.

На некоторых пленках полнота и точность показали 85%-90% от желаемого значения, а на других - в районе 55%.

Покопавшись в проблеме, я нашел причину — большую часть данных для статистического анализа я собрал из художественных книг за последние 300 лет, и некоторые слова в них встречаются чаще, чем в современном английском языке.

Например, слово штык (штык) в те времена был гораздо более распространен, чем сейчас, но наш классификатор считает это слово не таким уж редким.

Хотя Колин, мой друг из Британии, долго смеялся и говорил, что выражение «мой мясной штык» ( говяжий штык ) сейчас очень распространено среди военных, но мы не будем рассматривать этот случай.

Я решил откатиться к старой версии классификатора, которой пользовался несколько месяцев назад. Он был построен еще летом с использованием всего 500 больших книг, но книги в этой подборке были более разнообразными: «Гарри Поттер», «Песнь льда и пламени», техническая документация для программистов, книги по психологии, медицине и многое другое.

Классификатор с меньшим, но более разнообразным объемом данных оказался на порядок лучше классификатора, построенного только на английской художественной литературе.

Алгоритм распознавания слов допускал ошибки гораздо реже.

Полученный результат в целом соответствует цели, но алгоритм все равно выдает сабы, подходящие для человека с солидным опытом использования английского языка.

Вам необходимо обладать определенным навыком распознавания речи на слух и ощутимым словарным запасом в несколько тысяч основных слов.

В этом случае сабы помогут улучшить ваш английский.

Я зарегистрировал все свои эксперименты как сервис и прикрепил их к своему хобби-сайт и добавил это туда небольшая библиотека сабов для тех, кто хочет протестировать эту штуку не отходя от кассы.



6. Аутро

Сделать просмотр сериалов учебным процессом вместо скучного чтения с экрана кажется стоящей задачей.

А улучшение алгоритма позволит вам провести еще много вечеров с пользой.

Спасибо всем! Хорошие фильмы и успех на английском языке.

Теги: #иностранные языки #английский #изучение иностранных языков #изучение иностранных языков #изучение английского #субтитры #кино #ракетный топливный велосипед #занимаюсь пиаром

Вместе с данным постом часто просматривают:

Автор Статьи


Зарегистрирован: 2019-12-10 15:07:06
Баллов опыта: 0
Всего постов на сайте: 0
Всего комментарий на сайте: 0
Dima Manisha

Dima Manisha

Эксперт Wmlog. Профессиональный веб-мастер, SEO-специалист, дизайнер, маркетолог и интернет-предприниматель.