Перевод Книги Эндрю Нга «Страсть К Машинному Обучению» Глава 33

предыдущие главы



Сравнение с качеством, доступным человеку

33. Зачем сравнивать уровень качества с доступным человеку? Многие системы, использующие машинное обучение, имеют целью автоматизировать задачи, с которыми хорошо справляются люди.

Примеры включают распознавание изображений, распознавание речи и классификацию спама в электронной почте.

Алгоритмы обучения улучшились настолько, что способны превосходить людей во всё большем количестве этих задач.

Кроме того, есть несколько причин, по которым создавать системы машинного обучения проще, если вы пытаетесь использовать их для выполнения задачи, с которой хорошо справляются люди:

  1. Просто разметьте данные с помощью оценщиков.

    Например, поскольку люди хорошо распознают изображения кошек, эксперты могут точно маркировать образцы, необходимые для обучения вашего алгоритма.

  2. Анализ ошибок может опираться на человеческую интуицию.

    Предположим, алгоритм распознавания речи работает хуже, чем человек.

    Например, алгоритм неправильно расшифровывает фрагмент и выдает: «Этот рецепт требует стола из яблок», принимая «пару» за «стол».

    Вы можете использовать интуицию человека и попытаться понять, какую информацию он использует для создания правильной транскрипции, а затем использовать эту информацию для изменения алгоритма обучения.

  3. Вы можете использовать качество решения проблем человеком в качестве ориентира, а также установить «желаемую частоту ошибок».

    Предположим, что качество работы алгоритма при выполнении задачи достигло уровня, соответствующего 10% ошибок, а человек допускает только 2% ошибок.

    Тогда мы знаем, что оптимальная частота ошибок составляет не более 2%, а предотвращаемая погрешность для нашего алгоритма составляет не менее 8%.

    Поэтому нам следует попробовать методы уменьшения предвзятости.

Хотя пункт №3 может показаться неважным, я считаю, что наличие разумной и достижимой цели по устранению ошибок помогает ускорить прогресс команды.

Знание того, что алгоритм имеет большую предвзятость, которой можно избежать, невероятно полезно и предлагает ряд методов, которые стоит попробовать.

Есть задачи, с которыми не может справиться даже человек.

Например, выберите книгу, которую хотите порекомендовать вам; или выбрать рекламу для отображения пользователю на веб-сайте; или прогнозировать ситуацию на фондовом рынке.

Компьютеры уже превосходят большинство людей в решении этих проблем.

В таких приложениях мы сталкиваемся со следующими проблемами:

  • Сложнее получить размеченную выборку для обучения алгоритмов.

    Например, оценщикам сложно разметить базу пользователей с указанием «оптимальной» книги для каждого из них.

    Если у вас есть веб-сайт или приложение, на котором продаются книги, вы можете получать данные с тегами, показывая книги пользователям и отмечая те, которые они покупают. Если вы не пользуетесь таким сайтом, вам придется найти более творческие способы получения данных.

  • Нельзя полагаться на человеческую интуицию.

    Например, почти никто не знает, как предсказать поведение фондового рынка.

    Поэтому, если наш алгоритм прогнозирования цен на акции работает не лучше, чем случайное угадывание, трудно придумать, как его улучшить.

  • Трудно определить, какова оптимальная частота ошибок и какова разумная желаемая частота ошибок.

    Предположим, что существующая система рекомендаций книг работает достаточно хорошо.

    Откуда вам знать, без базового («человеческого») уровня качества и соответствующего процента ошибок, насколько еще его можно улучшить?

продолжение Теги: #Машинное обучение
Вместе с данным постом часто просматривают:

Автор Статьи


Зарегистрирован: 2019-12-10 15:07:06
Баллов опыта: 0
Всего постов на сайте: 0
Всего комментарий на сайте: 0
Dima Manisha

Dima Manisha

Эксперт Wmlog. Профессиональный веб-мастер, SEO-специалист, дизайнер, маркетолог и интернет-предприниматель.