5 Подходов К Маркировке Данных Для Проектов Машинного Обучения

Когда мы обновили наш курс в конце прошлого года Глубокое обучение Чтобы сделать его более наглядным и ориентированным на случаи из реальной бизнес-практики, мы включили новый модуль для разметки данных на крауд-платформе Яндекс.

Толока.

Но поскольку краудсорсинг — не единственный способ разметки, мы подготовили для новых участников курса перевод этой статьи из блога Lionbridge с обзором основных подходов к разметке данных.

Надеемся, что оно будет полезно и вам.

Качество проекта машинного обучения напрямую зависит от того, как вы подойдете к решению 3 основных задач: сбор данных, предварительная обработка и маркировка.

Маркировка обычно представляет собой сложный процесс, занимающий много времени.

Например, для систем распознавания изображений часто необходимо рисовать ограничивающие рамки вокруг объектов, а для работы с системами товарных рекомендаций и системами анализа эмоциональной окраски высказываний может потребоваться знание культурного контекста.

Не забывайте, что массив данных может содержать десятки и более тысяч образцов, требующих маркировки.

Таким образом, подход к созданию проекта машинного обучения будет зависеть от сложности задачи, масштаба проекта и графика его реализации.

Принимая во внимание эти факторы, мы выделили 5 основных подходов к маркировке данных и привели аргументы за и против каждого из них.

Различные способы маркировки данных для машинного обучения можно разделить на следующие категории: Внутренние: Как следует из названия, мы говорим о маркировке данных нашей собственной командой аналитиков.

У такого подхода есть ряд очевидных преимуществ: процесс легко контролировать и можно быть уверенным в точности и качестве работы.

Однако этот метод, скорее всего, подойдет только крупным компаниям, имеющим собственный штат аналитиков данных.



5 подходов к маркировке данных для проектов машинного обучения

Аутсорсинг: Это хороший способ в тех случаях, когда необходима команда для разметки данных на определенный период времени.

Разместив объявление на рекрутинговых сайтах или в своих социальных сетях, вы сможете сформировать базу потенциальных исполнителей.

Далее путем собеседований и тестирования будут выявлены те, кто обладает необходимыми навыками.

Это отличный вариант для формирования временной команды, но здесь вам нужно будет все тщательно спланировать и организовать; Новых сотрудников необходимо будет обучить выполнять работу в соответствии с вашими требованиями.

Кроме того, если у вас еще нет инструмента маркировки данных, вам необходимо его приобрести.

Краудсорсинг: Краудсорсинговые платформы — это способ решить одну единственную задачу с помощью большого количества исполнителей.

Поскольку на краудплатформах много исполнителей из разных стран и их можно фильтровать по уровню, то набрать команду там можно довольно быстро и сравнительно недорого.

Но стоит учитывать, что краудсорсинговые платформы довольно сильно различаются как по уровню квалификации исполнителей, так и по возможностям контроля качества и управления проектами.

Поэтому при выборе краудсорсинговой платформы нужно сразу просчитать все эти параметры.

Синтетический метод: Синтетическая разметка включает в себя создание или генерацию новых данных, содержащих атрибуты, необходимые вашему проекту.

Одним из способов синтетической маркировки является использование генеративно-состязательной сети (GAN).

GAN использует две нейронные сети (генератор и дискриминатор), которые конкурируют за создание ложных данных и распознают различия между реальными и ложными данными.

В результате вы получаете весьма реалистичные новые данные.

GAN и другие методы синтетического тегирования позволяют получать совершенно новые данные из существующих массивов.

Этот метод очень эффективен по времени и отлично подходит для получения высококачественных данных.

Однако в настоящее время методы синтетической разметки требуют больших вычислительных мощностей, что делает их очень дорогими.

«Программный метод»: предполагает использование скриптов для автоматической разметки данных.

Этот процесс позволяет автоматизировать задачи, в том числе разметку изображений и текстов, что позволяет существенно сократить количество работников.

Кроме того, компьютерная программа не будет делать перерывов на отдых, а значит, вы сможете получить результат гораздо быстрее.

Однако этот метод еще далек от совершенства, и при программной маркировке часто требуется группа контроля качества, которая будет следить за правильностью маркировки данных по ходу работы.



5 подходов к маркировке данных для проектов машинного обучения

В этой таблице мы приводим визуальное сравнение вышеуказанных методов:

Преимущества Недостатки
Внутренний Контроль над процессом Высокое качество Предсказуемый результат Большие временные затраты
Аутсорсинг Возможность собрать команду под конкретную задачу Время учиться Планирование, организация процессов
Краудсорсинг Масштабируемость Глобальные задачи Скорость Стоимость работы Трудно контролировать качество Ресурсы необходимы для сбора данных о платформе.

Компании по обработке данных Высокое качество Масштабируемость Глобальные задачи Скорость Высокая цена
Синтез и расширение Ээкономия времени Можно собрать множество обучающих данных Требуется высокая вычислительная мощность
Программный метод Автоматизация Скорость Низкий уровень качества
Каждый метод разметки имеет свои сильные и слабые стороны.

Выбор лучшего метода зависит от ряда факторов: сложности варианта использования, набора обучающих данных, размера вашей компании и аналитической команды, вашего бюджета и сроков.

При планировании проекта по маркировке данных обязательно учтите все эти факторы.

------------- Курс Deep Learning 6.0 от Ньюпролаб начался 9 ноября.

Следующий курс — Deep Learning 7.0 — пройдет с 30 марта по 22 апреля 2021 года.

Теги: #Машинное обучение #нейронные сети #Обработка изображений #маркировка данных #школа глубокого обучения #лаборатория новых профессий

Вместе с данным постом часто просматривают:

Автор Статьи


Зарегистрирован: 2019-12-10 15:07:06
Баллов опыта: 0
Всего постов на сайте: 0
Всего комментарий на сайте: 0
Dima Manisha

Dima Manisha

Эксперт Wmlog. Профессиональный веб-мастер, SEO-специалист, дизайнер, маркетолог и интернет-предприниматель.