Когда мы обновили наш курс в конце прошлого года Глубокое обучение Чтобы сделать его более наглядным и ориентированным на случаи из реальной бизнес-практики, мы включили новый модуль для разметки данных на крауд-платформе Яндекс.
Толока.
Но поскольку краудсорсинг — не единственный способ разметки, мы подготовили для новых участников курса перевод этой статьи из блога Lionbridge с обзором основных подходов к разметке данных.
Надеемся, что оно будет полезно и вам.
Качество проекта машинного обучения напрямую зависит от того, как вы подойдете к решению 3 основных задач: сбор данных, предварительная обработка и маркировка.
Маркировка обычно представляет собой сложный процесс, занимающий много времени.
Например, для систем распознавания изображений часто необходимо рисовать ограничивающие рамки вокруг объектов, а для работы с системами товарных рекомендаций и системами анализа эмоциональной окраски высказываний может потребоваться знание культурного контекста.
Не забывайте, что массив данных может содержать десятки и более тысяч образцов, требующих маркировки.
Таким образом, подход к созданию проекта машинного обучения будет зависеть от сложности задачи, масштаба проекта и графика его реализации.
Принимая во внимание эти факторы, мы выделили 5 основных подходов к маркировке данных и привели аргументы за и против каждого из них.
Различные способы маркировки данных для машинного обучения можно разделить на следующие категории: Внутренние: Как следует из названия, мы говорим о маркировке данных нашей собственной командой аналитиков.
У такого подхода есть ряд очевидных преимуществ: процесс легко контролировать и можно быть уверенным в точности и качестве работы.
Однако этот метод, скорее всего, подойдет только крупным компаниям, имеющим собственный штат аналитиков данных.
Аутсорсинг: Это хороший способ в тех случаях, когда необходима команда для разметки данных на определенный период времени.
Разместив объявление на рекрутинговых сайтах или в своих социальных сетях, вы сможете сформировать базу потенциальных исполнителей.
Далее путем собеседований и тестирования будут выявлены те, кто обладает необходимыми навыками.
Это отличный вариант для формирования временной команды, но здесь вам нужно будет все тщательно спланировать и организовать; Новых сотрудников необходимо будет обучить выполнять работу в соответствии с вашими требованиями.
Кроме того, если у вас еще нет инструмента маркировки данных, вам необходимо его приобрести.
Краудсорсинг: Краудсорсинговые платформы — это способ решить одну единственную задачу с помощью большого количества исполнителей.
Поскольку на краудплатформах много исполнителей из разных стран и их можно фильтровать по уровню, то набрать команду там можно довольно быстро и сравнительно недорого.
Но стоит учитывать, что краудсорсинговые платформы довольно сильно различаются как по уровню квалификации исполнителей, так и по возможностям контроля качества и управления проектами.
Поэтому при выборе краудсорсинговой платформы нужно сразу просчитать все эти параметры.
Синтетический метод: Синтетическая разметка включает в себя создание или генерацию новых данных, содержащих атрибуты, необходимые вашему проекту.
Одним из способов синтетической маркировки является использование генеративно-состязательной сети (GAN).
GAN использует две нейронные сети (генератор и дискриминатор), которые конкурируют за создание ложных данных и распознают различия между реальными и ложными данными.
В результате вы получаете весьма реалистичные новые данные.
GAN и другие методы синтетического тегирования позволяют получать совершенно новые данные из существующих массивов.
Этот метод очень эффективен по времени и отлично подходит для получения высококачественных данных.
Однако в настоящее время методы синтетической разметки требуют больших вычислительных мощностей, что делает их очень дорогими.
«Программный метод»: предполагает использование скриптов для автоматической разметки данных.
Этот процесс позволяет автоматизировать задачи, в том числе разметку изображений и текстов, что позволяет существенно сократить количество работников.
Кроме того, компьютерная программа не будет делать перерывов на отдых, а значит, вы сможете получить результат гораздо быстрее.
Однако этот метод еще далек от совершенства, и при программной маркировке часто требуется группа контроля качества, которая будет следить за правильностью маркировки данных по ходу работы.
В этой таблице мы приводим визуальное сравнение вышеуказанных методов:
Преимущества | Недостатки | |
Внутренний | Контроль над процессом Высокое качество Предсказуемый результат | Большие временные затраты |
Аутсорсинг | Возможность собрать команду под конкретную задачу | Время учиться Планирование, организация процессов |
Краудсорсинг | Масштабируемость Глобальные задачи Скорость Стоимость работы | Трудно контролировать качество Ресурсы необходимы для сбора данных о платформе.
|
Компании по обработке данных | Высокое качество Масштабируемость Глобальные задачи Скорость | Высокая цена |
Синтез и расширение | Ээкономия времени Можно собрать множество обучающих данных | Требуется высокая вычислительная мощность |
Программный метод | Автоматизация Скорость | Низкий уровень качества |
Выбор лучшего метода зависит от ряда факторов: сложности варианта использования, набора обучающих данных, размера вашей компании и аналитической команды, вашего бюджета и сроков.
При планировании проекта по маркировке данных обязательно учтите все эти факторы.
------------- Курс Deep Learning 6.0 от Ньюпролаб начался 9 ноября.
Следующий курс — Deep Learning 7.0 — пройдет с 30 марта по 22 апреля 2021 года.
Теги: #Машинное обучение #нейронные сети #Обработка изображений #маркировка данных #школа глубокого обучения #лаборатория новых профессий
-
Графика И Правописание
19 Oct, 24 -
Кризис – Время Рекламы
19 Oct, 24 -
Создание Поведения Для Yii2
19 Oct, 24