Обсуждаем мнение ИТ-сообщества и экспертов отрасли.
Мы также рассмотрим пару проектов, разрабатывающих инструменты для генерации «искусственных» данных.
Один из них представили люди из Агентства национальной безопасности США и Google.
Фото - Фрэнки Чамаки — Unsplash
проблема МО
Для работы некоторых алгоритмов машинного обучения требуются структурированные данные.Например, для решения задач компьютерного зрения предусмотрен проект ImageNet — его база данных содержит более 14 миллионов изображений, разделенных на 22 тысячи категорий.
Работа с таким масштабным набором себя оправдывает. Алгоритмы, которые его используют не правы при опознании объекта по фотографиям лишь в 3,75% случаев.
Для сравнения, у человека этот показатель превышает 5%.
Но невозможно создавать наборы данных типа ImageNet для каждой задачи.
Хотя бы потому, что записи в них помечены (или проверены) вручную.
В то же время реальные данные — например, банковские или медицинские данные — могут быть закрыты и недоступны всем разработчикам и специалистам по обработке данных.
Но даже если такие данные существуют, перед обработкой их необходимо обезличить.
Синтетические данные помогают решить эти трудности.
Они искусственны и созданы компьютером, но выглядят похожими на настоящие.
Кто работает в этой сфере
Многие университеты, IT-компании и стартапы участвуют в проектах в этой сфере.Например, Гретель пишет программное обеспечение формирующий искусственный сбор данных на основе реального набора данных.
Компания основан группа людей из Google, Amazon и Агентства национальной безопасности США (АНБ).
Прежде всего, их Платформа анализирует имеющуюся информацию.
Например, инженеры использованные данные о путешествиях на электросамокатах Uber. Гретель распределяет их по категориям и меткам, а затем анонимизирует их с помощью методов дифференциальная конфиденциальность .
Результатом является «полностью искусственный набор данных».
Разработчики кодируют свое решение опубликовано на GitHub .
Похожий проект реализован в Университете Иллинойса в Урбана-Шампейн.
Инженеры написали библиотеку Python, которая может генерировать синтетические данные для структурированных форматов CSV, TSV и полуструктурированных JSON, Parquet и Avro. В первом случае эксперты использовали генеративно-состязательные сети , а во втором - рекуррентные нейронные сети .
Насколько эффективны синтетические данные?
Они позволяют ученым и разработчикам данных обучать модели для проектов в областях, где большие данные еще не существуют. К слова По мнению Алекса Уотсона, одного из основателей Gretel, во многих случаях достаточно значений, которые просто выглядят как реальные пользовательские ценности.
По оценкам Gartner, к 2022 году 40% моделей машинного обучения будут обучены на синтетических наборах данных.Глава компании Haze, занимающейся разработкой систем искусственного интеллекта, связанный распространение технологии с ее «гибкостью».
Искусственную информацию легче дополнять и модифицировать, чтобы повысить эффективность модели обучения.
Также существует ряд задач, связанных с компьютерным зрением, где сложно использовать что-либо кроме синтетического набора данных — например, в робототехнике.
При проектировании промышленных роботов и беспилотных автомобилей используется обучение с подкреплением ( обучение с подкреплением ).
В этом случае система искусственного интеллекта учится, напрямую взаимодействуя с некоторой средой.
В зависимости от реакции этой среды робот корректирует свои действия.
Но дрон не может выйти на улицу и методом проб и ошибок определить, что «прижимать» пешеходов невозможно.
Поэтому инженеры прибегают к синтетическим данным — моделируют окружающую среду в виртуальном пространстве.
Например, решение для таких экспериментов предложения Нвидиа.
Также проводились исследования по машинному обучению с использованием игровой движок Grand Theft Auto V .
Фото - Андреа Анг — Unsplash
Несмотря на все преимущества искусственных данных, у них есть свои недостатки.
Они которые считаются менее точны – даже если они созданы на основе реальных данных – и могут привести к моделям, которые генерируют результаты, которые правдоподобны, но не воспроизводимы в реальном мире.
Однако один из резидентов Hacker News в тематической ветке примечания что это не такая уж большая проблема.
Искусственные данные можно использовать для проверки алгоритмов интеллектуальной системы.
Еще один пользователь Hacker News говорит что такие технологии усложняют процесс обучения моделей и увеличивают стоимость разработки.
Его слова подтвержденный специалист из Университета Иллинойса – разница может достигать 50%.
В любом случае синтетические наборы данных нельзя считать «серебряной пулей».
Это всего лишь инструмент, который может помочь решить определенный круг задач.
Но вполне возможно, что со временем этот спектр будет быстро расширяться.
О чем мы пишем в нашем корпоративном блоге:Теги: #Машинное обучение #Алгоритмы #программирование #Большие данные #Анализ и проектирование систем #работа с данными #синтетические данные #1сloud
Компьютер, который отказывается умирать
«Замести следы и уйди на выходные»: как отстраниться от большинства популярных сервисов
Какие инструменты помогут вам соблюдать GDPR?
«Почти анархия»: краткая история Фидонета — проекта, который «не заботится» о победе в Интернете
-
Преобразование Изображений В Компьютерах
19 Oct, 24 -
Что Делать, Если Заказов Нет
19 Oct, 24 -
Послание В Японию
19 Oct, 24 -
Интеграция Ip-Телефонов С Lync Server
19 Oct, 24