Не полагайтесь на искусственный интеллект если у вас нет глубокого понимания процесса.
Рэй Далио В «Инфосистемах Джет» мы внедряем машинное обучение в самых разных отраслях и на основе своего опыта выделяем необходимые составляющие успешного внедрения:
- постановка задачи, направленной на оптимизацию метрики приоритетов бизнеса;
- команда специалистов по обработке данных, обладающих компетенциями и готовых глубоко погрузиться в технологический процесс;
- данные, соответствующие бизнес-задаче;
- адекватный выбор метода.
Проекты, обладающие всеми вышеперечисленными компонентами, смело можно отнести к разряду прорывных! Для иллюстрации мы сформулировали несколько тезисов, которые можно назвать плохими советами по внедрению машинного обучения в бизнес.
Плохой совет №1: «Цель — просто реализовать ML»
Часто заказчик формулирует задачу как «просто внедрить машинное обучение для некоторой оптимизации», без какой-либо привязки к бизнес-метрикам и приоритезации бизнес-задач.В этом случае мы можем увидеть несколько негативных сценариев.
Например, цели будут меняться по ходу работы, но это значит, что изменится вся предобработка и выбор методов оптимизации, поскольку они напрямую связаны со смыслом цели.
Или дата-сайентист выберет какую-нибудь метрику из машинного обучения, например, auc, и улучшит ее, внесет все хайповые фреймворки и библиотеки, исходя из своего чувства красоты — чтобы улучшить «пятый знак после запятой» в выбранной метрике.
.
В то же время для бизнеса эта работа может оказаться совершенно неважной и не привести к успешной реализации.
Или начнет решаться какая-то мелкая проблема для бизнеса, когда на самом деле рядом гораздо больший потенциал для внедрения машинного обучения.
В результате вы можете столкнуться с негативными последствиями:
- невозможно спрогнозировать сроки и трудозатраты;
- улучшение моделей происходит в отрыве от бизнес-показателей;
- инвестиции были сделаны в незначительную проблему.
Плохой совет №2: «Подойдет любой специалист по данным»
Бытует мнение, что можно взять с рынка любого дата-сайентиста, посадить его изолированно с Excel, и он волшебным образом разберется, что нужно оптимизировать.На наш взгляд, крайне важен менталитет дата-сайентистов, которые занимаются оптимизацией производства.
Это означает, что они должны быть готовы глубоко погрузиться в технологические процессы (например, электролиз алюминия, переработка кислородно-щелочной целлюлозы, доменное производство и т. д.).
Также важна готовность дата-сайентистов ездить в длительные командировки, чтобы лично поговорить с технологами производства и операторами, чтобы понять, как все работает на самом деле.
Без этого, скорее всего, они будут обречены на большое количество бездумных итераций перебора моделей и никогда не дойдут до полезной реализации.
Вредный совет №3: «Работа должна быть лоскутной»
Регулярно встречается идеология организации максимально фрагментированной работы с максимальным разделением труда для минимизации затрат. Например, есть аналитик, который разбирается в технологическом процессе, общается с заказчиками и технологами.Есть дата-инженер — он обрабатывает данные и генерирует фичи.
И, наконец, есть специалист по данным — он просто импортирует sklearn и подгоняет/прогнозирует. Таким образом, работа дата-сайентиста происходит в отрыве от реалий жизни, в предельно лабораторном порядке, и существует высокий риск совершить большое количество ошибок и упустить важные аспекты исходной задачи.
Плохой совет №4: «Не объясняйте специалистам по обработке данных, как собираются данные»
Не всегда очевидно, что ученым, работающим с данными, необходимо понимать, как и где собираются данные.Бывают даже случаи, когда контракты на внедрение ML заключаются без предварительного рассмотрения данных, и в таких условиях есть риск никогда не достичь целевых показателей, описанных в контракте.
При таком подходе неизбежно возникают проблемы как с оценкой качества моделей, так и с возможностью их реального применения.
На выбор методов влияют многие свойства данных: ошибки усреднения данных и измерений, неравномерность выборки примеров, временной лаг в измерениях.
Важно правильно очистить данные от шума в факторах и целях; причины шума могут быть разными: ошибки оцифровки, выбросы, дублирование переменных, ошибки прибора и т. д. Компания должна быть заинтересована в том, чтобы ученые, работающие с данными, досконально понимали природу данных, иначе обработка данных займет много времени и не приведет к успешному моделированию.
Без глубокого понимания специфики процесса сбора и хранения данных можно столкнуться со следующими проблемами:
- предварительная обработка данных займет много времени;
- модель может быть неприменима в реальных условиях;
- условия договора могут оказаться невыполнимыми.
Вредный совет №5: «Сделайте сбор данных сложным и запутанным процессом, чтобы никто не знал, как он работает. После внедрения моделей обязательно внесите изменения в технологический процесс».
Часто параллельно с разработкой и внедрением модели происходят изменения в процессах, влияющие на сбор данных.
Представьте, что необходимо оптимизировать технологический процесс, и после реализации модели некоторые узлы переконфигурируются, и это влияет на сбор данных: признаки «поплывут», изменятся распределения, обучающая выборка перестанет быть репрезентативной.
Конечно, заранее об этом никто не знает. Как результат: модель перестанет работать и все нужно будет переделывать.
Например, в случае с деревьями может возникнуть проблема выхода за пределы домена.
Важно заранее согласовывать с дата-сайентистами все изменения в технологических процессах, чтобы они могли быстро адаптировать модели к новым условиям.
Вредный совет №6: «Усредняйте знаки»
Некоторые виды усреднения приводят к проблемам, например:- задача состоит в том, чтобы спрогнозировать почасовое энергопотребление, но при этом данные об энергопотреблении хранятся только по месяцам – в такой ситуации ничего сделать нельзя, пока не будут накоплены сырые данные;
- усреднение происходит по характеристикам, измеренным в существенно разные моменты времени;
- используются скользящие средние, охватывающие период прогнозирования (что приводит к проблеме утечки данных и искажению модели);
- Хуже всего, когда данные каким-то образом усредняются и этот факт остается неизвестным.
Вредный совет №7: «Не сообщайте дополнительную информацию»
Существует несколько сценариев, когда специалисты по данным запрашивают дополнительные данные:- необходимы дополнительные исходные данные;
- необходимо добавить в набор данных новые признаки.
Например, в проблемах банковского сектора и продуктовых рекомендациях полезно использовать как можно больше социально-демографических характеристик;
- увеличение размера набора данных
- Объем данных ограничен, но его можно расширить историческими данными или создать дополнительные данные, например, в задачах обработки изображений и видео.
Вредный совет №8: «Точность ручной разметки не важна»
Пусть необходимо прогнозировать качество продукции на основе ручной маркировки, т.е.операторы производства вручную фиксируют целевые значения.
Если операторы получают премии за хорошие результаты и наказание за плохие, то:
- цель с высокой вероятностью будет содержать предвзятость;
- в результате обучения это смещение войдет в модель;
- модель не будет предсказывать фактическое распределение целевой переменной.
Толока), где эксперты вознаграждаются за разметку данных.
В этом случае необходимо тщательно проверить полученную разметку.
Для этого существует ряд подходов:
- Перекрытие: маркировку производят несколько независимых экспертов;
- Золотой набор: к данным добавляются примеры с ранее известными результатами для оценки точности операторов и их выбора;
- Голосование большинством: алгоритмы выбора вердикта на основе отметок в перекрытии.
Вредный совет №9: «Используйте то, что модно»
Читайте популярные статьи и требуйте, чтобы решение проблемы было основано на модном методе.Сегодня data science — модная область, публикуется множество статей, почти каждый день проводятся конференции, создается все большее количество методов.
Однако это не означает, что произвольный популярный метод оптимален для промышленных задач.
Обычно нет необходимости использовать LSTM для решения задачи оптимизации производства железа, а также нет необходимости использовать RL для небольших наборов маркетинговых или горнодобывающих данных.
В таких задачах разумно начать с традиционных методов (например, градиентного бустинга), в которых убедить клиентов бывает довольно сложно.
Модные методы машинного обучения не всегда подходят для промышленных задач и часто дороги в реализации.
Мораль
Приведенный выше набор советов не является исчерпывающим, но все они регулярно встречаются на практике.При таком подходе велика вероятность убедиться в том, что ML в отрасли не работает и является просто пустой тратой денег.
Подводя итог, можно констатировать, что по-настоящему прорывными кейсами являются ML-проекты, которые были реализованы в срок и стабильно приносят бизнесу измеримую прибыль.
Для достижения этого важны компетенции анализа данных и машинного обучения, а также условия, когда специалисты по обработке данных хорошо понимают всю картину бизнес-задачи.
Автор: Ирина Пименова, руководитель отдела интеллектуального анализа ООО «Инфосистемы Джет» Теги: #Машинное обучение #наука о данных #анализ данных
-
Счастливые Таблетки
19 Oct, 24 -
Html5 Будет Готов К 2014 Году, Что Дальше?
19 Oct, 24 -
Настройте Его: Настройте Телефоны Snom
19 Oct, 24