Введение Наука о данных продолжает волновать людей, но фактические результаты часто разочаровывают заинтересованных деловых людей.
Как мы можем снизить риски и обеспечить, чтобы результаты соответствовали ожиданиям? Работа техническим специалистом на стыке исследований и разработок и коммерческой деятельности дала мне представление о проблемах, стоящих на этом пути.
Я излагаю свою личную точку зрения на наиболее распространенные виды неудач и провалов проектов в области информатики.
Полная версия со слайдами и пояснительным текстом доступна здесь.
Слайды также доступны отдельно в PDF-файл .
Также ведется некоторая дискуссия по поводу Хакерские новости .
Сначала несколько слов обо мне: Руководил группами специалистов по теории и методам обработки данных в двух стартапах в Лондоне.
Разработанные продукты используют Time Inc, Staples, John Lewis, Top Shop, Conde Nast, New York Times, Buzzfeed и др.
Этот пост основан на обсуждениях, которые я вел со многими ведущими специалистами по обработке данных за последние несколько лет. Многие компании, похоже, используют общепринятую схему найма команды специалистов по обработке данных только для того, чтобы уволиться или распустить всю команду примерно через 12 месяцев.
Почему так много неудач? Давайте посмотрим на причины.
1. Ваши данные не готовы
Если данные есть в базе данных, то их можно использовать, верно? Но можно считать, что они просто мусор, если раньше ими не пользовались.Очень мудрый консультант по данным сказал мне, что он всегда спрашивает, использовались ли данные раньше в проекте.Проверьте свои данные.
Если нет, он добавляет 6–12 месяцев на работу по очистке данных.
Проверьте детали, прежде чем начать.
Проверьте данные на полноту и загрязненность.
Например, вы можете обнаружить, что база данных содержит различные транзакции, хранящиеся в долларах и иенах без указания валюты.
Это действительно происходит.
2. Мы часто слышим: «Обработка данных — это новая нефть».
Но это неправда.
Данные не являются товаром; их необходимо превратить в какой-то продукт, прежде чем они обретут какую-либо ценность.
Многие люди, с которыми я разговаривал, рассказывали мне о проектах, которые были запущены без какого-либо представления о том, кто будет их пользователями или как использовать их «ценные данные».
Ответ приходил, как правило, слишком поздно: «никто» и «ни в коем случае».
3. Ваши специалисты по данным рассматривают возможность ухода.
Не могли бы вы прислать мне рабочее задание?
Что вы сейчас разрабатываете?
На самом деле, я только что получил доступ к R и Python! Буквально 5 минут назад.
Не мешайте своей команде, не предоставляя им доступ к данным и инструментам, необходимым для правильного выполнения своей работы.
Старшему исследователю из приведенной выше переписки потребовалось шесть недель, чтобы получить разрешение на установку Python и R. Он был счастлив!
Увы, счастье было недолгим:
Ты должно быть шутишь.
Вот. Эта программа заблокирована из-за требований групповой политики.
Для получения дополнительной информации обратитесь к своему системному администратору.
Теперь позвольте мне представить этого парня:
Он был менеджером по продукции на сайте онлайн-аукциона, о котором вы, возможно, слышали.
Его история была об A/B-тестировании нового алгоритма прототипа для крупной поисковой системы по продуктам.
Испытание прошло успешно, и новый алгоритм начал использоваться.
К сожалению, после потраченного времени и денег выяснилось, что в коде A/B-тестирования была ошибка: прототип не использовался.
Они случайно протестировали старый алгоритм на основе собственных данных .
Результаты были бессмысленными.
Это была проблема:
Вы не будете знать, что результаты — мусор.Ошибка выборки, погрешность измерения, парадокс Симпсона, статистическая значимость и т. д. НИОКР – непростой бизнес
4. У вас нет руководителя по науке о данных.
Вам нужны люди, которые живут и дышат ошибками выборки, предвзятостью измерений и тому подобным – иначе вы никогда не обнаружите, что ваши результаты не имеют смысла.
Таких людей называют «учеными».
Кстати.
Этот человек не является ни «ученым», ни специалистом по данным: «Аналитический лидер, создающий стратегию управления информацией, инструменты бизнес-аналитики (BI) и аналитические решения, направленные на организационную трансформацию.
Имеет опыт руководства командами в разработке решений корпоративного класса и максимизации ценности бизнеса».
И этого специалиста по данным можно считать «ученым»: «Специализация: вероятностное программирование, анализ данных, байесовское моделирование, скрытые модели Маркова, методы Монте-Карло (MCMC) цепей Маркова, рекуррентные нейронные сети (LSTM), многозадачное обучение, адаптация предметной области».
Кроме того, очень часто верно обратное утверждение:
5. Не стоило нанимать ученых*
*См.пункт 3.
Для технологии ETL (извлечение, преобразование и загрузка данных) наймите инженеров по обработке данных.Нанимайте специалистов по бизнес-аналитике (BI) для создания отчетов.
Конец.
6. Ваш начальник читает статьи в блогах о машинном обучении
Шумиха вокруг машинного обучения означает, что существует много легкодоступного контента.Это может привести к феномену, который можно было бы назвать «ранним развитием эксперта»: теперь у каждого есть отличные идеи о машинном обучении.
Симптомом является использование таких фраз, как «разрыв» или «ансамблевый метод» в неправильном контексте.
Поверьте мне, такие вещи не заканчиваются хорошо.
Проект экономии средств HealthCare использовал данные из больниц для обработки записей пациентов, поступивших в отделения неотложной помощи с симптомами пневмонии.
Было желание создать систему, которая могла бы идентифицировать людей с достаточно низкой вероятностью смерти, чтобы их можно было просто отправить домой с антибиотиками.
Это позволит сосредоточить внимание на наиболее серьезных случаях, которые сопряжены с риском осложнений.
Разработанная нейросеть имела очень высокую точность, но, как ни странно, всегда отправляла астматиков домой.
Это было необъяснимо, поскольку астматики действительно подвергаются риску осложнений от пневмонии.
довольно высокий .
Оказалось, что астматиков, у которых проявлялись симптомы пневмонии, всегда отправляли в реанимацию.
Таким образом, за время обучения нейронной сети не было ни одного случая смерти астматика.
Модель пришла к выводу, что у астматиков крайне низкий риск смерти, хотя на самом деле ситуация противоположная.
Эта модель обладала большой точностью, но если бы ее использовали, это неизбежно привело бы к гибели людей.
7. Ваши модели слишком сложны
Используйте, прежде всего, модель, которую можно объяснить.Мораль этой истории: используйте простую и понятную модель.Протестируйте, используя некоторые основные характеристики для сравнения.
Только потом переходим к чему-то более сложному и тогда если необходимо .
8. Ваши результаты невоспроизводимы.
Гит; Анализ кода; Автоматическое тестирование; Обеспечение взаимодействия при конвейерной обработке данных.Основой любой науки является воспроизводимость результатов.
Сделайте все вышеперечисленное.
И не говорите потом, что я вас не предупреждал.
9. Лаборатория исследований и разработок чужда корпоративной культуре вашей компании.
Люди предпочитают интуицию.Лаборатория, занимающаяся прикладной наукой, накладывает на компанию серьезные обязательства.НИОКР – это деятельность с высоким риском.
Встречи в лаборатории, переговоры, публикации статей и т.д.
Твердые данные часто могут быть весьма опасны для людей, которые предпочитают доверять своей интуиции.
НИОКР сопряжены с высоким риском неудачи и требуют – как необходимое, но недостаточное условие успеха – необычайно высокий уровень настойчивости.
Спросите себя честно: действительно ли ваша компания придерживается этой культуры?
10. Разработка информационных продуктов без опоры на реальные данные равносильна занятиям таксидермией без наблюдения за живыми животными.
При подготовке любого информационного продукта (даже какого-либо макета) категорически запрещается развивать взаимодействие с пользователем и работу продакт-менеджеров с использованием недостоверных данных.
Если модель использует реальные данные, она может оказаться полной фантазией.
Реальные данные могут иметь странные выбросы или, наоборот, быть совершенно монотонными.
Они могут выглядеть исключительно динамичными.
Они могут быть полностью или трудно предсказуемы.
Используйте реальные данные с самого начала, иначе ваш проект закончится страданиями и ненавистью к себе.
Теги: #обработка данных #стартап #базы данных #Управление проектами #Разработка стартапов #Управление продуктами #Бизнес-модели
-
Вариант Ремонта Компьютера Бронкс, Нью-Йорк
19 Oct, 24 -
Хостинг Серверов Linux Становится Мобильным
19 Oct, 24 -
Регистрация Данных Для Повседневных Целей
19 Oct, 24 -
Бронированные Войска
19 Oct, 24 -
Радиостанции Manet: Тенденции И Перспективы
19 Oct, 24 -
Все10.Ру - Онлайн-Тренажер Клавиатуры
19 Oct, 24