Как Распознать Шарлатана В Области Data Science?



Как распознать шарлатана в области Data Science?

Возможно, вы слышали об аналитиках, специалистах по машинному обучению и искусственному интеллекту, но слышали ли вы о тех, кому несправедливо переплачивают? Встретиться данные-шарлатан ! Эти умные люди, соблазненные прибыльной работой, создают дурную репутацию настоящим специалистам по данным.

В материале мы разбираемся, как вывести таких людей на чистую воду.






Информационные шарлатаны повсюду

Информационные шарлатаны настолько хорошо умеют прятаться на виду, что вы можете будь одним из них даже не осознавая этого.

Скорее всего, ваша организация уже много лет укрывает этих подлых парней, но хорошая новость заключается в том, что их легко идентифицировать, если вы знаете, что искать.

Первым тревожным знаком является непонимание того, что аналитика и статистика - совершенно разные дисциплины .

Я объясню это дальше.



Различные дисциплины

Статистики обучены делать выводы о том, что выходит за рамки их данных, аналитиков обучают изучать содержание набора данных.

Другими словами, аналитики делают выводы о том, что содержится в их данных, а статистики делают выводы о том, чего в данных нет. Аналитики помогают вам задавать хорошие вопросы (выдвигать гипотезы), а статистики помогают получать хорошие ответы (проверять гипотезы).

Есть и странные гибридные роли, где человек пытается усидеть на двух стульях.

Почему бы и нет? Основной принцип науки о данных: если вы имеете дело с неопределенностью, вы не можете использовать одинаковый точка данных для гипотез и тестирования.

Когда данные ограничены, неопределенность заставляет выбирать между статистикой и аналитикой.

Объяснение Здесь .

Без статистики вы застрянете и не сможете понять, справедливо ли только что сформулированное вами суждение, а без анализа вы будете действовать вслепую, имея мало шансов укротить неизвестное.

Это трудный выбор.

Способ шарлатана выбраться из этой неразберихи — проигнорировать ее, а затем притвориться удивленным тем, что внезапно обнаруживается.

Логика проверки статистических гипотез сводится к вопросу о том, удивляют ли данные нас настолько, чтобы изменить наше мнение.

Как мы можем удивляться данным, если мы их уже видели? Всякий раз, когда шарлатаны находят закономерность, они вдохновляются, а затем проверяют те же данные Для та же картина , чтобы опубликовать результат с допустимым p-значением или двумя, рядом с их теорией.

Таким образом, они лгут вам (а возможно, и себе тоже).

Это значение p не имеет значения, если вы не придерживаетесь своей гипотезы.

до как вы просматривали свои данные.

Шарлатаны имитируют действия аналитиков и статистиков, не понимая причин.

В результате вся область науки о данных получает плохую репутацию.



Настоящие статистики всегда делают свои выводы

Благодаря почти мистической репутации статистиков за их строгие рассуждения, количество фейковой информации в Data Science находится на рекордно высоком уровне.

Легко обмануть и не попасться, особенно если ничего не подозревающая жертва думает, что все дело в уравнениях и данных.

Набор данных — это набор данных, верно? Нет. Важно, как вы его используете.

К счастью, вам нужна только одна подсказка, чтобы поймать шарлатанов: они «задним числом открывают Америку».

Путем повторного открытия явлений, которые, как они уже знали, присутствуют в данных.

В отличие от шарлатанов, хорошие аналитики непредубеждены и понимают, что вдохновляющие идеи могут иметь множество разных объяснений.

В то же время хорошие статистики тщательно формулируют свои выводы, прежде чем сделать их.

Аналитики освобождаются от ответственности.

до тех пор, пока они остаются в пределах своих данных.

Если у них возникает соблазн заявить о чем-то, чего они не видели, это совсем другая работа.

Им следует снять обувь аналитика и надеть обувь статистика.

В конце концов, независимо от официального названия должности, не существует правила, согласно которому вы не можете изучать обе профессии, если хотите.

Только не путайте их.

То, что вы хороши в статистике, не означает, что вы хороши в аналитике, и наоборот. Если кто-то пытается сказать вам обратное, вам следует быть осторожными.

Если этот человек говорит вам, что допустимо делать статистические выводы из данных, которые вы уже изучили, это повод насторожиться вдвойне.



Странные объяснения

Наблюдая за шарлатанами, занимающимися данными, вы заметите, что они любят придумывать фантастические истории, чтобы «объяснить» данные, которые они наблюдают. Чем академичнее, тем лучше.

Неважно, что эти истории корректируются задним числом.

Когда шарлатаны делают это, позвольте мне прояснить ситуацию, они лгут. Никакие уравнения или причудливые концепции не смогут компенсировать тот факт, что они не предоставили никаких доказательств своих теорий.

Не удивляйтесь тому, насколько необычны их объяснения.

Это то же самое, что демонстрировать свои «экстрасенсорные» способности, сначала глядя на карты в своих руках, а затем предсказывая, что у вас в руках… что вы держите.

Это предвзятость ретроспективного подхода, и профессия специалиста по обработке данных до краев наполнена ею.



Как распознать шарлатана в области Data Science?

Аналитики говорят: «Вы только что выбрали Бубновую даму».

Статистики говорят: «Прежде чем мы начали, я записал свои гипотезы на этом листе бумаги.

Давайте поиграем, посмотрим на некоторые данные и посмотрим, прав ли я».

Шарлатаны говорят: «Я знал, что ты станешь этой бубновой королевой, потому что…»

Обмен данными — это быстрое решение, которое нужно каждому.

Когда данных мало, приходится выбирать между статистикой и аналитикой, а когда данных более чем достаточно, есть прекрасная возможность использовать аналитику без обмана.

И статистика.

У вас есть идеальная защита от шарлатанов — разделение данных и, на мой взгляд, это самая мощная идея в Data Science. Чтобы защитить себя от шарлатанов, все, что вам нужно сделать, это убедиться, что вы держите некоторые тестовые данные вне досягаемости их любопытных глаз, а затем относиться к остальным как к аналитике.

Когда вы столкнетесь с теорией, которую рискуете принять, используйте ее, чтобы оценить ситуацию, а затем раскройте свои секретные тестовые данные, чтобы убедиться, что теория не является чепухой.

Это так просто!

Как распознать шарлатана в области Data Science?

Убедитесь, что никому не разрешено просматривать данные испытаний на этапе исследования.

Для этого придерживайтесь данных исследований.

Данные испытаний не должны использоваться для анализа.

Это большой шаг вперед по сравнению с тем, к чему люди привыкли в эпоху «малых данных», когда вам приходится объяснять, откуда вы знаете то, что знаете, чтобы наконец убедить людей, что вы действительно что-то знаете.



Примените те же правила к ML/AI

Некоторых шарлатанов, выдающих себя за экспертов по ОД/ИИ, также легко обнаружить.

Вы поймаете их так же, как любого другого плохого инженера: «решения», которые они пытаются создать, постоянно терпят неудачу.

Ранним тревожным знаком является отсутствие опыта работы со стандартными языками программирования и библиотеками.

Но как насчет людей, которые создают системы, которые кажутся работающими? Как узнать, происходит ли что-то подозрительное? Действует то же правило! Шарлатан — зловещий персонаж, который показывает, насколько хорошо работает модель… на тех же данных, которые они использовали для ее создания.

Если вы создали безумно сложную систему машинного обучения, как узнать, насколько она хороша? Вы не узнаете, пока не покажете ей, как она работает с новыми данными, которых она раньше не видела.

Когда вы видели данные до прогнозирования – это маловероятно до рассказывать
Когда у вас достаточно данных для разделения, вам не нужно ссылаться на красоту ваших формул, чтобы оправдать проект (старая модная привычка, которую я наблюдаю повсюду, не только в науке).

Ты можешь сказать: «Я знаю, что это работает, потому что я могу взять набор данных, который я раньше не видел, и точно предсказать, что там произойдет… и я буду прав.

Опять и опять".

Проверка вашей модели/теории на новых данных — лучшая основа для уверенности.

Я не терплю информационных шарлатанов.

Меня не волнует, если ваше мнение основано на разных уловках.

Меня не впечатляет красота объяснений.

Покажите мне, что ваша теория/модель работает (и продолжает работать) на большом количестве новых данных, которых вы никогда раньше не видели.

Это настоящая проверка силы вашего мнения.



Как связаться с экспертами по науке о данных

Если вы хотите, чтобы все, кто понимает этот юмор, воспринимали вас серьезно, перестаньте прятаться за причудливыми уравнениями для поддержки личных предубеждений.

Покажи мне, что у тебя есть.

Если вы хотите, чтобы те, кто «понял», рассматривали вашу теорию/модель как нечто большее, чем просто вдохновляющую поэзию, наберитесь смелости и устройте грандиозное шоу того, насколько хорошо она работает на совершенно новом наборе данных… перед свидетелями.

!

Обращение к лидерам

Откажитесь серьезно относиться к любым «идеям» о данных, пока они не будут проверены.

новый данные.

Не хочется прикладывать усилия? Придерживайтесь аналитики, но не полагайтесь на эти идеи — они ненадежны и не проверялись на надежность.

Более того, когда в организации имеется много данных, нет ничего плохого в том, чтобы сделать разделение фундаментальным в науке и поддерживать его на уровне инфраструктуры, контролируя доступ к тестовым данным для статистики.

Это отличный способ остановить людей, пытающихся вас обмануть! Если хотите увидеть больше примеров шарлатанов, замышляющих недоброе - вот замечательная тема в твиттере .



Полученные результаты

Когда данных слишком мало для разделения, только шарлатан пытается строго следовать вдохновению, открывая Америку ретроспективно, математически заново открывая явления, уже известные в данных, и называя сюрприз статистически значимым.

Это отличает их от непредвзятого аналитика, который занимается вдохновением, и дотошного статистика, который предлагает доказательства при составлении прогнозов.

Когда данных много, выработайте привычку разделять данные, чтобы получить лучшее из обоих миров! Обязательно выполняйте аналитику и статистику отдельно для отдельных подмножеств исходной кучи данных.

  • Аналитики предложить вам вдохновение и открытость.

  • Статистика предлагаем вам тщательное тестирование.

  • Шарлатаны предлагаю вам искаженную ретроспективу, которая притворяется аналитикой и статистикой.

Возможно, после прочтения статьи у вас возникнет мысль «а не шарлатан ли я»? Это отлично.

Есть два способа избавиться от этой мысли: во-первых, оглянуться назад, посмотреть, что вы сделали, принесла ли ваша работа с данными практическую пользу.

А во-вторых, над своей квалификацией еще можно поработать (что точно не будет лишним), тем более, что мы даем нашим студентам практические навыки и знания, которые позволяют им стать настоящими data science.

Как распознать шарлатана в области Data Science?

Больше курсов

Читать далее

  • Данные внутри нас: чем занимаются биоинформатики?
  • Машинное обучение и компьютерное зрение в горнодобывающей промышленности
Теги: #Карьера в ИТ-индустрии #Большие данные #наука о данных #специалист по данным #Инженерия данных #SkillFactory #Интеллектуальный анализ данных #анализ данных #разделение данных
Вместе с данным постом часто просматривают: