Самая Важная Идея В Data Science



Советы, как отделить отвлекающие факторы от полезной информации

Самая важная идея в Data Science

Если вы пройдете вводный курс по статистике, вы узнаете, что данные можно использовать для поиска вдохновения или проверки теорий, но не для того и другого.

Почему это? Люди слишком хорошо умеют находить закономерности во всем.

Вы сами определяете, какие закономерности существуют на самом деле, а какие вымышленные.

Мы — существа, которые нашли лицо Львиса в картофельных чипсах.

Если у вас возникает соблазн приравнять шаблоны к концепциям, помните, что существует три типа шаблонов:

  • Шаблоны, существующие как внутри вашего набора данных, так и за его пределами.

  • Шаблоны, которые существуют только в вашем наборе данных.

  • Паттерны, существующие только в вашем воображении (апофения).



Самая важная идея в Data Science

Шаблон данных может существовать (1) во всей интересующей популяции, (2) только в выборке или (3) только в вашей голове.

Какие шаблоны данных и шаблоны могут быть вам полезны? Это зависит от ваших целей.



Вдохновение

Если вам нужно чистое вдохновение, данные могут творить чудеса.

Даже апофения — человеческая склонность ошибочно воспринимать связи и значения между несвязанными вещами — может заставить вас течь творчески.

У творчества нет правильных ответов, поэтому все, что вам нужно сделать, — это посмотреть на свои данные и поиграть с ними.

В качестве дополнительного бонуса постарайтесь не тратить слишком много времени ни вашего, ни ваших заинтересованных сторон.



Данные

Когда ваше правительство хочет собрать с вас налоги, оно не может игнорировать значения, выходящие за рамки ваших финансовых данных за год. Налоговое управление США должно принять основанное на фактах решение о сумме вашей задолженности, и основной способ принять это решение — изучить данные за прошлый год. Другими словами, посмотрите на данные и примените формулу.

В данном случае речь идет о чисто описательной аналитике, привязанной к существующим данным.

Для этого хорошо подойдет любой из первых двух типов паттернов.

Описательная аналитика, привязанная к существующим данным.

(Я никогда не скрывал свои финансовые отчеты, но не думаю, что правительство Соединенных Штатов было бы в восторге, если бы я использовал методы расчета данных, которым научился в аспирантуре, для статистического расчета налогов и их фальсификации.

)

Решения в условиях неопределенности

Иногда имеющиеся факты не совпадают с желаемыми.

Когда у вас нет всей информации, необходимой для принятия решения, вам приходится преодолевать неопределенность, пытаясь выбрать разумный образ действий.

В этом вся суть статистики – науки о том, как изменить свое мнение перед лицом неопределенности.

Игра состоит в том, чтобы прыгнуть в неизвестность, как Икар.

и не развалиться на куски.

Это основная задача дата-сайентиста: как не остаться *невежественным* в результате изучения данных.

Прежде чем спрыгнуть с этой скалы, вам лучше надеяться, что закономерности, которые вы обнаружили в своем ограниченном представлении о реальности, действительно работают за пределами вашего поля зрения.

Другими словами, чтобы шаблоны были вам полезны, они должны быть обобщены.



Самая важная идея в Data Science

Из трех типов паттернов при принятии решений в условиях неопределенности безопасен только первый (обобщенный).

К сожалению, вы обнаружите в своих данных и другие типы закономерностей — это большая проблема в основе науки о данных: как не потерять собственную осознанность в результате изучения данных.



Обобщение

Если вы думаете, что находить бесполезные закономерности в данных — это чисто человеческая привилегия — подумайте еще раз! Если вы не будете осторожны, машины могут делать ту же самую глупость автоматически.

Весь смысл машинного обучения и искусственного интеллекта заключается в правильном обобщении данных на новые ситуации.

Машинное обучение — это подход к принятию множества похожих решений, который включает в себя алгоритмический поиск закономерностей в ваших данных и их использование для адекватного реагирования на совершенно новые данные.

На жаргоне машинного обучения и искусственного интеллекта обобщение означает способность вашей модели хорошо работать с данными, которые она еще не видела.

Какой смысл в модели на основе шаблонов, которая хорошо работает только со старыми данными? Для этого вы можете просто использовать справочную таблицу.

Весь смысл машинного обучения и искусственного интеллекта заключается в том, чтобы правильно делать обоснованные обобщения в новых ситуациях.



Самая важная идея в Data Science

Вот почему первый тип шаблона в нашем списке — единственный, который хорошо подходит для машинного обучения.

Такие данные — это сигнал, все остальное — просто шум (факторы, которые существуют только в ваших старых данных и мешают созданию обобщаемой модели).

Сигнал: закономерности, существующие как внутри, так и за пределами вашего набора данных.

Шум: закономерности, существующие только в вашем наборе данных.

По сути, достижение решения, которое обрабатывает старый шум, а не новые данные, — это то, что в машинном обучении называется переоснащением (мы произносим этот термин так же, как вы произносите свое любимое ругательство).

В машинном обучении почти все делается для того, чтобы избежать переобучения.



Так к какому виду относится *этот* экземпляр?

Предположим, что шаблон, который вы (или ваш компьютер) извлекли из ваших данных, существует за пределами вашего воображения — к какой категории он относится? Существует ли это реальное явление среди интересующей вас популяции (сигнал) или это особенность вашего набора данных (шум)? Как определить тип закономерности, обнаруженной при работе с данными? Если вы изучите все имеющиеся данные, то сделать это вам не удастся.

Вы застрянете и не сможете определить, существует ли ваш шаблон где-нибудь еще.

Вся риторика о проверке статистических гипотез основана на неожиданности, а притворяться, что известная закономерность вас удивляет, — это дурной тон (по сути, это хакерство).



Самая важная идея в Data Science

Это все равно, что увидеть облако в форме кролика, а затем проверить, все ли облака похожи на кроликов.

глядя на одно и то же облако.

Надеюсь, вы понимаете, что для проверки вашей теории вам понадобятся новые облака.

Любые данные, использованные для формулирования теории или вопроса, не могут быть использованы для проверки той же самой теории.

Что бы вы сделали, если бы знали, что у вас есть доступ только к одному облаку? Мы медитировали в чулане, вот что.

Задайте свой вопрос, прежде чем просматривать данные.

Математика никогда не противоречит здравому смыслу.

Здесь мы приходим к самому печальному выводу.

Если вы используете свой набор данных для вдохновения, вы не сможете использовать его снова для тщательной проверки теории, которую он вдохновил (независимо от того, какое математическое джиу-джитсу вы используете, математика никогда не противоречит интуиции).



Сложный выбор

Дело в том, что вам придется сделать выбор! Если у вас есть только один набор данных, вы вынуждены спросить себя: «Размышляю ли я в чулане, формулирую гипотезы для статистической проверки, а затем тщательно применяю строгий подход — и все это для того, чтобы я мог относиться к себе серьезноЭ» Или я просто собираю данные для вдохновения и при этом понимаю, что, возможно, обманываю себя и вспоминаю, что мне следует использовать такие фразы, как «я чувствую», «это вдохновляет» или «я не уверен»Э» Сложный выбор! Или есть способ съесть один и тот же кусок торта дважды? Проблема в том, что у вас есть только один набор данных, а вам нужно более одного набора данных.

И если у вас достаточно данных, то у меня есть трюк, который.

Он взорвется.

Твой.

Мозг.



Самая важная идея в Data Science



Хитрый трюк

Чтобы добиться успеха в науке о данных, просто превратите один набор данных в два (по крайней мере), разделив ваши данные.

Затем используйте один для вдохновения, а другой для тщательного тестирования.

Если закономерность, изначально вдохновившая вас, существует и в данных, которые не могли повлиять на ваше мнение, то вполне вероятно, что эта закономерность представляет собой общее правило, действующее в туалетном лотке, из которого вы берете свои данные.

Если одно и то же явление наблюдается в обоих наборах данных, это может быть общим правилом, которое проявляется во всех источниках этих данных.



РСЧД!

Поскольку жизнь без исследований — это вообще не жизнь, вот четыре слова, которыми стоит жить: поделитесь своими чертовыми данными .

Мир был бы лучше, если бы все делились своими данными.

У нас были бы лучшие ответы (благодаря статистике) и лучшие вопросы (благодаря аналитике).

Единственная причина, по которой люди не считают обмен данными обязательной привычкой, заключается в том, что в прошлом веке это была роскошь, которую могли себе позволить лишь немногие.

Наборы данных были настолько малы, что если бы вы попытались их разделить, от них, вероятно, ничего бы не осталось.



Самая важная идея в Data Science

Разделите свои данные на набор исследовательских данных, которым может поделиться каждый и который можно использовать для вдохновения, и набор тестовых данных, который позже будет использоваться экспертами для точного подтверждения любых «догадок», обнаруженных на этапе исследования.

Некоторые проекты до сих пор сталкиваются с этой проблемой, особенно в медицинских исследованиях (раньше я занимался нейробиологией, поэтому очень уважаю сложность работы с небольшими наборами данных), но у многих из вас так много данных, что приходится нанимать инженеров.

просто чтобы организовать их движение.

какое у тебя оправдание?! Не скупитесь, поделитесь своими данными.

Если у вас нет привычки разделять данные, вы можете застрять в 20 веке.

Если у вас много данных, но их наборы не разделены, то вы существуете в устаревшей парадигме.

Люди, существовавшие в этой парадигме, смирились с архаичным мышлением и отказались двигаться дальше во времени.



Машинное обучение — детище разделения данных

Ведь идея проста.

Используйте один набор данных, чтобы сформулировать теорию, разобраться в этих данных, а затем волшебным образом доказать истинность своих идей на совершенно новом наборе данных.

Совместное использование данных — это самое простое и быстрое решение для более здоровой культуры данных.

Таким образом, вы можете безопасно использовать статистические методы и защитить себя от переобучения.

По сути, история машинного обучения — это история секционирования данных.



Как использовать лучшие идеи в области науки о данных

Чтобы воспользоваться лучшей идеей в области науки о данных, все, что вам нужно сделать, это убедиться, что вы держите свои тестовые данные вне поля зрения, а затем позволить вашим аналитикам сходить с ума по остальному.

Чтобы добиться успеха в качестве специалиста по данным, просто превратите один набор данных (как минимум) в два, разделив ваши данные.

Если вы думаете, что они предоставили вам полезную информацию помимо того, что они узнали, используйте свой секретный запас тестовых данных, чтобы проверить свои выводы.



Самая важная идея в Data Science

Узнайте подробности о том, как получить востребованную профессию с нуля или Level Up по навыкам и зарплате, пройдя платные онлайн-курсы от SkillFactory:



Читать далее

  • Тенденции в области науки о данных 2020
  • Наука о данных мертва.

    Да здравствует бизнес-наука!

  • Великие ученые, работающие с данными, не тратят время на статистику
  • Как стать Data Scientist без онлайн-курсов
  • Шпаргалка по сортировке для науки о данных
  • Наука о данных для гуманитарных наук: что такое «данные»
  • Наука о данных на стероидах: введение в аналитику принятия решений
Теги: #Популярная наука #Образовательный процесс в ИТ #наука о данных #учебный процесс
Вместе с данным постом часто просматривают: