Вероятно, самое сложное в любом проекте Data Science — придумать оригинальную, но реализуемую идею.
Профессионал, ищущий такую идею, может легко попасть в «ловушку набора данных».
Он проводит много часов, просматривая существующие наборы данных и пытаясь придумать новые интересные идеи.
Но есть одна проблема с этим подходом.
Дело в том, что любой, кто смотрит только на существующие наборы данных (c Каггл , Наборы данных Google , ПятьТридцатьВосемь ), ограничивает свой творческий потенциал, видя лишь небольшой набор проблем, на которых сосредоточены изучаемые им наборы данных.
Иногда мне нравится исследовать наборы данных, которые меня интересуют. Если я построю успешную модель на данных, взятых из Kaggle, для которого уже создано бесчисленное количество моделей, она не будет иметь практической ценности, но, по крайней мере, позволит мне узнать что-то новое.
Но дата-сайентисты — это люди, которые стремятся создать что-то новое, уникальное, что-то, что может принести миру реальную пользу.
Как развивать новые идеи? Чтобы найти ответ на этот вопрос, я объединил собственный опыт и результаты исследований креативности.
Это привело к тому, что мне удалось сформулировать 5 вопросов, ответы на которые помогают найти новые идеи.
Здесь я также приведу примеры идей, найденных благодаря предложенной мной методике.
В поисках ответов на представленные здесь вопросы вы пойдете по пути создания новых идей и сможете использовать свои творческие способности в полной мере.
В результате у вас появятся новые уникальные идеи, которые вы сможете реализовать в своих проектах по науке о данных.
1. Почему я хочу начать работу над новым проектом?
Когда вы думаете о начале нового проекта, у вас есть какое-то намерение или цель.Для начала вам нужно найти ответ на вопрос, почему вы хотите создать еще один проект в области науки о данных.
Наличие общего представления о том, чего вы пытаетесь достичь, поможет вам сосредоточиться на поиске идеи.
Поэтому подумайте, почему вы собираетесь создать проект. Вот несколько вариантов:
- Это проект-портфолио, которое вы собираетесь показать потенциальным работодателям.
- Это черновик статьи, посвященной определенным концепциям, моделям или исследовательскому анализу данных.
- Это проект, который даст вам некоторую практику.
Например, мы можем говорить об обработке естественного языка, визуализации данных, первичной обработке данных или конкретном алгоритме машинного обучения.
- Это совершенно особенный проект, который не описан в этом списке.
2. В каких областях мои интересы и опыт?
Над этим вопросом стоит задуматься по трем основным причинам.
- Во-первых, помните о Диаграммы Венна , используется в науке о данных для описания навыков, необходимых в этой области.
Знания в конкретной области – это важный актив , который должен быть у каждого специалиста по данным.
Решить определенные проблемы путем обработки данных можно только в том случае, если ясна предметная область, к которой эти данные относятся.
В противном случае будут использоваться алгоритмы, создаваться визуализации и прогнозы, которые покажутся неадекватными любому практикующему специалисту соответствующего профиля.
А если то, что вы делаете, не имеет смысла, то зачем вообще это делать?
- Во-вторых, важно, чтобы вас интересовала идея проекта, чтобы вас интересовал тот набор данных, с которым вы работаете.
Вы не хотите заставлять себя тратить свободное время на проект, который вам не интересен.
Если вас интересует определенная область знаний, то вам не обязательно быть в ней экспертом.
Но вы должны быть готовы потратить время на дополнительные исследования и понимание проблем, стоящих за данными.
- В-третьих, учтите, что исследователи выявил тот факт, что введение ограничений в творческий процесс приводит к улучшению результатов.
Это означает, что сосредоточение внимания на конкретной предметной области или сочетании нескольких областей даст лучшие результаты, чем попытки найти идею без каких-либо ограничений.
Области моих интересов и опыта включают экологическую и социально-экономическую устойчивость, финансы, массовую культуру и обработку естественного языка.
Сосредоточение внимания на этих темах помогает мне использовать уже имеющиеся у меня знания.
Благодаря этим знаниям я определяю, смогу ли, вдохновившись чем-то, придумать новую идею, которую можно реализовать.
3. Как найти вдохновение?
Главный источник вдохновения – чтение.В процессе поиска идеи можно найти интересные темы, прочитав различные материалы:
- Новости, авторские статьи, сообщения в блогах.
Чтение о тех или иных событиях или явлениях, которые наблюдали авторы публикаций, – отличный способ генерировать идеи.
Например, портал WIRED опубликовал этот статья, в которой обсуждается, как функция автозаполнения Google демонстрирует политическую предвзятость.
Вдохновленный этой идеей, можно исследовать систематические ошибки в языковые модели .
Или можно задаться вопросом, можно ли предсказать географическое местоположение человека на основе поисковых запросов, которые он вводит в Google.
- Научная литература.
Научные публикации часто включают в себя рассказы о оставшихся без ответа вопросах, касающихся изучаемой темы.
Например, в этот В публикации говорится о языковой модели GPT-2 и упоминается, что эта модель без ее тонкой настройки справляется с определенными задачами, например, с ответами на вопросы, не лучше, чем попытки решить эти проблемы с помощью случайного угадывания.
Почему бы не написать что-нибудь о тонкостях настройки этой модели?
- Материалы из области науки о данных.
Чтение контента, знакомящего с темами науки о данных, и обзоров связанных проектов может привести к новым идеям.
Например, когда я прочитал о НЛП-исследование сериала «Офис» , я сразу пожалел, что эта идея пришла ко мне не раньше автора материала.
Но почему бы не изучить другую серию? Или, может быть, изучить несколько фильмов и попытаться выявить языковые закономерности? А для написания текстов к любимым сериалам можно попробовать использовать модель GPT-2.
Каждый раз, когда у вас возникает вопрос, подумайте, сможете ли вы ответить на него, используя методы анализа данных.
Например, недавно я наткнулся на трейлер сериала «Пацаны» и нашел о нем массу положительных отзывов на IMDb. «Есть ли подтверждение того, что в сериале со временем количество сцен насилия растет Э» — спросил я себя.
«Существует ли постоянно растущая аудитория, которой нравятся жестокие телешоуЭ» Я продолжил.
Если вас что-то заинтересовало, воспользуйтесь моментом и изучите соответствующие данные.
Как генерировать идеи проектов на основе источников вдохновения, описанных выше? Нейробиологи выделили три различных психологических процесса, участвующих в генерации идей:
- Вы можете комбинировать существующие идеи для создания новых (комбинаторное творчество).
Например, в рамках различных проекты Были проанализированы предложения по аренде жилья, размещенные на Airbnb. Существовать проекты направлен на анализ рынка недвижимости.
Если объединить эти идеи, можно поискать ответ на вопрос, повышает ли Airbnb цены на жилье в определенном городе.
- Вы можете исследовать существующую идею и искать в ней проблему, которую можно попытаться решить (исследовательское творчество).
Например, вы можете обратить внимание на сравнение дата-сайентисты, получившие соответствующее образование, со специалистами, обучавшимися самостоятельно.
Изучив эти аргументы, вы можете попытаться выяснить, какая категория специалистов по данным более успешна.
- Вы можете взять существующую идею и изменить в ней что-то, что полностью меняет ее смысл (трансформационное творчество).
Это редчайшая форма творчества.
Он действует вне существующего концептуального пространства.
Такой подход к творчеству трудно понять и даже сложно описать.
Примером может служить такая идея: вместо того, чтобы предсказывать возникновение события, попробуйте предсказать его ненаступление.
4. Где я могу найти соответствующие данные?
После того, как вы определились с общим направлением своего исследования, вам нужно будет приступить к поиску данных, которые позволят вам понять, как реализовать вашу идею в виде проекта Data Science. Это имеет решающее значение для определения успеха идеи.Отвечая на вопрос, вынесенный в заголовок этого раздела, стоит учитывать возможность того, что то, что вам нужно, имеется в существующих хранилищах данных.
Возможно, вам придется собирать необходимые данные самостоятельно, что усложняет задачу.
Итак, вот обзор источников данных:
- Существующие хранилища данных: Каггл , Наборы данных Google , ПятьТридцатьВосемь , Баззфид , АВС , Репозиторий машинного обучения UCI , данные.
мир
, Data.gov и многие другие, которые можно найти с помощью Google. - Источники данных, используемые другими специалистами по данным.
Ищите информацию по интересующей вас теме в Google и Google Scholar. Узнайте, пробовал ли кто-нибудь уже найти ответ на вопрос, аналогичный вашему.
Какие данные использовались в подобных исследованиях? Например, ресурс Наш мир в данных представлены академические и неакадемические источники данных, о которых вы, возможно, не знали.
- Данные, которые вам необходимо собрать самостоятельно.
Для сбора таких данных вы можете прибегнуть к парсингу веб-страниц, интеллектуальному анализу текста, различным API, отслеживание событий , К работа с лог-файлами .
Постарайтесь извлечь из исходной идеи идею, которую можно реализовать, используя имеющиеся у вас данные.
А пока спросите себя, почему вы не можете найти нужные вам данные.
Что не так с интересующей вас сферой? Что вы можете с этим поделать? Ответы только на эти вопросы могут привести к появлению нового проекта Data Science.
5. Является ли идея осуществимой?
Итак, у вас есть фантастическая идея! Но возможно ли это реализовать? Пройдите процесс генерации идей еще раз.Подумайте, чего вы хотите достичь (вопрос №1), интересна ли вам выбранная сфера, есть ли у вас опыт в ней (вопрос №2), есть ли у вас данные, необходимые для реализации идеи (вопрос №2).
4).
Теперь вам нужно определить, есть ли у вас навыки, необходимые для реализации идеи и достижения цели.
Важно учитывать такой фактор, как время, которое вы планируете потратить на данный проект. Вероятно, вы не собираетесь писать докторскую диссертацию по выбранной вами теме.
Поэтому проект, который вы будете делать в рамках найденной идеи, скорее всего, затронет лишь какую-то ее часть.
Возможно, оно будет заключаться лишь в изучении чего-то нового, что понадобится вам для реализации идеи в будущем.
После того, как вы прошли 5 шагов генерации идей, описанных выше, у вас должен возникнуть вопрос, на который вы сможете и захотите ответить за столько времени, сколько вы готовы потратить на достижение своей цели.
Полученные результаты
- Сопоставьте свои ожидания с реальностью.
Поиск оригинальной идеи, которую можно реализовать, займет не несколько часов.
Поиск такой идеи — непрерывный процесс, движимый вдохновением, когда нужно записывать все, что приходит в голову.
Например, вы можете делать соответствующие заметки на своем телефоне.
Некоторые из этих идей в конечном итоге можно объединить и создать интересный проект.
- Обсудите свою идею с кем-нибудь.
Обсуждение идеи вашего проекта может сослужить вам хорошую службу.
Возможно, в ходе разговора возникнут вопросы, которые будут интереснее первоначальной идеи.
Вам могут быть даны подсказки о дополнительных источниках данных.
А может быть, вам просто нужен хороший слушатель, с которым вы сможете поделиться своими мыслями и понять, стоит ли развивать найденную идею.
- Не бойтесь начать все сначала.
Чем бы ты ни занимался, ты всегда узнаешь что-то новое.
Каждый раз, когда вы пишете строку кода, вы практикуетесь и расширяете свои знания и навыки.
Если вы поймете, что реализация найденной идеи не приблизит вас к цели, или окажется, что идея неосуществима, не бойтесь оставить ее и двигаться дальше.
Время, потраченное на поиск этой идеи, не потеряно для вас.
Необходимо здраво оценить выгоду, которую можно получить от реализации идеи.
Как вы находите новые идеи для своих проектов в области Data Science?
Теги: #программирование #разработка #Анализ и проектирование систем #наука о данных
-
Рассматривается Обучение Веб-Дизайну Дома
19 Oct, 24 -
Как Получить Помощь В Linux
19 Oct, 24 -
Букмарклет Для Free-Lance.ru
19 Oct, 24