Профессия Data Scientist: Как Не Ошибиться С Выбором



Профессия Data Scientist: как не ошибиться с выбором

Любит ли человек играть с цифрами или числа играют с человеком? В классическом среднем образовании есть забавный парадокс: школьников учат запоминать правила и случаи их применения, но чем больше ученик знает правил и исключений, тем чаще у него появляется возможность допустить ошибку.

В диктанте, сотканном из текстов классической русской литературы, обилие уточняющих запятых приводит к мысли, что именно пропущенная запятая является ошибкой.

Поэтому грамотная работа – это сочинение с большим количеством запятых.

Проблема в причинно-следственной связи, не так ли? Возможно, если вы хороший писатель, вы используете много запятых, но это не тот случай, когда количество запятых делает вас хорошим писателем.

Интерпретация запятых в классической русской литературе — пример плохого анализа данных, построенного на недостатке любознательности и понимания математической статистики.

Эти факторы + страстное желание развиваться в сфере информационных технологий являются ключевыми в понимании специальности «специалист по данным».



Профессия Data Scientist: как не ошибиться с выбором

Пост подготовлен на основе презентации сотрудника Airbnb, специалиста по данным.

Мы не будем подробно останавливаться на том, почему профессия data science отмечается как одна из самых привлекательных и перспективных в мире.

Достаточно упомянуть, что количество вакансий в этой сфере растет в геометрической прогрессии, и по расчетам McKinsey Global Institute, к 2018 году только в Америке потребуются дополнительно 190 тысяч специалистов по обработке данных с подготовкой в области статистики и машинного обучения.

McKinsey отмечает, что ей дополнительно потребуется обучить миллионы менеджеров базовым навыкам работы с данными.

Это огромный рынок, который только зарождается, но проблемы больших данных и способов их решения возникли не вчера.

Объем архивных данных, накопленных за годы работы только в Airbnb, составляет несколько петабайт данных.

Десятки терабайт информации обрабатываются ежедневно с использованием хранилища, построенного на базе Apache Hadoop и Hive. Мы уже говорили о персонализированной поисковой системе Airbnb — она создана на базе распределенной системы обработки данных в реальном времени Storm. Для Airbnb анализ пользовательских данных необходим для принятия практически любого решения по развитию компании.

И нам жизненно необходимы специалисты по обработке данных.

Сегодня можно удовлетворить лишь треть потребности в специалистах по науке о данных.

Ненасыщенный рынок не может обеспечить компании квалифицированным персоналом в области интеллектуального анализа данных или прогнозной аналитики, что приводит к увеличению спроса и заработной платы.

Государственные и частные университеты не справляются с процессом подготовки специалистов по работе с данными.



Специалист по данным: личностные качества



Профессия Data Scientist: как не ошибиться с выбором

Ряд технических университетов предлагают программу магистра наук в области науки о данных и управления.

Специальность потребует от вас глубоких знаний в области математической статистики, машинного обучения и программирования.

Однако никакое обучение не сравнится с опытом, который вы получите непосредственно при работе с реальными проблемами.

Только работа продемонстрирует вам, что выбранный путь не самый простой в жизни.

Заниматься наукой о данных так же сложно, как и наукой в целом.

Как и в обычных научных дисциплинах, большинство используемых вами методов не будут работать.

Вы не можете просто прийти в лабораторию, щелкнуть пальцами и получить результат. Вы придумаете много интересного (просто здорово!) вещей: как сделать систему лучше, как настроить и оптимизировать выборку и тому подобное.

Около двух третей ваших идей не сработают. В подавляющем большинстве случаев вы потерпите неудачу.

И мы должны быть к этому готовы.

Чтобы быть хорошим специалистом по данным, недостаточно быть хорошим программистом.

Вы должны быть лучше в статистике, чем в разработке программного обеспечения.

Компетентный специалист по данным — компетентный статистик.

Окружающие вас специалисты лучше понимают все остальное – и это нормально, вы должны уметь их слушать, получать от них необходимые в вашей работе данные.

Специалист по данным — это человек, который любит математику.

Работодателям, которые ищут специалиста по данным, следует сначала обратить внимание на специалистов по математике.

Вы не изучали математику и боитесь бросить карьеру? Есть альтернативный путь – изучение информатики.

И можно добиться успеха в академической науке.

Мысль важна, понимаете? Возможно, вы специализируетесь на нейробиологии и решили заняться наукой о данных — математика встретит вас с распростертыми объятиями.

Погружение в математику не должно мешать вам изучать компьютерные системы.

В противном случае легче стать учителем.

Большая проблема в том, что математики не понимают масштаба используемых данных, не понимают самой структуры компьютерных данных и, как следствие, не способны моделировать возникновение системных проблем в будущем.

Всегда существует разрыв между вероятностной математической моделью, которая, по вашему мнению, соответствует структуре вашей проблемы, и фактическими данными, которые вы пытаетесь проанализировать.

Сбор статистики означает переход между моделью и данными.

Очень важно понимать это на глубоком уровне, а не относиться к математике (и компьютерным системам) как к волшебному ящику, куда можно кидать числа, крутить рукоятку и получать результат.

Data Scientist: как им стать



Профессия Data Scientist: как не ошибиться с выбором

Человек действует в соответствии с шаблонами, заложенными в его голове.

Рассматривая проблему, вы оперируете готовыми моделями поведения.

Специалист по данным работает со случайными величинами и вероятностными моделями, поскольку его задача — выявлять самые неожиданные закономерности.

Если вы хотите нанять такого человека и признаете себе, что мало разбираетесь в статистике, дайте человеку, с которым вы проводите собеседование, тест, полностью лишенный контекста.

Вырвано из контекста.

И вы увидите, как он справится с проблемой, не зная, как ее решить.

В этом суть работы – думать не о заранее полученных статистических данных, не о компьютерных моделях решения, а о проблеме.

Данное решение демонстрирует умение специалиста оперировать вероятностными моделями со сложными данными.

Итак, вы готовы делать все это, вы разбираетесь в статистике, вы понимаете структуру данных и алгоритмы, или вы ученый, который понимает, что входит в моделирование.

Теперь вы можете устроиться на работу.

Но в мире есть еще много всего, чего ты не знаешь, что трудно понять, потому что это не указано в учебниках.

Например, большинство аналитиков данных не понимают, как работают команды при разработке программного обеспечения.

Это очень страшно и нервирует, когда вы вступаете в контакт с окружающей средой, содержащей неизвестный материал.

Нет ничего унизительного в том, чтобы признать это и начать все сначала — стать учеником более опытных разработчиков.

Наблюдение за разработкой программного проекта с нуля — бесценный опыт. Еще один способ получить опыт взаимодействия с реальной средой – это участие в Проект Каггл .

Ресурс используется для решения сложных задач в различных областях знаний (маркетинг, финансы, банковское дело, медицина, страхование, научные исследования).

Kaggle превращает бизнес-проблемы компаний в структурированный набор данных, с которыми легко работать.



Специалист по данным: не будьте тем, кем вы не являетесь



Профессия Data Scientist: как не ошибиться с выбором

Не пытайтесь быть тем, кем вы не являетесь.

Специалиста по данным нередко воспринимают как аналитика данных.

Аналитик может сказать: «Если мои инструменты анализа данных не могут ответить на вопрос, то вопрос остается без ответа».

Здесь мы задаем базе данных вопрос и если через полчаса он не возвращается, то отменяем его и переходим к следующему.

Специалист по данным думает так: «Если мои инструменты анализа данных не могут ответить на вопрос, то мне нужны более качественные инструменты и данные».

Этот пример лучше, чем все вышеперечисленные, объясняет, как быть специалистом по данным.

Ученый не говорит: я не могу ответить на вопрос, пойду займусь чем-нибудь другим.

Ученый продолжает думать над вопросом и придумывать способы, которыми он может на него ответить.

Теги: #специалист по обработке данных #Разработка веб-сайтов #Алгоритмы

Вместе с данным постом часто просматривают: