В диктанте, сотканном из текстов классической русской литературы, обилие уточняющих запятых приводит к мысли, что именно пропущенная запятая является ошибкой.
Поэтому грамотная работа – это сочинение с большим количеством запятых.
Проблема в причинно-следственной связи, не так ли? Возможно, если вы хороший писатель, вы используете много запятых, но это не тот случай, когда количество запятых делает вас хорошим писателем.
Интерпретация запятых в классической русской литературе — пример плохого анализа данных, построенного на недостатке любознательности и понимания математической статистики.
Эти факторы + страстное желание развиваться в сфере информационных технологий являются ключевыми в понимании специальности «специалист по данным».
Пост подготовлен на основе презентации сотрудника Airbnb, специалиста по данным.
Мы не будем подробно останавливаться на том, почему профессия data science отмечается как одна из самых привлекательных и перспективных в мире.
Достаточно упомянуть, что количество вакансий в этой сфере растет в геометрической прогрессии, и по расчетам McKinsey Global Institute, к 2018 году только в Америке потребуются дополнительно 190 тысяч специалистов по обработке данных с подготовкой в области статистики и машинного обучения.
McKinsey отмечает, что ей дополнительно потребуется обучить миллионы менеджеров базовым навыкам работы с данными.
Это огромный рынок, который только зарождается, но проблемы больших данных и способов их решения возникли не вчера.
Объем архивных данных, накопленных за годы работы только в Airbnb, составляет несколько петабайт данных.
Десятки терабайт информации обрабатываются ежедневно с использованием хранилища, построенного на базе Apache Hadoop и Hive. Мы уже говорили о персонализированной поисковой системе Airbnb — она создана на базе распределенной системы обработки данных в реальном времени Storm. Для Airbnb анализ пользовательских данных необходим для принятия практически любого решения по развитию компании.
И нам жизненно необходимы специалисты по обработке данных.
Сегодня можно удовлетворить лишь треть потребности в специалистах по науке о данных.
Ненасыщенный рынок не может обеспечить компании квалифицированным персоналом в области интеллектуального анализа данных или прогнозной аналитики, что приводит к увеличению спроса и заработной платы.
Государственные и частные университеты не справляются с процессом подготовки специалистов по работе с данными.
Специалист по данным: личностные качества
Ряд технических университетов предлагают программу магистра наук в области науки о данных и управления.
Специальность потребует от вас глубоких знаний в области математической статистики, машинного обучения и программирования.
Однако никакое обучение не сравнится с опытом, который вы получите непосредственно при работе с реальными проблемами.
Только работа продемонстрирует вам, что выбранный путь не самый простой в жизни.
Заниматься наукой о данных так же сложно, как и наукой в целом.
Как и в обычных научных дисциплинах, большинство используемых вами методов не будут работать.
Вы не можете просто прийти в лабораторию, щелкнуть пальцами и получить результат. Вы придумаете много интересного (просто здорово!) вещей: как сделать систему лучше, как настроить и оптимизировать выборку и тому подобное.
Около двух третей ваших идей не сработают. В подавляющем большинстве случаев вы потерпите неудачу.
И мы должны быть к этому готовы.
Чтобы быть хорошим специалистом по данным, недостаточно быть хорошим программистом.
Вы должны быть лучше в статистике, чем в разработке программного обеспечения.
Компетентный специалист по данным — компетентный статистик.
Окружающие вас специалисты лучше понимают все остальное – и это нормально, вы должны уметь их слушать, получать от них необходимые в вашей работе данные.
Специалист по данным — это человек, который любит математику.
Работодателям, которые ищут специалиста по данным, следует сначала обратить внимание на специалистов по математике.
Вы не изучали математику и боитесь бросить карьеру? Есть альтернативный путь – изучение информатики.
И можно добиться успеха в академической науке.
Мысль важна, понимаете? Возможно, вы специализируетесь на нейробиологии и решили заняться наукой о данных — математика встретит вас с распростертыми объятиями.
Погружение в математику не должно мешать вам изучать компьютерные системы.
В противном случае легче стать учителем.
Большая проблема в том, что математики не понимают масштаба используемых данных, не понимают самой структуры компьютерных данных и, как следствие, не способны моделировать возникновение системных проблем в будущем.
Всегда существует разрыв между вероятностной математической моделью, которая, по вашему мнению, соответствует структуре вашей проблемы, и фактическими данными, которые вы пытаетесь проанализировать.
Сбор статистики означает переход между моделью и данными.
Очень важно понимать это на глубоком уровне, а не относиться к математике (и компьютерным системам) как к волшебному ящику, куда можно кидать числа, крутить рукоятку и получать результат.
Data Scientist: как им стать
Человек действует в соответствии с шаблонами, заложенными в его голове.
Рассматривая проблему, вы оперируете готовыми моделями поведения.
Специалист по данным работает со случайными величинами и вероятностными моделями, поскольку его задача — выявлять самые неожиданные закономерности.
Если вы хотите нанять такого человека и признаете себе, что мало разбираетесь в статистике, дайте человеку, с которым вы проводите собеседование, тест, полностью лишенный контекста.
Вырвано из контекста.
И вы увидите, как он справится с проблемой, не зная, как ее решить.
В этом суть работы – думать не о заранее полученных статистических данных, не о компьютерных моделях решения, а о проблеме.
Данное решение демонстрирует умение специалиста оперировать вероятностными моделями со сложными данными.
Итак, вы готовы делать все это, вы разбираетесь в статистике, вы понимаете структуру данных и алгоритмы, или вы ученый, который понимает, что входит в моделирование.
Теперь вы можете устроиться на работу.
Но в мире есть еще много всего, чего ты не знаешь, что трудно понять, потому что это не указано в учебниках.
Например, большинство аналитиков данных не понимают, как работают команды при разработке программного обеспечения.
Это очень страшно и нервирует, когда вы вступаете в контакт с окружающей средой, содержащей неизвестный материал.
Нет ничего унизительного в том, чтобы признать это и начать все сначала — стать учеником более опытных разработчиков.
Наблюдение за разработкой программного проекта с нуля — бесценный опыт. Еще один способ получить опыт взаимодействия с реальной средой – это участие в Проект Каггл .
Ресурс используется для решения сложных задач в различных областях знаний (маркетинг, финансы, банковское дело, медицина, страхование, научные исследования).
Kaggle превращает бизнес-проблемы компаний в структурированный набор данных, с которыми легко работать.
Специалист по данным: не будьте тем, кем вы не являетесь
Не пытайтесь быть тем, кем вы не являетесь.
Специалиста по данным нередко воспринимают как аналитика данных.
Аналитик может сказать: «Если мои инструменты анализа данных не могут ответить на вопрос, то вопрос остается без ответа».
Здесь мы задаем базе данных вопрос и если через полчаса он не возвращается, то отменяем его и переходим к следующему.
Специалист по данным думает так: «Если мои инструменты анализа данных не могут ответить на вопрос, то мне нужны более качественные инструменты и данные».
Этот пример лучше, чем все вышеперечисленные, объясняет, как быть специалистом по данным.
Ученый не говорит: я не могу ответить на вопрос, пойду займусь чем-нибудь другим.
Ученый продолжает думать над вопросом и придумывать способы, которыми он может на него ответить.
Теги: #специалист по обработке данных #Разработка веб-сайтов #Алгоритмы
-
Гаага
19 Oct, 24 -
Ponomusic — Экосистема Цифровой Музыки
19 Oct, 24 -
Bluetooth 2.2 Через Полгода
19 Oct, 24