Основные Тренды Data Science 2020 Года, Которые Будут Актуальны В 2021 Году

Привет, Хабр! Сегодня я расскажу вам, как развивается сфера Data Science. 2020 год стал переломным не только для мира в целом, сектор данных активно совершенствуется и сегодня мы уже можем подвести итоги года.

Встречайте тенденции DS в 2020-2021 годах.



Основные тренды Data Science 2020 года, которые будут актуальны в 2021 году

Я сделал CDPV, а затем обработал его с помощью нейронной сети.

Кто узнал фильм, тот молодец! :-)






ИИ и нейронные сети

Искусственный интеллект, хоть и испытывает трудности с тестом Тьюринга, но добивается успехов в этой области.

В мае 2020 года команда OpenAI выпустила новый алгоритм обработки естественного языка GPT-3. На сегодняшний день это, без сомнения, лучший из существующих алгоритмов для этой цели.

Улучшения системы по сравнению с предыдущей версией GPT-2 просто огромны.

Количество параметров алгоритма увеличилось более чем в 100 раз.

GPT-3 использует 175 миллиардов параметров, а GPT-2 — только 1,5 миллиарда.



Основные тренды Data Science 2020 года, которые будут актуальны в 2021 году

И если раньше нейросеть могла генерировать текст, лишь приблизительно напоминавший человеческий текст, то теперь ее возможности гораздо шире.

Один студент в своем аккаунте Apolos опубликованные статьи , написанный GPT-3. Не очень сложно, в стиле мотивационного коуча.

И только один из десятков тысяч читателей заподозрил, что статьи писал не человек.



Основные тренды Data Science 2020 года, которые будут актуальны в 2021 году

Собственно, именно поэтому OpenAI не выпускает алгоритм в открытый доступ — с его помощью можно просто похоронить Интернет под лавиной фейковых новостей.

Потенциальные преимущества GPT-3 огромны.

От создания голосовых помощников следующего поколения до разработки адаптивной игровой механики, которая выведет ролевые игры на совершенно новый уровень.

Кстати, ты уже пробовал? ИИ-подземелье , текстовая игра, размещенная на GPT-3? Если нет, попробуйте, это очень интересный опыт. Здесь в Эта статья описан один такой эксперимент.


Интеллектуальные решения

Наука о принятии решений — сравнительно новая дисциплина, изучающая научные теории о принятии решений.

Чтобы решения принимались не на основе субъективного опыта или ощущений лица, принимающего решения, а посредством анализа и сравнения данных.

DI позволяет автоматизировать рутинные и оперативные решения, разгружая человека, принимающего решения.

Медицинская система InferVision, основанная на алгоритме Alpha Go, была запущена в 2015 году и именно в 2020 году показала всю свою мощь.

В Китае число людей, проходящих компьютерную томографию, увеличилось в разы.

Специалисты просто не справились с обработкой результатов.

Ведь на анализ одной компьютерной томографии врачу требуется от 10 до 30 минут. На помощь пришла компания InferVision, проанализировавшая компьютерную томографию за 5 секунд. Это позволило сразу отсеивать здоровых людей, не имеющих патологических изменений в легких.

А людям с патологиями система сразу выдавала предположительный диагноз.

Естественно, все это проводилось под контролем специалиста, и решения принимал именно он, но это позволило сократить время обработки одного анализа в несколько раз.

Интеллектуальные решения основаны на искусственном интеллекте и глубоком обучении.

InferVision, например, был обучен на 100 тысячах случаев.

Конечно, при нынешнем развитии технологий ИИ пока не может принимать объективно лучшие решения в системах с множеством вариантов.

Ему просто не хватает мощности и необработанных данных для анализа.

Но во многих моментах это позволяет исключить импульсивность человека, предвзятость и банальные ошибки мышления.

А также автоматизировать рутинные процессы принятия решений и сэкономить время специалиста на решение сложных задач.



Облачная аналитика

Системы облачной аналитики существовали и раньше, но в 2020 году динамика их развития значительно возросла.

Облачная аналитика упрощает использование больших объемов данных, которые часто обновляются.

Единая система аналитики для всех подразделений компании помогает обновлять результаты аналитики и ускорять их использование.

Аналитика в реальном времени — это следующий этап, которого стремятся достичь многие компании.

Лучше оперировать горячими результатами анализа, который был сделан несколько секунд назад. В конце концов, анализ, сделанный вчера, уже может быть неточным.

Облачная аналитика — перспективный инструмент для бизнес-гигантов, у которых в каждой отрасли есть отделы аналитики.

Поэтому такие крупные компании, как IBM, сегодня активно участвуют в разработке подобных систем.



Торговые площадки данных

Родственное облачной аналитике, но в то же время самостоятельное явление.

Качество данных для анализа имеет решающее значение.

Если у стартапа нет возможности проводить глобальные маркетинговые исследования, то он рискует действовать вслепую, не зная реальных потребностей целевой аудитории.

Но теперь вы можете купить аналитику.

Рынки данных — это полноценные информационные рынки.

Известный Статистика — одна из первых таких торговых площадок, но сейчас отрасль растет огромными темпами.

Естественно, персональными данными никто не торгует (по крайней мере, легально).

Имя и фамилия, адреса проживания, номера телефонов и адреса электронной почты защищены законом.

Но анонимизированные данные можно продать.

И много полезного для бизнеса.

Возраст и пол, социальный статус, предпочтения, сфера работы, хобби, национальность и сотни других параметров, которые вы оставляете в сети, вплоть до выбора гаджетов на iOS или Android. Давайте вспомним старую истину – если в Интернете что-то бесплатно, то, возможно, вы сами за это платите.

Рынок больших данных в 2020 году составляет 138,9 миллиарда долларов.

«Эксперты прогнозируют, что к 2025 году оно вырастет до 229,4 миллиарда.

Это колоссальные масштабы, в которых львиную долю будет занимать продажа информации, а не ее добыча.



Блокчейн в аналитике

Шумиха вокруг блокчейна уже немного утихла.

Это в 2017 году запускать собственную криптовалюту не хотел только ленивый, а в 2020 году блокчейн используют в более прагматичных целях.

Сочетание блокчейна и больших данных называют идеальным союзом.

Блокчейн фокусируется на изоляции и записи надежных данных; Ученые, работающие с данными, анализируют большие объемы данных, чтобы выявить закономерности развития и сделать прогнозы.

Большие данные — это количество, а блокчейн — это качество.

Существует масса потенциальных преимуществ от интеграции блокчейна в анализ больших данных:

  • Улучшена безопасность данных и результаты аналитики.

  • Поддержание максимальной целостности данных.

  • Предотвращение использования ложных данных.

  • Аналитика в реальном времени.

  • Улучшение качества больших данных.

Блокчейн для KYC (знайте своих клиентов).

Технологию используют банки и государственные организации.

Но поскольку общего хранилища данных между разными организациями нет, идентификацию необходимо проходить в каждой из них отдельно.

Блокчейн решает эту проблему.

Платформа Самсунг Некслегер , запущенный в Корее, упрощает эту схему.

Теперь достаточно пройти полную процедуру идентификации только в одном банке или организации.

Если вам необходимо создать счет в банке, входящем в систему проекта, вы сможете сделать это за несколько минут. Теперь достаточно один раз пройти все круги бюрократического ада – и все.



Графовые базы данных

Не самый популярный и распространенный тип СУБД.

Он создан специально для хранения топологий, включающих узлы и их связи.

Это не просто набор данных в классическом табличном формате.

Сама их суть иная.

Графы основаны на связях между сущностями, а не на самих сущностях.



Основные тренды Data Science 2020 года, которые будут актуальны в 2021 году

И это всего лишь маркетинговый клондайк.

Ведь анализ графовых баз данных можно использовать для анализа лидеров мнений и влиятельных лиц в социальных сетях, персонализации рекламы, программ лояльности, анализа вирусных кампаний, усиления SEO и многого другого.

Графы позволяют анализировать сложные иерархические структуры, которые было бы проблематично смоделировать с помощью реляционных баз данных.

В 2020 году графический анализ активно использовался для отслеживания распространения вируса в Китае и за его пределами.

Исследование основано на динамических данных из 200 стран, что позволяет прогнозировать дальнейшее развитие мировой ситуации и принимать меры по смягчению последствий.

Если вам интересно, вот полное исследование.

Здесь .

В 2020 году интерес к графовым СУБД существенно возрос.

Их используют Ebay, Airbnb, IBM, Adobe, NBC News и десятки других крупных компаний.

А специалисты, умеющие хорошо работать с графовыми базами данных, на вес золота.



Python в науке о данных

Python продолжает захватывать мировой рынок аналитики и разработки.

И его позиции только укрепляются.

Здесь в Эта статья вы можете прочитать больше.

В рейтинге PYPL Python, который анализирует Google Trends, уверенно лидирует. В рейтинге GitHub по количеству пул-реквестов Python занимает второе место: 15,9% от общего количества всех пул-реквестов.

Для сравнения, язык R, с которым Python всегда конкурирует в аналитике, находится аж на 33-м месте и на его долю приходится всего 0,09% пул-реквестов.

Более необходимы специалисты с навыками Python в области аналитики.

Мы не так давно проанализировали рынок труда Data Science в России и выяснили, что знание Python требуется в 81% вакансий, но R (без Python) требуется только в 3% случаев.

R остается хорошим языком для аналитики, но Python почти полностью захватил рынок.

Если в 2012 году они находились примерно в равных позициях, то сейчас лидерство Python неоспоримо.

И это необходимо учитывать.

2020 год принес много нового в Data Science, ведь сама область аналитики больших данных сейчас активно развивается.

Конечно, это не все тенденции, о которых стоит упомянуть.

И отдельный вопрос к дата-сайентистам — какие профессиональные тенденции больше всего повлияли на вашу работу в этом году? Нам очень интересно это услышать.



Основные тренды Data Science 2020 года, которые будут актуальны в 2021 году

Больше курсов Теги: #Читальный зал #Большие данные #наука о данных #ученый по данным #Инженерия данных #SkillFactory #Интеллектуальный анализ данных #анализ данных
Вместе с данным постом часто просматривают: