Привет, Хабр! Сегодня я расскажу вам, как развивается сфера Data Science. 2020 год стал переломным не только для мира в целом, сектор данных активно совершенствуется и сегодня мы уже можем подвести итоги года.
Встречайте тенденции DS в 2020-2021 годах.
Я сделал CDPV, а затем обработал его с помощью нейронной сети.
Кто узнал фильм, тот молодец! :-)
ИИ и нейронные сети
Искусственный интеллект, хоть и испытывает трудности с тестом Тьюринга, но добивается успехов в этой области.В мае 2020 года команда OpenAI выпустила новый алгоритм обработки естественного языка GPT-3. На сегодняшний день это, без сомнения, лучший из существующих алгоритмов для этой цели.
Улучшения системы по сравнению с предыдущей версией GPT-2 просто огромны.
Количество параметров алгоритма увеличилось более чем в 100 раз.
GPT-3 использует 175 миллиардов параметров, а GPT-2 — только 1,5 миллиарда.
И если раньше нейросеть могла генерировать текст, лишь приблизительно напоминавший человеческий текст, то теперь ее возможности гораздо шире.
Один студент в своем аккаунте Apolos опубликованные статьи , написанный GPT-3. Не очень сложно, в стиле мотивационного коуча.Собственно, именно поэтому OpenAI не выпускает алгоритм в открытый доступ — с его помощью можно просто похоронить Интернет под лавиной фейковых новостей.И только один из десятков тысяч читателей заподозрил, что статьи писал не человек.
Потенциальные преимущества GPT-3 огромны.
От создания голосовых помощников следующего поколения до разработки адаптивной игровой механики, которая выведет ролевые игры на совершенно новый уровень.
Кстати, ты уже пробовал? ИИ-подземелье , текстовая игра, размещенная на GPT-3? Если нет, попробуйте, это очень интересный опыт. Здесь в Эта статья описан один такой эксперимент.
Интеллектуальные решения
Наука о принятии решений — сравнительно новая дисциплина, изучающая научные теории о принятии решений.Чтобы решения принимались не на основе субъективного опыта или ощущений лица, принимающего решения, а посредством анализа и сравнения данных.
DI позволяет автоматизировать рутинные и оперативные решения, разгружая человека, принимающего решения.
Медицинская система InferVision, основанная на алгоритме Alpha Go, была запущена в 2015 году и именно в 2020 году показала всю свою мощь.Интеллектуальные решения основаны на искусственном интеллекте и глубоком обучении.В Китае число людей, проходящих компьютерную томографию, увеличилось в разы.
Специалисты просто не справились с обработкой результатов.
Ведь на анализ одной компьютерной томографии врачу требуется от 10 до 30 минут. На помощь пришла компания InferVision, проанализировавшая компьютерную томографию за 5 секунд. Это позволило сразу отсеивать здоровых людей, не имеющих патологических изменений в легких.
А людям с патологиями система сразу выдавала предположительный диагноз.
Естественно, все это проводилось под контролем специалиста, и решения принимал именно он, но это позволило сократить время обработки одного анализа в несколько раз.
InferVision, например, был обучен на 100 тысячах случаев.
Конечно, при нынешнем развитии технологий ИИ пока не может принимать объективно лучшие решения в системах с множеством вариантов.
Ему просто не хватает мощности и необработанных данных для анализа.
Но во многих моментах это позволяет исключить импульсивность человека, предвзятость и банальные ошибки мышления.
А также автоматизировать рутинные процессы принятия решений и сэкономить время специалиста на решение сложных задач.
Облачная аналитика
Системы облачной аналитики существовали и раньше, но в 2020 году динамика их развития значительно возросла.Облачная аналитика упрощает использование больших объемов данных, которые часто обновляются.
Единая система аналитики для всех подразделений компании помогает обновлять результаты аналитики и ускорять их использование.
Аналитика в реальном времени — это следующий этап, которого стремятся достичь многие компании.
Лучше оперировать горячими результатами анализа, который был сделан несколько секунд назад. В конце концов, анализ, сделанный вчера, уже может быть неточным.
Облачная аналитика — перспективный инструмент для бизнес-гигантов, у которых в каждой отрасли есть отделы аналитики.
Поэтому такие крупные компании, как IBM, сегодня активно участвуют в разработке подобных систем.
Торговые площадки данных
Родственное облачной аналитике, но в то же время самостоятельное явление.Качество данных для анализа имеет решающее значение.
Если у стартапа нет возможности проводить глобальные маркетинговые исследования, то он рискует действовать вслепую, не зная реальных потребностей целевой аудитории.
Но теперь вы можете купить аналитику.
Рынки данных — это полноценные информационные рынки.
Известный Статистика — одна из первых таких торговых площадок, но сейчас отрасль растет огромными темпами.
Естественно, персональными данными никто не торгует (по крайней мере, легально).Рынок больших данных в 2020 году составляет 138,9 миллиарда долларов.Имя и фамилия, адреса проживания, номера телефонов и адреса электронной почты защищены законом.
Но анонимизированные данные можно продать.
И много полезного для бизнеса.
Возраст и пол, социальный статус, предпочтения, сфера работы, хобби, национальность и сотни других параметров, которые вы оставляете в сети, вплоть до выбора гаджетов на iOS или Android. Давайте вспомним старую истину – если в Интернете что-то бесплатно, то, возможно, вы сами за это платите.
«Эксперты прогнозируют, что к 2025 году оно вырастет до 229,4 миллиарда.
Это колоссальные масштабы, в которых львиную долю будет занимать продажа информации, а не ее добыча.
Блокчейн в аналитике
Шумиха вокруг блокчейна уже немного утихла.Это в 2017 году запускать собственную криптовалюту не хотел только ленивый, а в 2020 году блокчейн используют в более прагматичных целях.
Сочетание блокчейна и больших данных называют идеальным союзом.
Блокчейн фокусируется на изоляции и записи надежных данных; Ученые, работающие с данными, анализируют большие объемы данных, чтобы выявить закономерности развития и сделать прогнозы.
Большие данные — это количество, а блокчейн — это качество.
Существует масса потенциальных преимуществ от интеграции блокчейна в анализ больших данных:
- Улучшена безопасность данных и результаты аналитики.
- Поддержание максимальной целостности данных.
- Предотвращение использования ложных данных.
- Аналитика в реальном времени.
- Улучшение качества больших данных.
Технологию используют банки и государственные организации.
Но поскольку общего хранилища данных между разными организациями нет, идентификацию необходимо проходить в каждой из них отдельно.
Блокчейн решает эту проблему.
Платформа Самсунг Некслегер , запущенный в Корее, упрощает эту схему.Теперь достаточно пройти полную процедуру идентификации только в одном банке или организации.
Если вам необходимо создать счет в банке, входящем в систему проекта, вы сможете сделать это за несколько минут. Теперь достаточно один раз пройти все круги бюрократического ада – и все.
Графовые базы данных
Не самый популярный и распространенный тип СУБД.Он создан специально для хранения топологий, включающих узлы и их связи.
Это не просто набор данных в классическом табличном формате.
Сама их суть иная.
Графы основаны на связях между сущностями, а не на самих сущностях.
И это всего лишь маркетинговый клондайк.
Ведь анализ графовых баз данных можно использовать для анализа лидеров мнений и влиятельных лиц в социальных сетях, персонализации рекламы, программ лояльности, анализа вирусных кампаний, усиления SEO и многого другого.
Графы позволяют анализировать сложные иерархические структуры, которые было бы проблематично смоделировать с помощью реляционных баз данных.
В 2020 году графический анализ активно использовался для отслеживания распространения вируса в Китае и за его пределами.В 2020 году интерес к графовым СУБД существенно возрос.Исследование основано на динамических данных из 200 стран, что позволяет прогнозировать дальнейшее развитие мировой ситуации и принимать меры по смягчению последствий.
Если вам интересно, вот полное исследование.
Здесь .
Их используют Ebay, Airbnb, IBM, Adobe, NBC News и десятки других крупных компаний.
А специалисты, умеющие хорошо работать с графовыми базами данных, на вес золота.
Python в науке о данных
Python продолжает захватывать мировой рынок аналитики и разработки.И его позиции только укрепляются.
Здесь в Эта статья вы можете прочитать больше.
В рейтинге PYPL Python, который анализирует Google Trends, уверенно лидирует. В рейтинге GitHub по количеству пул-реквестов Python занимает второе место: 15,9% от общего количества всех пул-реквестов.
Для сравнения, язык R, с которым Python всегда конкурирует в аналитике, находится аж на 33-м месте и на его долю приходится всего 0,09% пул-реквестов.
Более необходимы специалисты с навыками Python в области аналитики.
Мы не так давно проанализировали рынок труда Data Science в России и выяснили, что знание Python требуется в 81% вакансий, но R (без Python) требуется только в 3% случаев.
R остается хорошим языком для аналитики, но Python почти полностью захватил рынок.
Если в 2012 году они находились примерно в равных позициях, то сейчас лидерство Python неоспоримо.
И это необходимо учитывать.
2020 год принес много нового в Data Science, ведь сама область аналитики больших данных сейчас активно развивается.
Конечно, это не все тенденции, о которых стоит упомянуть.
И отдельный вопрос к дата-сайентистам — какие профессиональные тенденции больше всего повлияли на вашу работу в этом году? Нам очень интересно это услышать.
Больше курсов- Профессия: технический хакер
- Фронтенд-разработчик
- Профессия Веб-разработчик
- Курс «Python для веб-разработки»
- Продвинутый курс «Машинное обучение Pro + Deep Learning»
- Курс машинного обучения
- Курс «Математика и машинное обучение для науки о данных»
- Разработчик игр на Unity
- Курс JavaScript
- Профессия Java-разработчик
- разработчик С++
- Курс анализа данных
- Курс DevOps
- Профессия iOS-разработчик с нуля
- Профессия Android-разработчик с нуля
-
Time - Космическая Подводная Лодка
19 Oct, 24 -
Gps-Антенна Своими Руками За 5 Минут.
19 Oct, 24 -
Архитектурные Шаблоны В Ios
19 Oct, 24