Обзор Gartner Mq 2020: Платформы Машинного Обучения И Искусственного Интеллекта

Невозможно объяснить причину, по которой я это прочитал.

Просто у меня было время и было интересно, как работает рынок.

И это уже полноценный рынок по данным Gartner с 2018 года.

В 2014-2016 годах он назывался продвинутой аналитикой (корни в BI), в 2017 году — Data Science (не знаю, как это перевести на русский).

Для интересующихся перемещениями торговцев по площади можно Здесь смотреть.

А я буду говорить о квадрате 2020 года, тем более, что изменения там с 2019 года минимальны: SAP ушла, а Altair купила Datawatch. Это не систематический анализ и не таблица.

Индивидуальный взгляд, в том числе и с точки зрения геофизика.

Но мне всегда интересно читать Gartner MQ, они прекрасно формулируют некоторые моменты.

Итак, вот вещи, на которые я обратил внимание как с технической, рыночной, так и с философской точек зрения.

Это не для людей, глубоко разбирающихся в теме ML, а для людей, которым интересно, что вообще происходит на рынке.

Сам рынок DSML логически находится между услугами разработчиков BI и Cloud AI.

Обзор Gartner MQ 2020: платформы машинного обучения и искусственного интеллекта

Любимые цитаты и термины в первую очередь:

  • «Лидер, возможно, не лучший выбор» — Лидер рынка — это не обязательно то, что вам нужно.

    Очень срочно! Вследствие отсутствия функционального заказчика они всегда ищут «лучшее» решение, а не «подходящее».

  • «Операционализация модели» - сокращенно МОП.

    А с мопсами всем тяжело! – (классная тема мопса заставляет модель работать).

  • «Среда ноутбука» — важная концепция, в которой код, комментарии, данные и результаты объединяются.

    Это очень понятно, многообещающе и позволяет значительно сократить объем кода пользовательского интерфейса.

  • «Укоренен в OpenSource» - хорошо сказано - приживается в открытом исходном коде.

  • «Гражданские специалисты по данным» - такие лёгкие чуваки, такие ламеры, а не эксперты, которым нужна визуальная среда и всякие вспомогательные штучки.

    Они не будут кодировать.

  • «Демократия» — часто используется для обозначения «сделать доступным более широкому кругу людей».

    Мы можем сказать «демократизировать данные» вместо опасного «освободить данные», которое мы использовали раньше.

    «Демократизация» — это всегда длинный хвост, и все продавцы гонятся за ним.

    Теряете в интенсивности знаний – выигрываете в доступности!

  • «Исследовательский анализ данных – EDA» — рассмотрение этих доступных средств.

    Немного статистики.

    Немного визуализации.

    То, что в той или иной степени делает каждый.

    Не знал, что у этого есть название

  • «Воспроизводимость» — максимальное сохранение всех параметров окружающей среды, входов и выходов, чтобы эксперимент можно было повторить после его проведения.

    Самый важный термин для экспериментальной тестовой среды!

Так:

Альтерикс

Классный интерфейс, прямо как игрушечный.

Масштабируемость, конечно, немного сложна.

Соответственно, сообщество инженеров Citizen примерно так же с безделушками играет. Аналитика — вся ваша в одном флаконе.

Напомнило комплекс спектрально-корреляционного анализа данных Коскад , который был запрограммирован в 90-е годы.



Анаконда

Сообщество экспертов Python и R. Соответственно, открытый исходный код большой.

Оказалось, что мои коллеги используют его постоянно.

Но я не знал.



DataBricks

Состоит из трех проектов с открытым исходным кодом — разработчики Spark собрали чертовски много денег с 2013 года.

Мне действительно придется процитировать вики:

«В сентябре 2013 года Databricks объявила, что привлекла $13,9 млн от Andreessen Horowitz. Компания привлекла дополнительно 33 миллиона долларов в 2014 году, 60 миллионов долларов в 2016 году, 140 миллионов долларов в 2017 году, 250 миллионов долларов в 2019 году (февраль) и 400 миллионов долларов в 2019 году (октябрь)»!!!
Некоторые великие люди вырезали Spark. Я не знаю, извини! И проекты:
  • Дельта озера — Недавно вышел ACID on Spark (то, о чем мы мечтали с Elasticsearch) — превращает его в базу данных: жесткая схема, ACID, аудит, версии…
  • ML-поток — отслеживание, упаковка, управление и хранение моделей.

  • Коалы — Pandas DataFrame API на Spark — Pandas — Python API для работы с таблицами и данными в целом.

Можете посмотреть Spark для тех, кто не знает или забыл: связь .

Я смотрел видео с примерами от немного скучных, но подробных дятлов-консультантов: DataBricks for Data Science ( связь ) и для инженерии данных ( связь ).

Короче говоря, Databricks вытаскивает Spark. Любой, кто хочет нормально использовать Spark в облаке, без колебаний берет DataBricks, как и предполагалось :) Spark здесь является основным отличием.

Я узнал, что Spark Streaming — это не настоящий фейк в реальном времени или микробэтчинг.

А если вам нужно реальное реальное время, то это Apache STORM. Еще все говорят и пишут, что Spark лучше MapReduce. Это лозунг.



ДАТАИКУ

Классная сквозная вещь.

Есть много рекламы.

Не понимаю, чем он отличается от Альтерикса?

DataRobot

Paxata по подготовке данных — это отдельная компания, которую Data Robots купила в декабре 2019 года.

Мы собрали 20 млн долларов США и продали.

И все за 7 лет. Подготовка данных в Paxata, а не Excel - см.

здесь: связь .

Существует автоматический поиск и предложения по объединению двух наборов данных.

Отличная вещь - для понимания данных еще больше бы упора на текстовую информацию( связь ).

Каталог данных — отличный каталог бесполезных «живых» наборов данных.

Еще интересно, как в Paxata формируются каталоги ( связь ).

«По данным аналитической компании яйцеклетка , программное обеспечение стало возможным благодаря достижениям в области прогнозная аналитика , машинное обучение и NoSQL методология кэширования данных.

[15] Программное обеспечение использует смысловой алгоритмы для понимания значения столбцов таблицы данных и алгоритмы распознавания образов для поиска потенциальных дубликатов в наборе данных.

[15] [7] Он также использует индексацию, распознавание текстовых образов и другие технологии, традиционно используемые в социальных сетях и поисковом программном обеспечении».

Основным продуктом Data Robot является Здесь .

Их лозунг — от модели к корпоративному приложению! Я нашел консалтинг для нефтяной отрасли в связи с кризисом, но он был очень банальным и неинтересным: связь .

Я смотрел их видео на Mops или Mlops( связь ).

Это такой Франкенштейн, собранный из 6-7 приобретений различных продуктов.

Конечно, становится понятно, что большая команда Data Scientist должна иметь именно такую среду для работы с моделями, иначе они будут их производить очень много и так и не развернуть.

А в нашей реальности добычи нефти и газа, если бы мы только могли создать одну успешную модель, это было бы большим прогрессом! Сам процесс очень напоминал работу с проектными системами в геологии-геофизике, например Буревестник .

Делает и модифицирует модели все, кому не лень.

Соберите данные в модель.

Потом сделали эталонную модель и отправили в производство! Между, скажем, геологической моделью и моделью ML можно найти много общего.



Домино

Акцент на открытую платформу и сотрудничество.

Бизнес-пользователям вход бесплатный.

Их лаборатория данных очень похожа на SharePoint. (И название сильно попахивает IBM).

Все эксперименты связаны с исходным набором данных.

Как это знакомо :) Как в нашей практике — в модель перетащили какие-то данные, потом их почистили и привели в порядок в модели, и всё это уже там, в модели, живёт и в исходных данных не найдётся.

В Domino есть классная виртуализация инфраструктуры.

Собрал машину за секунду столько ядер, сколько нужно, и пошел считать.

Как это было сделано, не сразу понятно.

Докер есть везде.

Много свободы! Можно подключить любые рабочие области последних версий.

Параллельный запуск экспериментов.

Отслеживание и отбор успешных.

То же, что и DataRobot — результаты публикуются для бизнес-пользователей в виде приложений.

Для особо одарённых «заинтересованных лиц».

Также контролируется фактическое использование моделей.

Всё для мопсов! Я не до конца понимаю, как сложные модели попадают в производство.

Предоставляется какой-то API для передачи им данных и получения результатов.



H2O

Driveless AI — очень компактная и интуитивно понятная система для контролируемого машинного обучения.

Все в одной коробке.

Насчет бэкенда сразу не совсем понятно.

Модель автоматически упаковывается в сервер REST или приложение Java. Эта великолепная идея.

Многое было сделано для интерпретируемости и объяснимости.

Интерпретация и объяснение результатов модели (Что по своей сути не должно быть объяснимо, иначе человек может посчитать то же самое?).

Впервые тематическое исследование неструктурированных данных и НЛП .

Качественная архитектурная картина.

А вообще картинки мне понравились.

Существует большой фреймворк H2O с открытым исходным кодом, который не совсем ясен (набор алгоритмов/библиотек?).

Свой визуальный ноутбук без программирования как Юпитер( связь ).

Я также читал о моделях Pojo и Mojo — H2O, завернутых в Java. Первый простой, второй с оптимизацией.

H20 — единственные(!), кому Gartner назвал текстовую аналитику и НЛП своими сильными сторонами, а также усилия по обеспечению объяснимости.

Это очень важно! Там же: высокая производительность, оптимизация и отраслевой стандарт в области интеграции с оборудованием и облаками.

И слабость логична — ИИ Driverles слаб и узок по сравнению с их открытым исходным кодом.

Подготовка данных хромает по сравнению с Паксатой! И они игнорируют промышленные данные — поток, график, гео.

Ну не может всё быть просто хорошо.



НИМ?

Мне понравились 6 очень конкретных, очень интересных бизнес-кейсов на главной странице.

Мощный открытый исходный код. Gartner понизил их статус от лидеров до провидцев.

Плохо зарабатывать — хороший знак для пользователей, учитывая, что Лидер — не всегда лучший выбор.

Ключевое слово, как и в H2O, — «дополнено», что означает помощь бедным гражданам, занимающимся анализом данных.

Это первый раз, когда кого-то критикуют за работу в обзоре! Интересный? То есть вычислительных мощностей настолько много, что производительность вообще не может быть системной проблемой? У Gartner есть слово «дополненный».

отдельная статья , до которого не удалось добраться.

А KNIME кажется первый неамериканец в обзоре! (А нашим дизайнерам очень понравился лендинг.

Странные люди.



MathWorks

МатЛаб — старый всем известный почетный товарищ! Ящики для инструментов для всех сфер жизни и ситуаций.

Что-то совсем другое.

На самом деле, много-много-много математики на все случаи жизни! Дополнительный продукт Simulink для проектирования систем.

Покопался в наборах инструментов для Цифровых Двойников - ничего в этом не понимаю, но здесь много написано.

Для нефтяная промышленность .

В общем, это принципиально иной продукт из глубин математики и инженерии.

Чтобы выбрать конкретные наборы математических инструментов.

По мнению Gartner, их проблемы те же, что и у умных инженеров — никакой коллаборации — каждый шарится в своей модели, никакой демократии, никакой объяснимости.



РапидМайнер

Я уже много сталкивался и слышал (вместе с Matlab) в контексте хорошего открытого исходного кода.

Как обычно, я немного покопался в TurboPrep. Меня интересует, как получить чистые данные из грязных данных.

Опять же, судя по маркетинговым материалам 2018 года, вы можете видеть, что люди хорошие, а в демоверсии функции люди ужасно говорят по-английски.

И люди из Дортмунда с 2001 года с сильным немецким прошлым)

Обзор Gartner MQ 2020: платформы машинного обучения и искусственного интеллекта

Я так и не понял из сайта, что именно доступно в открытом исходном коде — нужно копать глубже.

Хорошие видеоролики о развертывании и концепциях AutoML. В бэкэнде сервера RapidMiner также нет ничего особенного.

Вероятно, он будет компактным и хорошо работать в премиум-классе из коробки.

Он упакован в Docker. Общая среда только на сервере RapidMiner. А еще есть Radoop, данные из Hadoop, считалки из Spark в рабочем процессе Studio. Как и ожидалось, молодые горячие продавцы «продавцы полосатых палочек» сдвинули их вниз.

Однако Gartner прогнозирует их будущий успех в корпоративной сфере.

Там можно собрать деньги.

Немцы это делать умеют, святой-святой :) Не упоминайте SAP!!! Они очень много делают для граждан! Но со страницы видно, что Gartner говорит, что они борются с инновациями в продажах и борются не за широту охвата, а за прибыльность.

Остались САС И Тибко типичные для меня BI-вендоры.

И оба на самом верху, что подтверждает мою уверенность в том, что нормальный DataScience логически растет из BI, а не из облаков и инфраструктур Hadoop. То есть из бизнеса, а не из IT. Как в Газпромнефти например: связь ,Зрелая среда DSML является результатом сильных практик бизнес-аналитики.

Но, может быть, это пафосно и предвзято по отношению к МДМ и другим вещам, кто знает.

САС

Мне особо нечего сказать.

Только очевидные вещи.



ТИБКО

Стратегия читается в списке покупок на странице Wiki длиной в страницу.

Да, долгая история, но 28!!! Чарльз.

Я купил BI Spotfire (2007) еще в техно-юности.

А также отчеты от Jaspersoft (2014 г.

), затем целых трех поставщиков прогнозной аналитики Insightful (S-plus) (2008 г.

), Statistica (2017 г.

) и Alpine Data (2017 г.

), обработки событий и потоковой передачи Streambase System (2013 г.

), MDM Orchestra Networks (2018 г.

) и Snappy Data (2019 г.

) — платформа в памяти.

Привет, Фрэнки!

Обзор Gartner MQ 2020: платформы машинного обучения и искусственного интеллекта

Теги: #Машинное обучение #искусственный интеллект #Большие данные #наука о данных #Инженерия данных #большие данные и машинное обучение #Статистика в ИТ #искусственный интеллект #gartner #DSML

Вместе с данным постом часто просматривают:

Автор Статьи


Зарегистрирован: 2019-12-10 15:07:06
Баллов опыта: 0
Всего постов на сайте: 0
Всего комментарий на сайте: 0
Dima Manisha

Dima Manisha

Эксперт Wmlog. Профессиональный веб-мастер, SEO-специалист, дизайнер, маркетолог и интернет-предприниматель.