Невозможно объяснить причину, по которой я это прочитал.
Просто у меня было время и было интересно, как работает рынок.
И это уже полноценный рынок по данным Gartner с 2018 года.
В 2014-2016 годах он назывался продвинутой аналитикой (корни в BI), в 2017 году — Data Science (не знаю, как это перевести на русский).
Для интересующихся перемещениями торговцев по площади можно Здесь смотреть.
А я буду говорить о квадрате 2020 года, тем более, что изменения там с 2019 года минимальны: SAP ушла, а Altair купила Datawatch. Это не систематический анализ и не таблица.
Индивидуальный взгляд, в том числе и с точки зрения геофизика.
Но мне всегда интересно читать Gartner MQ, они прекрасно формулируют некоторые моменты.
Итак, вот вещи, на которые я обратил внимание как с технической, рыночной, так и с философской точек зрения.
Это не для людей, глубоко разбирающихся в теме ML, а для людей, которым интересно, что вообще происходит на рынке.
Сам рынок DSML логически находится между услугами разработчиков BI и Cloud AI.
Любимые цитаты и термины в первую очередь:
- «Лидер, возможно, не лучший выбор» — Лидер рынка — это не обязательно то, что вам нужно.
Очень срочно! Вследствие отсутствия функционального заказчика они всегда ищут «лучшее» решение, а не «подходящее».
- «Операционализация модели» - сокращенно МОП.
А с мопсами всем тяжело! – (классная тема мопса заставляет модель работать).
- «Среда ноутбука» — важная концепция, в которой код, комментарии, данные и результаты объединяются.
Это очень понятно, многообещающе и позволяет значительно сократить объем кода пользовательского интерфейса.
- «Укоренен в OpenSource» - хорошо сказано - приживается в открытом исходном коде.
- «Гражданские специалисты по данным» - такие лёгкие чуваки, такие ламеры, а не эксперты, которым нужна визуальная среда и всякие вспомогательные штучки.
Они не будут кодировать.
- «Демократия» — часто используется для обозначения «сделать доступным более широкому кругу людей».
Мы можем сказать «демократизировать данные» вместо опасного «освободить данные», которое мы использовали раньше.
«Демократизация» — это всегда длинный хвост, и все продавцы гонятся за ним.
Теряете в интенсивности знаний – выигрываете в доступности!
- «Исследовательский анализ данных – EDA» — рассмотрение этих доступных средств.
Немного статистики.
Немного визуализации.
То, что в той или иной степени делает каждый.
Не знал, что у этого есть название
- «Воспроизводимость» — максимальное сохранение всех параметров окружающей среды, входов и выходов, чтобы эксперимент можно было повторить после его проведения.
Самый важный термин для экспериментальной тестовой среды!
Альтерикс
Классный интерфейс, прямо как игрушечный.Масштабируемость, конечно, немного сложна.
Соответственно, сообщество инженеров Citizen примерно так же с безделушками играет. Аналитика — вся ваша в одном флаконе.
Напомнило комплекс спектрально-корреляционного анализа данных Коскад , который был запрограммирован в 90-е годы.
Анаконда
Сообщество экспертов Python и R. Соответственно, открытый исходный код большой.Оказалось, что мои коллеги используют его постоянно.
Но я не знал.
DataBricks
Состоит из трех проектов с открытым исходным кодом — разработчики Spark собрали чертовски много денег с 2013 года.Мне действительно придется процитировать вики:
«В сентябре 2013 года Databricks объявила, что привлекла $13,9 млн от Andreessen Horowitz. Компания привлекла дополнительно 33 миллиона долларов в 2014 году, 60 миллионов долларов в 2016 году, 140 миллионов долларов в 2017 году, 250 миллионов долларов в 2019 году (февраль) и 400 миллионов долларов в 2019 году (октябрь)»!!!Некоторые великие люди вырезали Spark. Я не знаю, извини! И проекты:
- Дельта озера — Недавно вышел ACID on Spark (то, о чем мы мечтали с Elasticsearch) — превращает его в базу данных: жесткая схема, ACID, аудит, версии…
- ML-поток — отслеживание, упаковка, управление и хранение моделей.
- Коалы — Pandas DataFrame API на Spark — Pandas — Python API для работы с таблицами и данными в целом.
Я смотрел видео с примерами от немного скучных, но подробных дятлов-консультантов: DataBricks for Data Science ( связь ) и для инженерии данных ( связь ).
Короче говоря, Databricks вытаскивает Spark. Любой, кто хочет нормально использовать Spark в облаке, без колебаний берет DataBricks, как и предполагалось :) Spark здесь является основным отличием.
Я узнал, что Spark Streaming — это не настоящий фейк в реальном времени или микробэтчинг.
А если вам нужно реальное реальное время, то это Apache STORM. Еще все говорят и пишут, что Spark лучше MapReduce. Это лозунг.
ДАТАИКУ
Классная сквозная вещь.Есть много рекламы.
Не понимаю, чем он отличается от Альтерикса?
DataRobot
Paxata по подготовке данных — это отдельная компания, которую Data Robots купила в декабре 2019 года.Мы собрали 20 млн долларов США и продали.
И все за 7 лет. Подготовка данных в Paxata, а не Excel - см.
здесь: связь .
Существует автоматический поиск и предложения по объединению двух наборов данных.
Отличная вещь - для понимания данных еще больше бы упора на текстовую информацию( связь ).
Каталог данных — отличный каталог бесполезных «живых» наборов данных.
Еще интересно, как в Paxata формируются каталоги ( связь ).
«По данным аналитической компании яйцеклетка , программное обеспечение стало возможным благодаря достижениям в области прогнозная аналитика , машинное обучение и NoSQL методология кэширования данных.Основным продуктом Data Robot является Здесь .[15] Программное обеспечение использует смысловой алгоритмы для понимания значения столбцов таблицы данных и алгоритмы распознавания образов для поиска потенциальных дубликатов в наборе данных.
[15] [7] Он также использует индексацию, распознавание текстовых образов и другие технологии, традиционно используемые в социальных сетях и поисковом программном обеспечении».
Их лозунг — от модели к корпоративному приложению! Я нашел консалтинг для нефтяной отрасли в связи с кризисом, но он был очень банальным и неинтересным: связь .
Я смотрел их видео на Mops или Mlops( связь ).
Это такой Франкенштейн, собранный из 6-7 приобретений различных продуктов.
Конечно, становится понятно, что большая команда Data Scientist должна иметь именно такую среду для работы с моделями, иначе они будут их производить очень много и так и не развернуть.
А в нашей реальности добычи нефти и газа, если бы мы только могли создать одну успешную модель, это было бы большим прогрессом! Сам процесс очень напоминал работу с проектными системами в геологии-геофизике, например Буревестник .
Делает и модифицирует модели все, кому не лень.
Соберите данные в модель.
Потом сделали эталонную модель и отправили в производство! Между, скажем, геологической моделью и моделью ML можно найти много общего.
Домино
Акцент на открытую платформу и сотрудничество.Бизнес-пользователям вход бесплатный.
Их лаборатория данных очень похожа на SharePoint. (И название сильно попахивает IBM).
Все эксперименты связаны с исходным набором данных.
Как это знакомо :) Как в нашей практике — в модель перетащили какие-то данные, потом их почистили и привели в порядок в модели, и всё это уже там, в модели, живёт и в исходных данных не найдётся.
В Domino есть классная виртуализация инфраструктуры.
Собрал машину за секунду столько ядер, сколько нужно, и пошел считать.
Как это было сделано, не сразу понятно.
Докер есть везде.
Много свободы! Можно подключить любые рабочие области последних версий.
Параллельный запуск экспериментов.
Отслеживание и отбор успешных.
То же, что и DataRobot — результаты публикуются для бизнес-пользователей в виде приложений.
Для особо одарённых «заинтересованных лиц».
Также контролируется фактическое использование моделей.
Всё для мопсов! Я не до конца понимаю, как сложные модели попадают в производство.
Предоставляется какой-то API для передачи им данных и получения результатов.
H2O
Driveless AI — очень компактная и интуитивно понятная система для контролируемого машинного обучения.Все в одной коробке.
Насчет бэкенда сразу не совсем понятно.
Модель автоматически упаковывается в сервер REST или приложение Java. Эта великолепная идея.
Многое было сделано для интерпретируемости и объяснимости.
Интерпретация и объяснение результатов модели (Что по своей сути не должно быть объяснимо, иначе человек может посчитать то же самое?).
Впервые тематическое исследование неструктурированных данных и НЛП .
Качественная архитектурная картина.
А вообще картинки мне понравились.
Существует большой фреймворк H2O с открытым исходным кодом, который не совсем ясен (набор алгоритмов/библиотек?).
Свой визуальный ноутбук без программирования как Юпитер( связь ).
Я также читал о моделях Pojo и Mojo — H2O, завернутых в Java. Первый простой, второй с оптимизацией.
H20 — единственные(!), кому Gartner назвал текстовую аналитику и НЛП своими сильными сторонами, а также усилия по обеспечению объяснимости.
Это очень важно! Там же: высокая производительность, оптимизация и отраслевой стандарт в области интеграции с оборудованием и облаками.
И слабость логична — ИИ Driverles слаб и узок по сравнению с их открытым исходным кодом.
Подготовка данных хромает по сравнению с Паксатой! И они игнорируют промышленные данные — поток, график, гео.
Ну не может всё быть просто хорошо.
НИМ?
Мне понравились 6 очень конкретных, очень интересных бизнес-кейсов на главной странице.Мощный открытый исходный код. Gartner понизил их статус от лидеров до провидцев.
Плохо зарабатывать — хороший знак для пользователей, учитывая, что Лидер — не всегда лучший выбор.
Ключевое слово, как и в H2O, — «дополнено», что означает помощь бедным гражданам, занимающимся анализом данных.
Это первый раз, когда кого-то критикуют за работу в обзоре! Интересный? То есть вычислительных мощностей настолько много, что производительность вообще не может быть системной проблемой? У Gartner есть слово «дополненный».
отдельная статья , до которого не удалось добраться.
А KNIME кажется первый неамериканец в обзоре! (А нашим дизайнерам очень понравился лендинг.
Странные люди.
MathWorks
МатЛаб — старый всем известный почетный товарищ! Ящики для инструментов для всех сфер жизни и ситуаций.Что-то совсем другое.
На самом деле, много-много-много математики на все случаи жизни! Дополнительный продукт Simulink для проектирования систем.
Покопался в наборах инструментов для Цифровых Двойников - ничего в этом не понимаю, но здесь много написано.
Для нефтяная промышленность .
В общем, это принципиально иной продукт из глубин математики и инженерии.
Чтобы выбрать конкретные наборы математических инструментов.
По мнению Gartner, их проблемы те же, что и у умных инженеров — никакой коллаборации — каждый шарится в своей модели, никакой демократии, никакой объяснимости.
РапидМайнер
Я уже много сталкивался и слышал (вместе с Matlab) в контексте хорошего открытого исходного кода.Как обычно, я немного покопался в TurboPrep. Меня интересует, как получить чистые данные из грязных данных.
Опять же, судя по маркетинговым материалам 2018 года, вы можете видеть, что люди хорошие, а в демоверсии функции люди ужасно говорят по-английски.
И люди из Дортмунда с 2001 года с сильным немецким прошлым)
Я так и не понял из сайта, что именно доступно в открытом исходном коде — нужно копать глубже.
Хорошие видеоролики о развертывании и концепциях AutoML. В бэкэнде сервера RapidMiner также нет ничего особенного.
Вероятно, он будет компактным и хорошо работать в премиум-классе из коробки.
Он упакован в Docker. Общая среда только на сервере RapidMiner. А еще есть Radoop, данные из Hadoop, считалки из Spark в рабочем процессе Studio. Как и ожидалось, молодые горячие продавцы «продавцы полосатых палочек» сдвинули их вниз.
Однако Gartner прогнозирует их будущий успех в корпоративной сфере.
Там можно собрать деньги.
Немцы это делать умеют, святой-святой :) Не упоминайте SAP!!! Они очень много делают для граждан! Но со страницы видно, что Gartner говорит, что они борются с инновациями в продажах и борются не за широту охвата, а за прибыльность.
Остались САС И Тибко типичные для меня BI-вендоры.
И оба на самом верху, что подтверждает мою уверенность в том, что нормальный DataScience логически растет из BI, а не из облаков и инфраструктур Hadoop. То есть из бизнеса, а не из IT. Как в Газпромнефти например: связь ,Зрелая среда DSML является результатом сильных практик бизнес-аналитики.
Но, может быть, это пафосно и предвзято по отношению к МДМ и другим вещам, кто знает.
САС
Мне особо нечего сказать.Только очевидные вещи.
ТИБКО
Стратегия читается в списке покупок на странице Wiki длиной в страницу.Да, долгая история, но 28!!! Чарльз.
Я купил BI Spotfire (2007) еще в техно-юности.
А также отчеты от Jaspersoft (2014 г.
), затем целых трех поставщиков прогнозной аналитики Insightful (S-plus) (2008 г.
), Statistica (2017 г.
) и Alpine Data (2017 г.
), обработки событий и потоковой передачи Streambase System (2013 г.
), MDM Orchestra Networks (2018 г.
) и Snappy Data (2019 г.
) — платформа в памяти.
Привет, Фрэнки!
Теги: #Машинное обучение #искусственный интеллект #Большие данные #наука о данных #Инженерия данных #большие данные и машинное обучение #Статистика в ИТ #искусственный интеллект #gartner #DSML
-
Важность Веб-Перевода
19 Oct, 24 -
Работа С Usb-Видеокамерой В Linux. Часть 2
19 Oct, 24 -
Работаем Удаленно. Особенности И Ограничения
19 Oct, 24 -
Канобувости, 55-Й Выпуск
19 Oct, 24 -
Графический Спам «Обострился» В 2006 Году
19 Oct, 24 -
Jmix 2021: Итоги И Планы
19 Oct, 24