Проект Open Data Hub — Открытая Платформа Машинного Обучения На Базе Red Hat Openshift.

Будущее наступило, и технологии искусственного интеллекта и машинного обучения уже успешно используются вашими любимыми магазинами, транспортными компаниями и даже индюшиными фермами.



Проект Open Data Hub — открытая платформа машинного обучения на базе Red Hat OpenShift.

А если что-то существует, значит, что-то об этом уже есть в Интернете.

открытый проект! Узнайте, как Open Data Hub помогает масштабировать новые технологии и избегать проблем с внедрением.

Несмотря на все преимущества искусственного интеллекта (ИИ) и машинного обучения (МО), организации часто испытывают трудности с масштабированием этих технологий.

Основными проблемами в этом случае обычно являются следующие:

  • Обмен информацией и сотрудничество – практически невозможно легко обмениваться информацией и сотрудничать в быстрых итерациях.

  • Доступ к данным — для каждой задачи его нужно строить заново и вручную, что занимает много времени.

  • Доступ по требованию – нет возможности получить доступ по требованию к инструментам и платформе машинного обучения, а также к вычислительной инфраструктуре.

  • Производство – модели остаются на стадии прототипа и не доводятся до промышленного использования.

  • Отслеживайте и объясняйте результаты ИИ – воспроизводимость, отслеживание и объяснение результатов AI/ML затруднены.

Если оставить эти проблемы без внимания, они негативно скажутся на скорости, эффективности и производительности ценных специалистов по обработке данных.

Это приводит к их фрустрации, разочарованию в своей работе и, как следствие, ожидания бизнеса в отношении AI/ML пропадают даром.

Ответственность за решение этих проблем ложится на ИТ-специалистов, которые должны предоставить аналитикам данных — правильно, что-то вроде облака.

Говоря более подробно, нам нужна платформа, которая дает свободу выбора и имеет удобный, легкий доступ.

При этом он быстрый, легко реконфигурируемый, масштабируемый по требованию и устойчивый к сбоям.

Создание такой платформы на основе технологий с открытым исходным кодом помогает избежать привязки к поставщику и сохранить долгосрочное стратегическое преимущество с точки зрения контроля затрат. Несколько лет назад нечто подобное происходило в разработке приложений и привело к появлению микросервисов, гибридных облаков, автоматизации ИТ и гибких процессов.

Чтобы справиться со всем этим, ИТ-специалисты обратились к контейнерам, Kubernetes и открытым гибридным облакам.

Этот опыт сейчас применяется для ответа на вызовы Ала.

Вот почему ИТ-специалисты создают платформы на основе контейнеров, которые позволяют создавать сервисы искусственного интеллекта и машинного обучения в рамках гибких процессов, ускоряют инновации и созданы с прицелом на гибридное облако.



Проект Open Data Hub — открытая платформа машинного обучения на базе Red Hat OpenShift.

Мы начнем создавать такую платформу с Red Hat OpenShift, нашей контейнерной платформы Kubernetes для гибридного облака, которая имеет быстро растущую экосистему программных и аппаратных решений машинного обучения (NVIDIA, H2O.ai, Starburst, PerceptiLabs и т. д.).

Некоторые клиенты Red Hat, такие как BMW Group, ExxonMobil и другие, уже развернули контейнерные цепочки инструментов ML и процессы DevOps поверх платформы и ее экосистемы, чтобы внедрить свои архитектуры ML в производство и ускорить работу аналитиков данных.

Еще одна причина, по которой мы запустили проект Open Data Hub, — продемонстрировать пример архитектуры на основе нескольких проектов программного обеспечения с открытым исходным кодом и показать, как реализовать весь жизненный цикл решения ML на базе платформы OpenShift.

Проект Центра открытых данных

Это проект с открытым исходным кодом, разрабатываемый внутри соответствующего сообщества разработчиков и реализующий полный цикл операций — от загрузки и преобразования исходных данных до генерации, обучения и поддержки модели — при решении задач AI/ML с использованием контейнеров и Kubernetes на платформе OpenShift. Платформа.

Этот проект можно считать эталонной реализацией, примером того, как создать открытое решение AI/ML-as-a-service на основе OpenShift и связанных с ним инструментов с открытым исходным кодом, таких как Tensorflow, JupyterHub, Spark и других.

Важно отметить, что сама Red Hat использует этот проект для предоставления своих услуг AI/ML. Кроме того, OpenShift интегрируется с ключевыми программными и аппаратными решениями машинного обучения от NVIDIA, Seldon, Starbust и других поставщиков, что упрощает создание и запуск собственных систем машинного обучения.



Проект Open Data Hub — открытая платформа машинного обучения на базе Red Hat OpenShift.

Проект Open Data Hub ориентирован на следующие категории пользователей и варианты использования:

  • Аналитик данных, которому нужно решение для реализации проектов ML, организованное в виде облака с функциями самообслуживания.

  • Аналитик данных, которому нужен максимальный выбор из новейших инструментов и платформ AI/ML с открытым исходным кодом.

  • Аналитик данных, которому необходим доступ к источникам данных при обучении моделей.

  • Аналитик данных, которому необходим доступ к вычислительным ресурсам (ЦП, графический процессор, память).

  • Аналитик данных, которому требуется способность сотрудничать и делиться работой с коллегами, получать обратную связь и вносить улучшения за счет быстрой итерации.

  • Аналитик данных, который хочет взаимодействовать с разработчиками (и командами DevOps), чтобы его модели ML и результаты работы были запущены в производство.

  • Инженер по обработке данных, которому необходимо предоставить аналитику данных доступ к различным источникам данных при соблюдении нормативных требований и требований безопасности.

  • Администратор/оператор ИТ-системы, которому требуется возможность легко контролировать жизненный цикл (установка, настройка, обновление) компонентов и технологий с открытым исходным кодом.

    Нам также нужны соответствующие инструменты управления и квотирования.

Проект Open Data Hub объединяет ряд инструментов с открытым исходным кодом для реализации полного цикла операций AI/ML. Jupyter Notebook здесь используется как основной рабочий инструмент для анализа данных.

Сегодня этот набор инструментов широко популярен среди специалистов по данным, а Open Data Hub позволяет им легко создавать рабочие пространства Jupyter Notebook и управлять ими с помощью встроенного JupyterHub. Помимо создания и импорта блокнотов Jupyter, проект Open Data Hub также содержит ряд готовых блокнотов в виде библиотеки AI. Эта библиотека представляет собой набор компонентов и решений машинного обучения с открытым исходным кодом для типичных сценариев, которые упрощают быстрое создание прототипов.

JupyterHub интегрирован с моделью доступа OpenShift RBAC, которая позволяет вам использовать существующие учетные записи OpenShift и реализовать единый вход. Кроме того, JupyterHub предлагает удобный пользовательский интерфейс под названием spawner, с помощью которого пользователь может легко настроить количество вычислительных ресурсов (ядер ЦП, памяти, графического процессора) для выбранного Jupyter Notebook. После того как аналитик данных создаст и настроит ноутбук, обо всех остальных заботах, связанных с ним, позаботится планировщик Kubernetes, который является частью OpenShift. Пользователям остается только проводить свои эксперименты, сохранять и делиться результатами своей работы.

Кроме того, опытные пользователи могут напрямую получить доступ к оболочке OpenShift CLI непосредственно из ноутбуков Jupyter, чтобы использовать примитивы Kubernetes, такие как Job или функции OpenShift, такие как Tekton или Knative. Либо для этого можно использовать удобный графический интерфейс OpenShift, который называется «веб-консоль OpenShift».



Проект Open Data Hub — открытая платформа машинного обучения на базе Red Hat OpenShift.



Проект Open Data Hub — открытая платформа машинного обучения на базе Red Hat OpenShift.

Переходя к следующему этапу, Open Data Hub позволяет управлять конвейерами данных.

Для этого используется объект Ceph, который предоставляется как S3-совместимое объектное хранилище данных.

Apache Spark обеспечивает потоковую передачу данных из внешних источников или встроенного хранилища Ceph S3, а также позволяет выполнять предварительные преобразования данных.

Apache Kafka обеспечивает расширенное управление конвейерами данных (где данные могут загружаться несколько раз, а также операции преобразования, анализа и сохранения данных).

Итак, аналитик данных получил доступ к данным и построил модель.

Теперь у него есть желание поделиться полученными результатами с коллегами или разработчиками приложений и предоставить им свою модель на принципах сервиса.

Для этого необходим сервер вывода, и такой сервер есть в Open Data Hub, он называется Seldon и позволяет публиковать модель как RESTful-сервис.

В какой-то момент на сервере Селдона появилось несколько таких моделей, и возникла необходимость следить за тем, как они используются.

Для достижения этой цели Open Data Hub предлагает набор соответствующих показателей и механизм отчетности, основанный на широко используемых инструментах мониторинга с открытым исходным кодом Prometheus и Grafana. В результате мы получаем обратную связь для мониторинга использования моделей ИИ, особенно в производственной среде.



Проект Open Data Hub — открытая платформа машинного обучения на базе Red Hat OpenShift.

Таким образом, Open Data Hub обеспечивает облачный подход на протяжении всего жизненного цикла искусственного интеллекта и машинного обучения, от доступа к данным и их подготовки до обучения и производства моделей.



Собираем все это вместе

Теперь возникает вопрос, как организовать все это для администратора OpenShift. И здесь в игру вступает специальный оператор Kubernetes для проектов Open Data Hub.

Проект Open Data Hub — открытая платформа машинного обучения на базе Red Hat OpenShift.

Этот оператор управляет установкой, настройкой и жизненным циклом проекта Open Data Hub, включая развертывание вышеупомянутых инструментов, таких как JupyterHub, Ceph, Spark, Kafka, Seldon, Prometheus и Grafana. Проект Open Data Hub можно найти в веб-консоли OpenShift, в разделе операторов сообщества.

Таким образом, администратор OpenShift может указать, что соответствующие проекты OpenShift относятся к категории «Проект Open Data Hub».

Это делается один раз.

После этого аналитик данных входит в пространство своего проекта через веб-консоль OpenShift и видит, что соответствующий оператор Kubernetes установлен и доступен для его проектов.

Затем он одним щелчком мыши создает экземпляр проекта Open Data Hub и сразу же получает доступ к инструментам, описанным выше.

И все это можно настроить в режиме высокой доступности и отказоустойчивости.



Проект Open Data Hub — открытая платформа машинного обучения на базе Red Hat OpenShift.

Если вы хотите попробовать проект Open Data Hub самостоятельно, начните с инструкции по установке и вводное руководство .

Технические подробности архитектуры Open Data Hub можно найти Здесь , планы развития проекта – Здесь .

В будущем мы планируем реализовать дополнительную интеграцию с Kubeflow, решить ряд вопросов с регулированием и безопасностью данных, а также организовать интеграцию с системами на основе правил Drools и Optaplanner. Выразите свое мнение и станьте участником проекта Открытый центр данных возможно на странице сообщества .

Подведем итог: серьезные проблемы масштабирования не позволяют организациям реализовать весь потенциал искусственного интеллекта и машинного обучения.

Red Hat OpenShift уже давно успешно используется для решения подобных задач в индустрии программного обеспечения.

Проект Open Data Hub, реализованный в рамках сообщества разработчиков ПО с открытым исходным кодом, предлагает эталонную архитектуру для организации полного цикла операций AI/ML на базе гибридного облака OpenShift. У нас есть четкий и продуманный план развития этого проекта, и мы серьезно настроены создать вокруг него активное и плодотворное сообщество для разработки открытых ИИ-решений на платформе OpenShift. Теги: #ИТ-инфраструктура #облачные сервисы #с открытым исходным кодом #Kubernetes #искусственный интеллект #ИИ #машинное обучение #Apache #искусственный интеллект #Red Hat #Openshift #jupyter #apache spark #apache spark

Вместе с данным постом часто просматривают:

Автор Статьи


Зарегистрирован: 2019-12-10 15:07:06
Баллов опыта: 0
Всего постов на сайте: 0
Всего комментарий на сайте: 0
Dima Manisha

Dima Manisha

Эксперт Wmlog. Профессиональный веб-мастер, SEO-специалист, дизайнер, маркетолог и интернет-предприниматель.