Центр Интеллектуального Анализа Данных Глазами Ученых

Привет, Хабр! Мы запустили Data Mining Hub и хотим рассказать, что это такое и почему он может вам пригодиться.

Data Mining Hub (DMH) — это платформа для разработки алгоритмов интеллектуального анализа данных и машинного обучения, основанная на итеративном подходе, а также бизнес-инструмент, который помогает анализировать большие объемы данных и извлекать из этих данных полезную и необходимую информацию.

Отличие DMH от подобных ресурсов, таких как kaggle и algomost:

  • задача разбивается на итерации;
  • код алгоритма остается у автора, его только арендует Заказчик;
  • расчеты, оценка и манипулирование деньгами находятся в ведении DMH;
  • проверка и подтверждение квалификации для участия не требуются.

У DMH есть две стороны.

Первый — это заказчик, описывающий проблему, а второй — учёный, который пытается эту проблему решить.

Ученые ДМХ предоставляют возможность принимать участие в решении интересных задач, соревноваться с другими участниками и, конечно же, получать оплату, если их алгоритм будет выбран Заказчиком.

Если он не был выбран на этой итерации, то его всегда можно выбрать на следующей.

DMH автоматически перенесет результаты предыдущей итерации в новую, если исходные данные не изменились.

Но есть также возможность улучшить свой алгоритм и получить оплату за улучшенный алгоритм на следующей итерации.

Для заказчика DMH — это единая точка интеграции с большим количеством ученых и простой способ использовать разные алгоритмы для одних и тех же данных.

Кратко принцип работы ДМГ можно описать следующим образом:

  • Заказчик создает задачу, предоставляет описание, определяет примерный бюджет, продолжительность и период принятия решения для каждой итерации.

  • Заказчик загружает данные, с которыми затем будут работать ученые.

  • Заказчик подтверждает задание, после чего данные становятся доступны ученым.

  • На основе данных ученые создают свои алгоритмы, загружают их в DMH и указывают стоимость использования алгоритма.

  • Заказчик выбирает понравившийся алгоритм, после чего оплата передается Ученому.

По ссылке может пройти любой желающий www.datamininghub.com/invite/me и попросите DMH пригласить их, просто введя адрес электронной почты.

Давайте рассмотрим, что нужно сделать ученому, чтобы принять участие в решении задачи.

В принципе, все достаточно просто.

Ему нужно выбрать задачу, создать для нее алгоритм и протестировать его на исходных данных.

Если получен удовлетворительный результат, то можно указать стоимость использования алгоритма.



Давайте рассмотрим все подробнее

После аутентификации на datamininghub.com откроется страница, где будут перечислены все задачи, которые необходимо решить.

Вам необходимо выбрать понравившуюся задачу и скачать исходные данные в разделе Набор данных.



Центр интеллектуального анализа данных глазами ученых

Далее необходимо разработать алгоритм, используя любые средства разработки.

Главное, чтобы алгоритм представлял собой jar-файл (или несколько их), который можно было бы запустить как задание на Hadoop. Небольшой пример алгоритма на Scala доступен по ссылке: github.com/datamininghub/example-algorithm Реальный пример решения существующей проблемы доступен по адресу www.datamininghub.com/task/1 или на том же Scala доступно здесь: github.com/datamininghub/example-bill-status-prediction Чтобы скачать алгоритм, вам необходимо:

  1. Идите в ДМХ.

  2. Выберите из меню Алгоритмы , после чего откроется страница, где будут перечислены все созданные для этого пользователя алгоритмы.

  3. Нажмите на добавить новый алгоритм

    Центр интеллектуального анализа данных глазами ученых

  4. Если учетная запись AWS ранее не была связана с профилем пользователя, система попросит вас сделать это на этом этапе:

    Центр интеллектуального анализа данных глазами ученых

    Если у вас нет учетной записи AWS, вам необходимо ее зарегистрировать.

    Перейдя по ссылке http://aws.amazon.com/free/ Есть возможность зарегистрировать новый аккаунт и пользоваться бесплатными лимитами в течение года.

    После этого вам нужно будет перейти по ссылке Зарегистрируйтесь на Amazon S3 — найдите мои ключи и создаем ключи, которые нужно вводить дальше в DMH.

  5. Как только ваша учетная запись AWS будет связана, появится страница.

    Детали алгоритма , которое будет отражать имя алгоритма по умолчанию Алгоритм N DataMiningHub для Hadoop 1.0.3 и где нужно будет нажать Редактировать :

    Центр интеллектуального анализа данных глазами ученых

  6. На появившейся странице Редактирование алгоритма Можно изменить название алгоритма на другое, сменить используемую версию Hadoop. Затем вам нужно нажать на Добавить шаг чтобы добавить шаг, который включает добавление jar-файла, содержащего код алгоритма, и определение аргументов, с которыми этот файл будет запускаться:

    Центр интеллектуального анализа данных глазами ученых

  7. На появившейся странице Добавить файл вам нужно выбрать jar-файл для загрузки и нажать кнопку Загрузить или укажите S3 ссылка на этот файл.



    Центр интеллектуального анализа данных глазами ученых

    Например, берется файл с именем bill-status-prediction.jar. Примечание.

    Загрузка файла может занять некоторое время!

  8. Теперь вам нужно установить аргументы на странице Изменение алгоритма шага , с помощью которого будет запускаться этот jar-файл, и нажмите кнопку Сохранять :

    Центр интеллектуального анализа данных глазами ученых

    Например, используются следующие аргументы:

    
-o {output} --events {events} --bill_deputy {bill_deputy} -f

  9. Как только аргументы будут переданы, страница появится снова.

    Редактирование алгоритма , но с информацией об уже введенном шаге.

    При необходимости вы можете скачать другие jar-файлы, также нажав кнопку Добавить шаг и повторяем шаги 6–8.

  10. Сейчас на странице Детали алгоритма необходимо нажать делать ставку на панели навигации для определения стоимости использования алгоритма и выполнения расчетов:

    Центр интеллектуального анализа данных глазами ученых

  11. На странице Алгоритм ставки вам необходимо выбрать задачу, в которой будет использоваться алгоритм:

    Центр интеллектуального анализа данных глазами ученых

    В этом примере доступна только одна итерация: прогноз, станет ли законопроект законом в будущем или нет.
  12. На появившейся странице Добавить новый алгоритм использования ставок %algorithm_name% вам необходимо определить стоимость использования алгоритма и нажать кнопку держу пари :

    Центр интеллектуального анализа данных глазами ученых

  13. На появившейся странице Изменить расчет требуется в разделе Сопоставления сопоставить имена всех аргументов со всех шагов ( шаги ) с исходными данными, нажав кнопку «Назначить» рядом с каждым именем аргумента, выбрав необходимый источник данных и нажав вычислить :

    Центр интеллектуального анализа данных глазами ученых

    При необходимости вы можете сохранить этот расчет, нажав кнопку «Сохранить».

  14. После всех манипуляций страница появится.

    Детали расчета , который отображает состояние этого расчета.

    После завершения расчета его результат будет отправлен на адрес электронной почты, связанный с этим профилем.

    Пример расчета при обработке:

    Центр интеллектуального анализа данных глазами ученых

    Пример выполненного расчета:

    Центр интеллектуального анализа данных глазами ученых

  15. Когда расчет будет завершен, его результат появится в описании задачи, а также стоимость использования алгоритма, и Заказчик сможет выбрать данный алгоритм в качестве решения задачи:

    Центр интеллектуального анализа данных глазами ученых

Проверить работоспособность алгоритма на любых данных перед установкой стоимости использования этого алгоритма можно, нажав на попробуй в панели навигации на странице Детали алгоритма .

Появится страница редактировать расчеты , в разделе Сопоставления который нужно будет загрузить данные для расчетов и нажать на вычислить в панели навигации.

п.

с.

— отдельная благодарность Евгении за неоценимый вклад в этот текст! Теги: #Интеллектуальный анализ данных #машинное обучение #I PR

Вместе с данным постом часто просматривают:

Автор Статьи


Зарегистрирован: 2019-12-10 15:07:06
Баллов опыта: 0
Всего постов на сайте: 0
Всего комментарий на сайте: 0
Dima Manisha

Dima Manisha

Эксперт Wmlog. Профессиональный веб-мастер, SEO-специалист, дизайнер, маркетолог и интернет-предприниматель.