Привет, Хабр! Мы запустили Data Mining Hub и хотим рассказать, что это такое и почему он может вам пригодиться.
Data Mining Hub (DMH) — это платформа для разработки алгоритмов интеллектуального анализа данных и машинного обучения, основанная на итеративном подходе, а также бизнес-инструмент, который помогает анализировать большие объемы данных и извлекать из этих данных полезную и необходимую информацию.
Отличие DMH от подобных ресурсов, таких как kaggle и algomost:
- задача разбивается на итерации;
- код алгоритма остается у автора, его только арендует Заказчик;
- расчеты, оценка и манипулирование деньгами находятся в ведении DMH;
- проверка и подтверждение квалификации для участия не требуются.
Первый — это заказчик, описывающий проблему, а второй — учёный, который пытается эту проблему решить.
Ученые ДМХ предоставляют возможность принимать участие в решении интересных задач, соревноваться с другими участниками и, конечно же, получать оплату, если их алгоритм будет выбран Заказчиком.
Если он не был выбран на этой итерации, то его всегда можно выбрать на следующей.
DMH автоматически перенесет результаты предыдущей итерации в новую, если исходные данные не изменились.
Но есть также возможность улучшить свой алгоритм и получить оплату за улучшенный алгоритм на следующей итерации.
Для заказчика DMH — это единая точка интеграции с большим количеством ученых и простой способ использовать разные алгоритмы для одних и тех же данных.
Кратко принцип работы ДМГ можно описать следующим образом:
- Заказчик создает задачу, предоставляет описание, определяет примерный бюджет, продолжительность и период принятия решения для каждой итерации.
- Заказчик загружает данные, с которыми затем будут работать ученые.
- Заказчик подтверждает задание, после чего данные становятся доступны ученым.
- На основе данных ученые создают свои алгоритмы, загружают их в DMH и указывают стоимость использования алгоритма.
- Заказчик выбирает понравившийся алгоритм, после чего оплата передается Ученому.
Давайте рассмотрим, что нужно сделать ученому, чтобы принять участие в решении задачи.
В принципе, все достаточно просто.
Ему нужно выбрать задачу, создать для нее алгоритм и протестировать его на исходных данных.
Если получен удовлетворительный результат, то можно указать стоимость использования алгоритма.
Давайте рассмотрим все подробнее
После аутентификации на datamininghub.com откроется страница, где будут перечислены все задачи, которые необходимо решить.Вам необходимо выбрать понравившуюся задачу и скачать исходные данные в разделе Набор данных.
Далее необходимо разработать алгоритм, используя любые средства разработки.
Главное, чтобы алгоритм представлял собой jar-файл (или несколько их), который можно было бы запустить как задание на Hadoop. Небольшой пример алгоритма на Scala доступен по ссылке: github.com/datamininghub/example-algorithm Реальный пример решения существующей проблемы доступен по адресу www.datamininghub.com/task/1 или на том же Scala доступно здесь: github.com/datamininghub/example-bill-status-prediction Чтобы скачать алгоритм, вам необходимо:
- Идите в ДМХ.
- Выберите из меню Алгоритмы , после чего откроется страница, где будут перечислены все созданные для этого пользователя алгоритмы.
- Нажмите на добавить новый алгоритм
- Если учетная запись AWS ранее не была связана с профилем пользователя, система попросит вас сделать это на этом этапе:
Если у вас нет учетной записи AWS, вам необходимо ее зарегистрировать.Перейдя по ссылке http://aws.amazon.com/free/ Есть возможность зарегистрировать новый аккаунт и пользоваться бесплатными лимитами в течение года.
После этого вам нужно будет перейти по ссылке Зарегистрируйтесь на Amazon S3 — найдите мои ключи и создаем ключи, которые нужно вводить дальше в DMH.
- Как только ваша учетная запись AWS будет связана, появится страница.
Детали алгоритма , которое будет отражать имя алгоритма по умолчанию Алгоритм N DataMiningHub для Hadoop 1.0.3 и где нужно будет нажать Редактировать :
- На появившейся странице Редактирование алгоритма Можно изменить название алгоритма на другое, сменить используемую версию Hadoop. Затем вам нужно нажать на Добавить шаг чтобы добавить шаг, который включает добавление jar-файла, содержащего код алгоритма, и определение аргументов, с которыми этот файл будет запускаться:
- На появившейся странице Добавить файл вам нужно выбрать jar-файл для загрузки и нажать кнопку Загрузить или укажите S3 ссылка на этот файл.
Например, берется файл с именем bill-status-prediction.jar. Примечание.Загрузка файла может занять некоторое время!
- Теперь вам нужно установить аргументы на странице Изменение алгоритма шага , с помощью которого будет запускаться этот jar-файл, и нажмите кнопку Сохранять :
Например, используются следующие аргументы:-o {output} --events {events} --bill_deputy {bill_deputy} -f
- Как только аргументы будут переданы, страница появится снова.
Редактирование алгоритма , но с информацией об уже введенном шаге.
При необходимости вы можете скачать другие jar-файлы, также нажав кнопку Добавить шаг и повторяем шаги 6–8.
- Сейчас на странице Детали алгоритма необходимо нажать делать ставку на панели навигации для определения стоимости использования алгоритма и выполнения расчетов:
- На странице Алгоритм ставки вам необходимо выбрать задачу, в которой будет использоваться алгоритм:
В этом примере доступна только одна итерация: прогноз, станет ли законопроект законом в будущем или нет. - На появившейся странице Добавить новый алгоритм использования ставок %algorithm_name% вам необходимо определить стоимость использования алгоритма и нажать кнопку держу пари :
- На появившейся странице Изменить расчет требуется в разделе Сопоставления сопоставить имена всех аргументов со всех шагов ( шаги ) с исходными данными, нажав кнопку «Назначить» рядом с каждым именем аргумента, выбрав необходимый источник данных и нажав вычислить :
При необходимости вы можете сохранить этот расчет, нажав кнопку «Сохранить». - После всех манипуляций страница появится.
Детали расчета , который отображает состояние этого расчета.
После завершения расчета его результат будет отправлен на адрес электронной почты, связанный с этим профилем.
Пример расчета при обработке:
Пример выполненного расчета: - Когда расчет будет завершен, его результат появится в описании задачи, а также стоимость использования алгоритма, и Заказчик сможет выбрать данный алгоритм в качестве решения задачи:
Появится страница редактировать расчеты , в разделе Сопоставления который нужно будет загрузить данные для расчетов и нажать на вычислить в панели навигации.
п.
с.
— отдельная благодарность Евгении за неоценимый вклад в этот текст! Теги: #Интеллектуальный анализ данных #машинное обучение #I PR
-
Почему Мы Шифруем
19 Oct, 24