Marvel: Infinity War Или Как Собрать Данные Для Своего Проекта За Пару Минут



Marvel: Infinity War или Как собрать данные для своего проекта за пару минут

У меня есть две области интересов.

Первое: общество анонимных ленивых аналитиков данных, второе: общество анонимных гиков.

И если со вторым все ок, то с первым все сложнее.

Когда вы рассказываете людям, какие проблемы решают аналитики данных, что они собой представляют? Ради эксперимента я ввел определение в Google и первое:

Аналитик данных — это специалист широкого профиля, обладающий знаниями в области математики, статистики, информатики, информатики, бизнеса и экономики.

Аналитик больших данных изучает большие объемы данных, содержащих разрозненную информацию, например: результаты исследований, тенденции рынка, предпочтения клиентов и т. д. Исследования и анализ такой информации могут привести к новым научным открытиям, повышению эффективности компании, новым возможностям получения дохода и улучшению обслуживание клиентов и т. д. Основной навык специалистов по обработке данных — видеть логические связи в системе собираемой информации и на основе этого разрабатывать определенные бизнес-решения и модели.

Определение с сайта Buduguru.org/profession/39 .

Универсальный специалист, ладно.

Судя по описанию, что-то среднее между Доктором Манхэттеном и Стивеном Хокингом.



Marvel: Infinity War или Как собрать данные для своего проекта за пару минут

Однако я не буду вдаваться в семантику этого определения; Я хочу поговорить о больной теме для аналитиков данных (нет, не о той, где ноют о нехватке данных).

Что делать, если данные ЕСТЬ? И здесь мы переходим к следующим проблемам:

  • Какие инструменты вы можете использовать для изучения этих данных?
  • Как преобразовать эти наборы данных?
  • Как их хранить? Нужно ли мне их хранить?
  • Что делать, если источников много, и все они неоднородны?
ХОРОШО.

Мы создали пул проблем, но что делать дальше? В этой статье я расскажу об инструменте, который реализовала наша команда разработчиков, а именно об облачной системе.

iDVP.Data SaaS .

Что это? iDVP.Data SaaS — многофункциональный инструмент для работы с данными в облаке, который позволяет связывать различные данные, преобразовывать их и отправлять во внешние системы в виде веб-сервисов.



Бесконечная война

Здесь мы невольно пересекаемся со второй областью интересов: в качестве примера я решил подключить открытые данные Marvel к iDVP.Data SaaS .

Все уже посмотрели новый фильм «Война бесконечности»? После просмотра фильма я не мог не вспомнить и другие масштабные конфликты во вселенной Marvel, которые привели к глобальным изменениям во франшизе.

Мне было интересно вспомнить, сколько персонажей из линейки комиксов участвовало в «Войне бесконечности» и сколько в ней погибло? Чтобы ответить на эти вопросы, я обратился к самому достоверному источнику – официальному сайту.

Марвел .



Marvel: Infinity War или Как собрать данные для своего проекта за пару минут

Прежде всего зайдём на сайт iDVP.Data SaaS и зарегистрируйтесь.

После этого мы попадаем на рабочую страницу пользователя, где есть рабочие области с тестовыми демо-кейсами.

Они представляют потоки данных от соединения с источником данных до витрины данных.



Marvel: Infinity War или Как собрать данные для своего проекта за пару минут

Изучив тестовые примеры и добавив новое рабочее пространство, перейдем к созданию собственного потока данных.

В качестве источников я выбрал следующие данные:

  • REST-сервис, возвращающий информацию обо всех персонажах вселенной Marvel;
  • REST-сервис, возвращающий информацию обо всех событиях вселенной Marvel;
  • CSV-файл со списком основных участников гражданской войны.

Шаг 1. Подключитесь Подключаем данные поочередно:

Marvel: Infinity War или Как собрать данные для своего проекта за пару минут

В результате мы получаем три связанных источника данных:

Marvel: Infinity War или Как собрать данные для своего проекта за пару минут

  • участники_marvel_raw — услуга;
  • персонажи_marvel_raw — сервис;
  • event_marvel_raw — CSV-файл.

Шаг 2. Конвертируйте После подключения данных мы создаем Datasets, где выполняем необходимые преобразования (очистку данных, расчеты или, например, парсинг данных из JSON) с помощью SQL-скриптов.

   

select k.id, k.name, k.com.name as comics_name, k.ser.name as series_name, k.stor.name as stories_name, k.event.name as events_name from ( select a.id, a.name, flatten(a.comics) as com, flatten(a.series) as ser, flatten(a.stories) as stor, flatten(a.events) as event from ( select c.`data`.

id as id, c.`data`.

name as name, c.`data`.

comics.`items` as comics, c.`data`.

series.`items` as series, c.`data`.

stories.`items` as stories, c.`data`.

events.`items` as events from ( select t.res.`data`.

`results` as `data` from ( select convert_from(a.content, 'JSON') res from `characters_marvel_raw` a ) t ) c ) a ) k

В результате получаем разобранные данные:

Marvel: Infinity War или Как собрать данные для своего проекта за пару минут

И такая цепочка потоков данных:

Marvel: Infinity War или Как собрать данные для своего проекта за пару минут

После подключения данных и их преобразования скорость доступа к полученной информации все еще может быть низкой (из-за длительного ответа источника или из-за большого объема данных).

Здесь механизм «материализации» (сохранения) данных в самом iDVP.Data SaaS .

Доступ к хранимым данным происходит чрезвычайно быстро даже при работе с большими объемами информации за счет использования технологий BigData. Сохраненные данные можно обновить в любой момент (полностью или частично), а также можно настроить график, по которому система будет обновлять их автоматически.

Таким образом, можно накапливать исторические данные, даже если сам источник их не поддерживает. Материализация также помогает продолжить работу с данными, если источник становится недоступен, сохраняя его в файловой системе.

iDVP.Data SaaS .



Marvel: Infinity War или Как собрать данные для своего проекта за пару минут

Шаг 3. Публикация Создаем витрину данных (веб-сервис), которая также является SQL-запросом.

В витрине данных вы можете определить входные и выходные параметры.



Marvel: Infinity War или Как собрать данные для своего проекта за пару минут

После создания витрин данных их можно опубликовать публично и использовать во внешних системах.



Marvel: Infinity War или Как собрать данные для своего проекта за пару минут



Marvel: Infinity War или Как собрать данные для своего проекта за пару минут

Полученный сервис можно использовать для построения отчетов и 3D-приложений, как, например, мы сделали для визуализации данных.

Выборы 2018 .



P.S. выводы



Marvel: Infinity War или Как собрать данные для своего проекта за пару минут

Первый вывод Мы вернулись к строке комиксов, в которой упоминалась «Война бесконечности», и вот что мы получили:
  • Участвовало 57 персонажей;
  • 5 не подтверждено;
  • 15 умерли.

Второй вывод Если вам необходимо быстро и легко разобраться с данными, вы можете воспользоваться системой iDVP.Data SaaS , который в настоящее время проходит бета-тестирование.

Наша команда надеется, что среди вас, дочитавших эту историю до конца, найдутся те, кто станет первыми тестировщиками нашего нового инструмента.

С его помощью вы сможете самостоятельно:

  • подключаться к различным источникам;
  • стабильно получать данные из любого источника;
  • выполнять преобразования данных ETL с помощью SQL;
  • увеличить скорость работы с данными с помощью технологий BigData;
  • анализировать данные;
  • предоставлять данные во внешние системы;
  • выполнять эти операции в удобном и простом интерфейсе.

Заранее благодарим вас за ваш отзыв! Пример использования в комментариях к посту: Статистика по комментариям .

Теги: #Хранение данных #облачные сервисы #Большие данные #анализ данных #saas #Открытые данные #etl #большие данные

Вместе с данным постом часто просматривают: