У меня есть две области интересов.
Первое: общество анонимных ленивых аналитиков данных, второе: общество анонимных гиков.
И если со вторым все ок, то с первым все сложнее.
Когда вы рассказываете людям, какие проблемы решают аналитики данных, что они собой представляют? Ради эксперимента я ввел определение в Google и первое:
Аналитик данных — это специалист широкого профиля, обладающий знаниями в области математики, статистики, информатики, информатики, бизнеса и экономики.Универсальный специалист, ладно.Аналитик больших данных изучает большие объемы данных, содержащих разрозненную информацию, например: результаты исследований, тенденции рынка, предпочтения клиентов и т. д. Исследования и анализ такой информации могут привести к новым научным открытиям, повышению эффективности компании, новым возможностям получения дохода и улучшению обслуживание клиентов и т. д. Основной навык специалистов по обработке данных — видеть логические связи в системе собираемой информации и на основе этого разрабатывать определенные бизнес-решения и модели.
Определение с сайта Buduguru.org/profession/39 .
Судя по описанию, что-то среднее между Доктором Манхэттеном и Стивеном Хокингом.
Однако я не буду вдаваться в семантику этого определения; Я хочу поговорить о больной теме для аналитиков данных (нет, не о той, где ноют о нехватке данных).
Что делать, если данные ЕСТЬ? И здесь мы переходим к следующим проблемам:
- Какие инструменты вы можете использовать для изучения этих данных?
- Как преобразовать эти наборы данных?
- Как их хранить? Нужно ли мне их хранить?
- Что делать, если источников много, и все они неоднородны?
Мы создали пул проблем, но что делать дальше? В этой статье я расскажу об инструменте, который реализовала наша команда разработчиков, а именно об облачной системе.
Что это? iDVP.Data SaaS — многофункциональный инструмент для работы с данными в облаке, который позволяет связывать различные данные, преобразовывать их и отправлять во внешние системы в виде веб-сервисов.
Бесконечная война
Здесь мы невольно пересекаемся со второй областью интересов: в качестве примера я решил подключить открытые данные Marvel к iDVP.Data SaaS .Все уже посмотрели новый фильм «Война бесконечности»? После просмотра фильма я не мог не вспомнить и другие масштабные конфликты во вселенной Marvel, которые привели к глобальным изменениям во франшизе.
Мне было интересно вспомнить, сколько персонажей из линейки комиксов участвовало в «Войне бесконечности» и сколько в ней погибло? Чтобы ответить на эти вопросы, я обратился к самому достоверному источнику – официальному сайту.
Марвел .
Прежде всего зайдём на сайт iDVP.Data SaaS и зарегистрируйтесь.
После этого мы попадаем на рабочую страницу пользователя, где есть рабочие области с тестовыми демо-кейсами.
Они представляют потоки данных от соединения с источником данных до витрины данных.
Изучив тестовые примеры и добавив новое рабочее пространство, перейдем к созданию собственного потока данных.
В качестве источников я выбрал следующие данные:
- REST-сервис, возвращающий информацию обо всех персонажах вселенной Marvel;
- REST-сервис, возвращающий информацию обо всех событиях вселенной Marvel;
- CSV-файл со списком основных участников гражданской войны.
В результате мы получаем три связанных источника данных:
- участники_marvel_raw — услуга;
- персонажи_marvel_raw — сервис;
- event_marvel_raw — CSV-файл.
В результате получаем разобранные данные:select k.id, k.name, k.com.name as comics_name, k.ser.name as series_name, k.stor.name as stories_name, k.event.name as events_name from ( select a.id, a.name, flatten(a.comics) as com, flatten(a.series) as ser, flatten(a.stories) as stor, flatten(a.events) as event from ( select c.`data`.
id as id, c.`data`.
name as name, c.`data`.
comics.`items` as comics, c.`data`.
series.`items` as series, c.`data`.
stories.`items` as stories, c.`data`.
events.`items` as events from ( select t.res.`data`.
`results` as `data` from ( select convert_from(a.content, 'JSON') res from `characters_marvel_raw` a ) t ) c ) a ) k
И такая цепочка потоков данных:
После подключения данных и их преобразования скорость доступа к полученной информации все еще может быть низкой (из-за длительного ответа источника или из-за большого объема данных).
Здесь механизм «материализации» (сохранения) данных в самом iDVP.Data SaaS .
Доступ к хранимым данным происходит чрезвычайно быстро даже при работе с большими объемами информации за счет использования технологий BigData. Сохраненные данные можно обновить в любой момент (полностью или частично), а также можно настроить график, по которому система будет обновлять их автоматически.
Таким образом, можно накапливать исторические данные, даже если сам источник их не поддерживает. Материализация также помогает продолжить работу с данными, если источник становится недоступен, сохраняя его в файловой системе.
Шаг 3. Публикация
Создаем витрину данных (веб-сервис), которая также является SQL-запросом.
В витрине данных вы можете определить входные и выходные параметры.
После создания витрин данных их можно опубликовать публично и использовать во внешних системах.
Полученный сервис можно использовать для построения отчетов и 3D-приложений, как, например, мы сделали для визуализации данных.
Выборы 2018 .
P.S. выводы
Первый вывод Мы вернулись к строке комиксов, в которой упоминалась «Война бесконечности», и вот что мы получили:
- Участвовало 57 персонажей;
- 5 не подтверждено;
- 15 умерли.
Наша команда надеется, что среди вас, дочитавших эту историю до конца, найдутся те, кто станет первыми тестировщиками нашего нового инструмента.
С его помощью вы сможете самостоятельно:
- подключаться к различным источникам;
- стабильно получать данные из любого источника;
- выполнять преобразования данных ETL с помощью SQL;
- увеличить скорость работы с данными с помощью технологий BigData;
- анализировать данные;
- предоставлять данные во внешние системы;
- выполнять эти операции в удобном и простом интерфейсе.
Теги: #Хранение данных #облачные сервисы #Большие данные #анализ данных #saas #Открытые данные #etl #большие данные
-
Друпал-Модули
19 Oct, 24 -
Сбор Подписей Пользователей Opera Mini
19 Oct, 24 -
В Африке Появится Сердце Из Деревьев
19 Oct, 24