Как многим известно из прессы, Международный консорциум журналистов-расследователей (ICIJ) сделал достоянием общественности так называемый «Панамский архив»: информацию о лицах, связанных с офшорными компаниями по всему миру, полученную неизвестными лицами на основе панамского законодательства.
твердый Моссак Фонсека .
Можно по-разному относиться к самим этим данным, к способу их получения и публикации в открытом доступе.
Но, если абстрагироваться от этих вопросов, то это просто информация, которую можно обработать и на которую можно посмотреть с разных сторон (в прямом смысле).
Обзор данных По данным консорциума этих журналистов, их обработанные данные имеют формат Neo4j (в котором обещают опубликовать позже), но пока опубликованы только данные отдельных узлов в csv-файлах и файл связей между узлами.
На их сайте визуализация представлена в виде графика, но было бы также удобно увидеть все основные данные в одной таблице, что они и сделали.
Итак, есть 4 csv файла с данными и файл связи между ними, каждый файл содержит идентификатор (не уникальный), а связь между узлами обеспечивается файлом связи, в котором в столбце rel_type указан тип подключения.
Путем анализа файлов, их идентификаторов, рисования линий и стрелок на бумаге было установлено, что связность обеспечивается следующим образом ( рис.
1 ).
рис.
1 Схема связи данных в файлах В итоговую таблицу включены данные об офшорных бенефициарах (файл Офицеры ), их адреса ( Адреса ), и сами офшоры ( Сущности ).
Учитывая, что идентификаторы не уникальны (есть общие пересекающиеся множества), а объединить таблицы в пары по ключу заведомо невозможно, таблицы соединялись поочередно, левыми соединениями и общими пересечениями.
Все это было сделано в R с использованием пакетов.
тидыр И дплир .
Впоследствии некоторые несущественные столбцы были исключены.
Общее количество уникальных лиц (то есть всех бенефициаров со связанными с ними офшорными компаниями) составило 1,4 миллиона записей.
Интерфейс Графический веб-интерфейс традиционно представляет собой интерфейс блестящая приборная панель , в котором используется только основная панель с двумя вкладками.
Показать на глобусе
После объединения интересующих данных их можно визуализировать, но учитывая, что все значения категориальны, и в таком большом количестве (в том числе уникальных), то визуализация таких данных в каком-то удобном виде немыслима.Так как на самом сайте данные представлены в виде графика ICIJ , а какой-то агрегированный анализ (таблицы частот - общее количество оффшорных компаний по странам, количество оффшорных компаний в странах и т.д.) уже представлен в прессе, я решил представить потоки между странами бенефициаров и оффшорных компаний по всему миру, попутно посчитав количество таких пар и отобразив их на этой диаграмме ( фото 2 ).
рис.
2 Первая закладка Для отображения потоков на глобусе используйте пакет триджс , для рендеринга в данном случае используется генерация карты (а не готовое изображение ландшафтного покрытия).
На глобусе в столбцах отображены все страны, в которых есть офшоры (их было 220, то есть практически все страны мира), высота столбца отражает количество владельцев офшоров относительно других стран.
А дугами отмечены все оффшорные компании всех стран; толщина дуг зависит от количества оффшорных компаний по данному направлению.
Для получения подробной информации вы можете выбрать конкретные страны и посмотреть, какими оффшорными компаниями они владеют. В таблице в соседнем блоке указано общее количество оффшорных компаний по паре – страна-бенефициар и страна-оффшор.
Стол
На второй вкладке ( Рис.3
) показывает таблицу с объединенными данными, а учитывая значительный объем данных (1,5 миллиона строк), для отображения таблицы используется объект Таблица данных с вычислениями (фильтрация, сортировка, поиск) на стороне сервера, это предусмотрено пакетом Д.Т.
(обертка для JS библиотека Таблицы данных ).
По каждому столбцу есть возможность сортировки и поиска нужных значений (поиск занимает около 3-4 секунд).
рис.
3 Вторая закладка Заключение выводы И каждый делает свои выводы.
Теги: #r #Data Mining #shiny #shiny Dashboards #Визуализация данных #хабр не для политики #Data Mining #r #Визуализация данных
-
Stat.nic.ru Обсчитали?
19 Oct, 24 -
Midi-Блютуз-Клавиатура На Esp32
19 Oct, 24 -
Просто Как Java
19 Oct, 24 -
Конкурс Спасательных Технологий
19 Oct, 24