Панамские Документы. Из Мира По Ниточке



Панамские документы.
</p><p>
 Из мира по ниточке

Как многим известно из прессы, Международный консорциум журналистов-расследователей (ICIJ) сделал достоянием общественности так называемый «Панамский архив»: информацию о лицах, связанных с офшорными компаниями по всему миру, полученную неизвестными лицами на основе панамского законодательства.

твердый Моссак Фонсека .

Можно по-разному относиться к самим этим данным, к способу их получения и публикации в открытом доступе.

Но, если абстрагироваться от этих вопросов, то это просто информация, которую можно обработать и на которую можно посмотреть с разных сторон (в прямом смысле).

Обзор данных По данным консорциума этих журналистов, их обработанные данные имеют формат Neo4j (в котором обещают опубликовать позже), но пока опубликованы только данные отдельных узлов в csv-файлах и файл связей между узлами.

На их сайте визуализация представлена в виде графика, но было бы также удобно увидеть все основные данные в одной таблице, что они и сделали.

Итак, есть 4 csv файла с данными и файл связи между ними, каждый файл содержит идентификатор (не уникальный), а связь между узлами обеспечивается файлом связи, в котором в столбце rel_type указан тип подключения.

Путем анализа файлов, их идентификаторов, рисования линий и стрелок на бумаге было установлено, что связность обеспечивается следующим образом ( рис.

1 ).



Панамские документы.
</p><p>
 Из мира по ниточке

рис.

1 Схема связи данных в файлах В итоговую таблицу включены данные об офшорных бенефициарах (файл Офицеры ), их адреса ( Адреса ), и сами офшоры ( Сущности ).

Учитывая, что идентификаторы не уникальны (есть общие пересекающиеся множества), а объединить таблицы в пары по ключу заведомо невозможно, таблицы соединялись поочередно, левыми соединениями и общими пересечениями.

Все это было сделано в R с использованием пакетов.

тидыр И дплир .

Впоследствии некоторые несущественные столбцы были исключены.

Общее количество уникальных лиц (то есть всех бенефициаров со связанными с ними офшорными компаниями) составило 1,4 миллиона записей.

Интерфейс Графический веб-интерфейс традиционно представляет собой интерфейс блестящая приборная панель , в котором используется только основная панель с двумя вкладками.



Показать на глобусе

После объединения интересующих данных их можно визуализировать, но учитывая, что все значения категориальны, и в таком большом количестве (в том числе уникальных), то визуализация таких данных в каком-то удобном виде немыслима.

Так как на самом сайте данные представлены в виде графика ICIJ , а какой-то агрегированный анализ (таблицы частот - общее количество оффшорных компаний по странам, количество оффшорных компаний в странах и т.д.) уже представлен в прессе, я решил представить потоки между странами бенефициаров и оффшорных компаний по всему миру, попутно посчитав количество таких пар и отобразив их на этой диаграмме ( фото 2 ).



Панамские документы.
</p><p>
 Из мира по ниточке

рис.

2 Первая закладка Для отображения потоков на глобусе используйте пакет триджс , для рендеринга в данном случае используется генерация карты (а не готовое изображение ландшафтного покрытия).

На глобусе в столбцах отображены все страны, в которых есть офшоры (их было 220, то есть практически все страны мира), высота столбца отражает количество владельцев офшоров относительно других стран.

А дугами отмечены все оффшорные компании всех стран; толщина дуг зависит от количества оффшорных компаний по данному направлению.

Для получения подробной информации вы можете выбрать конкретные страны и посмотреть, какими оффшорными компаниями они владеют. В таблице в соседнем блоке указано общее количество оффшорных компаний по паре – страна-бенефициар и страна-оффшор.



Стол

На второй вкладке ( Рис.

3 ) показывает таблицу с объединенными данными, а учитывая значительный объем данных (1,5 миллиона строк), для отображения таблицы используется объект Таблица данных с вычислениями (фильтрация, сортировка, поиск) на стороне сервера, это предусмотрено пакетом Д.

Т.

(обертка для JS библиотека Таблицы данных ).

По каждому столбцу есть возможность сортировки и поиска нужных значений (поиск занимает около 3-4 секунд).



Панамские документы.
</p><p>
 Из мира по ниточке

рис.

3 Вторая закладка Заключение выводы И каждый делает свои выводы.

Теги: #r #Data Mining #shiny #shiny Dashboards #Визуализация данных #хабр не для политики #Data Mining #r #Визуализация данных

Вместе с данным постом часто просматривают: