Открытые Данные О Госуслугах Рф

Я уверен, что многие из вас, а может быть, и все вы уже сталкивались сайт государственных услуг .

Я наблюдаю, так или иначе, хороший он или плохой, интерес к нему есть.

Однако для полной реализации этого интереса я лично считаю, что необходимы открытые данные.

И такие открытые данные существуют. Хоть они и не предоставляются Минкомсвязи, а извлекаются с сайта госуслуг специальным парсером, они существуют. Например, эти данные позволили мне месяц назад получить некоторые интересные цифры по анализу организаций на этом сайте и их контактов.

Процитирую из этого поста: На сайте Госуслуг зарегистрировано 19989 государственных организаций.

Всего в организациях имеется 6730 уникальных адресов электронной почты (некоторые структуры имеют повторяющиеся адреса, поэтому мы рассматриваем только уникальные).

Из них: — 412 (6%) — заполнены неверно и не проходят проверку.

- 59 (1%) - указывают несуществующие домены — 1517 (22,5%) — это бесплатные адреса электронной почты, такие как Mail.ru, Google Mail, Яндекс.

Почта и Rambler Mail. Подробнее о каждом: – 982 (64,7%) – Mail.ru – 305 (20,1%) – Яндекс.

Почта – 118 (7,8%) – Рамблер Почта – 112 (7,4%) – Google Mail – 30 – HotMail (1,97%) Однако я посмотрел на все это только с одной стороны и абсолютно уверен, что проблем здесь гораздо больше.

Например, во многих случаях указаны совершенно неправильные контактные телефоны, огромное количество организаций не имеют мест оказания услуг, многие организации вообще не связаны с услугами, большинство организаций не имеют контактной информации и так далее.

Наверняка многие из вас смогут найти там интересные данные для визуализации и анализа.

А сами данные доступны в форматах, удобных для использования в МонгоБД : - в формате JSON через Mongoexport - http://export.opengovdata.ru/raw/gs_json.7z - в формате BSON через Mongodump - http://export.opengovdata.ru/raw/gs_bson.7z Массив больше нацелен на анализ организаций, а не госуслуг, поэтому основная таблица там — orgs. Также имеется несколько вспомогательных таблиц, посредством которых рассчитывалась статистика по доменам, адресам электронной почты и так далее.

Описание структуры данных следующее: Коллекция организации — организации

  • _идентификатор — уникальный код организации в системе, идентификатор Mongodb
  • ключ - уникальный код организации на сайте Госуслуг
  • имя - Название организации
  • URL - ссылка на сайте Госуслуги
  • уровень — уровень подчиненности организации
  • родитель — код головной организации, если таковой имеется
  • профиль — массив массивов по 2 строки в каждой с перечислением полей из профиля организации
  • Дети — дочерние компании в виде словаря
  • childs.num — количество организаций
  • Чайлдс.

    список — список/массив кодов организаций

  • услуги — словарь с описанием услуг, предоставляемых данной организацией
  • услуги.

    существует — флаг существования блока услуг для организации

  • услуги.

    предметы — массив сервисных словарей с полями имени и URL

  • суборганизации — словарь подведомственных организаций
  • suborgs.exists — флаг существования блокировки для организации
  • суборгс.

    итемс — массив сервисных словарей с полями ключа, имени и URL

  • неизвестный — блок «неизвестных» страниц в виде словаря.

    Присутствует только в том случае, если нет других блоков

  • неизвестно.

    существует — флаг существования блока услуг для организации

  • неизвестные.

    предметы - массив, всегда пустой

  • контакты — словарь контактов организации
  • контакты.

    существует — флаг существования блокировки для организации

  • контакты.

    предметы - массив строк с контактами

  • места — словарь мест оказания услуг
  • места.

    существует — флаг существования блокировки для организации

  • места.

    предметы — массив строк, описывающих места оказания услуг

Коллекция страницы - страницы
  • _идентификатор — уникальный код в системе, идентификатор Mongodb
  • URL — ссылка на запрашиваемую страницу
  • рурл — URL страницы после редиректа с сайта госуслуг
  • страница — фрагмент HTML-кода, содержащий содержимое страницы.

Коллекция домены — домены сайтов (на основе данных об адресах электронной почты)
  • _идентификатор — уникальный код в системе, идентификатор Mongodb
  • домен - домен
  • имеет — флаг наличия записи A в DNS
  • а — массив словарей с полем имени и списком результатов запроса А к DNS
  • has_mx — флаг наличия MX-записи в DNS
  • мх — массив словарей с полями name (имя сервера), l2_dom (домен второго уровня сервера), Priority (приоритет) и списком результатов MX-запроса к DNS
Коллекция mx_servers - почтовые серверы
  • _идентификатор — уникальный код в системе, идентификатор Mongodb
  • домен — домен почтового сервера
  • l2_dom - домен второго уровня
  • num_domains — количество доменов, использующих данный MX-сервер
  • домены — массив доменов, использующих этот MX-сервер
Коллекция электронная почта — адреса электронной почты из контактов организации
  • _идентификатор — уникальный код в системе, идентификатор Mongodb
  • электронная почта - Адрес электронной почты
  • домен — домен адреса электронной почты
  • разобранный — флаг, что адрес электронной почты анализируется
  • действительный — отметьте, что адрес электронной почты правильный
  • имеет — флаг наличия записи A в DNS
  • а — массив словарей с полем имени и списком результатов запроса А к DNS
  • has_mx — флаг наличия MX-записи в DNS
  • мх — массив словарей с полями name (имя сервера), l2_dom (домен второго уровня сервера), Priority (приоритет) и списком результатов MX-запроса к DNS
Коллекция услуги — государственные услуги описание пока неполное, есть только названия и ссылки на организации по услугам
  • _идентификатор — уникальный код в системе, идентификатор Mongodb
  • имя — название государственной службы
  • URL — ссылка на сайт госуслуг
  • num_orgs — количество организаций
  • организации — массив кодов организаций, предоставляющих данную услугу
А также, тем из вас, кто задумывается о том, как можно работать с этими данными, предлагаю обратить внимание на каталог в OpenGovData.ru данные, которые вы можете попытаться использовать для улучшения/анализа данных о государственных услугах.

Также могу передать желающим код извлечения и парсинга данных из Госуслуг.

В любом случае, скоро выложу в открытый доступ, но пока он не особо готов к публикации - без комментариев и пояснений.

Теги: #opendata #Открытые данные #госуслуги #opengovdata.ru #ИТ-законодательство

Вместе с данным постом часто просматривают: