Я уверен, что многие из вас, а может быть, и все вы уже сталкивались сайт государственных услуг .
Я наблюдаю, так или иначе, хороший он или плохой, интерес к нему есть.
Однако для полной реализации этого интереса я лично считаю, что необходимы открытые данные.
И такие открытые данные существуют. Хоть они и не предоставляются Минкомсвязи, а извлекаются с сайта госуслуг специальным парсером, они существуют. Например, эти данные позволили мне месяц назад получить некоторые интересные цифры по анализу организаций на этом сайте и их контактов.
Процитирую из этого поста: На сайте Госуслуг зарегистрировано 19989 государственных организаций.
Всего в организациях имеется 6730 уникальных адресов электронной почты (некоторые структуры имеют повторяющиеся адреса, поэтому мы рассматриваем только уникальные).
Из них: — 412 (6%) — заполнены неверно и не проходят проверку.
- 59 (1%) - указывают несуществующие домены — 1517 (22,5%) — это бесплатные адреса электронной почты, такие как Mail.ru, Google Mail, Яндекс.
Почта и Rambler Mail. Подробнее о каждом: – 982 (64,7%) – Mail.ru – 305 (20,1%) – Яндекс.
Почта – 118 (7,8%) – Рамблер Почта – 112 (7,4%) – Google Mail – 30 – HotMail (1,97%) Однако я посмотрел на все это только с одной стороны и абсолютно уверен, что проблем здесь гораздо больше.
Например, во многих случаях указаны совершенно неправильные контактные телефоны, огромное количество организаций не имеют мест оказания услуг, многие организации вообще не связаны с услугами, большинство организаций не имеют контактной информации и так далее.
Наверняка многие из вас смогут найти там интересные данные для визуализации и анализа.
А сами данные доступны в форматах, удобных для использования в МонгоБД : - в формате JSON через Mongoexport - http://export.opengovdata.ru/raw/gs_json.7z - в формате BSON через Mongodump - http://export.opengovdata.ru/raw/gs_bson.7z Массив больше нацелен на анализ организаций, а не госуслуг, поэтому основная таблица там — orgs. Также имеется несколько вспомогательных таблиц, посредством которых рассчитывалась статистика по доменам, адресам электронной почты и так далее.
Описание структуры данных следующее: Коллекция организации — организации
- _идентификатор — уникальный код организации в системе, идентификатор Mongodb
- ключ - уникальный код организации на сайте Госуслуг
- имя - Название организации
- URL - ссылка на сайте Госуслуги
- уровень — уровень подчиненности организации
- родитель — код головной организации, если таковой имеется
- профиль — массив массивов по 2 строки в каждой с перечислением полей из профиля организации
- Дети — дочерние компании в виде словаря
- childs.num — количество организаций
- Чайлдс.
список — список/массив кодов организаций
- услуги — словарь с описанием услуг, предоставляемых данной организацией
- услуги.
существует — флаг существования блока услуг для организации
- услуги.
предметы — массив сервисных словарей с полями имени и URL
- суборганизации — словарь подведомственных организаций
- suborgs.exists — флаг существования блокировки для организации
- суборгс.
итемс — массив сервисных словарей с полями ключа, имени и URL
- неизвестный — блок «неизвестных» страниц в виде словаря.
Присутствует только в том случае, если нет других блоков
- неизвестно.
существует — флаг существования блока услуг для организации
- неизвестные.
предметы - массив, всегда пустой
- контакты — словарь контактов организации
- контакты.
существует — флаг существования блокировки для организации
- контакты.
предметы - массив строк с контактами
- места — словарь мест оказания услуг
- места.
существует — флаг существования блокировки для организации
- места.
предметы — массив строк, описывающих места оказания услуг
- _идентификатор — уникальный код в системе, идентификатор Mongodb
- URL — ссылка на запрашиваемую страницу
- рурл — URL страницы после редиректа с сайта госуслуг
- страница — фрагмент HTML-кода, содержащий содержимое страницы.
- _идентификатор — уникальный код в системе, идентификатор Mongodb
- домен - домен
- имеет — флаг наличия записи A в DNS
- а — массив словарей с полем имени и списком результатов запроса А к DNS
- has_mx — флаг наличия MX-записи в DNS
- мх — массив словарей с полями name (имя сервера), l2_dom (домен второго уровня сервера), Priority (приоритет) и списком результатов MX-запроса к DNS
- _идентификатор — уникальный код в системе, идентификатор Mongodb
- домен — домен почтового сервера
- l2_dom - домен второго уровня
- num_domains — количество доменов, использующих данный MX-сервер
- домены — массив доменов, использующих этот MX-сервер
- _идентификатор — уникальный код в системе, идентификатор Mongodb
- электронная почта - Адрес электронной почты
- домен — домен адреса электронной почты
- разобранный — флаг, что адрес электронной почты анализируется
- действительный — отметьте, что адрес электронной почты правильный
- имеет — флаг наличия записи A в DNS
- а — массив словарей с полем имени и списком результатов запроса А к DNS
- has_mx — флаг наличия MX-записи в DNS
- мх — массив словарей с полями name (имя сервера), l2_dom (домен второго уровня сервера), Priority (приоритет) и списком результатов MX-запроса к DNS
- _идентификатор — уникальный код в системе, идентификатор Mongodb
- имя — название государственной службы
- URL — ссылка на сайт госуслуг
- num_orgs — количество организаций
- организации — массив кодов организаций, предоставляющих данную услугу
Также могу передать желающим код извлечения и парсинга данных из Госуслуг.
В любом случае, скоро выложу в открытый доступ, но пока он не особо готов к публикации - без комментариев и пояснений.
Теги: #opendata #Открытые данные #госуслуги #opengovdata.ru #ИТ-законодательство
-
Новые Продукты Mwc И Мобильные Тенденции
19 Oct, 24 -
Вконтакте Прекращает Поддержку Jabber
19 Oct, 24