Неочевидное Использование Открытых Данных

Я думал, стоит ли писать этот пост или нет, потом решил, что оно того все же стоит - Еще до того, как я увлекся открытыми данными, я провел немало лет, работая над различными задачами, связанными с классификацией, анализом текста, полуструктурированными данными, очисткой и обогащением данных.

Например, довольно давно я сделал алгоритм автоматического разбора полного имени в любом написании, определения пола и, возможно, этнической принадлежности.

Это не самая сложная задача, я представляю ее не как что-то выдающееся, а как нечто рутинное и типичное.

Однако решение этой довольно типичной проблемы.

Вопрос в том, как решить это нечто типичное.

И здесь на помощь приходят открытые данные.

Однако я начну с самого начала.



1. Топливо для алгоритма

Практически все мы знаем, что данные с сайта госзакупок доступны каждому — их можно скачать в огромных объемах с FTP-сервера, разобрать и использовать для разных полезных целей и задач.

С тех пор, как чиновники начали публиковать эти данные, появилось множество проектов.

Да и сам я их использую довольно давно - для анализа госзакупок, автоматического выявления нарушений, анализа рынков - и многих задач! И вот, некоторое время назад у меня возникло желание сделать возможным проведение гендерного анализа на любой выборке данных.

Например, мы анализируем список депутатов — и мне очень хочется назначить их пол не вручную по списку, а отправить робота и получить список с пометками.

И по списку потом можно визуализировать, сколько мужчин, сколько женщин, уровень активности по полу, уровень дохода и так далее.

Частично проблему решают всякие списки самых популярных имен, хорошо решаются через отчества и так далее.

Этот подход хорошо работает, когда входной поток полных имен хорошо структурирован, но когда они записаны разными способами от «Иван Петров» до «Петров И.

А.

» и еще десяток вариантов, то оказывается, что очень простых и понятных решений недостаточно.

Поэтому я задумался о необходимости создания справочной базы имен, отчеств и фамилий, а также распознавания структуры входящего потока полных имен.

Для создания таких каталогов необходима структурированная база полных имен, которую можно было бы использовать для этой цели.

Вопрос в том, как найти оптимальное решение? Решение было рядом.

Полные имена людей есть во многих крупных массивах открытых данных, которые открываются государственными органами.

В частности, в объявлениях о закупках, протоколах закупок и описаниях контрактов указываются ФИО в виде контактных лиц, ответственных лиц и т.п.



А также в контактной информации карточек организации!

Да, там много дубликатов, не миллионы людей, а всего лишь сотни тысяч, но данные структурированы и остается только изначально правильно классифицировать эту выборку, разобрать ее по справочникам и затем по ним распознавать имена, отчества и фамилии.

Это позволяет понять структуру полного имени, включенного в алгоритм описания, и точно определить пол.

Сейчас этот алгоритм использует каталог из 26 тысяч имен, 40 тысяч отчеств и около 300 тысяч фамилий.

С его помощью мы, например, улучшили базу данных участковых и теперь у нас есть база данных с гендерными признаками (где можно было его определить), а также есть анализ гендерной структуры участковых.

Вот и все здесь - http://data.openpolice.ru/dataset/mvd-uchast Я, конечно, не хочу сказать, что других источников и баз данных с полными названиями нет, но практически готовых к быстрому использованию мало.





2. Реконструкция справочников

Для многих открытых и не очень государственных данных есть такая особенность, что они публикуются и публикуются, но найти их описание и еще труднее найти справочники, которые в них используются.

Чаще всего это происходило не со злого умысла (со злого умысла они просто стараются вообще не публиковать данные), а из-за непонимания потребностей потенциальных пользователей данных.

Позвольте мне привести вам несколько примеров.





Бюджетные руководства
Минфин России регулярно публикует данные о государственном бюджете и его исполнении.

Это большие листы в формате файла Excel на их сайте - здесь в разделе " Список бюджета ".

Файлы содержат много разных строк и их особенность в том, что в каждом из них упоминается множество справочников.

Ряд строк верхнего уровня определяют Главных распорядителей бюджетных средств (ГРБС), другие - ФКР (функциональная классификация расходов), ЦСР (Целевые статьи расходов), КВР (код видов расходов) и многие другие.

Как я могу получить эти руководства? Некоторые из них доступны в виде открытых данных из различных государственных систем, однако не всегда можно найти обновленные.

Поэтому наиболее эффективным способом является восстановление каталогов из самого массива данных.

Учитывая, что описание бюджета построено так, что строки в нем являются в точности названиями строк каталога, в зависимости от детализации эти каталоги восстанавливаются довольно быстро.

Почему это вообще необходимо? Во-первых, эти каталоги нужны для визуализации самого бюджета.

Во-вторых, они упоминаются без расшифровки во многих других системах раскрытия информации, например, в старых данных реестров договоров.

Эти данные сложно анализировать, если вы не знаете каталоги, к которым относятся записи в реестре.





3. Географическая привязка

Предположим, у нас есть список организаций с номерами телефонов и желание понять, к каким городам и регионам они относятся.

Задача более чем частая и необходимая для многих задач.

Как это сделать? Самый эффективный способ — иметь городской телефонный справочник и использовать префиксы этих справочников для определения города.

Такие справочники есть на нескольких сайтах, например, на сайте Ростелекома или на сайте Росссвязи в разделе нумерации ABC. Проблема только одна - города и регионы есть, но не более детально и без каких-либо классификационных кодов типа ОКАТО или КЛАДР.

А справочники надо приносить в ОКАТО, чтобы добиться точности.

Но есть другой способ.

Среди данных уже упомянутого мною сайта госзакупок и данных сайта госорганов (bus.gov.ru) есть много карточек организаций.

Эти данные содержат как коды пространственной привязки (КЛАДР и ОКАТО), так и номера телефонов.

Отсюда и решение.

Сначала на этих базах формируется справочник, позволяющий сравнивать префиксы телефонных номеров и географическую привязку, а затем только номера телефона организации достаточно для определения ее вероятного местонахождения.





4. Пустые данные

Когда Всемирный банк проводил конкурс Apps4Development в 2011 году, одним из представленных на него проектов был проект Слепые данные («слепые данные») — ее суть заключалась в поиске дыр, пустот, пропусков данных в том, что публиковал Всемирный банк.

Этот проект в настоящее время доступен только на их конкурсном веб-сайте, но когда он был там, наблюдалась заметная нехватка данных по многим ключевым вопросам из большого числа стран.

Другой пример — проект Очистить расходы созданный в Sunlight Foundation. Их специалисты проанализировали бюджетные статьи и данные о расходах из базы данных госконтрактов и выявили «пустые места» — отсутствие отчетности по огромным суммам средств.

И это даже не случаи коррупции, а случаи, когда нет публичной информации о том, что и как было куплено.

Эти примеры — лишь два из многих.

Есть много других, которые используются для гражданского контроля.

Когда публикация данных используется для поиска чего-то, данные о чем не публиковались и не публиковались ранее.

Данные можно сопоставлять, сравнивать и выявлять вопиющие необычные случаи.

Просто нужно переключиться с того, что есть, на поиск того, чего нет.



5. И многое другое

Вышеперечисленное не исчерпывает всего.

Открытые данные, как пример наиболее доступных данных, применимы как для разработки алгоритмов, так и для других задач.

И такое их использование нельзя сбрасывать со счетов, особенно если в будущем станут доступны другие интересные наборы данных.

Например:

  • базы данных GPS-треков движения общественного транспорта для расчета времени прибытия на остановки де-факто, а не по расписанию;
  • базы данных изображений веб-камер для автоматического обнаружения антиобщественного поведения или подсчета количества людей в толпе;
  • динамика занятости парковок по дням и времени суток – для предварительного планирования маршрута;
  • адресные базы данных для тестирования алгоритмов их разбора.

и многое другое.

Все, что я хотел сказать этим постом, это то, что результатом использования открытых данных могут быть не только сайты и мобильные приложения.

Результатом могут стать алгоритмы и их усовершенствование.

А также использование данных для далеко не очевидных задач.

Теги: #Открытые данные #открытое государство #Открытые данные

Вместе с данным постом часто просматривают:

Автор Статьи


Зарегистрирован: 2016-12-14 22:03:56
Баллов опыта: 614
Всего постов на сайте: 3
Всего комментарий на сайте: 0
Dima Manisha

Dima Manisha

Эксперт Wmlog. Профессиональный веб-мастер, SEO-специалист, дизайнер, маркетолог и интернет-предприниматель.