Сбор «Плохих Данных»

Ни для кого не секрет, что больше данных не означает, что они лучше.

Чаще бывает по-другому и есть много примеров, когда данные публикуются в ужасающем виде.

Например, данные Рособоронзаказа о которых я писал ранее( habrahabr.ru/company/infocultural/blog/201260 ) и где это можно увидеть.

Аналогичным образом публикует данные и МВД России - это такой массив - mvd.ru/opendata/od1 И много других данных, когда CSV-файлы создаются на основе файлов Excel, непригодных для анализа, или когда данные публикуются без описания схем, или когда публикуются невалидные XML-файлы и многое другое.

Чтобы собрать все подобные случаи, коллеги из Фонда «Открытые знания» начали собирать все примеры.



Сбор «плохих данных»

Вот сайт проекта - okfnlabs.org/bad-data , а вот раздел на github - github.com/okfn/bad-data/issuesЭpage=1&state=open где собраны примеры, 5 из которых находятся в работе и 2 уже зарегистрированы.

Конечно, хотя то, что описано, кажется не очень сложным, форматирование неверно или таблицы в PDF перемешаны с картинками.

Но их будет больше.

Давайте поможем нашим коллегам, и если вы где-то встретите опубликованные данные, с которыми невозможно работать, предлагаю разместить их в комментариях к этому посту, а для тех, кто готов подключиться, еще и у коллег из ОКФ.

Теги: #Открытые данные #плохие данные #Открытые данные

Вместе с данным постом часто просматривают: