Ни для кого не секрет, что больше данных не означает, что они лучше.
Чаще бывает по-другому и есть много примеров, когда данные публикуются в ужасающем виде.
Например, данные Рособоронзаказа о которых я писал ранее( habrahabr.ru/company/infocultural/blog/201260 ) и где это можно увидеть.
Аналогичным образом публикует данные и МВД России - это такой массив - mvd.ru/opendata/od1 И много других данных, когда CSV-файлы создаются на основе файлов Excel, непригодных для анализа, или когда данные публикуются без описания схем, или когда публикуются невалидные XML-файлы и многое другое.
Чтобы собрать все подобные случаи, коллеги из Фонда «Открытые знания» начали собирать все примеры.
Вот сайт проекта - okfnlabs.org/bad-data , а вот раздел на github - github.com/okfn/bad-data/issuesЭpage=1&state=open где собраны примеры, 5 из которых находятся в работе и 2 уже зарегистрированы.
Конечно, хотя то, что описано, кажется не очень сложным, форматирование неверно или таблицы в PDF перемешаны с картинками.
Но их будет больше.
Давайте поможем нашим коллегам, и если вы где-то встретите опубликованные данные, с которыми невозможно работать, предлагаю разместить их в комментариях к этому посту, а для тех, кто готов подключиться, еще и у коллег из ОКФ.
Теги: #Открытые данные #плохие данные #Открытые данные
-
Как Можно Посмотреть Обычный Фильм В 3D?
19 Oct, 24 -
Миграционное Безумие
19 Oct, 24 -
О Том, Как Устроен Хабрахабр
19 Oct, 24 -
100 000 Пользователей Nektome
19 Oct, 24 -
Стал Ли Дизайн Youtube Мейнстримом?
19 Oct, 24