Управление Публичными Данными: Сбор И Использование

Многократное использование данных из одного источника, даже при незначительных изменениях их содержания, структуры и формата, обуславливает необходимость решения различных инструментальных, информационных, инженерных, управленческих и правовых задач.

Одно применение набора данных может быть реализовано в «ручном» режиме.

Но неоднократное и последующие обновления данных на основе одних и тех же обновленных наборов заставляют рассмотреть проблему автоматизации хотя бы частично.

Еще более высокий уровень проблем решается в системе, которая использует множество общедоступных наборов данных, периодически обновляемых и поступающих от разных поставщиков.



Управление публичными данными: сбор и использование

Публикация является следующей в серии, посвященной теме публичных данных.

Ссылки на предыдущие статьи

  1. Почему данные могут быть открытыми и бесплатными
  2. Открытая передача данных
  3. Об открытых, общих и делегированных данных
  4. Содержание, метаданные и контекст открытых данных
  5. Показатели качества государственных данных
  6. Управление публичными данными: подготовка и предоставление
Получить и использовать данные, которые предоставляются неограниченному или условно ограниченному числу пользователей, несколько сложнее, чем работать по закрытой схеме передачи данных зависимость от поставщика сильная, а взаимодействие с ним минимальное .

Давайте рассмотрим несколько принципов управления использованием общедоступных данных.



Стратегия

Разработка стратегии общедоступных данных для получателя составляет основу рациональной деятельности, направленной на получение достойного и качественного результата.

Очевидно, что если пользователь серьезно и грамотно организует эту работу, то такая стратегия является продолжением стратегий поиска новых данных и знаний, управления знаниями и бизнес-аналитики, а также стратегии научно-технического развития бизнеса.

в общем.

Конечно, нельзя исключать и конкретные случаи «пробного» поиска и использования предметных публичных данных для решения актуальной специальной проблемы.

Если потребность сводится лишь к оперативной задаче получения недостающих или уточнения данных, имеющихся в открытом и бесплатном режиме, то полноценной мотивации для построения целой системы «добычи и обработки общественных деятелей» явно нет. И все же даже в таких случаях иногда полезно понять, какие проблемы могут быть связаны с одноразовым внедрением общедоступного набора данных.

Стратегически такие области важны для постоянного получателя общедоступных данных.

  1. Определение целей сбора данных и ключевых предметных областей в рамках которого он ищет новые цифровые наборы.

    Связь с внутренними вопросами и системой бизнес-аналитики обязательна.

    В умном бизнесе загружаемые общедоступные данные будут использоваться специально для экономической и управленческой аналитики с использованием собственного или арендованного программного обеспечения.

  2. Формулировка больших подзадач передача данных по публичной схеме в соответствии с поставленными целями и предметными областями с предварительным прогнозированием (расчетом) ожидаемых результатов.

  3. Формализация критериев отбора данных для поиска и извлечения, включая аспекты содержания, структуры и формата.

    Возможно даже в виде внутренних закрытых или публичных положений (стандартов, правил).

  4. План поиска и отбора данных в формате общих принципов или даже на уровне отдельных мероприятий.

    Некоторым профессиональным поставщикам общедоступных данных может быть интересно узнать о таких планах активных и авторитетных получателей.

  5. Построение системы прямого и последовательного контроля качества общедоступные данные.

    Он предназначен посредством определенных ключевых и вспомогательных операций на протяжении всего процесса обработки наборов данных для комплексного контроля качества и при необходимости своевременной корректировки или пометки данных как неприменимых.

    Здесь важно иметь возможность предоставить поставщику обратную связь по критическим проблемам, обнаруженным в данных.

  6. Супервайзер по общественным данным – отдельный контрольно-координирующий функционал, целью которого является общая и проблемная оценка процесса поиска и получения данных для целей пользователя.

    Для «супервайзера» необходимо определить ориентиры и дать возможность не только активно наблюдать и вмешиваться в процедуры прямого отбора данных, но также в процессы и объекты внутри организации-пользователя, которые принимают или могут принимать на себя прямое воздействие новые решения и знания (продукты) и услуги).

  7. HR-поддержка общедоступные данные как за счет выделения функционала в отдельные позиции, так и за счет разумного дополнения функционала существующих позиций.

    Не будем забывать и о компетентности отдельных сотрудников в сфере публичных данных.

  8. Поддержка инструментов Поиск, отбор, получение и использование данных обусловлен сложностью процедур непосредственного использования наборов цифровых данных.

  9. Техническая поддержка получение данных в части оценки и дополнительного выделения машинных ресурсов (складских помещений, вычислительных мощностей, специалистов).

  10. Юридическая поддержка получение и применение данных как на уровне акцепта генерального договора (перечня условий) публичной передачи данных, установленного поставщиком, так и на последующих уровнях обработки и повторной передачи данных или результатов, полученных на их основе.

  11. Маркетинговая поддержка получение данных для освещения проблем потенциальным поставщикам и поощрение их к свободному распространению и обновлению наборов цифровых данных.

Стоит отметить, что некоторые моменты совпадают со стратегией поставщика публичных данных, но имеют прямо противоположную направленность.

Это следствие определенной «зеркальной» структуры в стратегиях поставщика и получателя публичных данных.

Основная цель стратегии компетентного получателя управления публичными данными сводится, по большому счету, к эффективному поиску или извлечению необходимых данных и их последующему использованию в рамках собственной бизнес-аналитики с целью выявления и формулирования новых знаний ( создание решений, продуктов, услуг и т. д.) в бесплатном режиме.

Получатели (пользователи) общедоступных данных разные.

И у каждого своя стратегия.

Если крупная корпорация занимается сбором и использованием свободно распространяемых цифровых данных, то она делает упор на системность, масштаб, алгоритмы и компетенции.

Если тем же самым занимается частное лицо (эксперт, предприниматель), то основной упор он, скорее всего, сделает на конкретику и разовый результат.

Поиск

С одной стороны , в нашем «цифровом» мире почти не осталось проблем с поиском ответов на простые текст вопросы.

Достаточно ввести правильный запрос в поле специального поискового сервиса.

Тогда есть шанс потратить время на просмотр предоставленных ссылок и итеративное уточнение запроса.

На другой стороне , поиск наборов цифровых данных – это совсем другая задача, которую придется решать несколько иными способами, обращаясь скорее не просто к поисковому сервису, а к предметной области, из которой требуются данные.

Отдельных поисковых систем по общедоступным данным пока нет, но уже активно появляются сводные каталоги и целые порталы.

Сообщество экспертов и обмен ссылками очень помогают. Большая часть проблем с поиском данных, помимо фактического поиска наборов искомых тем, заключается в определении и проверке качества найденной информации и ответе на вопрос « Можно ли использовать эти данные для решения моей проблемы? «Вот почему так важно найти значимые данные, сопровождаемые подробными метаданными и, что еще лучше, с надежной оценкой качества.

В связи с этим понимание типа общедоступных данных также помогает определенным образом решить вопрос об их применимости в той или иной ситуации.

Например, доверять содержимому общих данных нужно с осторожностью и с обязательной проверкой.

По крайней мере, по ряду простых критериев, оценивая по принципу «веришь или нет».

Внимание можно сосредоточить на совокупных показателях по всему набору данных или по отдельным выборкам.

Получателю (пользователю) всегда необходимо контролировать публичные данные по источникам и возможным их изменениям.

Вы должны быть готовы к тому, что данные будут изменены, и период времени, в течение которого данные будут условно стабильный вы можете только попытаться догадаться.

Действуя в рамках изменчивости смысла, структуры и формата общедоступных данных, приходится прибегать к особому способу организации работы с ними и выбору более универсальных инструментов обработки.

Как правило, поиск общедоступных данных всегда основан на соответствующем контенте.

А если удается найти необходимые наборы цифровых данных по заданной теме, то это уже хорошо.

Однако мы помним, что в данных, помимо смысла, важны также структура и формат. Но отказываться от найденных данных, если получателя не устраивает структура их организации или один из слоев формата, кажется непозволительной роскошью.

Не беда — пользователь будет использовать инструменты реструктуризации и переформатирования, конечно, если найдет подходящие.

Между тем, эта проблема легко решается поставщиком путем замены статического метода публикации данных на динамический, т.е.

файлы данных заменяются API с разными вариантами загрузки.

Но с другой стороны, поиск набора публичных данных, упакованного в файл, и поиск API по запросу, к которому можно получить тот же набор публичных данных — это две разные истории.



Загрузка

Когда пользователь нашел необходимые данные и получил их бесплатную копию на свое запоминающее устройство, он успешно завершил так называемую загрузку, что доставило ему бесконечное море удовольствия от решения различных сопутствующих задач.

Что еще ему придется сделать, помимо простого получения набора цифровых данных, если он попытается поступать правильно и правильно? Ну, например, вы можете дополнительно:

  • формализовать успешный и эффективный способ поиска и нахождения необходимых данных (когда, в какой последовательности, какой серии запросов, по каким ссылкам нужно было пройти, что принесло результат);
  • фиксировать время и место получения набора данных, а также поставщика и условия распространения данных;
  • проверить формат данных для каждого уровня (кодировка, обозначение, схема);
  • получить и сохранить максимально доступные метаданные, относящиеся к целевому набору данных;
  • попытаться извлечь дополнительные возможные метаданные и ссылки или описания контекста из среды, в которой находятся целевые данные;
  • просматривать явно указанный или подразумеваемый контекст данных;
  • получить оценку качества данных и дать собственную предварительную оценку качества найденных данных;
  • узнать возможные и предпочтительные способы обратной связи с поставщиком данных (их владельцем или автором);
  • сначала определите необходимость получения обновленных данных в будущем.

И чем системнее получатель (пользователь) попытается организовать работу с публичными данными, тем чётче и осознаннее ему придётся делать эти и другие вещи не после, а уже в момент загрузки найденных данных.

В большинстве случаев для подтверждения качества и/или подлинности данных, а также для последующего обратного аудита рекомендуется хранить прямую копию загруженных данных в доступном месте репозитория.

Причём лучше всего делать это именно в том виде и формате, в котором набор цифровых данных был получен от поставщика (с сетевого ресурса).

В дальнейшем при необходимости можно сохранять и промежуточные результаты обработки данных, но их первоначальный вариант особенно важен, если поставщик вносит в них изменения без предупреждения и оговорок.

Исключение может быть сделано для общедоступных данных, которые вряд ли изменятся в будущем, и хранение оригинальной копии загруженных данных повлечет за собой неприемлемые затраты на хранение.

Однако в этом случае риск «неожиданное изменение неизменяемых данных» вероятность возникновения неблагоприятных ситуаций, связанных с ним, остается и остается.

Получатель данных самостоятельно принимает решение о том, как будет построено его решение (продукт или услуга) с учетом возможных корректировок исходных данных и должно ли оно быть сделано динамическим по отношению к источнику данных или статически работающим на «снимках».

» данных.

Каждый вариант имеет свои преимущества и риски.



Выполнение

Обработка и анализ общедоступных данных очень редко ограничиваются только полученными наборами.

Обычно в этом процессе задействован весь массив накопленной информации, включая дополнительные внутренние или ранее полученные данные, целенаправленно структурированные.

Даже если разработка ведется исключительно на публичных данных, они смешиваются из разных источников и «приправлены» предыдущими расчетами, оценками и агрегаторами.

Поэтому, что касается выстроенной системы экономического и управленческого анализа за длительный период, можно говорить о внедрении загруженных наборов данных в общий массив доступной (хранимой) информации.

Существуют три общие схемы внедрения полученных общедоступных данных в общее хранилище:

  1. емкостный (или исторический) – растет за счет увеличения (расширения) и сохранения всех изменений полученных данных в пределах заданной предметной области, включая поддержку всех версий структур и форматов;
  2. контролируемый (или обновляется) – меняется точно на текущее содержание, структуру и схему формата полученных данных;
  3. обычай (или целевой) - изменения с учетом изменения содержания, структуры и формата полученных предметных данных, но в целом создаются как независимые от источников, так и зависимые от существующей задачи (цели).

Традиционно внедрение данных в собственные хранилища данных и модели аналитики предполагает их активную обработку, включая фильтрацию, промежуточные вычисления, корректировку и заполнение пробелов.

Это еще не непосредственная обработка и аналитика данных, а всего лишь процедуры приведения данных к общему знаменателю .

И такой общий знаменатель зависит от конкретных целей, от особенностей содержания, структуры и формата данных, от задач и параметров хранилища.

Вероятно, уже здесь потребуется создавать «снимки» данных — исторические разделы, позволяющие контролировать качество данных по цепочке и при необходимости обратно восстанавливать отдельные элементы.

Помимо всего этого, уже на этом этапе необходимо сформировать дополнительные производные внутренние метаданные для набора общедоступных реализуемых данных в соответствии с регламентом соответствующего репозитория и модели анализа.

Выполнение , так как подготовка данных и доведение их до целевого рабочего состояния – важный этап, требующий профессионализма и эффективных инструментов.



Обратная связь

Как и в случае с поставщиком общедоступных данных, для их получателя (пользователя) можно выделить два уровня обратной связи.

Во-первых простой – получатель цифровых данных возвращает поставщику свое мнение о качестве и количестве загруженного рисунка, иногда сопровождаемое пожеланиями относительно последующих публикаций.

Второй уровень , более трудный — это возврат поставщику полученных знаний и решений (продукции или услуг), в том числе с использованием размещенных им наборов, в обмен на новую или дополнительную порцию качественных данных или на новое качество данных.

Такая связь может даже перерасти в нечто большее, чем просто обмен данными, знаниями и компетенциями, но это уже вопрос развития и объединения бизнес-интересов.

Одним из косвенных способов комплексной обратной связи от получателя к общедоступному поставщику данных является их целевая ретрансляция – повторная передача третьим лицам в исходном или переработанном виде, а возможно, даже в виде новых решений (знаний).

Соблюдая установленные поставщиком условия перераспределения, своего рода посредник, во-первых, может уведомить поставщика о перераспределении, во-вторых, расширяет компетентные связи субъектов за счет вовлечения новых участников в процесс работы с общественностью.

данные.

Такая схема позволяет оценить интерес к данным и охватить большую целевую аудиторию.

Отслеживание таких цепочек требует от поставщика организации соответствующих бизнес-процессов на достаточно высоком уровне.

Теги: #открытые данные #открытые данные #открытые данные #публичные данные #публичные данные #публичные данные #открытые данные #управление данными #Исследования и прогнозы в ИТ

Вместе с данным постом часто просматривают: