Базы Знаний. Часть 1 – Введение

Одна из причин неправильного использования Связанные данные -базы знаний в обычных, ненаучных приложениях заключается в том, что мы не привыкли придумывать варианты использования, видя перед собой только данные.

Трудно спорить с тем, что в настоящее время в России производится очень мало взаимосвязанных данных.

Однако это не значит, что разработчик, создающий приложение для русскоязычной аудитории, полностью оторван от мира семантической паутины: что-то у нас еще есть.



Базы знаний.
</p><p>
 Часть 1 – введение

Основными источниками данных для нас являются международные базы знаний, включая русскоязычный контент: ДБпедия , Бесплатная база И Викиданные .

Прежде всего, это справочные, лингвистические и энциклопедические данные.

Каждый раз, когда вам приходит в голову мысль разобрать кусок Википедии или Викисловаря, сильно ущипните себя и помните, что всё, что хранится в категориях, — это информационные боксы или таблиц, уже проанализирован и доступен через API с использованием SPARQL или интерфейса MQL. Я попытаюсь привести несколько примеров полезных энциклопедических данных, которые вы не найдете нигде, кроме Linked Data. Эта статья является первой в серии «База знаний».

Следите за обновлениями.



Города, страны, исторические данные



Базы знаний.
</p><p>
 Часть 1 – введение

Если вас интересуют города и страны, то в Linked Data вы найдете не только информацию об их местоположении (которую, честно говоря, лучше получать из других источников), но и:
  • достопримечательности, такие как дворцы и памятники
  • известные люди рождались и умирали
  • статистика погоды, такая как ежемесячные осадки и время восхода солнца
  • гербы, флаги
  • демография
  • связанные исторические события
Обратите внимание: когда мы говорим здесь, например, об достопримечательностях, мы не имеем в виду жалкий список названий, упорядоченных в алфавитном порядке.

Все данные разделены по категориям, привязанным к времени и месту, именам архитекторов, эпохам, художественным направлениям.

Если вы наткнетесь на музей, вы сможете вытащить самые важные экспонаты, выставленные там.

Разумеется, будет доступна и информация о людях, создавших эти экспонаты.

Как и везде в семантической сети, мы будем получать списки объектов, которые связаны с другими объектами и иногда указывают на альтернативные описания в других базах данных.

На ум сразу приходят туристические приложения: пользователю можно дать не просто возможность «осмотреть достопримечательности в районе Московского проспекта», а позволить фильтровать только объекты, относящиеся к неоклассицизму первой четверти ХХ века.

век.

А если вы используете дерево категорий DBPedia, вы также можете предложить стили, связанные с пользователем, например, ранний современный.

Некоторые географические точки привязаны к событиям — о них тоже можно узнать довольно много.

Например, довольно легко получить соотношение сил и количество убитых в Куликовская или Бородинская сражения Конечно, не забыты и личности, с которыми связаны события.

 
 SELECT DISTINCT Эstrength, Эresult, Эlongitute, Эlatitude, Эcommander WHERE {
 dbpedia:Battle_of_Kulikovo dbpprop:strength Эstrength;
                            dbpprop:result Эresult;
                            geo:long Эlongitute;
                            geo:lat Эlatitude;
                            dbpedia-owl:commander Эcommander
 }
 LIMIT 1000
 


Данные об учреждениях, организациях, государственных учреждениях

Такие даты часто необходимы в аналитике.

Например, для того, чтобы подсчитать, какой университет выпускает больше всего олигархов/ученых/писателей, достойных упоминания в Википедии.

  • численность сотрудников/студентов/профессоров, для студентов - количество бакалавров, магистров, иностранных студентов
  • годовой доход
  • место в рейтингах
  • дата основания
  • дочерние и материнские компании
  • информация о менеджерах


Композиторы, музыканты, фильмы

Что касается фильмов, то здесь все выглядит более чем солидно: Freebase, Dbpedia и Linkedmdb имеют очень и очень хорошие наборы данных на тему кинематографии.

ileriseviye.wordpress.com/2012/07/11/is-semantic-web-and-linked-data-good-enough-sparql-dbpedia-vs-python-imdbpy Мы не только легко можем увидеть, какой актер, где снимался, в каком году вышел фильм и кто его выпустил, но и узнать, кто повлиял на актера, когда он родился, какое у него семейное положение и участвует ли он в чем-либо , кроме съемок.



Базы знаний.
</p><p>
 Часть 1 – введение

Например, этот запрос к Dbpedia отобразит всех актеров, снявшихся в фильме.

Сияние , и в фильме Хоффа :

Базы знаний.
</p><p>
 Часть 1 – введение

Пожалуй, самым замечательным источником данных в области музыки является МузыкаBrainz .

Конечно, он тоже есть в формате RDF, и для доступа к нему вы, конечно же, будете использовать традиционные API. Однако и здесь могут пригодиться Freebase и Dbpedia — последняя содержит, например, информацию о гастролях музыкальных коллективов.

Ну и даты рождения, влияния, стили и жанры – энциклопедические данные для музыки тоже присутствуют. Собственно, в обучающих материалах Freebase используется всего лишь музыкальный пример: получение данных о группе The Police:

 {
   "type" : "/music/album",
   "name" : "Synchronicity",
   "artist" : "The Police",
   "track" : [{
      "name":null,
      "length":null
   }]
 }
Вероятно, было бы интересно использовать это в сочетании с API Last.fm

Личности: политики, спортсмены, исторические личности

При описании личностей в Википедии достаточно интенсивно используются информационные поля – это придает статье строгий вид. Поэтому, если вы общественный деятель и пишите сайт с информацией о политиках, вы найдете в Dbpedia, кто где учился, какие у них награды и какие должности они занимали.

Приложения, связанные со спортом, могут использовать данные о карьере спортсмена, росте, весе и важные биографические факты.



Базы знаний.
</p><p>
 Часть 1 – введение



Лингвистические приложения.

Иерархия категорий

Для нужд классификации и кластеризации, а также задач математической лингвистики часто необходимы иерархии понятий.

Например, что палец — это тип части тела.

Семантическая паутина приходит на помощь и позволяет не парсить категории Википедии, а получать их уже готовые из Dbpedia или www.mpi-inf.mpg.de/yago-naga ЯГО.

Если размер иерархии для вас менее важен, чем ее качество, вы можете посмотреть созданные вручную онтологии Dbpedia, Cyc, Umbel.

Лингвистические приложения.

Викисловарь и переводы

В конце 2012 года команда Dbpedia запустила проект Викисловарь — доступ к Викисловарю как к базе данных.

В настоящее время вы можете делать запросы на английском, немецком, французском, русском, греческом и вьетнамском языках.

Давайте попробуем вытащить переводы для некоторых хорошее русское слово через SPARQL точка Викисловарь :

Базы знаний.
</p><p>
 Часть 1 – введение

Среди энтузиастов семантической паутины много лингвистов, и поэтому лингвистический мир имеет свое облако взаимосвязанных данных.



Базы знаний.
</p><p>
 Часть 1 – введение

Много полезной информации о связанных и несвязанных данных можно получить на порталах.

Фонд открытых знаний и наш русский НЛПаб .



Как найти хорошие данные

Для Freebase на главной странице есть визуализация того, какие категории содержат больше всего объектов.



Базы знаний.
</p><p>
 Часть 1 – введение

DBPedia также предлагает простой способ понять, где спрятаны качественные данные.

Вам необходимо обратиться к приложению Mappings.DBpedia и его статистическая сводка .

Сопоставления — отличный инструмент, позволяющий пользователям DBpedia влиять на работу парсеров.

О них я обязательно расскажу подробнее в последующих статьях, а пока ограничимся этой страницей:

Базы знаний.
</p><p>
 Часть 1 – введение

В ячейках написаны названия шаблонов Википедии.

Ячейки Redr содержат данные, которые были разобраны полностью автоматически, более зеленые указывают на то, что парсинг проводился с участием людей, поэтому качество данных должно быть выше.



Поиск
Ну что тут сказать, поиск есть поиск.

Мы используем двигатели Сигма , Синдис И Свугл .

Все они позволяют выполнять поиск внутри одного набора данных или по всему набору связанных данных.

В следующий раз я постараюсь описать, как научиться строить SPARQL-запросы к базе знаний Dbpedia. Теги: #базы знаний #freebase #dbpedia #umbel #yago #KB #базы знаний #Открытые данные #связанные данные #связанные данные #взаимосвязанные данные #семантическая сеть #граф знаний Google #отображения #онтологии #геоданные #математическая лингвистика #парсеры #парсинг content #sparql #MQL #Cyc #api #Rdf #OWL #Семантика #api #Открытые данные

Вместе с данным постом часто просматривают:

Автор Статьи


Зарегистрирован: 2019-12-10 15:07:06
Баллов опыта: 0
Всего постов на сайте: 0
Всего комментарий на сайте: 0
Dima Manisha

Dima Manisha

Эксперт Wmlog. Профессиональный веб-мастер, SEO-специалист, дизайнер, маркетолог и интернет-предприниматель.