Одна из причин неправильного использования Связанные данные -базы знаний в обычных, ненаучных приложениях заключается в том, что мы не привыкли придумывать варианты использования, видя перед собой только данные.
Трудно спорить с тем, что в настоящее время в России производится очень мало взаимосвязанных данных.
Однако это не значит, что разработчик, создающий приложение для русскоязычной аудитории, полностью оторван от мира семантической паутины: что-то у нас еще есть.
Основными источниками данных для нас являются международные базы знаний, включая русскоязычный контент: ДБпедия , Бесплатная база И Викиданные .
Прежде всего, это справочные, лингвистические и энциклопедические данные.
Каждый раз, когда вам приходит в голову мысль разобрать кусок Википедии или Викисловаря, сильно ущипните себя и помните, что всё, что хранится в категориях, — это информационные боксы или таблиц, уже проанализирован и доступен через API с использованием SPARQL или интерфейса MQL. Я попытаюсь привести несколько примеров полезных энциклопедических данных, которые вы не найдете нигде, кроме Linked Data. Эта статья является первой в серии «База знаний».
Следите за обновлениями.
- Часть 1. Введение
- Часть 2. Freebase: запрос к Google Knowledge Graph
- Часть 3. Dbpedia — ядро мира связанных данных.
- Часть 4 - Викиданные - семантическая Википедия
Города, страны, исторические данные
Если вас интересуют города и страны, то в Linked Data вы найдете не только информацию об их местоположении (которую, честно говоря, лучше получать из других источников), но и:
- достопримечательности, такие как дворцы и памятники
- известные люди рождались и умирали
- статистика погоды, такая как ежемесячные осадки и время восхода солнца
- гербы, флаги
- демография
- связанные исторические события
Все данные разделены по категориям, привязанным к времени и месту, именам архитекторов, эпохам, художественным направлениям.
Если вы наткнетесь на музей, вы сможете вытащить самые важные экспонаты, выставленные там.
Разумеется, будет доступна и информация о людях, создавших эти экспонаты.
Как и везде в семантической сети, мы будем получать списки объектов, которые связаны с другими объектами и иногда указывают на альтернативные описания в других базах данных.
На ум сразу приходят туристические приложения: пользователю можно дать не просто возможность «осмотреть достопримечательности в районе Московского проспекта», а позволить фильтровать только объекты, относящиеся к неоклассицизму первой четверти ХХ века.
век.
А если вы используете дерево категорий DBPedia, вы также можете предложить стили, связанные с пользователем, например, ранний современный.
Некоторые географические точки привязаны к событиям — о них тоже можно узнать довольно много.
Например, довольно легко получить соотношение сил и количество убитых в Куликовская или Бородинская сражения Конечно, не забыты и личности, с которыми связаны события.
SELECT DISTINCT Эstrength, Эresult, Эlongitute, Эlatitude, Эcommander WHERE { dbpedia:Battle_of_Kulikovo dbpprop:strength Эstrength; dbpprop:result Эresult; geo:long Эlongitute; geo:lat Эlatitude; dbpedia-owl:commander Эcommander } LIMIT 1000
Данные об учреждениях, организациях, государственных учреждениях
Такие даты часто необходимы в аналитике.Например, для того, чтобы подсчитать, какой университет выпускает больше всего олигархов/ученых/писателей, достойных упоминания в Википедии.
- численность сотрудников/студентов/профессоров, для студентов - количество бакалавров, магистров, иностранных студентов
- годовой доход
- место в рейтингах
- дата основания
- дочерние и материнские компании
- информация о менеджерах
Композиторы, музыканты, фильмы
Что касается фильмов, то здесь все выглядит более чем солидно: Freebase, Dbpedia и Linkedmdb имеют очень и очень хорошие наборы данных на тему кинематографии.ileriseviye.wordpress.com/2012/07/11/is-semantic-web-and-linked-data-good-enough-sparql-dbpedia-vs-python-imdbpy Мы не только легко можем увидеть, какой актер, где снимался, в каком году вышел фильм и кто его выпустил, но и узнать, кто повлиял на актера, когда он родился, какое у него семейное положение и участвует ли он в чем-либо , кроме съемок.
Например, этот запрос к Dbpedia отобразит всех актеров, снявшихся в фильме.
Сияние , и в фильме Хоффа :
Пожалуй, самым замечательным источником данных в области музыки является МузыкаBrainz .
Конечно, он тоже есть в формате RDF, и для доступа к нему вы, конечно же, будете использовать традиционные API. Однако и здесь могут пригодиться Freebase и Dbpedia — последняя содержит, например, информацию о гастролях музыкальных коллективов.
Ну и даты рождения, влияния, стили и жанры – энциклопедические данные для музыки тоже присутствуют. Собственно, в обучающих материалах Freebase используется всего лишь музыкальный пример: получение данных о группе The Police:
{ "type" : "/music/album", "name" : "Synchronicity", "artist" : "The Police", "track" : [{ "name":null, "length":null }] }Вероятно, было бы интересно использовать это в сочетании с API Last.fm
Личности: политики, спортсмены, исторические личности
При описании личностей в Википедии достаточно интенсивно используются информационные поля – это придает статье строгий вид. Поэтому, если вы общественный деятель и пишите сайт с информацией о политиках, вы найдете в Dbpedia, кто где учился, какие у них награды и какие должности они занимали.Приложения, связанные со спортом, могут использовать данные о карьере спортсмена, росте, весе и важные биографические факты.
Лингвистические приложения.
Иерархия категорий Для нужд классификации и кластеризации, а также задач математической лингвистики часто необходимы иерархии понятий.
Например, что палец — это тип части тела.
Семантическая паутина приходит на помощь и позволяет не парсить категории Википедии, а получать их уже готовые из Dbpedia или www.mpi-inf.mpg.de/yago-naga ЯГО.
Если размер иерархии для вас менее важен, чем ее качество, вы можете посмотреть созданные вручную онтологии Dbpedia, Cyc, Umbel.
Лингвистические приложения.
Викисловарь и переводы В конце 2012 года команда Dbpedia запустила проект Викисловарь — доступ к Викисловарю как к базе данных.
В настоящее время вы можете делать запросы на английском, немецком, французском, русском, греческом и вьетнамском языках.
Давайте попробуем вытащить переводы для некоторых хорошее русское слово через SPARQL точка Викисловарь :
Среди энтузиастов семантической паутины много лингвистов, и поэтому лингвистический мир имеет свое облако взаимосвязанных данных.
Много полезной информации о связанных и несвязанных данных можно получить на порталах.
Фонд открытых знаний и наш русский НЛПаб .
Как найти хорошие данные
Для Freebase на главной странице есть визуализация того, какие категории содержат больше всего объектов.
DBPedia также предлагает простой способ понять, где спрятаны качественные данные.
Вам необходимо обратиться к приложению Mappings.DBpedia и его статистическая сводка .
Сопоставления — отличный инструмент, позволяющий пользователям DBpedia влиять на работу парсеров.
О них я обязательно расскажу подробнее в последующих статьях, а пока ограничимся этой страницей:
В ячейках написаны названия шаблонов Википедии.
Ячейки Redr содержат данные, которые были разобраны полностью автоматически, более зеленые указывают на то, что парсинг проводился с участием людей, поэтому качество данных должно быть выше.
Поиск
Ну что тут сказать, поиск есть поиск.Мы используем двигатели Сигма , Синдис И Свугл .
Все они позволяют выполнять поиск внутри одного набора данных или по всему набору связанных данных.
В следующий раз я постараюсь описать, как научиться строить SPARQL-запросы к базе знаний Dbpedia. Теги: #базы знаний #freebase #dbpedia #umbel #yago #KB #базы знаний #Открытые данные #связанные данные #связанные данные #взаимосвязанные данные #семантическая сеть #граф знаний Google #отображения #онтологии #геоданные #математическая лингвистика #парсеры #парсинг content #sparql #MQL #Cyc #api #Rdf #OWL #Семантика #api #Открытые данные
-
Новости Skype От Mwc
19 Oct, 24