Определения В этой статье я опишу способы создания и использования рубрикаторов на основе структуры графа.
Рубрикатор, классификатор, каталог категорий, предметный указатель, указатель.
Для удобства будем считать, что все эти термины описывают примерно одно и то же.
А там, где есть существенные различия, мы их четко укажем.
Информационным элементом чаще всего является файл, а вообще любая информация, представленная как единое целое.
Введение
Категории используются для решения самых разных задач:- Для ускорения поиска и облегчения навигации по большим объемам информации.
- Для маркировки (маркировки) информации с целью систематизации образцов по определенным рубрикам
- Чтобы отсортировать информацию по: области знаний (физика, математика, биология) способы использования (Книги - читать, музыка - слушать, фильмы - смотреть) аксессуары (мои папки и общие документы) важность (папки «Входящие» и «Спам») и т. д.
Основным преимуществом такой организации рубрикатора является его простота и распространенность.
В каждой книге есть оглавление — пример классической древовидной структуры.
В книге есть разделы, которые в свою очередь делятся на части, главы и так далее.
Глубина рубрикатора хорошо отражает сложность структуры книги.
Но книга в классическом понимании — это поток информации со свойством «Только вперед».
Те.
оглавление позволяет легко найти определенное место в книге, а затем мы открываем книгу и читаем страницу за страницей последовательно.
Трудности начинаются, когда справочник выступает в роли книги, и когда с помощью рубрикатора делается попытка организовать выборочный доступ к контенту в виде команд «ВЫБРАТЬ * ИЗ КНИГИ ГДЕ ТЕМА = «Что-то интересное»».
Рис.
1Предметный указатель Результатом таких попыток является предметный указатель.
Это очень удобный тип указателя.
С его помощью мы можем легко и просто найти в тексте книги разделы, в которых встречается интересующая нас тема.
Но именно в этом и заключается одно из неудобств рубрикатора такого типа — невозможно сразу сгруппировать разбросанные по книге результаты.
Пример: «Имитация поверхности материала» размещена на 4 страницах.
Эти страницы расположены не подряд. То есть можно предположить, что все эти страницы относятся к разным рубрикам.
Но для того, чтобы найти название соответствующего раздела, нужно проделать отдельную работу: перевернуть книгу на нужную страницу и прочитать название раздела в футере, если оно есть.
Построение рубрикатора в виде графа (не дерева)
Начнем с небольшого теоретического отступления: «Дерево — это связный граф, не содержащий циклов».Из этого определения следует, что классический рубрикатор, построенный в виде дерева, представляет собой «урезанную» версию полноценного рубрикатора, основанного на неориентированном графе.
Пример построения рубрикатора в виде графика
Для построения примера рубрикатора на основе графа возьмем сферу, близкую для многих новых жильцов – реновацию.
Корневой узел
Несмотря на то, что в графе нет четко обозначенного «корня», для создания рубрикатора на основе графа мы нарисуем/назначим один из узлов корнем.В примере это будет узел «все».
«Все» — одна из вершин графа, имеющая особое назначение.
Этот узел представляет собой корневой узел дерева рубрикатора.
(Поскольку любое дерево можно представить в виде графа, такая специализированная интерпретация вполне приемлема).
Необходимость корневого узла рубрикатора обусловлена «знакомостью» его наличия.
Этот узел добавляет удобства при использовании рубрикатора человеком.
Любой разговор, любое описание структуры рубрикатора всегда начинается с выделения основных разделов.
Также наличие этого узла позволяет реализовать такую удобную функцию, как «хлебные крошки».
Соединения
Связи — самое ценное, что может предложить рубрикатор, составленный по графическому принципу.В отличие от классического древовидного рубрикатора граф позволяет легко указать связи, наличие которых необходимо для полного описания предметной области, но которые невозможно указать в рамках древовидной структуры.
Рассмотрим организацию связей в рубрикаторе графа на примере более подробно.
Рис.
2 Циклы в рубрикаторе графа На рис.
2 (вверху) показана подмножество рубрикатора, взятого со строительного портала.
stroika.ru В примере выделен раздел с названием «Клей для паркета».
Если проследить путь, по которому можно попасть в этот раздел, то можно заметить, что узел «Клей для паркета» доступен из узла «все» через две разные ветки рубрикатора.
Блок «Клей паркетный» одинаково относится как к разделу «Клей», так и к разделу «Паркет».
Более того, указание такой связи естественно для рубрикатора на основе графов.
При желании эту схему можно расширить, задав приоритет (вес) для каждой дуги графа.
И тогда можно будет указать, что «Паркетный клей» — это скорее клей, чем паркетный.
Например, вот так:
Рис.
3 Приоритет соединений Возможность создания циклов в рубрикаторе очень важна при работе с категориями, которые:
- Невозможно быть на 100% ясным.
классифицируются по одной основной рубрике.
- имеют особое значение только тогда, когда расположены в приграничном регионе.
Просто пример с паркетным клеем.
Без паркета этот вид клея не имеет никакой ценности.
Ценность паркетного клея заключается именно в его применимости к паркету.
- ортогональны существующей структуре рубрикатора.
Например, разделение аренды товаров и услуг.
Автокран можно продать или взять в аренду.
- Конкретный компьютерный вирус можно классифицировать как почтовый червь, P2P-червь или троянский почтовый искатель, если он одновременно распространяется по электронной почте и является червем, а также собирает адреса электронной почты.
- Клей для паркета (это тоже клей для паркета)
- Блокировщик макровирусов (это одновременно макровирус и блокировщик)
- Аренда автокрана (включая аренду автомобиля и автокрана)
- Благотворительный концерт (Как концерты, так и благотворительность)
- Светло-зеленый металлик (Оба оттенка зеленого и металлик)
Вершины графа.
Промежуточные заголовки Граф рубрикатора состоит из корневого узла «Все», ребер графа, указывающих на подчиненность одной рубрики другой, вершин (промежуточных рубрик) и листьев (просто рубрик).
Для создания строго описанного рубрикатора необходимо ответить на вопрос о физическом смысле вершин графа.
Те.
к вопросу о том, как будет интерпретироваться принадлежность определенной информации в вершине графа.
Возможно, в некоторых случаях будет проще полностью отказаться от использования вершин графа (не листьев!) в качестве рубрик, чем определять смысл присвоения рубрики вершине графа.
Давайте рассмотрим этот вопрос более подробно на примере:
Рис.
4 Назначение информации листу и вершине графа Информационный элемент «буква» отнесен к рубрике «Клей для паркета».
Здесь информация присваивается листу графика.
И это однозначное соответствие, которое прямо говорит нам о том, что в письме речь идет о клее для паркета.
Вариант прямого однозначного соответствия рубрике является самым простым и распространенным.
Более сложный вариант – элемент «Информационная статья» отнесен к рубрике «Клей».
Здесь могут возникнуть расхождения.
Например, отнесение к заголовку «Клей» может означать, что статья носит чисто информационный характер и в целом описывает такое вещество, как клей.
Пожалуй, даже не упоминая такие детали, как «Клей для обоев», «Клей для резины» и «Клей для паркета».
Другой вариант, когда в статье описывается не один конкретный «Клей для паркета», а еще и «клей для резины».
В этом случае отнесение элемента «информационное письмо» к какому-либо одному заголовку (листу графика) будет не совсем корректным.
Таким образом, при использовании любого древовидного рубрикатора необходимо определить, будут ли вершины графа (промежуточные заголовки) использоваться для обозначения информации или же они будут использоваться только для облегчения составления и навигации по рубрикатору, независимо от того, какие информационные элементы классифицируются.
В случае, когда принято решение использовать в качестве заголовков не только листья, но и вершины графа, то стоит задуматься о нескольких категориях информации.
Листья.
Конечные заголовки Листья графа — это вершины графа, соединенные с другими элементами графа только одним ребром.
По отношению к графу-рубрикатору это конечные заголовки.
Те.
рубрики, не разделенные на подкатегории.
Листья графа рубрикатора могут содержать дополнительную информацию, которая может помочь в выборе именно этого раздела рубрикатора.
Такой информацией может быть набор ключевых слов.
Одним из интересных вариантов использования вершин и листьев графа-рубрикатора может стать вариант, когда и вершины, и листья сами по себе являются ключевыми словами.
В этом случае вершины графа можно использовать в качестве заголовков, а листья будут играть роль ключевых слов.
Об этом варианте построения рубрикатора и алгоритме автоматической рубрикации речь пойдет в следующей статье.
Теги: #рубрикатор #график #Интеллектуальный анализ данных
-
7 Характеристик Хороших Тестов
19 Oct, 24 -
Зачем Нам Ar И Vr В Производстве?
19 Oct, 24 -
Развитие Сообщества – Одна Иллюстрация
19 Oct, 24 -
Новый Раздел «О, Идея!»
19 Oct, 24 -
Шаблоны В Angularjs
19 Oct, 24