Анализ Данных. Примерные Наборы

Я решил создать серию постов об анализе данных.

В этой (и, как оказалось, очень интересной) области информатики я работаю уже несколько лет. Предлагаю вашему вниманию анализ данных с точки зрения теории приближенных множеств.



О чем мы будем говорить?

Грубая теория множеств был разработан [Здиславом Павляком, 1982] как новый математический подход для описания неопределенности, неточности и неопределенности.

Он основан на утверждении, что с каждым объектом мироздания мы связываем некоторую информацию (данные, знания).

Объекты, характеризующиеся одинаковой информацией, неотличимы (сходны) с точки зрения имеющейся о них информации.

Генерируемое таким образом соотношение неотличимости является математической основой теории приближенных (грубых) множеств.

Основу понятия приближенной теории множеств составляют операции аппроксимации множеств.

Дадим теперь понятие аппроксимации приближенных множеств:

  • Нижнее приближение установить Х

    Анализ данных.
</p><p>
 Примерные наборы

    включает элементы, которые действительно принадлежат множеству X.
  • Верхнее приближение установить Х

    Анализ данных.
</p><p>
 Примерные наборы

    +

    Анализ данных.
</p><p>
 Примерные наборы

    включает элементы, которые, возможно, принадлежат множеству X.
  • Граница (разница между верхним и нижним приближением)

    Анализ данных.
</p><p>
 Примерные наборы

    представляет собой область неразличимости.



Анализ данных.
</p><p>
 Примерные наборы



Собственно приложение

Приближенные множества используются при работе с таблицами данных, которые еще называют таблицами атрибутов-значений, информационными системами или таблицами решений.

Таблица решений представляет собой тройку T = (U, C, D), где U – множество объектов, C — набор атрибутов состояния, D — набор атрибутов решения.



Пример таблицы
ты С Д
Головная боль Температура Грипп
ты 1 Да нормальный Нет
ты 2 Да высокий Да
ты 3 Да нормальный Нет
ты 4 Да очень высоко Нет
ты 5 Нет высокий Нет
ты 6 Нет очень высоко Да
ты 7 Нет высокий Да
ты 8 Нет очень высоко Да


Анализ таблицы
Наборы: U = {U 1 , У 2 , У 3 , У 4 , У 5 , У 6 , У 7 , У 8 } C = {Головная боль, Лихорадка} Д = {Грипп} Возможные значения атрибута: В Головная боль = {да, нет} В Температура = {нормальный, высокий, очень высокий} В Грипп = {да, нет} Разделение множества U по значениям атрибутов Головная боль имеет форму:
  • С Да = {1, 2, 3, 4}
  • С Нет = {5, 6, 7, 8}
  • S = {{1, 2, 3, 4}, {5, 6, 7, 8}}
Разделение множества U по значениям атрибутов Температура имеет форму:
  • С нормальный = {1, 3}
  • С высокий = {2, 5, 7}
  • С очень высоко = {4, 6}
  • S = {{1, 3}, {2, 5, 7}, {4, 6}}
Разбиение множества U по значениям атрибута решения Грипп имеет форму:
  • С Да = {2, 6, 7, 8}
  • С Нет = {1, 3, 4, 5}
  • S = {{2, 6, 7, 8}, {1, 3, 4, 5}}
Данные, представленные в этой таблице, например U 5 и ты 7 противоречивы, и U 6 и ты 8 - повторяются.

ты 5 Нет высокий Нет
ты 6 Нет очень высоко Да
ты 7 Нет высокий Да
ты 8 Нет очень высоко Да
Собственно, используя приближенные множества, мы можем из неточных, противоречивых данных «извлекать» те, которые «нам полезны».



Над чем мы будем работать?

В будущих публикациях будет продемонстрирована практическая реализация (на Python) анализа данных с использованием этой теории, в том числе:
  • Алгоритм принятия решений, состоящий из правил принятия решений типа «ЕСЛИ… ТО…».

  • Алгоритм LEM, LEM2 [Гржимала-Буссе, 1992] для генерации правил принятия решений типа «ЕСЛИ.

    ТО.

    »

Теги: #анализ данных #принятие решений #структуры данных #python
Вместе с данным постом часто просматривают:

Автор Статьи


Зарегистрирован: 2019-12-10 15:07:06
Баллов опыта: 0
Всего постов на сайте: 0
Всего комментарий на сайте: 0
Dima Manisha

Dima Manisha

Эксперт Wmlog. Профессиональный веб-мастер, SEO-специалист, дизайнер, маркетолог и интернет-предприниматель.