Я решил создать серию постов об анализе данных.
В этой (и, как оказалось, очень интересной) области информатики я работаю уже несколько лет. Предлагаю вашему вниманию анализ данных с точки зрения теории приближенных множеств.
О чем мы будем говорить?
Грубая теория множеств был разработан [Здиславом Павляком, 1982] как новый математический подход для описания неопределенности, неточности и неопределенности.Он основан на утверждении, что с каждым объектом мироздания мы связываем некоторую информацию (данные, знания).
Объекты, характеризующиеся одинаковой информацией, неотличимы (сходны) с точки зрения имеющейся о них информации.
Генерируемое таким образом соотношение неотличимости является математической основой теории приближенных (грубых) множеств.
Основу понятия приближенной теории множеств составляют операции аппроксимации множеств.
Дадим теперь понятие аппроксимации приближенных множеств:
- Нижнее приближение установить Х
включает элементы, которые действительно принадлежат множеству X. - Верхнее приближение установить Х
+
включает элементы, которые, возможно, принадлежат множеству X. - Граница (разница между верхним и нижним приближением)
представляет собой область неразличимости.
Собственно приложение
Приближенные множества используются при работе с таблицами данных, которые еще называют таблицами атрибутов-значений, информационными системами или таблицами решений.Таблица решений представляет собой тройку T = (U, C, D), где U – множество объектов, C — набор атрибутов состояния, D — набор атрибутов решения.
Пример таблицы
ты | С | Д | |
Головная боль | Температура | Грипп | |
ты 1 | Да | нормальный | Нет |
ты 2 | Да | высокий | Да |
ты 3 | Да | нормальный | Нет |
ты 4 | Да | очень высоко | Нет |
ты 5 | Нет | высокий | Нет |
ты 6 | Нет | очень высоко | Да |
ты 7 | Нет | высокий | Да |
ты 8 | Нет | очень высоко | Да |
Анализ таблицы
Наборы: U = {U 1 , У 2 , У 3 , У 4 , У 5 , У 6 , У 7 , У 8 } C = {Головная боль, Лихорадка} Д = {Грипп} Возможные значения атрибута: В Головная боль = {да, нет} В Температура = {нормальный, высокий, очень высокий} В Грипп = {да, нет} Разделение множества U по значениям атрибутов Головная боль имеет форму:- С Да = {1, 2, 3, 4}
- С Нет = {5, 6, 7, 8}
- S = {{1, 2, 3, 4}, {5, 6, 7, 8}}
- С нормальный = {1, 3}
- С высокий = {2, 5, 7}
- С очень высоко = {4, 6}
- S = {{1, 3}, {2, 5, 7}, {4, 6}}
- С Да = {2, 6, 7, 8}
- С Нет = {1, 3, 4, 5}
- S = {{2, 6, 7, 8}, {1, 3, 4, 5}}
ты 5 | Нет | высокий | Нет |
ты 6 | Нет | очень высоко | Да |
ты 7 | Нет | высокий | Да |
ты 8 | Нет | очень высоко | Да |
Над чем мы будем работать?
В будущих публикациях будет продемонстрирована практическая реализация (на Python) анализа данных с использованием этой теории, в том числе:- Алгоритм принятия решений, состоящий из правил принятия решений типа «ЕСЛИ… ТО…».
- Алгоритм LEM, LEM2 [Гржимала-Буссе, 1992] для генерации правил принятия решений типа «ЕСЛИ.
ТО.
»
-
Создание Интерфейса Для Игры
19 Oct, 24 -
Фриланс – Это Практика. 4 Года Спустя
19 Oct, 24 -
Поговорим О Взаимодействии С Фрилансерами №2
19 Oct, 24 -
На Каком Языке Вы Бы Написали Матрицу?
19 Oct, 24 -
Отличный Спам-Бот! :)
19 Oct, 24