Чуть больше года назад мы сделали обзор за приложение Набор инструментов машинного обучения Splunk , который позволяет анализировать машинные данные на платформе Splunk с использованием различных алгоритмов машинного обучения.
Сегодня мы хотим рассказать об обновлениях, которые появились за последний год. Вышло много новых версий, добавлены различные алгоритмы и визуализации, которые выведут анализ данных в Splunk на новый уровень.
Новые алгоритмы
Прежде чем говорить об алгоритмах, следует отметить, что существует API ML-SPL , с помощью которого вы можете загрузить любой алгоритм с открытым исходным кодом из более чем 300 алгоритмов Python. Однако для этого требуются некоторые знания программирования на Python. Поэтому мы обратим внимание на те алгоритмы, которые раньше были доступны только после манипуляций с Python, но теперь встроены в приложение и могут быть легко использованы кем угодно.
АКФ (автокорреляционная функция)
Функция автокорреляции показывает связь между функцией и ее сдвинутой копией на величину временного сдвига.
ACF помогает находить повторяющиеся области или обнаруживать частоты сигналов, скрытые шумом и вибрациями на других частотах.
ПАКФ (частичная автокорреляционная функция) Функция частичной автокорреляции показывает корреляцию между двумя переменными за вычетом влияния любых внутренних значений автокорреляции.
Частичная автокорреляция с определенным лагом аналогична обычной автокорреляции, но ее расчет исключает влияние автокорреляции с более короткими лагами.
На практике частичная автокорреляция дает более четкое представление о периодических зависимостях.
АРИМА (интегрированный процесс авторегрессии и скользящего среднего) Модель ARIMA — одна из самых популярных моделей для составления краткосрочных прогнозов.
Значения авторегрессии выражают зависимость текущего значения временного ряда от предыдущих, а скользящее среднее модели определяет влияние предыдущих ошибок прогноза (также называемых белым шумом) на текущее значение.
Классификатор повышения градиента И Регрессор повышения градиента
Повышение градиента — это метод машинного обучения, используемый для решения задач регрессии и классификации, который создает модель прогнозирования в виде ансамбля слабых моделей, обычно деревьев решений.
Он строит модель поэтапно, когда каждый последующий алгоритм стремится компенсировать недостатки состава всех предыдущих алгоритмов.
Первоначально понятие бустинга возникло в работах в связи с вопросом, можно ли, имея множество плохих (немного отличающихся от случайного определения) алгоритмов обучения, получить хороший.
На протяжении последних 10 лет бустинг остается одним из самых популярных методов машинного обучения наряду с нейронными сетями.
Основные причины — простота, универсальность, гибкость (возможность создания различных модификаций) и, самое главное, высокая способность к обобщению.
X-средство Алгоритм кластеризации X-средних — это расширенный алгоритм k-средних, который автоматически определяет количество кластеров на основе информационного критерия Байеса (BIC).
Этот алгоритм удобно использовать, когда нет предварительной информации о количестве кластеров, на которые можно разбить данные.
Робастскалер Это алгоритм предварительной обработки данных.
Его применение аналогично алгоритму StandardScaler, который преобразует данные так, что для каждого признака среднее значение будет равно 0, а дисперсия — 1, в результате чего все признаки будут иметь одинаковый масштаб.
Однако такое масштабирование не гарантирует получения каких-либо конкретных минимальных и максимальных значений признака.
RobustScaler похож на StandardScaler в том смысле, что в результате его применения функции будут иметь одинаковый масштаб.
Однако RobustScaler использует медиану и квартиль вместо среднего значения и дисперсии.
Это позволяет RobustScaler игнорировать выбросы или ошибки измерения, которые могут стать проблемой для других методов масштабирования.
ТФИДФ
Статистическая мера, используемая для оценки важности слова в контексте документа, входящего в коллекцию документов.
Принцип таков: если слово встречается в документе часто, а во всех других документах — редко, то это слово имеет для этого документа большое значение.
MLPКлассификатор Первый алгоритм нейронной сети в Splunk. Алгоритм основан на многослойный перцептрон , что позволит вам фиксировать нелинейные связи в данных.
Администрация
В новых версиях существенно изменилось администрирование приложения.Во-первых, добавил доступ к ролевой модели к различным моделям и экспериментам.
Во-вторых, введен новый интерфейс для управление моделями .
Теперь вы можете легко увидеть, какие типы моделей у вас есть, проверить настройки каждой модели (например, какие переменные использовались для ее обучения), а также просмотреть или обновить настройки общего доступа каждой модели.
В-третьих, появление концепции управления экспериментом.
Теперь вы можете ставить эксперименты по расписанию, настроить оповещения.
Пользователи могут видеть, когда запланирован запуск каждого эксперимента, какие этапы обработки и параметры настроены для каждого эксперимента.
Новая концепция управления экспериментами теперь дает вам возможность создавать несколько экспериментов и управлять ими одновременно, записывая, когда эти эксперименты проводились и какие результаты были получены.
Визуализация
В последней версии MLTK 3.4 добавлен новый тип визуализации.Известный Коробочный сюжет или, как мы его еще называем, «Коробки с усами».
Box Plot используется в описательной статистике, с его помощью можно в удобном виде увидеть медиану (или, при необходимости, среднее значение), нижние и верхние квартили, минимальные и максимальные значения выборки, а также выбросы.
Некоторые из этих прямоугольников можно нарисовать рядом, чтобы визуально сравнить одно распределение с другим.
Расстояния между различными частями ящика позволяют определить степень разброса (дисперсии) и асимметрии данных и выявить выбросы.
Подводя итог, можно сказать, что машинное обучение в Splunk за последний год добилось больших успехов.
Появился:
- Множество новых встроенных алгоритмов, таких как: ACF, PACF, ARIMA, Gradient BoostingClassifier, Gradient Boosting Regressor, X-means, RobustScaler, TFIDF, MLPClassifier;
- Ролевая модель доступа и возможность управления моделями и экспериментами;
- Визуализация коробчатой диаграммы
Теги: #Машинное обучение #ИТ-инфраструктура #Системное администрирование #Большие данные #машинное обучение #анализ данных #splunk
-
Как Сэкономить На Видеоиграх
19 Oct, 24 -
Внедрение Блокчейна В Нефтегазовой Отрасли
19 Oct, 24 -
История Одной Разработки
19 Oct, 24 -
Думая Об Armageddon
19 Oct, 24