В настоящее время для построения скоринговой модели фактическим стандартом в финансовой отрасли является использование функций логистической регрессии (логит-функций).
Суть метода сводится к нахождению такой линейной комбинации исходных данных (предикторов), которая в результате логит-преобразования позволит сделать прогнозы максимально правдоподобными.
Практическим недостатком метода является необходимость длительной подготовки данных для построения модели (около недели работы специалиста).
В реальных условиях работы микрофинансовой компании набор данных о заемщиках постоянно меняется, подключаются и отключаются различные поставщики данных, меняются поколения кредитов – узким местом становится этап подготовки.
Еще один недостаток логит-функций связан с их линейностью — влияние каждого отдельного предиктора на конечный результат равномерно по всему набору значений предикторов.
Модели на основе нейронных сетей лишены этих недостатков, но редко используются в промышленности — отсутствуют надежные методы оценки переобучения, а также большое влияние «зашумленных» значений в исходных данных.
Ниже мы покажем, как, используя различные методы оптимизации, модели на основе нейронных сетей могут добиться лучших результатов прогнозирования по сравнению с моделями на основе логит-функций.
1. Постановка задачи упрощения структуры математической модели и ее решение с использованием методов негладкой регуляризации (на примере линейной модели)
1.1. Постановка задачи построения модели.
Большинство прикладных исследований имеют целью установить естественную связь между определенной измеримой величиной и несколькими факторами.
Где
- среднее значение наблюдаемой величины
, в зависимости от переменных
И
— допустимые наборы параметров
И
.
Реабилитация наркозависимости проводится на основании данных наблюдения.
Оценки параметров
можно получить, например, методом наименьших квадратов
1.2. Линейная модель
В задаче построения линейной модели необходимо на основе данных D построить модель следующего типа (для оценки ее неизвестных параметров)
Где
— компоненты вектора,
— набор неизвестных параметров, которые необходимо оценить методом наименьших квадратов (3),
— количество информативных компонент вектора
, участвующий в модели, n-мерный вектор
.
1.3. Логит-модели
Логит-модель имеет видГде
и функция активации может быть указана в одном из следующих типов
Последняя из функций линейна.
Наряду с (7)-(8) его можно использовать для сравнения качества аппроксимации с (7)-(8).
1.4. Двухслойная сигмовидная нейронная сеть (с одним скрытым слоем)
В задаче аппроксимации сетью прямого распространения из данных требуетсяобучить двухслойную сигмоидальную нейронную сеть (НС) следующего типа (оценить ее неизвестные параметры
)
Где
— векторные компоненты
,
— набор неизвестных параметров, которые необходимо оценить методом наименьших квадратов (3),
— функция активации нейрона,
— количество нейронов,
— векторная размерность
.
1,5. Функции активации сигмовидной нейронной сети
Вот функции активации сигмовидного типа и их производные, которые мы будем использовать:1.6. Предварительная обработка входных данных
Основная цель предварительной обработки данных — максимизировать энтропию входных данных.Когда все значения переменной совпадают, она не несет никакой информации.
И наоборот, если значения переменной равномерно распределены на заданном интервале, то ее энтропия максимальна.
Для преобразования компонентов переменных с целью повышения степени однородности компонентов переменной используют формулу логит-модели
1.7. Подавление избыточных переменных и сглаживание
Чтобы подавить избыточные переменные, предварительное обучение следует проводить путем минимизацииквадратичная ошибка и негладкий сглаживающий функционал
Где
– параметр регуляризации,
— набор номеров переменных массива
– в соответствии с чем осуществляется регуляризация.
Функциональный
предназначен для подавления избыточных переменных модели
.
Следовательно, решение будет содержать множество компонент, близких к нулю, которые необходимо исключить с помощью специальных алгоритмов.
2. Сглаживающие функционалы для сглаживания и подавления избыточных переменных.
2.1. Негладкая регуляризация
Производные функционала, аналогичного (8)иметь следующую форму
В
они будут такого размера, как вам нравится.
Это означает, что углы звезд – поверхностей уровня – вырождаются в иголки, что замедляет скорость сближения методов минимизации и приводит к аварийным преждевременным остановкам.
Линии уровня функционала (10) (звездообразные линии уровня) показаны на рисунке 1.
На рис.
1 показано взаимодействие двух функционалов (основного и сглаживающего) и показаны направления их градиентов и результирующего градиента.
2.2. Особый случай негладкой регуляризации (бритва Оккама)
Рассмотрим (8) при условииПроизводные (10) имеют следующий вид
Поверхности уровня имеют форму прямоугольников, расположенных симметрично относительно нуля и повернутых на 45 градусов.
Функция (10) негладкая.
2.3. Негладкая регуляризация с ограниченными производными
В следующем функционале мы избавимся от наличия углов, вырождающихся в иголки.
Недостатком (10) является неоднородная чувствительность к параметру
с вариациями порядков оцениваемых параметров
для различных нейронных сетей.
2.4. Негладкая однородная регуляризация с ограниченными производными
В следующем функционале избавимся от неоднородности параметров.
Трансформация (12)
Введем нормированные переменные
Тогда (16) примет вид
Обозначим структуру функции.
Вот первый фактор
является однородной функцией степени
и отображает общий рост функции.
Второй множитель в (16) равен однородная функция нулевой степени и определяет поведение функции в зависимости от структуры пропорций между переменными.
Обозначим свойства функционала (16), определяющие его эффективность.
- Поверхности уровня образуют аналогичные фигуры относительно начала координат. Последнее означает, что регуляризация не зависит от масштаба переменных.
- Множитель общего роста функции представляет собой вогнутую функцию, определяющую наличие экстремумов на координатных осях и, следовательно, определяющую свойства возможности удаления переменных.
- Степень вогнутости задается параметром
которая может быть оптимально выбрана на основе предварительного вычислительного эксперимента и не меняется в дальнейшем при расчетах на этом типе сети - Структура угловых точек определяется параметром
которая может быть оптимально выбрана на основе предварительного вычислительного эксперимента и не меняется в дальнейшем при расчетах на этом типе сети
2.5. Квадратичная регуляризация (регуляризация Тихонова)
Производные квадратичной функциииметь следующую форму
Он не позволяет решить задачу исключения лишних переменных, так как не обладает свойством 2.
3. Результаты численного исследования.
На тестовых и реальных данных исследованы логит-модели и сигмоидальные нейронные сети с негладкой однородной регуляризацией и квадратичной регуляризацией Тихонова.
3.1. Исследования на реальных данных различных моделей
Восстановление различных зависимостейбыло проведено на основании данных наблюдения
где как количества
использовались характеристики по умолчанию
или нет по умолчанию
.
Оценки неизвестных параметров модели
были получены методом наименьших квадратов
Была проведена предварительная обработка входных данных.
Основная цель предварительной обработки данных — максимизировать энтропию входных данных.
Когда все значения переменной совпадают, она не несет никакой информации.
И наоборот, если значения переменной равномерно распределены на заданном интервале, то ее энтропия максимальна.
Для преобразования компонентов переменных с целью повышения степени однородности компонентов переменной используют формулу логит-модели
Качество моделей оценивалось по характеристике AUC, определяющей площадь под
Кривая ROC.
Кривая ошибок или ROC-кривая — графическая характеристика качества бинарного классификатора, зависимость доли правильных положительных классификаций от доли ложноположительных классификаций при изменении порога решающего правила.
Преимуществом ROC-кривой является ее инвариантность по отношению к соотношению стоимости ошибок I и II рода.
Площадь под ROC-кривой AUC (Area Under Curve) — агрегированная характеристика качества классификации, не зависящая от соотношения стоимостей ошибок.
Чем выше значение AUC, тем «лучше» модель классификации.
Этот показатель часто используется для сравнительного анализа нескольких классификационных моделей.
3.2. Исследование моделей Logit с различными типами регуляризации
Логит-модельиспользуется с тремя типами функции активации
которые мы обозначим соответственно как LIN, ABS и EXP. Коэффициенты модели находились путем минимизации функции
Как
Использовалась функция квадратичной регуляризации Тихонова.
и негладкая однородная функция при негладкой регуляризации
Алгоритм регуляризации имел 2 этапа.
Было выбрано некоторое начальное значение
, и на последующих итерациях
оказалось двойное
.
С этими значениями была рассчитана модель и удалены переменные с чрезмерно маленькими коэффициентами.
На каждой итерации также рассчитывалась модель с некоторым малым значением
.
Этот метод предполагает сглаживание и удаление переменных с большими параметрами регуляризации.
и бесплатное построение моделей для небольших значений.
Модели с небольшими параметрами регуляризации могут быть полезны при условии, что переменные, оставшиеся после удаления, значимы для построения модели.
В следующей таблице представлены результаты расчетов модели, количество переменных которой nx=254.
AUC_O – AUC на обучающем наборе
AUC_T — AUC на тестовом наборе
3.3. Выводы исследования, основанного на реальных данных моделей Logit
Лучшие варианты моделей с квадратичной регуляризацией получены по сценарию с предварительным удалением части коэффициентов модели при больших параметрах регуляризации с последующим расчетом параметров модели с малыми коэффициентами регуляризации.Такие сценарии требуют больших параметров регуляризации, что может привести к удалению важных компонентов модели.
Оптимальная модель негладкой оптимизации получена при малых значениях параметров регуляризации, что позволяет сделать вывод, что здесь имеет место одновременный эффект удаления слабых переменных и сглаживания остальных переменных.
Сравнение средних показателей моделей AUC_O и AUC_T показывает, что модели, основанные на негладкой оптимизации, более эффективны.
Средние результаты для моделей Logit
3.4. Исследование нейросетевых моделей с различными видами регуляризации
Были построены двухслойные сигмоидальные нейронные сети (с одним скрытым слоем).
В задаче аппроксимации сетью прямого распространения необходимо на данных D обучить двухслойную сигмоидальную нейронную сеть (НС) следующего типа (для оценки ее неизвестных параметров
)
Где
— векторные компоненты
,
— набор неизвестных параметров, которые необходимо оценить методом наименьших квадратов (3),
— функция активации нейрона,
— количество нейронов,
— векторная размерность
.
Модель нейронной сети использовалась с двумя типами функции активации.
которые мы обозначим соответственно как LIN, ABS и EXP. Коэффициенты модели находились путем минимизации функции
Теги: #Финансы в ИТ #финтех #нейронные сети #скоринг #логистическая регрессия
-
Blender – Самый Популярный Поиск В Google.
19 Oct, 24 -
30 Августа It-Вечеринка В Москве
19 Oct, 24