Давайте рассмотрим, как работают алгоритмы в банковском скоринге, какие метрики используются и какие параметры заемщика влияют на выдачу кредита или нет. В статье описывается прошлое конкуренция по прогнозированию вероятности дефолта и предоставляет параметры, влияющие на риск дефолта.
Ошибка первого и второго рода.
Цель банка – зарабатывать деньги.
Первый риск, с которым сталкивается кредитное учреждение, — это предоставление кредита заемщику, который не выполняет свои обязательства.
Причины дефолта могут быть разными: от финансовых затруднений заемщика до мошенничества.
Для банка это ошибка I рода.
Но если банк будет вести жесткую политику и не будет выдавать кредиты никому, даже тем, кто вернет деньги, то на процентах банк не заработает. Отказ в кредите ответственному заемщику – ошибка второго рода.
Для оценки качества решений, принимаемых алгоритмом, используется коэффициент Джини (GINI).
В экономике и в науке о данных коэффициент Джини имеет разные интерпретации.
Для кредитного скоринга он рассчитывается как
Джини = 2 ROC AUC - 1
Для оценки банковского скоринга используется стандартная кривая ROC AUC!
Рис.
1 Кривая ROC AUC. Область под кривой показывает производительность алгоритма.
Если площадь равна 0,5, то это случайный прогноз (для бинарного классификатора), 1 — идеальный прогноз.
Алгоритмы подсчета очков
Особенностью скоринговых алгоритмов является требование интерпретируемости.В связи с этим часто используются линейные модели.
Чтобы максимизировать качество, имеет смысл использовать композиции деревьев, такие как случайный лес и XGboost. Для случаев с большим объемом транзакционных данных также подходят архитектуры DNN, но нейронные сети целесообразно использовать только для крупнейших кредитных организаций.
Использование алгоритмов в кредитных учреждениях часто обусловлено не максимизацией качества, а требованиями процесса принятия решений, поэтому убедитесь, что ваша нейронная сеть достаточно интерпретируема, прежде чем выдавать решение в бой!
Параметры, влияющие на риск дефолта
Разберем влияющие параметры на примере решений из конкурса Kaggle — Home Credit Default Risk, который проходил год назад. В наборе 220 параметров.
Рис.
2. Распределение просроченных и погашенных кредитов.
Ряд изображений взят из блокнотов, опубликованных представителями конкурса; более подробные решения можно найти на сайте связь .
Источники: 1 , 2 , 3 Классы несбалансированы, неплатежей меньше, чем погашенных кредитов.
Мы визуализируем распределения параметров, чтобы определить, имеют ли дефолтные кредиты другое распределение.
Рис.
3 Пример распределения просроченных и погашенных кредитов по возрастам.
Рисунок 3 показывает, что более молодые заемщики имеют больший риск дефолта.
Помимо описанных характеристик заемщика есть еще такие параметры как EXT_SOURCE 1,2,3. В этом наборе данных это параметры, полученные от кредитных бюро и внешних поставщиков данных.
Компания DATA4, в которой я работаю, является примером такого поставщика, но рассматриваемый набор данных не принадлежит нам.
Активными игроками на рынке торговли данными являются операторы сотовой связи и БКИ.
Построим корреляционную матрицу, чтобы увидеть, с какими параметрами коррелируют прогнозы внешних поставщиков данных и как они влияют на качество алгоритма.
Давайте построим распределения на основе данных внешних поставщиков и увидим, что они различаются для просроченных кредитов.
При большем количестве признаков получаем следующую картину, довольно сложную для интерпретации, но дающую целостную картину.
Давайте найдем факторы, влияющие на дефолт, используя Feature_importances
Построим диаграмму важности признаков для RF-алгоритма.
Что влияет
1) Оценка кредитных бюро и внешних поставщиков данных, таких как наша компания.2) Возраст и пол 3) Срок проживания заемщика по месту последней регистрации 4) Срок кредита 5) Тип запрошенного кредита 6) Процент, который будет составлять кредит от денежного потока и зарплаты клиента.
7) Время использования заемщиком последнего номера телефона 8) Время на последнем месте работы и доля в общем стаже работы 9) Кредитный денежный поток 10) Сумма кредита В статье рассмотрены принципы кредитного скоринга и показаны параметры, которые вносят наибольший вклад в принятие решения о выдаче кредита.
Результаты кажутся правдоподобными: чем лучше кредитная история заемщика, чем дольше заемщик работает на одной и той же работе, тем реже он меняет номер телефона и место жительства и тем меньше доля кредита в располагаемом доходе.
тем ниже риск дефолта.
Но следует помнить, что результаты основаны на данных конкретной кредитной организации и могут не подойти для другого случая.
Теги: #Машинное обучение #Популярная наука #Алгоритмы #искусственный интеллект #Интеллектуальный анализ данных #скоринг #кредитный скоринг #риск дефолта #влияние факторов на дефолт #Риск дефолта по кредиту Home Credit
-
У Toshiba Есть Ноутбук Для Каждого
19 Oct, 24 -
Кто, Как Не Вы, Подготовите Rabbit Mq
19 Oct, 24 -
Индексный Ipod
19 Oct, 24 -
Кто Использует Node.js: Trello (Часть 2)
19 Oct, 24