Кредитный Скоринг. Разрушительный Эффект Ии При Оценке Кредитоспособности Заемщика

«Кредит — это система, в которой человек, который не может платить, дает другому человеку, который не может платить, гарантию того, что он сможет заплатить».
Чарльз Диккенс Фактически, одним из важнейших факторов при принятии банком решения о выдаче кредита и условий кредитного договора является оценка кредитоспособности потенциального заемщика, т.е.
его способности полностью выполнить свои обязательства путем погашения кредита.
и начисляли проценты вовремя.

Многие банки при оценке надежности заемщиков используют скоринговые системы, позволяющие быстро принять решение о возможности предоставления кредита.
Они позволяют оценить кредитоспособность заемщика на основе статистических методов.
Методы машинного обучения позволяют в значительной степени автоматизировать эти процессы.

Проблема с подсчетом очков
Рассматриваемая задача прогнозирования надежности заемщика является задачей классификации.
Классификация — это задача разделения набора наблюдений или объектов на группы.
Так, например, клиентов можно разделить на 2 группы: надежные и сомнительные.

Данные
Возьмем в качестве примера набор данных от Kaggle, который содержит информацию о 614 заемщиках.
Каждый клиент описывается по 12 характеристикам, таким как: семейное положение, пол, количество детей, высшее образование, доход и другие.
Целевой характеристикой является состояние платежеспособности клиента.

Пол.
Пол — это двоичная переменная, мужская или женская;
Женат – двоичная переменная семейного положения, независимо от того, состоит ли он в браке или нет;
Иждивенцы – Количество детей;
Образование.
Наличие высшего образования является бинарной переменной, независимо от того, присутствует оно или нет;
Self_Employed – бинарная переменная типа занятости: самозанятый или нет;
Заявитель – доход Заемщика;
Coapplicantlncome – доход супруги клиента;
Loan_Amount – Сумма кредита;
Loan_Amount_Term – срок кредита;
Credit_History – двоичная переменная кредитной истории соответствует или нет;
Property_Area – Район проживания, именительная переменная город, поселок или деревня
Loan_Status – Статус заемщика

Часть набора данных

ЭДА
Перед обучением модели было сделано следующее:
Существующие пробелы в данных были заменены режимом признака для категориальных переменных и средним значением для числовых переменных.

Все категориальные данные были преобразованы в числовые значения, при этом каждому классу соответствовало одно число.

Количественные переменные были стандартизированы, то есть все необработанные значения в наборе данных были нормализованы до набора значений из распределения со средним значением, равным нулю, и стандартным отклонением, равным 1.

Количество пробелов в столбцах

Модель
Рассмотрим 4 основных метода: дерево решений, случайный лес, логистическая регрессия, машина опорных векторов.
• Древо решений — это метод представления решающих правил в иерархической структуре, состоящей из двух типов элементов — узлов и листьев.
Узлы содержат правила принятия решений и проверяют соответствие примеров этому правилу по любому атрибуту обучающего набора.
• Случайный лес — алгоритм классификации, основанный на принципе использования ансамбля нескольких деревьев решений для достижения большей точности.
Классификаторы (деревья решений) обучаются независимо друг от друга.
Затем классификаторы независимо друг от друга делают прогнозы относительно входного элемента, и класс, за который проголосовало большинство классификаторов, становится окончательным прогнозом классификатора.

Пример дерева решений • Логистическая регрессия — метод построения линейного классификатора, позволяющий оценивать апостериорные вероятности принадлежности объектов классам.
Этот алгоритм классификации использует сигмовидную функцию в качестве функции активации и позволяет дать вероятностную оценку принадлежности объекта к каждому классу.
• Машина опорных векторов (SVM) — алгоритм ищет на графике точки, расположенные ближе всего к разделительной линии.
Эти точки называются опорными векторами.
Затем алгоритм вычисляет расстояние между опорными векторами и разделяющей плоскостью.
Это расстояние называется зазором.
Основная цель алгоритма — максимизировать расстояние зазора.
Лучшей гиперплоскостью считается та гиперплоскость, для которой этот зазор максимально велик.

Пример разделения плоскости

Проверка
Для оценки качества модели использовалась точность на тестовом наборе и перекрестная проверка.
Точность представляет собой количество правильно классифицированных клиентов по отношению к общему числу.
Перекрестная проверка — метод формирования обучающих и тестовых наборов для обучения аналитической модели в условиях недостаточности исходных данных или неравномерного представления классов.
Метод основан на разбиении исходного набора данных на k примерно равных блоков, например, k = 5. Затем на k − 1, т.е.
на 4 блоках, модель обучается, а 5-й блок используется для тестирования.
Для оценки качества была проведена перекрестная проверка по 5 частям и в результате было взято среднее значение.

Перекрестная проверка по 5 блокам В результате получаем метрики в соответствии с рисунком ниже.
Наилучший результат показала логистическая регрессия как на тестовой выборке, так и при перекрестной проверке.

Результаты модели В действительности этот результат достаточно низок, поскольку не учитывает множество факторов.
Для достижения лучшего результата необходимо учитывать сотни факторов о клиенте и иметь большую выборку.
Эта статья представляет собой обзор и показывает возможность использования методов машинного обучения для кредитного скоринга.
Автор: Руслан Янбеков