Кредитный Скоринг. Разрушительный Эффект Ии При Оценке Кредитоспособности Заемщика

«Кредит — это система, в которой человек, который не может платить, дает другому человеку, который не может платить, гарантию того, что он сможет заплатить».

Чарльз Диккенс Фактически, одним из важнейших факторов при принятии банком решения о выдаче кредита и условий кредитного договора является оценка кредитоспособности потенциального заемщика, т.е.

его способности полностью выполнить свои обязательства путем погашения кредита.

и начисляли проценты вовремя.



Кредитный скоринг.
</p><p>
 Разрушительный эффект ИИ при оценке кредитоспособности заемщика

Многие банки при оценке надежности заемщиков используют скоринговые системы, позволяющие быстро принять решение о возможности предоставления кредита.

Они позволяют оценить кредитоспособность заемщика на основе статистических методов.

Методы машинного обучения позволяют в значительной степени автоматизировать эти процессы.



Проблема с подсчетом очков

Рассматриваемая задача прогнозирования надежности заемщика является задачей классификации.

Классификация — это задача разделения набора наблюдений или объектов на группы.

Так, например, клиентов можно разделить на 2 группы: надежные и сомнительные.



Кредитный скоринг.
</p><p>
 Разрушительный эффект ИИ при оценке кредитоспособности заемщика



Данные

Возьмем в качестве примера набор данных от Kaggle, который содержит информацию о 614 заемщиках.

Каждый клиент описывается по 12 характеристикам, таким как: семейное положение, пол, количество детей, высшее образование, доход и другие.

Целевой характеристикой является состояние платежеспособности клиента.

  • Пол.

    Пол — это двоичная переменная, мужская или женская;

  • Женат – двоичная переменная семейного положения, независимо от того, состоит ли он в браке или нет;
  • Иждивенцы – Количество детей;
  • Образование.

    Наличие высшего образования является бинарной переменной, независимо от того, присутствует оно или нет;

  • Self_Employed – бинарная переменная типа занятости: самозанятый или нет;
  • Заявитель – доход Заемщика;
  • Coapplicantlncome – доход супруги клиента;
  • Loan_Amount – Сумма кредита;
  • Loan_Amount_Term – срок кредита;
  • Credit_History – двоичная переменная кредитной истории соответствует или нет;
  • Property_Area – Район проживания, именительная переменная город, поселок или деревня
  • Loan_Status – Статус заемщика


Кредитный скоринг.
</p><p>
 Разрушительный эффект ИИ при оценке кредитоспособности заемщика

Часть набора данных

ЭДА

Перед обучением модели было сделано следующее:
  • Существующие пробелы в данных были заменены режимом признака для категориальных переменных и средним значением для числовых переменных.

  • Все категориальные данные были преобразованы в числовые значения, при этом каждому классу соответствовало одно число.

  • Количественные переменные были стандартизированы, то есть все необработанные значения в наборе данных были нормализованы до набора значений из распределения со средним значением, равным нулю, и стандартным отклонением, равным 1.


Кредитный скоринг.
</p><p>
 Разрушительный эффект ИИ при оценке кредитоспособности заемщика

Количество пробелов в столбцах

Модель

Рассмотрим 4 основных метода: дерево решений, случайный лес, логистическая регрессия, машина опорных векторов.

Древо решений — это метод представления решающих правил в иерархической структуре, состоящей из двух типов элементов — узлов и листьев.

Узлы содержат правила принятия решений и проверяют соответствие примеров этому правилу по любому атрибуту обучающего набора.

Случайный лес — алгоритм классификации, основанный на принципе использования ансамбля нескольких деревьев решений для достижения большей точности.

Классификаторы (деревья решений) обучаются независимо друг от друга.

Затем классификаторы независимо друг от друга делают прогнозы относительно входного элемента, и класс, за который проголосовало большинство классификаторов, становится окончательным прогнозом классификатора.



Кредитный скоринг.
</p><p>
 Разрушительный эффект ИИ при оценке кредитоспособности заемщика

Пример дерева решений • Логистическая регрессия — метод построения линейного классификатора, позволяющий оценивать апостериорные вероятности принадлежности объектов классам.

Этот алгоритм классификации использует сигмовидную функцию в качестве функции активации и позволяет дать вероятностную оценку принадлежности объекта к каждому классу.

Машина опорных векторов (SVM) — алгоритм ищет на графике точки, расположенные ближе всего к разделительной линии.

Эти точки называются опорными векторами.

Затем алгоритм вычисляет расстояние между опорными векторами и разделяющей плоскостью.

Это расстояние называется зазором.

Основная цель алгоритма — максимизировать расстояние зазора.

Лучшей гиперплоскостью считается та гиперплоскость, для которой этот зазор максимально велик.



Кредитный скоринг.
</p><p>
 Разрушительный эффект ИИ при оценке кредитоспособности заемщика

Пример разделения плоскости

Проверка

Для оценки качества модели использовалась точность на тестовом наборе и перекрестная проверка.

Точность представляет собой количество правильно классифицированных клиентов по отношению к общему числу.

Перекрестная проверка — метод формирования обучающих и тестовых наборов для обучения аналитической модели в условиях недостаточности исходных данных или неравномерного представления классов.

Метод основан на разбиении исходного набора данных на k примерно равных блоков, например, k = 5. Затем на k − 1, т.е.

на 4 блоках, модель обучается, а 5-й блок используется для тестирования.

Для оценки качества была проведена перекрестная проверка по 5 частям и в результате было взято среднее значение.



Кредитный скоринг.
</p><p>
 Разрушительный эффект ИИ при оценке кредитоспособности заемщика

Перекрестная проверка по 5 блокам В результате получаем метрики в соответствии с рисунком ниже.

Наилучший результат показала логистическая регрессия как на тестовой выборке, так и при перекрестной проверке.



Кредитный скоринг.
</p><p>
 Разрушительный эффект ИИ при оценке кредитоспособности заемщика

Результаты модели В действительности этот результат достаточно низок, поскольку не учитывает множество факторов.

Для достижения лучшего результата необходимо учитывать сотни факторов о клиенте и иметь большую выборку.

Эта статья представляет собой обзор и показывает возможность использования методов машинного обучения для кредитного скоринга.

Автор: Руслан Янбеков

Теги: #Машинное обучение #python #искусственный интеллект #Финансы в ИТ #бинарная классификация #кредитный скоринг #кредитоспособность
Вместе с данным постом часто просматривают:

Автор Статьи


Зарегистрирован: 2019-12-10 15:07:06
Баллов опыта: 0
Всего постов на сайте: 0
Всего комментарий на сайте: 0
Dima Manisha

Dima Manisha

Эксперт Wmlog. Профессиональный веб-мастер, SEO-специалист, дизайнер, маркетолог и интернет-предприниматель.