logo
КОНСПЕКТ ЛЕКЦИИ

Вопрос 2. Построение модели оценки (классификации) потенциальных заемщиков на основе аналитической платформы Deductor Academic.

Постановка задачи: Построить модель оценки (классификации) потенциальных заемщиков, позволяющую принять решение о выдаче кредита или отказе на основе аналитической платформы Deductor Academic (фирмы BaseGroup Labs).

Решение поставленной задачи осуществляется в четыре этапа:

  1. Выдвижение

  2. Сбор и систематизация данных

  3. Подбор модели и тестирование

  4. Использование приемлемой модели и ее совершенствование.

Пользуясь приведенной выше методикой, предложим гипотезу о влиянии следующих факторов (см. таблицу 2) на кредитоспособность заемщика.

Таблица 2- Факторы, влияющие на кредитоспособность заемщика.

Возраст

Пол

Брак

Иждивенцы

Стаж работы

Жилая недвижимость в собственности, $

Наличие кредита

Личный доход в месяц после налогообложения, тенге

Сумма кредита, тенге

Месячный платеж, тенге

Благонадежность

Для построения модели оценки потенциальных заемщиков используются данные из анкет клиентов банка. Сформируем выборку из 50 человек, взявших потребительский кредит на срок – 1 год. Для фактора «Пол» используем значения: (0-женский, 1-мужской); для фактора «Состояние в браке»: (0- не состоящие в браке; 1 – состоящие в браке. Фактор благонадежности также бинарный (имеет два значения 0- не вернувшие кредит, 1 – вернувшие). Исходные данные были систематизированы в таблицу Excel и сохранены в виде текстового файла (с расширением txt) для последующего импортирования в Deductor.

Открываем приложение Deductor Studio Academic. Создаем новый файл: Файл-Создать. На вкладке Сценарии нажимаем кнопку Мастер импорта (рис. 4).

Рисунок 4 - Вкладка Сценарии.

Указываем имя текстового файла для импорта (рис.5).

Рисунок 5 - Окно импорта текстового файла 2 из 7.

Нажав на кнопку Далее указываем параметры импорта текстового файла (рис.6)

Рисунок 6 - Окно импорта текстового файла 3 из 7.

Нажав на кнопку Далее устанавливаем параметры полей (рис.7).

Рисунок 7 - Окно импорта текстового файла 4 из 7.

В рассматриваемой модели использовались следующие параметры: (таблица 3 )

Таблица 3 - Параметры переменных

Имя столбца

Метка столбца

Тип данных

Вид данных

Назначение

COL1

№ п/п

Вещественный

Непрерывный

Информационный

COL2

Возраст

Целый

Дискретный

Входное

COL3

Пол

Логический

Входное

COL4

Брак

Логический

Входное

COL5

Иждивенцы

Целый

Дискретный

Входное

COL6

Стаж работы

Вещественный

Непрерывный

Входное

COL7

Жилая недвижимость в собственности

Вещественный

Непрерывный

Входное

COL8

Наличие кредита

Логический

Входное

COL9

Личный доход в месяц после налогообложения

Вещественный

Непрерывный

Входное

COL10

Сумма кредита, тенге

Вещественный

Непрерывный

Входное

COL11

Месячный платеж, тенге

Вещественный

Непрерывный

Входное

COL12

Благонадежность

Логический

Выходное

В следующем окне импорта текстового файла нажимаем на кнопку Пуск (рис.8).

Рисунок 8 - Окно импорта текстового файла 5 из 7.

После завершения процесса импорта, определяем нужный (-ые) способ(-ы) отображения данных: таблица, статистика, диаграмма, гистограмма, куб (рис.9).

Рисунок 9 - Окно импорта текстового файла 6 из 7.

Выявим влияние установленных факторов (таблица 1) на фактор благонадежности. Для этого воспользуемся одним из методов Data Mining – Логистическая регрессия (рис.10).

Рисунок 10 - Окно мастера обработки.

В следующих окнах Мастера обработок указываем назначения столбцов и способы отображения результата (рис.:11-16).

Рисунок 11 - Окно Мастера обработок. Настройка назначений столбцов.

Рисунок 12 - Окно Мастера обработок. Разбиение исходного множества на подмножества.

Рисунок 13 - Окно Мастера обработок. Настройка параметров остановки обучения.

Рисунок 14 - Окно Мастера обработок. Запуск процесса построения логистической регрессии.

Рисунок 15 - Окно Мастера обработок. Определение способов отображения данных.

Рисунок 16 - Окно Мастера обработок. Настройка назначений полей куба.

После окончания процесса построения модели, результаты в выбранных ранее способах отображения появляются в левой части окна в соответствующих вкладках (рис.17).

Рисунок 17 – Страницы с результатами расчетов.

На вкладке «Таблица» отражены исходные данные, а также рассчитанный программой фактор благонадежности (благонадежность_OUT) и рейтинг заемщика. Фрагмент таблицы представлен на рисунке 18.

Рисунок 18 – Рассчитанный рейтинг заемщика.

Для оценки качества модели логистической регрессии проведем ROC-анализ.

Рассмотрим таблицу сопряженности (вкладка «таблица сопряженности»), получившуюся в нашем примере (рис.19).

Рисунок 19 - Таблица сопряженности.

По данным таблицы видно, что из 12 клиентов, не вернувших кредит, 8 классифицированы программой верно, а 4 клиента определены программой как благонадежные. Т.е. ошибка первого рода составляет 33% (4/12=0,33).

Теперь рассмотрим клиентов, получивших кредит. Из 38 человек 35 классифицированы верно, а 3 клиента идентифицированы программой как некредитоспособные. Ошибка второго рода составила 8%.

Таким образом, если при выдаче кредита, мы будем руководствоваться имеющимися у нас данными по рассмотренным факторам, то риск дать кредит ошибочно – 33%, а не дать благонадежному клиенту – 8%.

В нашем случае минимизируется коммерческий риск, связанный с упущенной выгодой, но достаточно высок – кредитный риск, связанный с потерями ссуды и процентов.

На рисунке 20 представлена ROC-кривая (вкладка ROC – кривая) для построенной модели. По ее расположению и площади можно сделать вывод о высокой предсказательной способности модели (площадь под кривой равна 0,92, что согласно таблицы 1 свидетельствует о отличном качестве модели).

Рисунок 20 - ROC – кривая.

Следовательно, модель можно использовать для прогнозирования вероятности возврата кредита.

В нашей модели чувствительность равна 91,67%, что означает, что 91,67% благонадежных заемщика будут выявлены классификатором. Специфичность равна 66,67%, следовательно, 33,3% недобросовестных заемщиков получат одобрение в выдаче кредита (кредитный риск).

Таким образом, при помощи логистической регрессии ROC-анализа осуществляется управление рисками в кредитовании.

Рассмотрим использование построенной модели, для прогнозирования возврата кредита воспользовавшись инструментом «Что-если» (вкладка «Что-если»).

Предположим, нужно принять решение о выдаче/отказе кредита клиенту со следующими характеристиками: мужчина 27 лет, состоящий в браке, имеющий одного ребенка, работает, стаж работы 5 лет, имеет недвижимость стоимостью 45000$, личный доход в месяц после налогообложения составляет 50 000 тенге.

Клиент предполагает взять потребительский кредит сроком на год, расчетный месячный платеж будет составлять 13 518 тенге.

Введя указанные данные в страницу Что-если (рис.21), получим результат, что клиент является платежеспособным, причем программа подсчитывает и рейтинг клиента – 0,93.

Рисунок 21 - Использование инструмента «Что-если».

Рассчитываемые рейтинги можно использовать для ранжирования клиентов. Например, один клиент имеет расчетный рейтинг 0,94, другой 0,98. Предпочтение следует отдать клиенту с более высоким рейтингом.

Таким образом, рассмотренный инструмент можно использовать для поддержки принятия решения менеджером.

Вопросы для самоконтроля:

  1. Каковы основные возможности Deductor Academic?

  2. В чем сущность методики Data Mining?

  3. Что такое логистическая регрессия?

  4. Что показывает таблица сопряженности?

Литература:

  1. Вдовин, В. М. Информационные технологии в финансово-банковской сфере [Текст] : учебное пособие/ В. М. Вдовин ; В. М. Вдовин, Л. Е. Суркова .- 2-е изд.- М. : Дашков и К, 2012.- 248 c.

  2. Сайт компании BaseGroup. – URL: http://www. basegroup.ru /(дата обращения: 23.05.2012).