Вопрос 2. Построение модели оценки (классификации) потенциальных заемщиков на основе аналитической платформы Deductor Academic.
Постановка задачи: Построить модель оценки (классификации) потенциальных заемщиков, позволяющую принять решение о выдаче кредита или отказе на основе аналитической платформы Deductor Academic (фирмы BaseGroup Labs).
Решение поставленной задачи осуществляется в четыре этапа:
Выдвижение
Сбор и систематизация данных
Подбор модели и тестирование
Использование приемлемой модели и ее совершенствование.
Пользуясь приведенной выше методикой, предложим гипотезу о влиянии следующих факторов (см. таблицу 2) на кредитоспособность заемщика.
Таблица 2- Факторы, влияющие на кредитоспособность заемщика.
Возраст |
Пол |
Брак |
Иждивенцы |
Стаж работы |
Жилая недвижимость в собственности, $ |
Наличие кредита |
Личный доход в месяц после налогообложения, тенге |
Сумма кредита, тенге |
Месячный платеж, тенге |
Благонадежность |
Для построения модели оценки потенциальных заемщиков используются данные из анкет клиентов банка. Сформируем выборку из 50 человек, взявших потребительский кредит на срок – 1 год. Для фактора «Пол» используем значения: (0-женский, 1-мужской); для фактора «Состояние в браке»: (0- не состоящие в браке; 1 – состоящие в браке. Фактор благонадежности также бинарный (имеет два значения 0- не вернувшие кредит, 1 – вернувшие). Исходные данные были систематизированы в таблицу Excel и сохранены в виде текстового файла (с расширением txt) для последующего импортирования в Deductor.
Открываем приложение Deductor Studio Academic. Создаем новый файл: Файл-Создать. На вкладке Сценарии нажимаем кнопку Мастер импорта (рис. 4).
Рисунок 4 - Вкладка Сценарии.
Указываем имя текстового файла для импорта (рис.5).
Рисунок 5 - Окно импорта текстового файла 2 из 7.
Нажав на кнопку Далее указываем параметры импорта текстового файла (рис.6)
Рисунок 6 - Окно импорта текстового файла 3 из 7.
Нажав на кнопку Далее устанавливаем параметры полей (рис.7).
Рисунок 7 - Окно импорта текстового файла 4 из 7.
В рассматриваемой модели использовались следующие параметры: (таблица 3 )
Таблица 3 - Параметры переменных
Имя столбца | Метка столбца | Тип данных | Вид данных | Назначение |
COL1 | № п/п | Вещественный | Непрерывный | Информационный |
COL2 | Возраст | Целый | Дискретный | Входное |
COL3 | Пол | Логический |
| Входное |
COL4 | Брак | Логический |
| Входное |
COL5 | Иждивенцы | Целый | Дискретный | Входное |
COL6 | Стаж работы | Вещественный | Непрерывный | Входное |
COL7 | Жилая недвижимость в собственности | Вещественный | Непрерывный | Входное |
COL8 | Наличие кредита | Логический |
| Входное |
COL9 | Личный доход в месяц после налогообложения | Вещественный | Непрерывный | Входное |
COL10 | Сумма кредита, тенге | Вещественный | Непрерывный | Входное |
COL11 | Месячный платеж, тенге | Вещественный | Непрерывный | Входное |
COL12 | Благонадежность | Логический |
| Выходное |
В следующем окне импорта текстового файла нажимаем на кнопку Пуск (рис.8).
Рисунок 8 - Окно импорта текстового файла 5 из 7.
После завершения процесса импорта, определяем нужный (-ые) способ(-ы) отображения данных: таблица, статистика, диаграмма, гистограмма, куб (рис.9).
Рисунок 9 - Окно импорта текстового файла 6 из 7.
Выявим влияние установленных факторов (таблица 1) на фактор благонадежности. Для этого воспользуемся одним из методов Data Mining – Логистическая регрессия (рис.10).
Рисунок 10 - Окно мастера обработки.
В следующих окнах Мастера обработок указываем назначения столбцов и способы отображения результата (рис.:11-16).
Рисунок 11 - Окно Мастера обработок. Настройка назначений столбцов.
Рисунок 12 - Окно Мастера обработок. Разбиение исходного множества на подмножества.
Рисунок 13 - Окно Мастера обработок. Настройка параметров остановки обучения.
Рисунок 14 - Окно Мастера обработок. Запуск процесса построения логистической регрессии.
Рисунок 15 - Окно Мастера обработок. Определение способов отображения данных.
Рисунок 16 - Окно Мастера обработок. Настройка назначений полей куба.
После окончания процесса построения модели, результаты в выбранных ранее способах отображения появляются в левой части окна в соответствующих вкладках (рис.17).
Рисунок 17 – Страницы с результатами расчетов.
На вкладке «Таблица» отражены исходные данные, а также рассчитанный программой фактор благонадежности (благонадежность_OUT) и рейтинг заемщика. Фрагмент таблицы представлен на рисунке 18.
Рисунок 18 – Рассчитанный рейтинг заемщика.
Для оценки качества модели логистической регрессии проведем ROC-анализ.
Рассмотрим таблицу сопряженности (вкладка «таблица сопряженности»), получившуюся в нашем примере (рис.19).
Рисунок 19 - Таблица сопряженности.
По данным таблицы видно, что из 12 клиентов, не вернувших кредит, 8 классифицированы программой верно, а 4 клиента определены программой как благонадежные. Т.е. ошибка первого рода составляет 33% (4/12=0,33).
Теперь рассмотрим клиентов, получивших кредит. Из 38 человек 35 классифицированы верно, а 3 клиента идентифицированы программой как некредитоспособные. Ошибка второго рода составила 8%.
Таким образом, если при выдаче кредита, мы будем руководствоваться имеющимися у нас данными по рассмотренным факторам, то риск дать кредит ошибочно – 33%, а не дать благонадежному клиенту – 8%.
В нашем случае минимизируется коммерческий риск, связанный с упущенной выгодой, но достаточно высок – кредитный риск, связанный с потерями ссуды и процентов.
На рисунке 20 представлена ROC-кривая (вкладка ROC – кривая) для построенной модели. По ее расположению и площади можно сделать вывод о высокой предсказательной способности модели (площадь под кривой равна 0,92, что согласно таблицы 1 свидетельствует о отличном качестве модели).
Рисунок 20 - ROC – кривая.
Следовательно, модель можно использовать для прогнозирования вероятности возврата кредита.
В нашей модели чувствительность равна 91,67%, что означает, что 91,67% благонадежных заемщика будут выявлены классификатором. Специфичность равна 66,67%, следовательно, 33,3% недобросовестных заемщиков получат одобрение в выдаче кредита (кредитный риск).
Таким образом, при помощи логистической регрессии ROC-анализа осуществляется управление рисками в кредитовании.
Рассмотрим использование построенной модели, для прогнозирования возврата кредита воспользовавшись инструментом «Что-если» (вкладка «Что-если»).
Предположим, нужно принять решение о выдаче/отказе кредита клиенту со следующими характеристиками: мужчина 27 лет, состоящий в браке, имеющий одного ребенка, работает, стаж работы 5 лет, имеет недвижимость стоимостью 45000$, личный доход в месяц после налогообложения составляет 50 000 тенге.
Клиент предполагает взять потребительский кредит сроком на год, расчетный месячный платеж будет составлять 13 518 тенге.
Введя указанные данные в страницу Что-если (рис.21), получим результат, что клиент является платежеспособным, причем программа подсчитывает и рейтинг клиента – 0,93.
Рисунок 21 - Использование инструмента «Что-если».
Рассчитываемые рейтинги можно использовать для ранжирования клиентов. Например, один клиент имеет расчетный рейтинг 0,94, другой 0,98. Предпочтение следует отдать клиенту с более высоким рейтингом.
Таким образом, рассмотренный инструмент можно использовать для поддержки принятия решения менеджером.
Вопросы для самоконтроля:
Каковы основные возможности Deductor Academic?
В чем сущность методики Data Mining?
Что такое логистическая регрессия?
Что показывает таблица сопряженности?
Литература:
Вдовин, В. М. Информационные технологии в финансово-банковской сфере [Текст] : учебное пособие/ В. М. Вдовин ; В. М. Вдовин, Л. Е. Суркова .- 2-е изд.- М. : Дашков и К, 2012.- 248 c.
Сайт компании BaseGroup. – URL: http://www. basegroup.ru /(дата обращения: 23.05.2012).
Yandex.RTB R-A-252273-3
- Вопрос 2. История и предпосылки развития компьютерных информационных технологий в финансово-кредитной сфере
- Вопрос 3. Характеристика состава основных пользователей финансовой информации предприятия
- Вопрос 4. Анализ инновационных банковских услуг, предлагаемых казахстанскими коммерческими банками
- Тема 2. Информационные системы и технологии банка
- Вопрос 1. Понятие, роль, особенности информации
- Вопрос 2. Понятие информационных систем и технологий. Структура информационной системы
- Вопрос 3. Банковские технологии
- Вопрос 4. Использование встроенных функций ms Excel.
- Тема 3. Информационное обеспечение банковской деятельности
- Вопрос 1. Структура и содержание информационного обеспечения. Внемашинное информационное обеспечение.
- Вопрос 2. Информационное обеспечение банковской деятельности.
- Тема 4. Техническое обеспечение банковской деятельности
- Вопрос 1. Понятие, структура технического обеспечения.
- Вопрос 2. Технические решения банковских технологий
- Вопрос 3. Банковское оборудование
- Тема 5. Программное обеспечение банковской деятельности
- Вопрос 1. Понятие и классификация программного обеспечения
- Вопрос 2. Программное обеспечение информационных технологий в банках
- Вопрос 3. Обзор финансово-аналитических систем
- Тема 6. Использование программного комплекса Deductor Academic в оценке кредитоспособности заемщика
- Вопрос 1. Сущность методики Data Mining
- Вопрос 2. Построение модели оценки (классификации) потенциальных заемщиков на основе аналитической платформы Deductor Academic.
- Тема 7. Электронные банковские сети. Интернет- банкинг.
- Вопрос 1. Корпоративная сеть банка
- Вопрос 2. Основные банковские коммуникационные сети. Международная банковская система swift.
- Вопрос 3. Электронные системы межбанковских расчетов в Казахстане.
- Вопрос 4. Интернет-банкинг: состояние, проблемы и перспективы развития
- Тема 8. Проектирование информационных систем в экономике
- Вопрос 1. Принципы проектирования иэс.
- Вопрос 2. Понятие жизненного цикла ис. Этапы проектирования.
- Вопрос 3. Роль пользователя в создании аис и аит и постановке задач. Методика постановки задачи.
- Вопрос 4. Экономическая эффективность аит
- Тема 9. Защита информации.
- Вопрос 1. Компьютерные преступления и средства защиты информации. Обзор угроз безопасности.
- Основные направления компьютерных преступлений
- Вопрос 2. Методы и средства защиты информации
- Вопрос 3. Особенности защиты банковской информации