logo
диплом 110606, правка Садыкова

Расчет. Построение кластерных деревьев. Statistica.

Для выделения групп финансовой устойчивости в моем списке банков я использую методику построения кластерных деревьев в программе STATISTICA от StatSoft.

STATISTICA - это система для статистического анализа данных, включающая широкий набор аналитических процедур и методов: более 100 различных типов графиков, описательные и внутригрупповые статистики, разведочный анализ данных, корреляции, быстрые основные статистики и блоковые статистики, интерактивный вероятностный калькулятор, T-критерии (и другие критерии групповых различий), таблицы частот, сопряженности и т.д.

Описание: Продукты серии STATISTICA основаны на самых современных технологиях, полностью соответствуют последним достижениям в области IT, позволяют решать любые задачи в области анализа и обработки данных, идеально подходят для решения практических задач в маркетинге, финансах, страховании, экономике, бизнесе, промышленности, медицине и т.д.

Рис.1 База основных показателей финансовой устойчивости

1. Эвклидово расстояние

Задаем условия кластерного анализа:

Рис.2.1 Настройки иерархического древа (Euclidean distances)

Получаем результат:

Рис. 2.2 Диаграмма для всех банков

В результате кластерного анализа данных по 24 банкам было выделено 5 групп, отличающихся друг от друга показателями финансовой устойчивости.

Как видно на рис. 2.2, 5 группа финансовой устойчивости заметно отличается от всех остальных, и состоит всего из 1 банка. Показатели деятельности данного банка значительно отличаются от общей картины, не позволяя рассматривать его в контексте выделенных групп. Хоум Кредит банк является «аномальным». Рассмотрим получившуюся диаграмму поближе, исключая «аномальность»:

Рис.2.3 Диаграмма всех банков, исключая «аномальный»

2. Квадрат эвклидова расстояния

Задаем условия кластерного анализа:

Рис. 3.1 Настройки иерархического древа (Squared Euclidian distances)

Получаем результат:

Рис. 3.2 Диаграмма для всех банков

Рис.3.3 Диаграмма всех банков, исключая «аномальный»

3. Расстояние городских кварталов (манхэттенское расстояние)

Задаем условия кластерного анализа:

Рис. 4.1 Настройки иерархического древа (City-block (Manhattan) distances)

Получаем результат:

Рис. 4.2 Диаграмма для всех банков

Рис.4.3 Диаграмма всех банков, исключая «аномальный»

4. Расстояние Чебышева

Задаем условия кластерного анализа:

Рис. 5.1 Настройки иерархического древа (Chebychev distance metric)

Получаем результат:

Рис. 5.2 Диаграмма для всех банков

Рис.5.3 Диаграмма всех банков, исключая «аномальный»

5. Степенное расстояние

Задаем условия кластерного анализа:

Рис. 6.1 Настройки иерархического древа (Power: SUM(ABS(x-y)**p)**1/r)

Получаем результат:

Рис. 6.2 Диаграмма для всех банков

Рис.6.3 Диаграмма всех банков, исключая «аномальный»

6. Процент несогласия

Задаем условия кластерного анализа:

Рис. 7.1 Настройки иерархического древа (Percent disagreement)

Получаем результат:

Рис. 7.2 Диаграмма для всех банков

Как и предполагалась, данная мера расстояния непригодна для моего анализа, что заметно по диаграмме. Так как мера процент несогласия может использоваться только тогда, когда данные являются категориальными.