X. Cluster analysis

Подобни документи
Microsoft Word - SPSS_CA_3

ВТОРА ГЛАВА

Microsoft Word - zada4a 1.doc

Методично ръководство Съдържание Мита Георгиева по Статистика с приложение Магдалена Каменарова на SPSS 1. Статистиката като наука 1.1. Обща характери

МОДУЛ 2 ВАРИАНТ НА ПРАКТИЧЕСКА ЗАДАЧА ЗА НАЦИОНАЛНО ОНЛАЙН ОЦЕНЯВАНЕ НА ДИГИТАЛНИ КОМПЕТЕНТНОСТИ X КЛАС от 2016 г. УСЛОВИЕ НА ЗАДАЧАТА За тази задача

I

Microsoft Word - KZ_TSG.doc

Slide 1

Microsoft Word - seminar12.docx

Microsoft Word - ICA user-manual.doc

Scan Tailor Кратко ръководство за работа Преди време описах как се работи с програмата Scan Kromsator. Сега искам да Ви представя една друга програма,

ЕКОЛОГИЧЕН МОНИТОРИНГ НА РЕКА ДРАГОВИЩИЦА (ЛЕТЕН МОНИТОРИНГ 2015) ПРИЛОЖЕНИЕ СТАТИСТИКА Антон Сотиров, Георги Табаков, Валерия Стоичкова, Михаела Йеру

17

Решения на задачите от Тема на месеца за м. март 2018 Даден е многоъгълник, който трябва да бъде нарязан на триъгълници. Разрязването става от връх къ

14

УКАЗАНИЯ

ПРОЕКТ ВЪЗРОЖДЕНСКА КЪЩА 1. Отваряме програмата SketchUp. Избираме ново положение на Координатната система От контексното меню /върху една от осите на

Óâîä

_5. ???????????? ?3????????? ?? ????????????? ?? ?????????? ?? 2005 ?.

УНИВЕРСИТЕТ ЗА НАЦИОНАЛНО И СВЕТОВНО СТОПАНСТВО Р Е Ц Е Н З И Я От: Академик д.т.н. Кирил Любенов Боянов Институт по Информационни и комуникационни те

Машинно обучение - въведение

Microsoft PowerPoint - DBoyadzhieva

Microsoft Word - PRMAT sec99.doc

Приложение 3 Пълни извадки от статистическите анализи в SPSS Проучването се извършва рамките на проект "Основи за по-добро бъдеще на нашите 1 младежи"

Slide 1

СТОПАНСКА АКАДЕМИЯ „Д

Exam, SU, FMI,

Microsoft Word - doklad.anketa.2009.doc

Microsoft Word - VM22 SEC55.doc

Приложение на методите на Рунге Кута за решаване на уравненията за отравяне на ядрения реактор 1. Въведение В доклада са направени поредица от изчисле

1 КаБел ЕООД Документация за софтуерния продукт КаБел ЕООД, подпомагащ организация на складовата дейност в железария Автор: Румен Ангелов История на в

2. Изследване на операциите и моделиране. Моделиране на обществените процеси. Същност на моделирането. Структура на процеса на моделиране

Линейна алгебра 7. Умножение на матрици. Обратими матрици. Матрични уравнения специалности: Математика, Бизнес математика, Приложна математика, I курс

ЛЕКЦИЯ 6 ЗАКОН ЗА ИНЕРЦИЯТА Определение. Броят на положителните коефициенти в каноничния вид на дадена квадратична форма се нарича положителен индекс

Основен вариант, клас Задача 1. (3 точки) За кои n съществуват различни естествени числа a 1, a 2,..., a n, за които сборът е естествено число

Paint.net

Упътване за ползване на данните от страницата с изборните резултати данните, които са използвани за това упътване са от и

PowerPoint Presentation

Home Page Title Page Contents Spectral clustering of Big Data in genetics: applications to RNA-seq data Tsvetelin Zaevski, Ognyan Kunchev, Dean Paleje

Университет - библиотека - образование и дигиталният достъп University - Library - Education and Digital Access

ИНСТАЛИРАНЕ НА ЕДИС-АСО ИНСТАЛИРАНЕ И НАСТРОЙКА Инсталиране на актуализацията в инсталация с ЕДИС-АСО 5.7x и 6.1/6.2 Копирайте изтегленат

Microsoft Word - stokdovo saprotivlenie.doc

ГОДИШНИК НА УНИВЕРСИТЕТА ПО АРХИТЕКТУРА, СТРОИТЕЛСТВО И ГЕОДЕЗИЯ СОФИЯ Том Volume Брой Issue ANNUAL OF THE UNIVERSITY OF ARCHITECTURE, CIVIL E

Логаритмична регресия

X-Social_Varchev_

Препис:

10. Провеждане на клъстерен анализ със SPSS Клъстерният анализ е многомерен статистически метод за установяване на относително еднородни групи от единици, основаващи се на избрани характеристики. Основните видове клъстерни анализи са два: йерархичен постъпково обединяване на "близки" обекти; метод на k-средните при предварително известен брой на клъстерите.

1. Методи за йерархична клъстеризация Най-съществената особеност за тези методи се изразява в това, че класифицирането на дадена единица към определен клъстер е окончателно и невъзвратимо. Което означава, че до края на алгоритъма тя не може да се преразпределя в други клъстери. Йерархичната клъстеризация се разделя на две подгрупи от методи: агломеративни (agglomerative) характеризират се с последователни сливания на единици и клъстери; разделящи (divisive) методи на последователни разделяния на единици и клъстери. От значение е да отбележим, че различните методи за свързване на единиците могат да доведат до различни резултати при формиране на клъстерите. Методът на средното свързване между групите е най-препоръчваният, в случай че липсва предварителна информация и специални изисквания за формиране на клъстерите в съответствие с целите и задачите на изследването. 2

2. Нейерархична клъстеризация метод на К-средни величини. Най-често използваният метод за нейерархична клъстеризация е този на К- средните величини (K-Means Cluster Analysis). При този метод се отчита разстоянието на всяка единица до центровете на отделните клъстери, като найблизкото разстояние определя принадлежността на единицата към съответния клъстер. Методът изисква предварително да се определи броят на клъстерите. Центровете на тези клъстери могат да бъдат известни или да се оценят от данните. Освен това центровете могат да останат постоянни или да се актуализират в процеса на анализа. При сравнително големи по обем съвкупности за първоначална оценка на параметрите може да се използват методите за йерархична клъстеризация и данните от случайни извадки. 3

K-Means Cluster Analysis Разглеждаме накратко и без формули отделните етапи на клъстерния анализ с К- средни величини, използвайки данните от файл UniCredit Bulbank.sav В следната таблица са представени основните показатели на UniCredit Bulbank за периода 2000-2006 година. Всяка година ще бъде разглеждана като отделна единица, а показателите като отделни величини. Основни показатели (в милиони лева) за периода 2000-2006 година на UniCredit Bulbank Година Нетна Собствен Клиентски Активи печалба капитал депозити Кредити X i1 X i2 X i3 X i4 X i5 1 2000 160,065 602,776 2 559,476 1 692,270 316,380 2 2001 68,912 490,479 2 731,686 2 021,634 362,353 3 2002 79,130 513,249 2 721,980 2 049,957 563,935 4 2003 89,752 550,026 2 825,439 2 177,781 916,634 5 2004 86,279 574,112 3 614,696 2 917,169 1 393,968 6 2005 96,116 609,609 3 474,829 2 618,771 1 706,858 7 2006 120,654 630,781 4 346,594 3 336,875 2 131,577 4

От главното меню на SPSS се избира последователно Analyze Classify K-Means Cluster 5

В полето Number of Clusters се указва броя на желаните клъстери. Определяме броя на клъстерите на 4, като началните клъстерни центрове се оценяват от данните. В полето Method се маркира Iterate and Classify за извеждане на последователните итерации и на коя от тях се извършва финалната клъстеризация. 6

С клавиша Iterate се определят критериите за актуализиране на клъстерните центрове. Тук е възможно да се маркира опцията Use running means. Ако тя бъде избрана, центровете на клъстерите се променят след присъединяването на всеки обект, а ако не бъде избрана центровете на клъстерите се изчисляват след като бъдат присъединени всички обекти към даден клъстер. В двата случая се получават различни резултати и затова трябва изрично да се указва как е осъществена клъстезацията. Избираме центровете на клъстерите да се изчисляват след като бъдат присъединени всички обекти към даден клъстер, т.е. в полето Use running means не слагаме отметка. Продължаваме с Continue. 7

С клавиша Save могат да се запишат във файла с данни нови променливи, показващи принадлежността на всеки обект към отделните клъстери (Cluster Membership) и разстоянието до центровете на клъстерите за всеки обект (Distance from Cluster Center). С клавиша Options се дава възможност за представяне на допълнителни статистики началните клъстерни центрове (Initial cluster centers), таблица на дисперсионния анализ (ANOVA table) и информация за всеки обект за принадлежността му към даден клъстер (Cluster information for each case). Желателно е да се маркират и трите опции. Накрая с OK се получава резултата. 8

Резултати Началните клъстерни центрове са представени в таблица Initial Cluster Centers. Клъстерите са 2000 година (първи клъстер), 2005 (втори клъстер), 2006 (трети клъстер) и 2003 (четвърти клъстер). Тези 4 години се намират на най-голямо разстояние по показатели една от друга. Initial Cluster Centers Cluster 1 2 3 4 Нетна печалба 160,065 96,116 120,654 89,752 Собствен капитал 602,776 609,609 630,781 550,026 Активи 2559,476 3474,829 4346,594 2825,439 Клиентски депозити 1692,270 2618,771 3336,875 2177,781 Кредити 316,380 1706,858 2131,577 916,634 9

В Таблица Iteration History виждаме броя на итерациите и промените в клъстерните центрове.при първата итерация 2001 г. се присъединява към 2000 г. и клъстерният център се актуализира. 2004 г. се присъединява към втория клъстер 2005 година, а към четвъртия клъстер 2003 г. се присъединява 2002 г. Третият клъстер не се променя. При втората итерация процесът на преразпределение на единиците спира, понеже няма промени в клъстерните центрове. Iteration Iteration History(a) Change in Cluster Centers 1 2 3 4 1 200,730 227,959,000 195,515 2,000,000,000,000 a Convergence achieved due to no or small change in cluster centers. The maximum absolute coordinate change for any center is,000. The current iteration is 2. The minimum distance between initial centers is 821,273. 10

В Таблица Cluster Membership са обобщени резултатите, т.е. коя единица към кой клъстер принадлежи, както и новите клъстерни центрове. Първият клъстер се формира от 2000 и 2001 година, вторият от 2004 и 2005, третият само от 2006 и четвъртият от 2002 и 2003 година. Cluster Membership Case Number Cluster Distance 1: 2000 1 200,730 2: 2001 1 200,730 3: 2002 4 195,515 4: 2003 4 195,515 5: 2004 2 227,959 6: 2005 2 227,959 7: 2006 3,000 11

В Таблица Final Cluster Centers можем да видим крайните клъстерни центрове, а разстоянието между крайните клъстерни центрове в Таблица Distances between Final Cluster Centers. Final Cluster Centers Cluster 1 2 3 4 Нетна печалба 114,489 91,198 120,654 84,441 Собствен капитал 546,628 591,861 630,781 531,638 Активи 2645,581 3544,763 4346,594 2773,710 Клиентски депозити 1856,952 2767,970 3336,875 2113,869 Кредити 339,367 1550,413 2131,577 740,285 Distances between Final Cluster Centers Cluster 1 2 3 4 1 1762,868 2881,450 494,253 2 1762,868 1143,119 1297,055 3 2881,450 1143,119 2432,395 4 494,253 1297,055 2432,395 12

Тъй като в нашия случай групите са формирани преднамерено в съответствие с разстоянието между тях в многомерното пространство, т.е. е нарушено условието за случайност на наблюденията в отделните групи, резултатите от дисперсионния анализ имат само описателен характер. С други думи не може да се използва равнището на значимост (колоната Sign. в табл. ANOVA дисперсионен анализ на резултатите от клъстеризацията) за проверка на хипотезите относно средните величини. Въпреки това различията между F-отношенията (колоната F в табл. ANOVA) позволяват да се дадат най-общи заключения за ролята на отделните променливи величини при формиране на клъстерите. В Таблица ANOVA са представени резултатите от дисперсионния анализ. Според тях най-голямо влияние при формирането на клъстерите имат активите, а най-малко нетната печалба. 13

ANOVA Cluster Error F Sig. Mean Square df Mean Square df Нетна печалба 495,145 3 1419,744 3,349,795 Собствен капитал 2878,202 3 2537,200 3 1,134,460 Активи 842788,443 3 9987,138 3 84,387,002 Клиентски депозити 634017,636 3 35643,498 3 17,788,021 Кредити 957411,333 3 37401,709 3 25,598,012 The F tests should be used only for descriptive purposes because the clusters have been chosen to maximize the differences among cases in different clusters. The observed significance levels are not corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means are equal. Таблица Number of Cases in each Cluster представя данни както за броя на единиците във всеки клъстер, така и за общия брой и липсващите единици. Number of Cases in each Cluster Cluster 1 2,000 2 2,000 3 1,000 4 2,000 Valid 7,000 Missing,000 14

Сега ще представим резултатите от същата клъстеризационна процедура с тази разлика, че избираме центровете на клъстерите да се променят след присъединяването на всеки обект към даден клъстер и за тази цел маркираме опцията Use running means. Iteration Iteration History(a) Cluster Membership Change in Cluster Centers 1 2 3 4 1 215,142 151,973,000,000 2 53,786 50,658,000,000 3 13,446 16,886,000,000 4 3,362 5,629,000,000 5,840 1,876,000,000 6,210,625,000,000 7,053,208,000,000 8,013,069,000,000 9,003,023,000,000 10,001,008,000,000 Case Number Cluster Distance 1: 2000 1 286,856 2: 2001 1 140,021 3: 2002 1 206,434 4: 2003 4,000 5: 2004 2 227,963 6: 2005 2 227,955 7: 2006 3,000 a Iterations stopped because the maximum number of iterations was performed. Iterations failed to converge. The maximum absolute coordinate change for any center is,005. The current iteration is 10. The minimum distance between initial centers is 821,273. 15

Final Cluster Centers Cluster 1 2 3 4 Нетна печалба 102,702 91,198 120,654 89,752 Собствен капитал 535,501 591,861 630,781 550,026 Активи 2671,047 3544,763 4346,594 2825,439 Клиентски депозити 1921,287 2767,970 3336,875 2177,781 Кредити 414,223 1550,413 2131,577 916,634 Distances between Final Cluster Centers Cluster 1 2 3 4 1 1665,679 2787,481 585,168 2 1665,679 1143,119 1126,578 3 2787,481 1143,119 2267,372 4 585,168 1126,578 2267,372 ANOVA Cluster Error F Sig. Mean Square df Mean Square df Нетна печалба 236,122 3 1678,767 3,141,929 Собствен капитал 2856,043 3 2559,359 3 1,116,465 Активи 843275,336 3 9500,245 3 88,764,002 Клиентски депозити 628462,814 3 41198,320 3 15,255,025 Кредити 966937,206 3 27875,836 3 34,687,008 The F tests should be used only for descriptive purposes because the clusters have been chosen to maximize the differences among cases in different clusters. The observed significance levels are not corrected for this and thus cannot be interpreted as tests of the hypothesis that the cluster means are equal. 16

Number of Cases in each Cluster Cluster 1 3,000 2 2,000 3 1,000 4 1,000 Valid 7,000 Missing,000 От представените данни (Таблица Cluster Membership) се вижда, че вече първият клъстер се формира от 2000, 2001 и 2002 година, вторият от 2004 и 2005, третият от 2006 и четвъртият единствено от 2003 година. Според данните в ANOVA таблицата отново най-голямо влияние при формирането на клъстерите оказват активите, а най-малко нетната печалба. 17

Hierarchical Cluster Analysis Използваме данните от файла UniCredit Bulbank.sav Избира се от главното меню последователно Analyze Classify Hierarchical Cluster 18

Появява се следния диалогов прозорец: В полето Display по подразбиране са маркирани Statistics за екранизиране на статистическите резултати от анализа и Plots за екранизиране на графиките. И в двата случая не е необходимо да се махат отметките. 19

Клавиша Statistics служи за определяне на статистическите резултати, които да бъдат изведени на екрана. Тук може да се сложи отметка в полето на Agglomeration schedule (агломеративно включване) за показване на агломерационния график, както и в полето на Proximity Matrix за екранизиране на матрицата на близостта, която отразява информацията за разстоянията между обектите и клъстерите. По-долу в полето Cluster Membership (принадлежност към клъстер) може да се избере: None ако не се изисква показване на принадлежността на обектите към клъстерите, Single solution (единично решение) като се укаже точният брой на клъстерите и Range of solutions (ранг на решенията) като се определи диапазонът на желаните клъстери от колко до колко клъстера искаме да получим. 20

Когато се активира клавиша Plots може да се маркира Dendrogram, в случай че искаме графична визуализация на резултатите от йерархичната клъстеризация. Дендрограмата е граф-дърво, в което всеки възел отразява една стъпка от процеса на обединяване. Той носи и допълнителна информация за величината на разстоянието между двата клъстера в момента на обединение. Пунктираната хоризонтална линия на дендрограмата показва рескалираното разстояние, при което са формирани клъстерите. В полето Icicle (висяща диаграма) с All clusters се определя диаграмата да обхване всички клъстери, със Specified range of clusters може да се уточни диапазона от клъстери, а с None се отказваме от висяща диаграма. 21

Когато се щракне на Method в прозореца Hierarchical Cluster Analysis се открива следния диалогов прозорец: Тук най-напред с Cluster Method се определя клъстерния метод, който ще се ползва. Всеки от тези методи води до различна клъстеризация. За нашия пример извършваме йерархична клъстеризация посредством метода на средното свързване между групите (Between-groups Linkage). В полето Measure (мярка) трябва да се определи мярката за сходство, т.е. методът за измерване на подобие или различие между единиците. Тя се избира в зависимост от скалата на измерване на използваните променливи дали е интервална (Interval), категорийна (Counts) или дихономна (Binary). За нашия пример използваме Квадратично евклидово разстояние. 22

Резултати В Таблица Case Processing Summary е представено резюме за случаите, т.е. налични, липсващи и общо стойности. Case Processing Summary(a) Cases Valid Missing Total N Percent N Percent N Percent 7 100,0 0,0 7 100,0 a Average Linkage (Between Groups) В Таблица Proximity Matrix, която е получена директно със SPSS е представена матрицата, която съдържа квадратичните евклидови разстояния (Squared Euclidean Distance) с измерител на различие по данните от примера. 23

Proximity Matrix Case Squared Euclidean Distance 1 2 3 4 5 6 7 1,000 161169,931 230196,576 674488,593 3781328,705 3633840,451 9195794,008 2 161169,931,000 42154,582 344379,088 2653215,196 2731459,825 7490302,184 3 230196,576 42154,582,000 152904,699 2241708,704 2206177,741 6768568,041 4 674488,593 344379,088 152904,699,000 1398061,171 1244224,157 5140974,232 5 3781328,705 2653215,196 2241708,704 1398061,171,000 207861,100 1260287,862 6 3633840,451 2731459,825 2206177,741 1244224,157 207861,100,000 1457084,166 7 9195794,008 7490302,184 6768568,041 5140974,232 1260287,862 1457084,166,000 This is a dissimilarity matrix Например квадратичното разстояние между първите две години се получава по следния начин: p E2 2 il = ( ij lj ) j= 1 s X X, i, l= 1,..., n. s 12 = (160,065-68,912) 2 + (602,776-490,479) 2 + (2 559,476-2 731,686) 2 + (1692,270-2021,634) 2 + ( 316,380-362,353) 2 = 161 169,931. 24

Година Нетна печалба Собствен капитал Активи Клиентски депозити Кредити X i1 X i2 X i3 X i4 X i5 1 2000 160,065 602,776 2 559,476 1 692,270 316,380 2 2001 68,912 490,479 2 731,686 2 021,634 362,353 3 2002 79,130 513,249 2 721,980 2 049,957 563,935 4 2003 89,752 550,026 2 825,439 2 177,781 916,634 5 2004 86,279 574,112 3 614,696 2 917,169 1 393,968 6 2005 96,116 609,609 3 474,829 2 618,771 1 706,858 7 2006 120,654 630,781 4 346,594 3 336,875 2 131,577 Разглеждаме по-подробно процеса на йерархична клъстеризация по метода на средното свързване между групите, след като сме получили матрицата на разстоянията. 2000 2001 2002 2003 2004 2005 2006 2000 0,000 161 169,931 230 196,576 674 488,593 3 781 328,705 3 633 840,451 9 195 794,008 2001 161 169,931 0,000 42 154,582 344 379,088 2 653 215,196 2 731 459,825 7 490 302,184 2002 230 196,576 42 154,582 0,000 152 904,699 2 241 708,704 2 206 177,741 6 768 568,041 2003 674 488,593 344 379,088 152 904,699 0,000 1 398 061,171 1 244 224,157 5 140 974,232 2004 3 781 328,705 2 653 215,196 2 241 708,704 1 398 061,171 0,000 207 861,100 1 260 287,862 2005 3 633 840,451 2 731 459,825 2 206 177,741 1 244 224,157 207 861,100 0,000 1 457 084,166 2006 9 195 794,008 7 490 302,184 6 768 568,041 5 140 974,232 1 260 287,862 1 457 084,166 0,000 На първия етап от клъстеризацията се обединяват втората и третата година, защото разстоянието между тях е най-малко s 23 = 42 154,582. Размерността на матрицата с разстоянията се редуцира с единица и има следните елементи: 25

2000 2001,2002 2003 2004 2005 2006 2000 0,000 391 366,507 674 488,593 3 781 328,705 3 633 840,451 9 195 794,008 2001,2002 391 366,507 0,000 497 283,787 4 894 923,900 4 937 637,566 14 258 870,226 2003 674 488,593 497 283,787 0,000 1 398 061,171 1 244 224,157 5140 974,232 2004 3 781 328,705 4 894 923,900 1 398 061,171 0,000 207 861,100 1 260 287,862 2005 3 633 840,451 4 937 637,566 1 244 224,157 207 861,100 0,000 1 457 084,166 2006 9 195 794,008 14 258 870,226 5 140 974,232 1 260 287,862 1 457 084,166 0,000 На следващия етап се обединяват първия и втория клъстер (2000 и 2001,2002) защото се получава най-малко средно разстояние: s 12 = 391 366,507/2 = 195 683,253. Размерността на матрицата с разстоянията отново се редуцира с единица: 2000,2001,2002 2003 2004 2005 2006 2000,2001,2002 0,000 1 171 772,381 8 676 252,605 8 571 478,016 23 454 664,234 2003 1 171 772,381 0,000 1 398 061,171 1 244 224,157 5 140 974,232 2004 8 676 252,605 1 398 061,171 0,000 207 861,100 1 260 287,862 2005 8 571 478,016 1 244 224,157 207 861,100 0,000 1 457 084,166 2006 23 454 664,234 5 140 974,232 1 260 287,862 1 457 084,166 0,000 На третия етап се обединяват третия и четвъртия клъстер (2004 и 2005), където: s 34 = 207 861,100. 2000,2001,2002 2003 2004,2005 2006 2000,2001,2002 0,000 1 171 772,381 17 247 730,621 23 454 664,234 2003 1 171 772,381 0,000 2 642 285,328 5 140 974,232 2004,2005 17 247 730,621 2 642 285,328 0,000 2 717 372,028 2006 23 454 664,234 5 140 974,232 2 717 372,028 0,000 26

При следващия етап обединяваме първи и втори клъстер (2000,2001,2002 и 2003 година). При този случай s 12 = 1 171 772,381/3 = 390 590,794. 2000, 2001, 2002, 2003 2004, 2005 2006 2000, 2001, 2002, 2003 0,000 19 890 015,949 28 595 638,465 2004, 2005 19 890 015,949 0,000 2 717 372,028 2006 28 595 638,465 2 717 372,028 0,000 На петия етап обединяваме втория и третия клъстер, т.е. 2004, 2005 и 2006, където средното разстояние е най-малко: s 23 = 2 717 372,028/2 = 1 358 686,014. 2000, 2001, 2002, 2003 2004, 2005, 2006 2000, 2001, 2002, 2003 0,000 48 485 654,415 2004, 2005, 2006 48 485 654,415 0,000 На последния етап обединяваме останалите два клъстера, където средното разстояние е s 12 = 48 485 654,415/12= 4 040 471,201. 27

Резултатите от различните етапи на йерархичната клъстеризация в SPSS се обобщават и извеждат в таблица, която се нарича агломеративна схема (Agglomeration Schedule). Agglomeration Schedule Stage Cluster Combined Coefficients Stage Cluster First Appears Next Stage Cluster 1 Cluster 2 Cluster 1 Cluster 2 1 2 3 42154,582 0 0 2 2 1 2 195683,253 0 1 4 3 5 6 207861,100 0 0 5 4 1 4 390590,794 2 0 6 5 5 7 1358686,014 3 0 6 6 1 5 4040471,201 4 5 0 При агломеративната схема в първата колона Stage са посочени номерата на отделните етапи. Като при последния етап са обединени всички изследвани обекти в един клъстер. В общия случай те са n-1. В колоните с общо заглавие Cluster Combined са посочени номерата на клъстерите, които се обединяват на отделните 28

етапи. Например при първия етап са обединени втория и третия клъстер. В колоната Coefficients са дадени осреднените разстояния, при които се обединяват клъстерите. Като тези коефиценти зависят от избрания метод за формиране на клъстера. Показателите в тази колона могат да се използват за приблизителна оценка на степента на еднородност на клъстерите, които се формират на всеки етап. В колоните със заглавие Stage Cluster First Appears са посочени етапите, в които съответните клъстери са се появили за първи път, а в колоната Next Stage е изведен номерът на етапа, в който съответният клъстер ще се появи следващия път при обединение с друг клъстер. Например на първия етап при обединението на втория и третия клъстер се създава нов, на който присвояваме номер 2. Създаденият клъстер 2 се обединява с клъстер 1 на втория етап и т.н. Резултатите от различните етапи на йерархичната клъстеризация могат да се илюстрират и с т.нар. висяща диаграма (Icicle Plot). Тя може да бъде вертикална или хоризонтална. На фигурата е представена вертикалната висяща диаграма на резултатите от клъстеризацията на годините на развитие на UniCredit Bulbank. 29

Всеки ред във вертикалната висяща диаграма (Vertical Icicle) съответства на броя на възможните клъстери. В общия случай те са n-1. За всяка единица съответства отделна колона, която е запълнена до последния ред. Между отделните колони, съответстващи на единиците, има други колони, които са запълнени до определена единица. Диаграмата се разглежда отдолу нагоре. Например при 6 клъстера са обединени 2001 и 2002 година колоната между тях е запълнена до последния ред. При 5 клъстера към 2001 и 2002 се присъединява и 2000 година. Колоната между 2000 и 2001 е до 5 единици запълнена и т.н. 30

За графична визуализация на резултатите от йерархичната клъстеризация може да се използва и т.нар. дендрограма (dendrogram). Пунктираната вертикарна линия на дендрограмата показва рескалираното разстояние, при което са формирани клъстерите. Наймалкото разстояние в случая 42 154,582 отговаря на 1, а най-голямото 4 040 471,201 на 25. 31

Дендрограмата позволява да се формулират следните резултати: 2000, 2001 и 2002 година са обединени в общ клъстер при сравнително малко разстояние, т.е. клъстерът е относително еднороден; 2003 година образува отделен клъстер, който в последствие се присъединява към клъстера на 2000, 2001 и 2002 с относително еднакви показатели и почти двойно кредити; 2004 и 2005 година формират отделен клъстер и се обединяват със собствения клъстер на 2006, които са на значително разстояние от останалите. Те са с относително по-високи стойности на всички основни показатели, особено за 2006 година. Забелязва се, че резултатите получени от йерархичния клъстерен анализ съвпадат с тези получени от клъстерния анализ с K-средни величини при промяна на центровете на клъстерите след присъединяването на всеки обект към даден клъстер. 32

ПРИЛОЖЕНИЕ НА КЛЪСТЕРЕН АНАЛИЗ КЪМ РЕАЛНИ ИЗВАДКИ I От маркетингова гледна точка при сегментиране на крайните потребители от голямо значение може да се окаже психологическият критерий, характеризиращ духовното състояние на потребителите отношение към продукта, предпочитания, търсене на лични изгоди при покупка, възприемане и лична представа за продукта, мнения, интереси и др. За целите приложение на клъстеризацията за статистически изследвания в икономиката анализираме проучване под формата на анкета сред 55 потребители по 10 въпроса относно влиянието, което им оказват различните начини за реклама. Файлът с данни се състои от 11 качествени променливи величини, които изкуствено са превърнати в количествени. Ще извършим клъстеризация и ще сегментираме обследваните лица по техните специфични възприемания на рекламите с цел определяне на целеви групи. Йерархичният клъстерен анализ се провежда на 2 етапа. Резултатът на първия етап е броя на клъстерите, на които следва да разделим изследваната извадка от 33

анкетирани. На втория етап извършваме собствено клъстеризационно наблюдение като използваме броя на клъстерите, които сме определили на първия етап. Сега разглеждаме последователно тези стъпки на клъстерния анализ. За практически цели нито висящата диаграма, нито дендрограмата ни вършат работа, затова единствено значение за нас на първия етап има таблицата Average Linkage (Between Groups). На основание на тази таблица ние трябва да определим броя на клъстерите. 34

По таблицата Agglomeration Schedule с резултата от клъстеризацията, следва да определим на колко етапа протича процеса на обединение на клъстерите (колонка Stage). Търсим къде става първият сравнително голям скок в коефициентите на агломерация (колона Coefficient). Скокът в данните показва колко близо (на достатъчно малко разстояние) един от друг се намират клъстерите обединяващи наблюденията. Частично резултатът е даден в Таблица Agglomeration Schedule. В нашия случай коефицентите бавно нарастват от 2 до 19,500, така до стъпка 46 съществува малка разлика между отделните коефиценти. Започвайки с 47 се появява първият съществен скок в коефицентите: от 19,500 до 21,148. Сега, за да определим оптималния брой клъстери е необходимо да извадим номера на получения етап от общия брой наблюдения. Общият брой на извадката в нашия случай е 55 човека. Следователно броят на клъстерите е 55 47 = 8. 35

Agglomeration Schedule Stage Cluster Combined Coefficients Stage Cluster First Appears Next Stage Cluster 1 Cluster 2 Cluster 1 Cluster 2 1 5 8 2,000 0 0 5 2 42 47 3,000 0 0 15 3 21 23 3,000 0 0 22 4 1 27 4,000 0 0 13 46 20 30 19,500 39 0 47 47 1 20 21,148 43 46 50 48 4 12 22,757 41 45 51 49 3 6 25,240 44 42 52 50 1 10 27,786 47 8 52 51 4 9 29,368 48 0 53 52 1 3 30,987 50 49 54 53 4 48 32,550 51 35 54 54 1 4 33,189 52 53 0 36

Получихме доста голямо число за клъстерите, което ще доведе до сложна интерпретация. Ето защо сега ще изследваме получените клъстери и ще определим кои от тях са значими и ако е нужно ще се опитаме да ги намалим. Отваряме отново главния диалогов прозорец за йерархичен клъстерен анализ. В полето за анализиране на променливите в нашия случай вече има 11 параметъра. Щракаме на Save и се открива прозорец, позволяващ да създадем за изходния файл с данни нова променлива, разпределяща респондентите на целеви групи. Избираме Single Solution и указваме в съответното поле необходимия брой клъстери 8 (определено на първия етап на клъстерния анализ). Избираме Continue и се връщаме в главния диалогов прозорец, където щракаме на OK, за да напуснем процедурата. 37

За да установим до колко вярно сме определили броя на клъстерите ще направим линейно разпределение на променливата CLU8_1 от Analyze Descriptive Statistics Frequencies. Average Linkage (Between Groups) Frequency Percent Valid Percent Valid 1 21 38,2 38,2 38,2 2 5 9,1 9,1 47,3 3 14 25,5 25,5 72,7 4 5 9,1 9,1 81,8 5 1 1,8 1,8 83,6 6 2 3,6 3,6 87,3 7 5 9,1 9,1 96,4 Cumulative Percent 8 2 3,6 3,6 100,0 Total 55 100,0 100,0 38

Както е видно на Таблица Average Linkage за клъстери 2 и от 4 до 8 числата за честота са от 1 до 5. Нерядко с този универсален метод определяме оптималния брой клъстери. По таблицата се вижда, че при това условие попадат единствено клъстери с номера 1 и 3. Ето защо сега е необходимо да преизчислим клъстерния анализ като въведем двуклъстерно решение, понеже само за два клъстера броят на респондентите се оказва значим. Сега по същия начин създаваме нова променлива clu2_1. Average Linkage (Between Groups) Frequency Percent Valid Percent Cumulative Percent Valid 1 33 60,0 60,0 60,0 2 22 40,0 40,0 100,0 Total 55 100,0 100,0 Построяваме разпределение по променливата clu2_1. Както се вижда от Таблица Average Linkage, двуклъстерното решение има статистически и практически значим брой респонденти за всеки от двата сформирани клъстера: в клъстер 1 33 респондента и в клъстер 2 22. И така ние определихме оптималния брой клъстери за нашата задача и извършихме сегментиране на респондентите по 11 избрани критерия. Сега можем да считаме основната цел на нашата задача за постиганата и да 39

пристъпим към етапа за завършване на клъстерния анализ интерпретации на получените целеви групи. За да опишем получените целеви сегменти трябва да се възползваме от процедурата за сравнение на средните значения на изследваните променливи (клъстерните центроиди). Ще сравним средните значения по собствена преценка за критерий за сегментиране за всеки от двата получени клъстера. Процедурата за сравнение на средните значения може да се види от Analyze Compare Means Means. В открития диалогов прозорец от левия списък избираме единадесетте променливи, които определихме в качеството на критерии за сегментиране и ги пренасяме в списъка за зависими променливи Dependent List. След това променливата clu2_1, отразяваща разпределението на респондентите по клъстери при окончателното (двуклъстерно) 40

решение, преместваме от левия списък в полето за независими променливи Independent List. След това щракаме на бутона Options. В открития диалогов прозорец Options избираме необходимите статистики за сравнение на клъстерите. Затова в полето Cell Statistics трябва да въведем само средното значение Mean, и махаме от него останалите статистики, установени по подразбиране. Затваряме диалоговия прозорец като щракаме на полето Continue. Накрая от главния диалогов прозорец на Means стартираме процедурата по сравнение на средните значение щракайки на OK. 41

Как SPSS разделя респондентите на два клъстера: Mean Average Linkage (Between Groups) Телевизионна реклама Реклама във вестниците и списанията Реклама по радиото Листовки по пощата Билбордове 1 2,00 2,36 2,67 2,03 2,45 2 2,41 3,18 3,55 3,55 3,55 Total 2,16 2,69 3,02 2,64 2,89 Average Linkage (Between Groups) Статия в печата Банер в сайт, реклама по e- mail Интернет информация Рекламира я известно лице Томбола Вашата възраст е: 1 2,15 2,76 1,58 2,97 2,61 2,30 2 3,27 3,50 2,77 2,95 2,68 4,00 Total 2,60 3,05 2,05 2,96 2,64 2,98 Клъстер 1 се състои от респонденти, на които интернет информацията влияе в значителна степен. Телевизионна реклама, листовки по пощата, статия в печата, реклама във вестници и списания и билбордове им се отразяват също, но само понякога. А реклами по радиото, e-mail, както и това, че се рекламира от известно 42

лице или има томбола не биха могли да им повлияят при избора за закупуване на стока или услуга. Забелязва се, че този клъстер се състои от по-млади потребители. Клъстер 2 включва обследвани лица на средна възраст, на които по-трудно би им повлияла реклама. Но общо взето на тях най-силно им въздейства телевизионната реклама. Като цяло може да се каже, че всички потребителите най-много се влияят от телевизионна реклама и интернет информация. Идентифицирахме два значими клъстера, различаващи се по влияние от рекламна дейност. Сега можем да отбележим за получените клъстери, че първият е на респонденти, които са сравнително млади и в по-голяма степен се влияят от рекламите, а втория анкетирани на средна възраст, на които рекламната дейност не въздейства. Успешно завършихме всички етапи на клъстерния анализ и сегментирахме потребителите по отбелязаните критерии. Но за сравнение може да извършим и K- means клъстерен анализ, като изискваме клъстерите да са два. При първия вариант не е избрана опцията Use running means, където центровете на клъстерите се изчисляват след като бъдат присъединени всички обекти към даден клъстер. При 43

втория начин е избрано центровете на клъстерите да се променят след присъединяването на всеки обект. Тук отново първият получен клъстер е на по-младите, а вторият на хората около 50 години. Ясно се вижда, че резултатите са абсолютно еднакви помежду си и при двете процедури на К-средните величини, както и че са близки в сравнение с йерархичния клъстерен анализ. Final Cluster Centers Final Cluster Centers Cluster 1 2 Телевизионна реклама 2,13 2,2 Реклама във вестниците и списанията 2,8 2,56 Реклама по радиото 3,2 2,8 Листовки по пощата 2,43 2,88 Билбордове 2,47 3,4 Статия в печата 2,43 2,8 Банер в сайт, реклама по e-mail 2,67 3,52 Интернет информация 1,43 2,76 Рекламира я известно лице 3,17 2,72 Томбола 2,43 2,88 Вашата възраст е: 1,73 4,48 Cluster 1 2 Телевизионна реклама 2,13 2,2 Реклама във вестниците и списанията 2,8 2,56 Реклама по радиото 3,2 2,8 Листовки по пощата 2,42 2,88 Билбордове 2,47 3,4 Статия в печата 2,43 2,8 Банер в сайт, реклама по e-mail 2,67 3,52 Интернет информация 1,47 2,76 Рекламира я известно лице 3,17 2,72 Томбола 2,43 2,88 Вашата възраст е: 1,73 4,48 44

Видно е, че в случая няма разлика между двете процедури. Но често, ако погледнем и сравним принадлежността на анкетираните към отделните клъстери при двата начина, ще видим че при едни и същи данни се получават различни крайни резултати в зависимост от избраната процедура. Затова при анализиране на резултатите е нужно да се посочи процедурата на клъстеризация. 45

ПРИЛОЖЕНИЕ НА КЛЪСТЕРЕН АНАЛИЗ КЪМ РЕАЛНИ ИЗВАДКИ II Изследвани са 506 улици в региона на град Бостън. Файлът, с който си служим е Boston.sav Променливите, които ще участват в класификацията на данните са: CRIM процент на престъпност на глава от населението за града ZN дял на жилищните парцели зонирани на повече от 25 000 кв. фута INDUS дял на бизнес земите за града NOX концентрация на азотни оксиди (дял на 10 милиона) RM среден брой стаи на жилището AGE дял на обитаваните от собствениците си жилища, построени преди 1940 г. DIS претеглени разстояния до пет работни центрове на Бостън RAD индекс на достъпност до радиални магистрали TAX данъчна ставка на имота за 10 000 долара 46

PT съотношение ученик учител за град LSTAT % от населението с по-нисък статус MV средна стойност на жилища, обитавани от собствениците им в хиляди долара 1. Йерархичен клъстерен анализ Провеждаме анализ като използваме клъстерния метод на средното свързване между групите и квадратично евклидово разстояние за мярка за сходство. Analyze Classify Hierarchical Cluster По таблицата Agglomeration Schedule за оптимален брой клъстери определяме те да са три. 47

... Създаваме новата променлива с принадлежността на всеки обект към клъстер и правим линейно разпределение. Analyze Descriptive Statistics Frequencies 48

От таблица Average Linkage е видно, че и в четирите клъстера броят на наблюденията се оказва значим. Продължаваме анализа със сравнение на средните значения. Analyze Compare Means Means 49

2. K-means клъстерен анализ За сравнение извършваме и K-means клъстерен анализ, като изискваме клъстерите да са четири. Таблиците са съответно без (центровете на клъстерите се изчисляват след като бъдат присъединени всички обекти към даден клъстер) и с (центровете на клъстерите да се променят след присъединяването на всеки обект) избрана опцията Use running means. 50

Изготвил: гл. ас. д-р Десислава Стоянова Войникова катедра Приложна математика и моделиране ФМИ, ПУ Паисий Хилендарски 51