Հասկանալով ներկլաստերային հեռավորությունը, միջկլաստերային հեռավորությունը և Դուն-Ինդեքսը. համապարփակ ուղեցույց

Կլաստերավորման չափումների ապամիստիկացում. ներկլաստերի հեռավորության, միջկլաստերի հեռավորության և Dun-ինդեքսի գործնական օրինակներ տվյալների արդյունավետ վերլուծության համար

Ներածություն:

Կլաստերավորումը՝ տվյալների վերլուծության հիմնարար տեխնիկան, վճռորոշ դեր է խաղում տվյալների հավաքածուներում թաքնված օրինաչափությունների և պատկերացումների բացահայտման գործում: Խոշոր և բարդ տվյալների հավաքածուների հետ գործ ունենալիս կարևոր է դառնում գնահատել կլաստերի ալգորիթմների որակն ու արդյունավետությունը: Սա այն վայրն է, որտեղ չափիչները, ինչպիսիք են ներկլաստերի հեռավորությունը, միջկլաստերային հեռավորությունը և Dun-Index-ը, ուժի մեջ են մտնում:

Այս համապարփակ ուղեցույցում մենք կսուզվենք դեպի կլաստերի չափման աշխարհ՝ ուսումնասիրելով ներկլաստերի հեռավորությունը, միջկլաստերային հեռավորությունը և Dun-Index հասկացությունները: Մենք կբացահայտենք դրանց նշանակությունը կլաստերավորման արդյունքները գնահատելու, դրանց հաշվարկման մեթոդները հասկանալու և ինչպես դրանք կարող են օգտագործվել տվյալների վերլուծությունը բարելավելու համար:

Այս հոդվածի ընթացքում մենք գործնական մոտեցում կցուցաբերենք՝ տրամադրելով ինտուիտիվ բացատրություններ և օրինակներ, որոնք կօգնեն ձեզ արդյունավետ կերպով ըմբռնել այս հասկացությունները: Ի վերջո, դուք հստակ կհասկանաք, թե ինչպես են այս չափումները նպաստում կլաստերի ալգորիթմների գնահատմանը և օպտիմալացմանը՝ հնարավորություն տալով ձեզ արժեքավոր պատկերացումներ կորզել ձեր տվյալներից:

Ներկլաստերի հեռավորությունը

Այն վերաբերում է նույն կլաստերի մեջ տվյալների կետերի միջին հեռավորությանը: Այլ կերպ ասած, այն չափում է տվյալների կետերի կոմպակտությունը կամ համախմբվածությունը կլաստերի ներսում: Որքան փոքր է միջկլաստերի հեռավորությունը, այնքան ավելի նման և սերտորեն փաթեթավորված են տվյալների կետերը կլաստերի ներսում: Ներկլաստերի հեռավորությունը սովորաբար հաշվարկվում է որպես միջին կամ առավելագույն հեռավորությունը կլաստերի բոլոր զույգ տվյալների կետերի միջև:

Դիտարկենք մի պարզ օրինակ՝ երեք տվյալների կետերով կլաստերի համար ներկլաստերի հեռավորությունը հաշվարկելու համար: Ենթադրենք, էվկլիդեսյան հեռավորությունը օգտագործվում է որպես հեռավորության չափիչ:

Տվյալների կետերի կոորդինատները հետևյալն են.

A: (2, 4)
B: (3, 5)
C: (5, 7)

Ներկլաստերի հեռավորությունը հաշվարկելու համար կարող եք հաշվարկել միջին հեռավորությունը կլաստերի բոլոր զույգ տվյալների կետերի միջև: Այս դեպքում մենք ունենք երեք զույգ՝ (A, B), (A, C) և (B, C):

Հաշվենք հեռավորությունները.

Distance between A and B:

(x_A - x_B)^2 + (y_A - y_B)^2
(2 - 3)^2 + (4 - 5)^2
1^2 + (-1)^2
1 + 1
2

Distance between A and C:

(x_A - x_C)^2 + (y_A - y_C)^2
(2 - 5)^2 + (4 - 7)^2
(-3)^2 + (-3)^2
9 + 9
18

Distance between B and C:

(x_B - x_C)^2 + (y_B - y_C)^2
(3 - 5)^2 + (5 - 7)^2
(-2)^2 + (-2)^2
4 + 4
8

Այժմ մենք կարող ենք հաշվարկել միջին հեռավորությունը.

Միջին հեռավորությունը = (2 + 18 + 8) / 3 = 28 / 3 ≈ 9,333

Հետևաբար, այս կլաստերի ներկլաստերի հեռավորությունը մոտավորապես 9,333 է՝ հիմնված Էվկլիդեսյան հեռավորության չափման վրա:

Մենք կարող ենք նաև դիտարկել ներկլաստերի հեռավորությունը որպես առավելագույն հեռավորություն կլաստերի բոլոր զույգ տվյալների կետերի միջև:

Ապա այդ դեպքում ներկլաստերի հեռավորությունը կլինի.

Առավելագույն հեռավորությունը = max(2, 18, 8) = 18

Հետևաբար, կլաստերի ներսում գտնվող բոլոր զույգ տվյալների կետերի միջև առավելագույն հեռավորությունը օգտագործող ներկլաստերի հեռավորությունը 18 է:

Միջկլաստերային հեռավորություն

Այն վերաբերում է կլաստերային լուծույթում տարբեր կլաստերների միջև միջին հեռավորությանը: Այն չափում է կլաստերների միջև տարանջատումը կամ տարբերությունը: Որքան մեծ է միջկլաստերի հեռավորությունը, այնքան ավելի հստակ և լավ առանձնացված են կլաստերները միմյանցից: Միջկլաստերի հեռավորությունը սովորաբար հաշվարկվում է որպես հեռավորություն կլաստերների կենտրոնական կետերի (միջին կամ կենտրոնական կետեր) միջև կամ որպես տարբեր կլաստերների տվյալների կետերի միջև նվազագույն հեռավորություն:

Եկեք դիտարկենք մի սցենար, որտեղ մենք ունենք երեք կլաստեր՝ Կլաստեր 1, Կլաստեր 2 և Կլաստեր 3, յուրաքանչյուրն իր համապատասխան կենտրոնաձևերով:

Cluster 1 centroid: (2, 4)
Cluster 2 centroid: (6, 8)
Cluster 3 centroid: (10, 12)

Եկեք հաշվարկենք միջկլաստերի հեռավորությունը որպես կլաստերների կենտրոնական կետերի (միջին կամ կենտրոնական կետեր) միջև հեռավորություն, մենք կօգտագործենք Էվկլիդեսյան հեռավորության չափիչը: Մենք հաշվարկելու ենք յուրաքանչյուր զույգ կլաստերային կենտրոնների միջև հեռավորությունը:

Distance between Cluster 1 and Cluster 2:
sqrt((x2 - x1)^2 + (y2 - y1)^2)
sqrt((6 - 2)^2 + (8 - 4)^2)
sqrt(4^2 + 4^2)
sqrt(16 + 16)
sqrt(32)
Inter-cluster distance between Cluster 1 and Cluster 2 ≈ 5.657


Distance between Cluster 1 and Cluster 3:
sqrt((x2 - x1)^2 + (y2 - y1)^2)
sqrt((10 - 2)^2 + (12 - 4)^2)
sqrt(8^2 + 8^2)
sqrt(64 + 64)
sqrt(128)
Inter-cluster distance between Cluster 1 and Cluster 3 ≈ 11.314


Distance between Cluster 2 and Cluster 3:
sqrt((x2 - x1)^2 + (y2 - y1)^2)
sqrt((10 - 6)^2 + (12 - 8)^2)
sqrt(4^2 + 4^2)
sqrt(16 + 16)
sqrt(32)
Inter-cluster distance between Cluster 2 and Cluster 3 ≈ 5.657

Այսպիսով, միջկլաստերային հեռավորությունները մոտավորապես հետևյալն են.

Կլաստեր 1-ի և Կլաստեր 2-ի միջև միջկլաստերի հեռավորությունը ≈ 5,657
Կլաստեր 1-ի և Կլաստեր 3-ի միջև միջկլաստերի հեռավորությունը ≈ 11,314
Կլաստեր 2-ի և Կլաստեր 3-ի միջև միջկլաստերի հեռավորությունը ≈ 5,657

Այժմ հաշվարկեք միջկլաստերի հեռավորությունը որպես տարբեր կլաստերների տվյալների կետերի միջև նվազագույն հեռավորություն:

Եկեք դիտարկենք երկու կլաստերներով սցենար՝ Կլաստեր 1 և Կլաստեր 2

Cluster 1: [(2, 4), (3, 5)]
Cluster 2: [(6, 8), (7, 9)]

Մենք կհաշվարկենք միջկլաստերի հեռավորությունը՝ օգտագործելով Էվկլիդեսյան հեռավորության չափիչը:

Distance between (2, 4) and (6, 8):

sqrt((6 - 2)^2 + (8 - 4)^2)
sqrt(16 + 16)
sqrt(32) ≈ 5.657


Distance between (2, 4) and (7, 9):

sqrt((7 - 2)^2 + (9 - 4)^2)
sqrt(25 + 25)
sqrt(50) ≈ 7.071


Distance between (3, 5) and (6, 8):

sqrt((6 - 3)^2 + (8 - 5)^2)
sqrt(9 + 9)
sqrt(18) ≈ 4.243


Distance between (3, 5) and (7, 9):

sqrt((7 - 3)^2 + (9 - 5)^2)
sqrt(16 + 16)
sqrt(32) ≈ 5.657

Բոլոր զույգերի միջև նվազագույն հեռավորությունը 4,243 է:

Հետևաբար, 1-ին և կլաստեր 2-ի միջև միջկլաստերային հեռավորությունը, օգտագործելով տվյալների կետերի միջև նվազագույն հեռավորությունը, 4,243 է:

Ե՛վ ներկլաստերային հեռավորությունը, և՛ միջկլաստերային հեռավորությունը վճռորոշ դեր են խաղում կլաստերի ալգորիթմներում: Կլաստերավորման նպատակն է նվազագույնի հասցնել ներկլաստերի հեռավորությունը՝ միաժամանակ առավելագույնի հասցնելով միջկլաստերի հեռավորությունը: Սա ապահովում է, որ նույն կլաստերի մեջ գտնվող տվյալների կետերը նման են միմյանց, մինչդեռ տարբեր կլաստերները տարբերվում են միմյանցից: Օպտիմիզացնելով այս հեռավորությունները՝ կլաստերավորման ալգորիթմները նպատակ ունեն ձևավորել իմաստալից և լավ տարանջատված կլաստերներ՝ հիմնված տվյալների բնորոշ կառուցվածքի կամ նմանության վրա:

Դանի ինդեքս

Dunn Index-ը չափիչ է, որն օգտագործվում է կլաստերավորման արդյունքների որակը գնահատելու համար: Այն չափում է կլաստերների կոմպակտությունը (ներկլաստերի հեռավորությունը)՝ համեմատած կլաստերների միջև բաժանման հետ (միջկլաստերի հեռավորություն): Ավելի բարձր Dunn ինդեքսը ցույց է տալիս ավելի լավ կլաստերի արդյունքներ՝ լավ տարանջատված և կոմպակտ կլաստերներով:

Dunn Index-ը նպատակ ունի առավելագույնի հասցնել միջկլաստերի հեռավորությունը և նվազագույնի հասցնել ներկլաստերի հեռավորությունը:

Dunn ինդեքսը հաշվարկվում է հետևյալ բանաձևով.

Որտեղ:

d(i, j) -› ներկայացնում է i և j երկու կլաստերների միջև եղած հեռավորությունը

d’(k) -› ներկայացնում է առավելագույն հեռավորությունը կլաստերի ցանկացած երկու կետերի միջև

Dunn Index = min_intercluster_distance / max_intracluster_distance

որտեղ:

min_intercluster_distance. նվազագույն հեռավորությունը տարբեր կլաստերներից ցանկացած զույգ տվյալների կետերի միջև:

max_intracluster_distance.Միևնույն կլաստերի ցանկացած զույգ տվյալների կետերի միջև առավելագույն հեռավորությունը:

Պարզ բառերով ասած, Dunn Index-ը համեմատում է ամենափոքր հեռավորությունը երկու կլաստերների միջև՝ կլաստերի ներսում ամենամեծ հեռավորությամբ: Dunn Index-ի ավելի բարձր արժեքը ցույց է տալիս ավելի լավ կլաստերային լուծում ավելի հստակ և լավ տարանջատված կլաստերներով:

Դիտարկենք երեք կլաստերներից բաղկացած կլաստերի լուծման օրինակ՝ Կլաստեր 1, Կլաստեր 2 և Կլաստեր 3:

Դաննի ինդեքսը հաշվարկելու համար դուք պետք է հաշվարկեք միջկլաստերի նվազագույն հեռավորությունը և միջկլաստերի առավելագույն հեռավորությունը:

Նվազագույն միջկլաստերային հեռավորություն. Հաշվեք տարբեր կլաստերների տվյալների բոլոր զույգ կետերի միջև հեռավորությունը և գտեք նվազագույն հեռավորությունը: Ենթադրենք, դուք հաշվարկում եք հետևյալ հեռավորությունները.

Կլաստերի 1-ի և 2-րդ կլաստերի միջև հեռավորությունը՝ 4.5
Կլաստերի 1-ի և 3-րդ կլաստերի միջև հեռավորությունը՝ 3.2
Կլաստերի 2-ի և 3-րդ կլաստերի միջև հեռավորությունը՝ 5.1

Այս դեպքում միջկլաստերի նվազագույն հեռավորությունը 3.2. է

2. Առավելագույն ներկլաստերի հեռավորություն. Հաշվեք առավելագույն հեռավորությունը նույն կլաստերի ցանկացած զույգ տվյալների կետերի միջև: Ենթադրենք, յուրաքանչյուր կլաստերի մեջ գտնում եք հետևյալ հեռավորությունները.

Կլաստեր 1 ներկլաստերային հեռավորություն՝ 2.1
Կլաստեր 2 ներկլաստերային հեռավորություն՝ 1.8
Կլաստեր 3 ներկլաստերային հեռավորություն՝ 2.5

Այս դեպքում ներկլաստերի առավելագույն հեռավորությունը2,5 է

Այժմ դուք կարող եք հաշվարկել Dunn ինդեքսը.

Dunn Index = min_intercluster_distance / max_intracluster_distance 
Dunn Index = 3.2 / 2.5 
Dunn Index ≈ 1.28

Հետևաբար, այս կլաստերի լուծման համար Dunn ինդեքսը մոտավորապես 1,28 է

Եզրափակելով, ներկլաստերի հեռավորությունը, միջկլաստերային հեռավորությունը և Դաննի ինդեքսը կարևոր դեր են խաղում կլաստերի ալգորիթմների ըմբռնման և գնահատման գործում: Այս չափիչները արժեքավոր պատկերացումներ են տալիս կլաստերների կոմպակտության և տարանջատման վերաբերյալ՝ օգնելով գնահատել կլաստերի որակը:

Ներկլաստերային հեռավորությունը մեզ թույլ է տալիս չափել կլաստերի մեջ տվյալների կետերի համախմբվածությունը և խստությունը: Ներկլաստերային ավելի փոքր հեռավորությունը նշանակում է ավելի կենտրոնացված և լավ սահմանված կլաստեր, ինչը ցույց է տալիս, որ դրա ներսում գտնվող տվյալների կետերը նման են և սերտորեն կապված են:

Միջկլաստերի հեռավորությունը չափում է տարբեր կլաստերների բաժանումը: Ավելի մեծ միջկլաստերային հեռավորությունը ցույց է տալիս հստակ և լավ տարանջատված կլաստերներ՝ դրանց միջև նվազագույն համընկնմամբ: Այն արտացոլում է կլաստերների միջև եղած տարբերությունը և օգնում է բացահայտել իմաստալից սահմանները:

Dunn Index-ը համատեղում է ինչպես ներկլաստերի, այնպես էլ միջկլաստերի հեռավորությունները՝ ապահովելով կլաստերի որակի համապարփակ չափում: Առավելագույնի հասցնելով միջկլաստերի նվազագույն հեռավորությունը և նվազագույնի հասցնելով միջկլաստերի առավելագույն հեռավորությունը՝ Dunn Index-ը խրախուսում է լավ տարանջատված և կոմպակտ կլաստերներ:

Կլաստերավորման ալգորիթմները գնահատելիս, հաշվի առնելով այս չափումները, մեզ հնարավորություն է տալիս տեղեկացված որոշումներ կայացնել: Համեմատելով կլաստերի և միջկլաստերի հեռավորությունները և գնահատելով Dunn ինդեքսը, մենք կարող ենք ընտրել ալգորիթմներ և պարամետրերի կարգավորումներ, որոնք ավելի ցանկալի կլաստերային արդյունքներ են տալիս մեր հատուկ տվյալների տիրույթի և խնդրի տիրույթի համար:

Այնուամենայնիվ, կարևոր է նշել, որ կլաստերավորումը բարդ խնդիր է, և ոչ մի չափիչ չի կարող ընդգրկել կլաստերի որակի բոլոր ասպեկտները: Շատ կարևոր է լրացնել այս չափումները տիրույթի գիտելիքներով, վիզուալիզացիայի տեխնիկայով և գնահատման այլ միջոցներով՝ կլաստերի լուծման արդյունավետության համապարփակ պատկերացում ձեռք բերելու համար:

Երբ ավելի խորանաք կլաստերավորման աշխարհում, շարունակեք ուսումնասիրել տարբեր ալգորիթմներ, հեռավորության չափումներ և գնահատման մեթոդներ: Փորձերը, կրկնությունները և ձեր տվյալների խորը ըմբռնումը թույլ կտան բացել կլաստերի ամբողջ ներուժը և արդյունավետ կիրառել այն տարբեր տիրույթներում:

Եթե այս բլոգը ձեզ համար տեղեկատվական և օգտակար է ներկլաստերային հեռավորության, միջկլաստերային հեռավորության և Dunn ինդեքսի հասկացությունները հասկանալու համար, ես ձեզ հրավիրում եմ սեղմել ծափ կոճակը և բաժանորդագրվել ավելի խորաթափանց բովանդակության համար:

Հետևեք ավելի գրավիչ և գիտելիքներով հագեցած բովանդակությանը:

Ուրախ խմբավորում: .❤

թեմայի վերաբերյալ նյութեր:

Նոր նյութեր

Օգտագործելով Fetch Vs Axios.Js-ը՝ HTTP հարցումներ կատարելու համար

JavaScript-ը կարող է ցանցային հարցումներ ուղարկել սերվեր և բեռնել նոր տեղեկատվություն, երբ դա անհրաժեշտ լինի: Օրինակ, մենք կարող ենք օգտագործել ցանցային հարցումը պատվեր ներկայացնելու,..

Տիրապետել հանգստության արվեստին. մշակողի ուղեցույց՝ ճնշման տակ ծաղկելու համար

Տիրապետել հանգստության արվեստին. մշակողի ուղեցույց՝ ճնշման տակ ծաղկելու համար Ինչպե՞ս հանգստացնել ձեր միտքը և աշխատեցնել ձեր պրոցեսորը: Ինչպես մնալ հանգիստ և զարգանալ ճնշման տակ...

Մեքենայի ուսուցում բանկային և ֆինանսների ոլորտում

Բարդ, խելացի անվտանգության համակարգերը և հաճախորդների սպասարկման պարզեցված ծառայությունները բիզնեսի հաջողության բանալին են: Ֆինանսական հաստատությունները, մասնավորապես, պետք է առաջ մնան կորի..

Ես AI-ին հարցրի կյանքի իմաստը, այն ինչ ասում էր, ցնցող էր:

Այն պահից ի վեր, երբ ես իմացա Արհեստական ինտելեկտի մասին, ես հիացած էի այն բանով, թե ինչպես է այն կարողանում հասկանալ մարդկային նորմալ տեքստը, և այն կարող է առաջացնել իր սեփական արձագանքը դրա..

Ինչպես սովորել կոդավորումը Python-ում վագրի պես:

Սովորելու համար ծրագրավորման նոր լեզու ընտրելը բարդ է: Անկախ նրանից, թե դուք սկսնակ եք, թե առաջադեմ, դա օգնում է իմանալ, թե ինչ թեմաներ պետք է սովորել: Ծրագրավորման լեզվի հիմունքները, դրա..

C++-ի օրական բիթ(ե) | Ամենաերկար պալինդրոմային ենթաշարը

C++ #198-ի ամենօրյա բիթ(ե), Ընդհանուր հարցազրույցի խնդիր. Ամենաերկար պալինդրոմային ենթատող: Այսօր մենք կանդրադառնանք հարցազրույցի ընդհանուր խնդրին. Ամենաերկար palindromic substring...

Kydavra ICAReducer՝ ձեր տվյալների ծավալայինությունը նվազեցնելու համար

Ի՞նչ է ICAReducer-ը: ICAReducer-ն աշխատում է հետևյալ կերպ. այն նվազեցնում է նրանց միջև բարձր փոխկապակցված հատկանիշները մինչև մեկ սյունակ: Բավականին նման է PCAreducer-ին, չնայած այն..

Պիտակներ

Machine Learning JavaScript Data Science Artificial Intelligence Python Software Development Web Development Coding Deep Learning React AI Software Engineering Nodejs Typescript Java Javascript Tips Tech Algorithms Front End Development Programming Languages iOS Data Business NLP Development Reactjs Tutorial CSS Learning Swift Angular API Javascript Development Startup Android Computer Science Learning To Code Reinforcement Learning