Metodat hierarkike të analizës së grupimeve. I.A. Chubukova Leksion: Metodat e analizës së grupimeve. metodat përsëritëse. Internet University of Technology Information. Metoda e analizës së grupit të referencës për gjetjen e grumbullimeve

30.05.2020 Kushtet

Prezantimi

Termi analizë grupore, i prezantuar për herë të parë nga Tryon në 1939, përfshin më shumë se 100 algoritme të ndryshme.

Ndryshe nga problemet e klasifikimit, analiza e grupimeve nuk kërkon supozime apriori për grupin e të dhënave, nuk vendos kufizime në përfaqësimin e objekteve në studim dhe ju lejon të analizoni treguesit e llojeve të ndryshme të të dhënave (të dhënat e intervalit, frekuencat, të dhënat binare) . Duhet mbajtur mend se variablat duhet të maten në shkallë të krahasueshme.

analiza grupore ju lejon të zvogëloni dimensionin e të dhënave, t'i bëni ato vizuale.

Analiza e grupimeve mund të zbatohet në grupe seri kohore, këtu mund të dallohen periudhat e ngjashmërisë së disa treguesve dhe mund të përcaktohen grupet e serive kohore me dinamikë të ngjashme.

Analiza e grupeve është zhvilluar paralelisht në disa drejtime, si biologjia, psikologjia dhe të tjera, kështu që shumica e metodave kanë dy ose më shumë emra.

Detyrat e analizës së grupimeve mund të grupohen në grupet e mëposhtme:

Zhvillimi i një tipologjie ose klasifikimi.

Eksplorimi i skemave konceptuale të dobishme për grupimin e objekteve.

Paraqitja e hipotezave bazuar në kërkimin e të dhënave.

Testimi i hipotezave ose hulumtimi për të përcaktuar nëse llojet (grupet) të identifikuara në një mënyrë ose në një tjetër janë realisht të pranishme në të dhënat e disponueshme.

Si rregull, në përdorimin praktik të analizës së grupimeve, disa nga këto detyra zgjidhen njëkohësisht.

Qëllimi i mësimit

Marrja e aftësive në zbatimin praktik të metodave hierarkike dhe iterative të analizës së grupimeve.

Detyrë praktike

Zhvilloni algoritme për metodat e fqinjit të afërt dhe k-të mesme dhe t'i zbatojë ato në formën e programeve kompjuterike. Gjeneroni 50 implementime duke përdorur DNC x= (x 1 ,x 2) - një ndryshore e rastësishme 2-dimensionale, koordinatat e së cilës shpërndahen uniformisht në intervalin (3.8). Shpërndani ato duke përdorur programet e zhvilluara në numrin minimal të grupimeve, secila prej të cilave vendoset në një sferë me rreze 0,15.

Udhëzimet

Emri analizë grupore vjen nga fjala angleze cluster - grumbull, grumbullim.Analiza e grupeve është një klasë e gjerë e procedurave të analizës statistikore me shumë variacione që lejojnë grupimin e automatizuar të vëzhgimeve në klasa homogjene - grupime.

Grupi ka këto karakteristika matematikore:

shpërndarja e grupimeve;
devijimi standard.

Qendra e grupimit është vendndodhja e pikave në hapësirën e variablave.

Rrezja e grupit - distanca maksimale e pikave nga qendra e grupit.

Dispersioni i grupit është një masë e përhapjes së pikave në hapësirë në lidhje me qendrën e grupimit.

Devijimi standard (RMS) i objekteve në lidhje me qendrën e grupimit është rrënja katrore e variancës së grupimit.

Metodat e analizës së grupeve

Metodat e analizës së grupimeve mund të ndahen në dy grupe:

hierarkike;

johierarkike.

Secili grup përfshin shumë qasje dhe algoritme.

Duke përdorur metoda të ndryshme të analizës së grupimeve, një analist mund të marrë zgjidhje të ndryshme për të njëjtat të dhëna. Kjo konsiderohet normale.

Metodat hierarkike të analizës së grupimeve

Thelbi i grupimit hierarkik është bashkimi sekuencial i grupimeve më të vogla në grupime më të mëdha ose ndarja e grupimeve të mëdha në ato më të vogla.

Metodat hierarkike aglomerative(Folezimi aglomerativ, AGNES)

Ky grup metodash karakterizohet nga një kombinim i qëndrueshëm i elementeve fillestare dhe një ulje përkatëse në numrin e grupimeve.

Në fillim të algoritmit, të gjitha objektet janë grupime të veçanta. Në hapin e parë, objektet më të ngjashme kombinohen në një grup. Në hapat e mëpasshëm, bashkimi vazhdon derisa të gjitha objektet të formojnë një grup.

Metodat hierarkike të pjesëtueshme (të pjestueshme).(ANALIZË Ndarëse, DIANA)

Këto metoda janë e kundërta logjike e metodave aglomerative. Në fillim të algoritmit, të gjitha objektet i përkasin një grupi, i cili ndahet në grupime më të vogla në hapat pasues, si rezultat, formohet një sekuencë grupesh ndarëse.

Metodat e grupimit hierarkik ndryshojnë në rregullat për ndërtimin e grupimeve. Rregullat janë kriteret që përdoren kur vendoset për "ngjashmërinë" e objekteve kur ato kombinohen në një grup.

Masat e ngjashmërisë

Për të llogaritur distancën midis objekteve, përdoren masa të ndryshme ngjashmërie (masa të ngjashmërisë), të quajtura edhe metrikë ose funksione të distancës.

Distanca euklidianeështë një distancë gjeometrike në një hapësirë shumëdimensionale dhe llogaritet me formulën (4.1).

Distanca Euklidiane (dhe katrori i saj) llogaritet nga të dhënat origjinale, jo nga të dhënat e standardizuara.

Distanca Euklidiane në katror llogaritet me formulën (4.2).

(4.2)

Distanca e Manhatanit (distanca e bllokut të qytetit), e quajtur edhe distanca "hamming" ose "blloku i qytetit", llogaritet si mesatare e diferencave mbi koordinatat. Në shumicën e rasteve, kjo masë e distancës çon në rezultate të ngjashme me llogaritjet e distancës Euklidiane. Megjithatë, për këtë masë, efekti i jashtzave individuale është më i vogël se kur përdoret distanca Euklidiane, pasi këtu koordinatat nuk janë në katror. Distanca e Manhatanit llogaritet duke përdorur formulën (4.3).

(4.3)

Distanca Chebyshev duhet të përdoret kur është e nevojshme të përcaktohen dy objekte si "të ndryshëm" nëse ato ndryshojnë në një dimension. Distanca Chebyshev llogaritet me formulën (4.4).

(4.4)

Distanca e fuqisë përdoret kur dikush dëshiron të rrisë ose zvogëlojë në mënyrë progresive peshën në lidhje me një dimension për të cilin objektet përkatëse janë shumë të ndryshme. Distanca e fuqisë llogaritet me formulën (4.5).

(4.5)

ku r dhe p- parametrat e përcaktuar nga përdoruesi. Parametri fqështë përgjegjës për peshimin gradual të dallimeve mbi koordinatat individuale, parametri r për peshimin progresiv të distancave të mëdha ndërmjet objekteve. Nëse të dyja opsionet r dhe fq janë të barabarta me dy, atëherë kjo distancë përkon me distancën e Euklidit.

Përqindja e mosmarrëveshjeve përdoret kur të dhënat janë kategorike. Kjo distancë llogaritet me formulën (4.6).

(4.6)

Bashkojuni ose lidhni metodat

Në hapin e parë, kur çdo objekt është një grup i veçantë, distancat midis këtyre objekteve përcaktohen nga masa e zgjedhur. Megjithatë, kur shumë objekte janë të lidhura së bashku, duhet të përdoren metoda të tjera për të përcaktuar distancën midis grupimeve. Ka shumë mënyra për t'u bashkuar me grupe:

Lidhja e vetme (metoda e fqinjit më të afërt) - distanca midis dy grupimeve përcaktohet nga distanca midis dy objekteve më të afërta (fqinjët më të afërt) në grupime të ndryshme.

Lidhja e plotë (metoda e fqinjëve më të largët) - distancat midis grupimeve përcaktohen nga distanca më e madhe midis çdo dy objekti në grupime të ndryshme (d.m.th. "fqinjët më të largët").

Mesatarja e papeshuar në çift - distanca midis dy grupimeve të ndryshme llogaritet si distanca mesatare midis të gjitha palëve të objekteve në to.

Mesatarja e ponderuar në çift - metoda është identike me metodën mesatare e papeshuar në çift, përveç se madhësia e grupimeve përkatëse (d.m.th., numri i objekteve që ato përmbajnë) përdoret si faktor peshimi në llogaritjet.

Metoda centroide e papeshuar - distanca midis dy grupimeve përcaktohet si distanca midis qendrave të tyre të gravitetit.

Metoda centroide e ponderuar (mediane) - metoda është identike me metodën centroide të papeshuar, përveç që peshat përdoren në llogaritjet për të marrë parasysh ndryshimin midis madhësive të grupimeve (d.m.th., numri i objekteve në to).

Metoda e Ward - distanca midis grupimeve përcaktohet si rritja e shumës së distancave në katror të objekteve në qendrat e grupimeve, e marrë si rezultat i bashkimit të tyre. Metoda është e ndryshme nga të gjitha metodat e tjera sepse përdor metoda ANOVA për të vlerësuar distancat midis grupimeve. Metoda minimizon shumën e katrorëve për çdo dy grupime (hipotetike) që mund të formohen në çdo hap.

Metoda e fqinjit më të afërt

Distanca midis dy klasave përcaktohet si distanca midis anëtarëve të tyre më të afërt.

Para fillimit të algoritmit, ai llogaritet matrica e distancës ndërmjet objekteve. Sipas kriterit të klasifikimit, bashkimi ndodh midis grupimeve, distanca midis përfaqësuesve më të afërt të të cilave është më e vogla: zgjidhen dy objekte me distancën më të vogël në një grup. Pas kësaj, është e nevojshme të rillogaritni matricën e distancës duke marrë parasysh grupin e ri. Në çdo hap, matrica e distancës kërkohet për vlerën minimale që korrespondon me distancën midis dy grupimeve më të afërta. Grupet e gjetura kombinohen për të formuar një grup të ri. Kjo procedurë përsëritet derisa të bashkohen të gjitha grupet.

Kur përdorni metodën e fqinjit më të afërt, vëmendje e veçantë duhet t'i kushtohet zgjedhjes së masës së distancës midis objekteve. Bazuar në të, formohet një matricë fillestare e distancës, e cila përcakton të gjithë procesin e mëtejshëm të klasifikimit.

metodat përsëritëse.

Me një numër të madh vëzhgimesh, metodat hierarkike të analizës së grupimeve nuk janë të përshtatshme. Në raste të tilla, përdoren metoda johierarkike, të bazuara në ndarjen e grupimeve origjinale në grupe të tjera, dhe të cilat janë metoda përsëritëse për ndarjen e popullsisë origjinale. Gjatë procesit të ndarjes formohen grupime të reja derisa të plotësohet rregulli i ndalimit.

Një grupim i tillë johierarkik konsiston në ndarjen e një grupi të dhënash në një numër të caktuar grupimesh të dallueshme. Ka dy qasje. E para është përcaktimi i kufijve të grupimeve si zonat më të dendura në hapësirën shumëdimensionale të të dhënave origjinale, d.m.th., përkufizimi i një grupimi ku ka një "grup pikash" të madh. Qasja e dytë është minimizimi i masës së ndryshimit të objektit.

Ndryshe nga metodat e klasifikimit hierarkik, metodat përsëritëse mund të çojnë në formimin e grupimeve të mbivendosura, kur një objekt mund t'i përkasë njëkohësisht disa grupimeve.

Metodat përsëritëse përfshijnë, për shembull, metodën k-mesatarja, metoda e kërkimit të përqendrimeve dhe të tjera. Metodat përsëritëse janë të shpejta, gjë që i lejon ato të përdoren për të përpunuar grupe të mëdha informacioni fillestar.

Algoritmi k-means (k-means)

Ndër metodat përsëritëse, metoda më e njohur është metoda k- mesatare McKean. Ndryshe nga metodat hierarkike, në shumicën e zbatimeve të kësaj metode, vetë përdoruesi duhet të specifikojë numrin e dëshiruar të grupimeve përfundimtare, i cili zakonisht shënohet " k". Algoritmi k- ndertime te mesme k grupe të vendosura sa më larg njëri-tjetrit. Kërkesa kryesore për llojin e problemeve që zgjidh algoritmi k-mesatarja - prania e supozimeve (hipotezave) në lidhje me numrin e grupimeve, ndërsa ato duhet të jenë sa më të ndryshme. Zgjedhja e numrit k mund të bazohet në kërkime paraprake, konsiderata teorike ose intuitë.

Ashtu si në metodat e grupimit hierarkik, përdoruesi mund të zgjedhë një ose një lloj tjetër të masës së ngjashmërisë. Algoritme të ndryshme metodë k-mesataret ndryshojnë edhe në mënyrën e zgjedhjes së qendrave fillestare të grupimeve të dhëna. Në disa versione të metodës, vetë përdoruesi mund (ose duhet) të specifikojë pika të tilla fillestare, ose duke i përzgjedhur ato nga vëzhgimet reale, ose duke specifikuar koordinatat e këtyre pikave për secilën prej variablave. Në implementimet e tjera të kësaj metode, zgjedhja e një numri të caktuar k pikat fillestare prodhohen në mënyrë të rastësishme dhe këto pika fillestare (qendrat e grupimeve) mund të rafinohen më pas në disa faza. Ekzistojnë 4 faza kryesore të metodave të tilla:

zgjedhur ose emëruar k vrojtimet që do të jenë qendrat kryesore të grupimeve;

nëse është e nevojshme, grupimet e ndërmjetme formohen duke caktuar çdo vëzhgim në qendrat më të afërta të grupimeve të dhëna;

pas caktimit të të gjitha vëzhgimeve në grupime individuale, qendrat primare të grupimeve zëvendësohen me mesataret e grupimeve;

përsëritja e mëparshme përsëritet derisa ndryshimet në koordinatat e qendrave të grupimit të bëhen minimale.

Ideja e përgjithshme e algoritmit: një numër i caktuar fiks k i grupimeve të vëzhgimit krahasohen me grupimet në atë mënyrë që mesataret në grup (për të gjitha variablat) të ndryshojnë sa më shumë që të jetë e mundur nga njëra-tjetra.

Përshkrimi i algoritmit

Shpërndarja fillestare e objekteve sipas grupimeve.

Numri i zgjedhur k dhe k pikë. Në hapin e parë, këto pika konsiderohen si "qendrat" e grupimeve. Çdo grup korrespondon me një qendër. Zgjedhja e centroideve fillestare mund të kryhet si më poshtë:

zgjedhje k- vëzhgime për të maksimizuar distancën fillestare;

përzgjedhje e rastësishme k- vëzhgime;

zgjedhja e pare k- vëzhgimet.

Çdo objekt më pas i caktohet një grupi të caktuar më të afërt.

Procesi përsëritës.

Llogariten qendrat e grupimeve, të cilat më pas dhe më tej konsiderohen si mjete koordinative të grupimeve. Objektet rishpërndahen përsëri. Procesi i llogaritjes së qendrave dhe rishpërndarjes së objekteve vazhdon derisa të plotësohet një nga kushtet e mëposhtme:

qendrat e grupimeve janë stabilizuar, d.m.th., të gjitha vëzhgimet i përkasin grupit të cilit i përkisnin përpara përsëritjes aktuale. Në disa versione të kësaj metode, përdoruesi mund të vendosë një vlerë numerike të kriterit, e cila interpretohet si distanca minimale për zgjedhjen e qendrave të reja të grupimeve. Vëzhgimi nuk do të konsiderohet si kandidat për qendër e re grupi, nëse distanca e tij nga qendra e zëvendësuar e grupit tejkalon numrin e specifikuar. Një parametër i tillë në një numër programesh quhet "radius". Përveç këtij parametri, është e mundur të vendoset një numër zakonisht mjaft i vogël, me të cilin krahasohet ndryshimi i distancës për të gjitha qendrat e grupimeve. Ky parametër zakonisht quhet "konvergjencë", sepse pasqyron konvergjencën e procesit të grupimit iterativ;

numri i përsëritjeve është i barabartë me numrin maksimal të përsëritjeve.

Kontrollimi i cilësisë së grupimit

Pas marrjes së rezultateve të analizës së grupimeve me metodën k- mesataret, duhet të kontrolloni korrektësinë e grupimit (d.m.th., të vlerësoni se si grupet ndryshojnë nga njëri-tjetri). Për ta bërë këtë, llogariten vlerat mesatare për çdo grup. Grumbullimi i mirë duhet të prodhojë mjete shumë të ndryshme për të gjitha matjet, ose të paktën shumicën e tyre.

Përparësitëalgoritmi k-means:

lehtësinë e përdorimit;

shpejtësia e përdorimit;

qartësia dhe transparenca e algoritmit.

Të metatalgoritmi k-means:

algoritmi është shumë i ndjeshëm ndaj vlerave të jashtme që mund të shtrembërojnë mesataren. Zgjidhja e mundshme ky problem është përdorimi i një modifikimi të algoritmit - algoritmi k- mesataret;

algoritmi mund të jetë i ngadalshëm në bazat e të dhënave të mëdha. Një zgjidhje e mundshme për këtë problem është përdorimi i kampionimit të të dhënave.

Raporti duhet të përmbajë:

përshkrimi dhe bllok diagramet e algoritmeve;

tekstet burimore të moduleve të programit;

rezultatet e algoritmeve në formë grafiku.

analiza grupore(CLA) është një grup metodash klasifikimi shumëdimensionale, qëllimi i të cilave është formimi i grupeve (grupeve) objektesh të ngjashme me njëri-tjetrin. Ndryshe nga grupimet tradicionale të konsideruara në teorinë e përgjithshme të statistikave, CL çon në ndarje në grupe, duke marrë parasysh të gjitha karakteristikat e grupimit në të njëjtën kohë.

Metodat CL lejojnë zgjidhjen e problemeve të mëposhtme:

Kryerja e klasifikimit të objekteve, duke marrë parasysh një sërë veçorish;

Kontrollimi i supozimeve të bëra për praninë e ndonjë strukture në grupin e objekteve të studiuara, d.m.th. kërkimi i një strukture ekzistuese;

Ndërtimi i klasifikimeve të reja për fenomenet e studiuara dobët, kur është e nevojshme të vendoset prania e lidhjeve brenda popullsisë dhe të përpiqet të futet struktura në të.

Për të shkruar algoritmet e formalizuara CL, përdoren sa vijon: konventat:

– grup objektesh vëzhgimi;

– vëzhgimi i i-të në hapësirën e tipareve m-dimensionale ();

është distanca ndërmjet objekteve -të dhe -të;

- vlerat e normalizuara të variablave fillestarë;

është matrica e distancave ndërmjet objekteve.

Për të zbatuar çdo metodë CL, është e nevojshme të prezantohet koncepti i "ngjashmërisë së objektit". Për më tepër, në procesin e klasifikimit, objektet që kanë ngjashmërinë më të madhe me njëri-tjetrin për sa i përket ndryshoreve të vëzhguara duhet të bien në secilin grup.

Për të përcaktuar sasinë e ngjashmërisë, është prezantuar koncepti i një metrike. Çdo objekt përshkruhet me veçori dhe përfaqësohet si një pikë në hapësirën dimensionale. Ngjashmëria ose ndryshimi midis objekteve të klasifikuara përcaktohet në varësi të distancës metrike ndërmjet tyre. Si rregull, përdoren masat e mëposhtme të distancës midis objekteve:

Distanca euklidiane ;

Distanca Euklidiane e peshuar ;

Largësia e qytetit-bllokut ;

Distanca e Mahalanobis,

ku është distanca ndërmjet objekteve -të dhe -të;

, janë vlerat e ndryshores - dhe, përkatësisht, të objekteve -të dhe -të;

, – vektorët e vlerave të ndryshueshme për objektet -të dhe -të;

është matrica e përgjithshme e kovariancës;

është pesha që i caktohet ndryshores -th.

Të gjitha metodat CL mund të ndahen në dy grupe: hierarkike (agglomerative dhe ndarëse) dhe përsëritëse (metoda mesatare, metoda e kërkimit të përqendrimeve).

Analiza e grupimeve hierarkike. Nga të gjitha metodat e analizës së grupimeve, më e zakonshme është algoritmi i klasifikimit aglomerativ. Thelbi i alogritmit qëndron në faktin se në hapin e parë, çdo objekt mostër konsiderohet si një grup i veçantë. Procesi i kombinimit të grupimeve ndodh në mënyrë sekuenciale: bazuar në matricën e distancës ose matricën e ngjashmërisë, objektet më të afërta kombinohen. Nëse matrica e distancës fillimisht ka dimensionin (), atëherë procesi i bashkimit përfundon në () hapa. Si rezultat, të gjitha objektet do të kombinohen në një grup.

Sekuenca e bashkimit mund të përfaqësohet si një dendrogram i paraqitur në Figurën 3.1. Dendrogrami tregon se në hapin e parë objektet e dytë dhe të tretë kombinohen në një grup me një distancë ndërmjet tyre prej 0,15. Në hapin e dytë, objekti i parë u bashkua me to. Distanca nga tipari i parë në grupin që përmban tiparet e dytë dhe të tretë, 0.3, e kështu me radhë.

Shumë metoda të analizës së grupimeve hierarkike dallohen nga algoritmet e asociimit (ngjashmërisë), nga të cilat më të zakonshmet janë: metoda e lidhjes së vetme, metoda e lidhjes së plotë, metoda mesatare e lidhjes, metoda Ward.

Mënyra e lidhjes së plotë- përfshirja e një objekti të ri në grup ndodh vetëm nëse ngjashmëria midis të gjithë objekteve nuk është më e vogël se një nivel i caktuar ngjashmërie (Figura 1.3).

Mënyra mesatare e lidhjes– kur një objekt i ri përfshihet në një grup tashmë ekzistues, llogaritet vlera mesatare e masës së ngjashmërisë, e cila më pas krahasohet me një nivel të caktuar pragu. Nese nje po flasim për bashkimin e dy grupimeve, atëherë llogaritet një masë e ngjashmërisë midis qendrave të tyre dhe krahasohet me një vlerë të caktuar pragu. Shqyrtoni një shembull gjeometrik me dy grupime (Figura 1.4).

Figura 1.4. Kombinimi i dy grupimeve duke përdorur metodën e lidhjes mesatare:

Nëse masa e ngjashmërisë midis qendrave të grupimeve () nuk është më e vogël se një nivel i caktuar, atëherë grupet dhe do të bashkohen në një.

Metoda e repartit– në hapin e parë, çdo grup përbëhet nga një objekt. Fillimisht, dy grupimet më të afërta bashkohen. Për ta, përcaktohen vlerat mesatare të çdo veçorie dhe llogaritet shuma e devijimeve në katror

, (1.1)

ku është numri i grupit, është numri i objektit, është numri i tipareve; - numri i veçorive që karakterizojnë çdo objekt; – numri i objekteve në - mcluster.

Më tej, në çdo hap të algoritmit, ato objekte ose grupime kombinohen që japin rritjen më të vogël të vlerës.

Metoda e Ward çon në formimin e grupimeve me përmasa afërsisht të barabarta me variacion minimal brenda grupit.

Algoritmi i analizës së grupimeve hierarkike mund të përfaqësohet si një sekuencë procedurash:

Normalizimi i vlerave fillestare të variablave;

Llogaritja e matricës së distancës ose matricës së masave të ngjashmërisë;

Përcaktimi i një çifti objektesh (grupesh) më të afërta dhe kombinimi i tyre sipas algoritmit të zgjedhur;

Përsëritni tre procedurat e para derisa të gjitha objektet të kombinohen në një grup.

Masa e ngjashmërisë për kombinimin e dy grupimeve përcaktohet me metodat e mëposhtme:

Metoda e "fqinjës më të afërt" - shkalla e ngjashmërisë midis grupimeve vlerësohet nga shkalla e ngjashmërisë midis objekteve më të ngjashme (më të afërt) të këtyre grupimeve;

Metoda e "fqinjës së largët" - shkalla e ngjashmërisë vlerësohet nga shkalla e ngjashmërisë midis objekteve më të largëta (të pangjashme) të grupimit;

Metoda mesatare e lidhjes - shkalla e ngjashmërisë vlerësohet si vlera mesatare e shkallës së ngjashmërisë ndërmjet objekteve të grupimit;

Metoda mesatare e lidhjes - distanca midis çdo grupi S dhe një grupim i ri, i cili është rezultat i kombinimit të grupimeve R dhe q, përkufizohet si distanca nga qendra e grupimit S në mes të segmentit që lidh qendrat e grupimeve R dhe q.

Metoda e kërkimit të kondensimit. Një nga metodat përsëritëse të klasifikimit është algoritmi për kërkimin e përqendrimeve. Thelbi i algoritmit iterativ këtë metodë konsiston në përdorimin e një hipersfere të një rrezeje të caktuar, e cila lëviz në hapësirën e veçorive të klasifikimit për të kërkuar përqendrime lokale të objekteve.

Metoda e kërkimit të përqendrimeve kërkon, para së gjithash, llogaritjen e matricës së distancës (ose matricës së masave të ngjashmërisë) midis objekteve dhe zgjedhjen e qendrës fillestare të sferës. Zakonisht, në hapin e parë, qendra e sferës është objekti (pika), në lagjen më të afërt të së cilës ndodhet numri më i madh i fqinjëve. Bazuar në një rreze të caktuar sfere (R) përcaktohet një grup pikash që bien brenda kësaj sfere dhe për to llogariten koordinatat e qendrës (vektori i vlerave mesatare të veçorive).

Kur rillogaritja e radhës e koordinatave të qendrës së sferës çon në të njëjtin rezultat si në hapi i mëparshëm, lëvizja e sferës ndalet dhe pikat që bien në të formojnë një grumbull dhe përjashtohen nga procesi i mëtejshëm i grumbullimit. Procedurat e mësipërme përsëriten për të gjitha pikat e mbetura. Puna e algoritmit përfundon në një numër të caktuar hapash dhe të gjitha pikat shpërndahen në grupe. Numri i grupimeve të formuara nuk dihet paraprakisht dhe varet fuqishëm nga rrezja e sferës.

Për të vlerësuar stabilitetin e ndarjes që rezulton, këshillohet të përsërisni procesin e grumbullimit disa herë për vlera të ndryshme të rrezes së sferës, çdo herë duke ndryshuar rrezen me një sasi të vogël.

Ka disa mënyra për të zgjedhur rrezen e një sfere. Nëse është distanca midis objekteve -të dhe -të, atëherë zgjidhni si kufirin e poshtëm të rrezes (). , dhe kufiri i sipërm i rrezes mund të përkufizohet si .

Nëse algoritmi fillon me një vlerë dhe ndryshon me një vlerë të vogël sa herë që përsëritet, atëherë është e mundur të identifikohen vlerat e rrezeve që çojnë në formimin e të njëjtit numër grupimesh, d.m.th. në një ndarje të qëndrueshme.

Shembulli 1 Bazuar në të dhënat në tabelën 1.1, është e nevojshme të klasifikohen pesë ndërmarrje duke përdorur analizën e grupimeve aglomerative hierarkike.

Tabela 1.1

Këtu: është kostoja mesatare vjetore e fiks asetet e prodhimit, miliardë rubla; - kostot materiale për rubla të produkteve të prodhuara, kopekë; - vëllimi i produkteve të prodhuara, miliardë rubla.

Zgjidhje. Para llogaritjes së matricës së distancës, ne normalizojmë të dhënat fillestare duke përdorur formulën

Matrica e vlerave të ndryshoreve të normalizuara do të duket si kjo

Klasifikimi do të kryhet duke përdorur metodën aglomerative hierarkike. Për të ndërtuar matricën e distancës, ne do të përdorim distancën Euklidiane. Pastaj, për shembull, distanca midis objekteve të parë dhe të dytë do të jetë

Matrica e distancës karakterizon distancat midis objekteve, secila prej të cilave, në hapin e parë, është një grup i veçantë

Siç mund të shihet nga matrica, objektet dhe janë më të afërt. Kombinoni ato në një grup dhe caktoni një numër . Ne rillogaritim distancat e të gjitha objekteve të mbetura (grupeve) në grup, marrim një matricë të re të distancës

Në matricë, distancat midis grupimeve përcaktohen nga algoritmi "fqinj i largët". Atëherë distanca midis objektit dhe grupit është

Në matricë, ne përsëri gjejmë grupimet më të afërta. Këto do të jenë dhe , . Prandaj, në këtë hap kombinojmë edhe grupimet; merrni një grup të ri që përmban objekte, . Jepini atij një numër . Tani kemi tre grupime (1.3), (2.5), (4).

Sipas matricës, hapi tjeter kombinoni grupet dhe , në një grup dhe caktoni numrin . Tani kemi vetëm dy grupime:

Dhe së fundi, në hapin e fundit, ne do të kombinojmë grupet dhe në një distancë prej 3.861.

Le të paraqesim rezultatet e klasifikimit në formën e një dendrogrami (Figura 1.5). Dendrogrami tregon se grupi është më homogjen për sa i përket përbërjes së objekteve hyrëse, pasi në të bashkimi ndodhi në distanca më të vogla sesa në grup.

Figura 3.5 Dendrogrami i grumbullimit të pesë objekteve

Shembulli 2. Bazuar në të dhënat e mëposhtme, klasifikoni dyqanet sipas tre kritereve: - sipërfaqja kati tregtar, m 2, - qarkullim për shitës, den. njësi, - niveli i rentabilitetit, %.

Numri i dyqanit				Numri i dyqanit

Për të klasifikuar dyqanet, përdorni metodën e kërkimit të përqendrimeve (duhet të zgjidhni grupin e parë).

Zgjidhje. 1. Llogaritni distancat midis objekteve duke përdorur metrikën Euklidiane

ku , janë vlerat e standardizuara të variablave fillestare për objektet -të dhe -të, përkatësisht; tështë numri i veçorive.

2. Bazuar në matricën Z, ne llogarisim matricën simetrike katrore të distancave ndërmjet objekteve () .

Analiza e matricës së distancës ndihmon në përcaktimin e pozicionit të qendrës fillestare të sferës dhe zgjedhjen e rrezes së sferës.

AT ky shembull shumica e distancave "të vogla" janë në rreshtin e parë, d.m.th. objekti i parë ka shumë fqinjë "të afërt". Prandaj, objekti i parë mund të merret si qendër e sferës.

3. Cakto rrezen e sferës . Në këtë rast, objektet bien në sferë, distanca e së cilës me objektin e parë është më pak se 2.

Për gjashtë pika (objektet 1, 2, 3, 6, 7, 8) përcaktojmë koordinatat e qendrës së gravitetit: .

4. Në hapin tjetër të algoritmit, vendosim qendrën e sferës në një pikë dhe përcaktojmë distancën e secilit objekt në qendrën e re.

Me një numër të madh vëzhgimesh, metodat hierarkike të analizës së grupimeve nuk janë të përshtatshme. Në raste të tilla përdoren metoda johierarkike të bazuara në ndarje, të cilat janë metodat përsëritëse duke ndarë popullsinë fillestare. Gjatë procesit të ndarjes, formohen grupime të reja deri në rregulli i ndalimit.

Një grupim i tillë johierarkik konsiston në ndarjen e një grupi të dhënash në një numër të caktuar grupimesh të dallueshme. Ka dy qasje. E para është përcaktimi i kufijve të grupimeve si zona më të dendura në hapësirën shumëdimensionale të të dhënave fillestare, d.m.th. përcaktimi i një grupi ku ka një "përqendrim të madh pikash". Qasja e dytë është minimizimi i masës së ndryshimit të objektit

Algoritmi k-means (k-means)

Më e zakonshme në mesin e metodave johierarkike algoritmi k-means, i quajtur gjithashtu analiza e shpejtë e grupimeve. Një përshkrim i plotë i algoritmit mund të gjendet në Hartigan dhe Wong (1978). Ndryshe nga metodat hierarkike, të cilat nuk kërkojnë supozime paraprake për numrin e grupimeve, për të qenë në gjendje të përdorin këtë metodë, është e nevojshme të kemi një hipotezë për numrin më të mundshëm të grupimeve.

algoritmi k-means ndërton k grupime të vendosura në distancën më të madhe të mundshme nga njëra-tjetra. Lloji kryesor i problemeve që zgjidh algoritmi k-means, - prania e supozimeve (hipotezave) në lidhje me numrin e grupimeve, ndërkohë që ato duhet të jenë sa më të ndryshme. Zgjedhja e numrit k mund të bazohet në kërkime të mëparshme, konsiderata teorike ose intuitë.

Përshkrimi i algoritmit

Shpërndarja fillestare e objekteve sipas grupimeve.
Zgjidhet numri k, dhe në hapin e parë këto pika konsiderohen si "qendrat" e grupimeve. Çdo grup korrespondon me një qendër.

Zgjedhja e centroideve fillestare mund të kryhet si më poshtë:
- zgjedhja e k-vëzhgimeve për të maksimizuar distancën fillestare;
- përzgjedhje e rastësishme e k-vëzhgimeve;
- zgjedhja e k-vëzhgimeve të para.
Si rezultat, çdo objekt i caktohet një grupi specifik.
Procesi përsëritës.
Janë llogaritur qendrat e grupimeve, të cilat pastaj dhe më poshtë janë mesataret koordinative të grupimeve. Objektet rishpërndahen përsëri.

Procesi i llogaritjes së qendrave dhe rishpërndarjes së objekteve vazhdon derisa të plotësohet një nga kushtet e mëposhtme:
- qendrat e grupimeve janë stabilizuar, d.m.th. të gjitha vëzhgimet i përkasin grupit të cilit i përkisnin përpara përsëritjes aktuale;
- numri i përsëritjeve është i barabartë me numrin maksimal të përsëritjeve.
Në fig. 14.1 është një shembull i punës algoritmi k-means për k e barabartë me dy.

Oriz. 14.1.

Zgjedhja e numrit të grupimeve është një çështje komplekse. Nëse nuk ka supozime për këtë numër, rekomandohet të krijohen 2 grupime, pastaj 3, 4, 5, etj., duke krahasuar rezultatet.

algoritmi mund të jetë i ngadalshëm në bazat e të dhënave të mëdha. Një zgjidhje e mundshme për këtë problem është përdorimi i kampionimit të të dhënave.

1.1. Metodat hierarkike aglomerative (kombinuese). janë metoda që kombinojnë në mënyrë sekuenciale objektet në grupime. Në hapin e parë, çdo objekt mostër konsiderohet si një grup i veçantë; më tej, bazuar në matricën e ngjashmërisë, kombinohen objektet më të afërta me njëri-tjetrin. Në mënyrë të ngjashme, çdo objekt ose grupohet me një objekt tjetër ose përfshihet në një grup ekzistues. Procesi i grupimit është i kufizuar dhe vazhdon derisa të gjitha objektet të kombinohen në një grup. Sigurisht, një rezultat i tillë nuk ka kuptim në rastin e përgjithshëm, dhe studiuesi përcakton në mënyrë të pavarur se në cilën pikë duhet të ndërpritet grupimi.

1.2. Metodat hierarkike ndarëse (ndarëse). janë metoda që zbërthejnë grupet në objekte të veçanta. Premisa kryesore e metodave është që fillimisht të gjitha objektet i përkasin të njëjtit grup. Në procesin e grumbullimit, sipas rregullave të caktuara, grupe objektesh të ngjashme me njëri-tjetrin ndahen nga ky grup. Kështu, në çdo fazë, numri i grupimeve rritet.

Duhet të theksohet se si metodat aglomerative ashtu edhe ato ndarëse mund të zbatohen duke përdorur algoritme të ndryshme.

2. Metodat përsëritëse- thelbi i metodave qëndron në faktin se procesi i klasifikimit fillon me përcaktimin e kushteve fillestare për grumbullim (numri i grupimeve të formuara, koordinatat e qendrave të grupimeve fillestare, etj.). Ndryshimi i kushteve fillestare ndryshon ndjeshëm rezultatet e grupimit, kështu që përdorimi i këtyre metodave kërkon një studim paraprak të popullsisë së përgjithshme, në veçanti, duke përdorur metoda hierarkike të analizës së grupimeve. Më shpesh, metodat përsëritëse përdoren pas atyre hierarkike. Metodat përsëritëse mund të çojnë në formimin e grupimeve të mbivendosura, kur një objekt i përket disa grupimeve në të njëjtën kohë.

Metodat iterative përfshijnë: metodën te-mesatarja, metoda e kërkimit të përqendrimeve etj.

Kur zgjedhin metodat e analizës së grupimeve, ato udhëhiqen nga përvoja e kaluar, informacioni i disponueshëm për popullatën e përgjithshme dhe të dhënat fillestare. Duhet theksuar se më faza fillestare, më shpesh, zgjidhen disa metoda të analizës së grupimeve njëherësh, të cilat çojnë në rezultate të ndryshme të grupimit. Klasifikimet e marra të objekteve analizohen duke përdorur kritere cilësore që ju lejojnë të zgjidhni klasifikimin më cilësor.

Për popullata të mëdha, të gjitha metodat e analizës së grupimeve kërkojnë shumë kohë, prandaj, në fazën aktuale, aplikimi i tyre zbatohet duke përdorur produkte softuerësh, në veçanti, programin SPSS.

Mjaft pasqyrë e detajuar dhe në vepër është dhënë sistematizimi i metodave të ndryshme të analizës së grupimeve.

Baza e metodave hierarkike të analizës së grupimeve është përkufizimi masat e ngjashmërisë objektet sipas variablave të vëzhgueshëm. Për të përcaktuar sasinë e ngjashmërisë në analizën e grupimeve, është prezantuar koncepti i një metrike. Ngjashmëria ose ndryshimi midis objekteve përcaktohet në varësi të distancës metrike midis objekteve. Ekzistojnë masa të ndryshme të ngjashmërisë midis objekteve, ndër to më të njohurat janë këto:

Distanca Euklidiane midis objekteve:

Distanca Euklidiane e peshuar:

Distanca ndërmjet i dhe j objekte,

Kuptimi te-ndryshorja y i- objekti,

Kuptimi te- y ndryshore j- objekti,

javë- peshën e caktuar te- variabli i th.

Nëse objektet përshkruhen nga ndryshore jometrike, atëherë koeficientët e korrelacionit të renditjes (për shembull, koeficientët e korrelacionit të çiftëzuar të Pearson), koeficientët e asociativitetit dhe masa të tjera të ngjashmërisë mund të përdoren si matje të ngjashmërisë.

Dërgoni punën tuaj të mirë në bazën e njohurive është e thjeshtë. Përdorni formularin e mëposhtëm

Studentët, studentët e diplomuar, shkencëtarët e rinj që përdorin bazën e njohurive në studimet dhe punën e tyre do t'ju jenë shumë mirënjohës.

Dokumente të ngjashme

Qëllimet e segmentimit të tregut në aktivitetet e marketingut. Thelbi i analizës së grupimeve, fazat kryesore të zbatimit të tij. Zgjidhni mënyrën e matjes së distancës ose masës së ngjashmërisë. Metodat e grupimit hierarkik, johierarkik. Vlerësimi i besueshmërisë dhe besueshmërisë.

raport, shtuar 02.11.2009

Karakteristikat e industrisë së ndërtimit të Territorit të Krasnodarit. Parashikimi i zhvillimit të ndërtimit të banesave. Metodat moderne dhe mjetet analiza grupore. Metodat statistikore shumëdimensionale për diagnostikimin e gjendjes ekonomike të një ndërmarrje.

tezë, shtuar 20.07.2015

Modelimi. Determinizmi. Detyrat përcaktuese analiza faktoriale. Mënyrat për të matur ndikimin e faktorëve në analizën përcaktuese. Llogaritja e modeleve ekonomiko-matematikore përcaktuese dhe metodave të analizës së faktorëve në shembullin e RUE "GZlin".

punim afatshkurtër, shtuar 05/12/2008

Karakteristikat kryesore gjendjen financiare ndërmarrjeve. Kriza në ndërmarrje, shkaqet, llojet dhe pasojat e saj. Metodat dhe mjetet moderne të analizës së grupimeve, veçoritë e përdorimit të tyre për vlerësimin financiar dhe ekonomik të ndërmarrjes.

tezë, shtuar 10/09/2013

Detyrat për atë fazë të analizës së grupimeve, ndihmojnë për të informuar. Një shembull i klasifikimit të të dhënave ekonomike për mbështetjen e algoritmit të analizës së grupimeve, metodat për rishikimin e stabilitetit të grupimit, interpretimin e rezultateve të analizës dhe stimulimin e dendrogrameve.

abstrakt, shtuar më 15.07.2011

Terminologjia bazë, koncepti dhe metodat e analizës së faktorëve. Fazat kryesore të analizës së faktorëve dhe teknika e Chebotarev. Rëndësia praktike e analizës së faktorëve për menaxhimin e ndërmarrjes. Metoda e Lagranzhit në zgjidhjen e problemeve të analizës së faktorëve.

test, shtuar 26.11.2008

Kryeni analiza grupore të ndërmarrjeve duke përdorur Statgraphics Plus. Ndërtimi i një ekuacioni të regresionit linear. Llogaritja e koeficientëve të elasticitetit sipas modeleve të regresionit. Vlerësimi i rëndësisë statistikore të ekuacionit dhe koeficientit të përcaktimit.

Metodat hierarkike të analizës së grupimeve. I.A. Chubukova Leksion: Metodat e analizës së grupimeve. metodat përsëritëse. Internet University of Technology Information. Metoda e analizës së grupit të referencës për gjetjen e grumbullimeve

Algoritmi k-means (k-means)

Përshkrimi i algoritmit

Dërgoni punën tuaj të mirë në bazën e njohurive është e thjeshtë. Përdorni formularin e mëposhtëm

Dokumente të ngjashme

Artikujt kryesorë të lidhur