Klasteranalüüsi hierarhilised meetodid. I.A. Chubukova Loeng: Klasteranalüüsi meetodid. iteratiivsed meetodid. Interneti-infotehnoloogiaülikool. Viide Klasteranalüüsi meetod tükkide leidmiseks

30.05.2020 Tingimused

Sissejuhatus

Mõiste klastrianalüüs, mille Tryon esmakordselt kasutusele võttis 1939. aastal, sisaldab enam kui 100 erinevat algoritmi.

Erinevalt klassifitseerimisprobleemidest ei nõua klastrianalüüs andmekogumi kohta a priori eeldusi, ei sea piiranguid uuritavate objektide esitamisele ning võimaldab analüüsida erinevat tüüpi andmete (intervallandmete, sageduste, binaarandmete) näitajaid. . Tuleb meeles pidada, et muutujaid tuleb mõõta võrreldavatel skaaladel.

klastri analüüs võimaldab vähendada andmete mõõdet, muuta need visuaalseks.

Klasteranalüüsi saab rakendada aegridade kogumitele, siin saab eristada mõne näitaja sarnasuse perioode ja määrata sarnase dünaamikaga aegridade rühmi.

Klasteranalüüs on arenenud paralleelselt mitmes suunas, näiteks bioloogias, psühholoogias jt, seega on enamikul meetoditel kaks või enam nimetust.

Klasteranalüüsi ülesandeid saab rühmitada järgmistesse rühmadesse:

Tüpoloogia või klassifikatsiooni väljatöötamine.

Objektide rühmitamiseks kasulike kontseptuaalsete skeemide uurimine.

Hüpoteeside esitamine andmete uurimisel.

Hüpoteeside testimine või uurimine, et teha kindlaks, kas ühel või teisel viisil tuvastatud tüübid (rühmad) on olemasolevates andmetes tegelikult olemas.

Klasteranalüüsi praktilisel kasutamisel lahendatakse reeglina mitu neist ülesannetest korraga.

Tunni eesmärk

Klasteranalüüsi hierarhiliste ja iteratiivsete meetodite praktilise rakendamise oskuste omandamine.

Praktiline ülesanne

Töötada välja lähinaabermeetodite algoritmid ja k-medium ja rakendada neid arvutiprogrammide kujul. Looge DNC abil 50 rakendust x= (x 1 ,x 2) - juhuslik 2-mõõtmeline muutuja, mille koordinaadid on jaotunud ühtlaselt intervallis (3.8). Jaotage need väljatöötatud programmide abil minimaalse arvu klastritesse, millest igaüks on paigutatud 0,15 raadiusega sfääri.

Juhised

Klastrianalüüsi nimetus tuleb ingliskeelsest sõnast cluster - hunnik, akumulatsioon Klastrianalüüs on mitme muutujaga statistilise analüüsi protseduuride lai klass, mis võimaldab vaatlusi automatiseeritud rühmitada homogeenseteks klassideks - klastriteks.

Klastril on järgmised matemaatilised omadused:

klastri dispersioon;
standardhälve.

Klastri keskus on muutujate ruumi punktide asukoht.

Klastri raadius – punktide maksimaalne kaugus klastri keskpunktist.

Klastri dispersioon on punktide hajumise mõõt ruumis klastri keskpunkti suhtes.

Objektide standardhälve (RMS) klastri keskpunkti suhtes on klastri dispersiooni ruutjuur.

Klasteranalüüsi meetodid

Klasteranalüüsi meetodid võib jagada kahte rühma:

hierarhiline;

mittehierarhiline.

Iga rühm sisaldab palju lähenemisviise ja algoritme.

Erinevaid klasteranalüüsi meetodeid kasutades saab analüütik samadele andmetele erinevaid lahendusi. Seda peetakse normaalseks.

Klasteranalüüsi hierarhilised meetodid

Hierarhilise klastri sisuks on väiksemate klastrite järjestikune liitmine suuremateks klastriteks või suurte klastrite jagamine väiksemateks.

Hierarhilised aglomeratiivsed meetodid(Agglomeratiivne pesastumine, AGNES)

Seda meetodite rühma iseloomustab algelementide järjekindel kombinatsioon ja vastav klastrite arvu vähenemine.

Algoritmi alguses on kõik objektid eraldi klastrid. Esimeses etapis ühendatakse kõige sarnasemad objektid klastriks. Järgmistes etappides jätkub liitmine, kuni kõik objektid moodustavad ühe klastri.

Hierarhilised jagatavad (jagatavad) meetodid(Divisive ANAlysis, DIANA)

Need meetodid on aglomeratiivsete meetodite loogiline vastand. Algoritmi alguses kuuluvad kõik objektid ühte klastrisse, mis jagatakse järgnevate sammude käigus väiksemateks klastriteks, mille tulemusena moodustub gruppide jada.

Hierarhilised klastrite meetodid erinevad klastrite ehitamise reeglite poolest. Reeglid on kriteeriumid, mida kasutatakse objektide "sarnasuse" üle otsustamisel, kui need on rühmaks ühendatud.

Sarnasusmeetmed

Objektide vahelise kauguse arvutamiseks kasutatakse erinevaid sarnasusmõõte (sarnasusmõõte), mida nimetatakse ka mõõdikuteks või kaugusfunktsioonideks.

Eukleidiline kaugus on geomeetriline kaugus mitmemõõtmelises ruumis ja arvutatakse valemiga (4.1).

Eukleidiline kaugus (ja selle ruut) arvutatakse algandmete, mitte standardsete andmete põhjal.

Eukleidiline kaugus ruudus arvutatakse valemiga (4.2).

(4.2)

Manhattani kaugus (linnaploki kaugus), mida nimetatakse ka "hamming" või "linnaploki" kauguseks, arvutatakse koordinaatide erinevuste keskmisena. Enamikul juhtudel annab see kauguse mõõt eukleidilise kauguse arvutustele sarnaseid tulemusi. Selle mõõdu puhul on üksikute kõrvalekallete mõju siiski väiksem kui Eukleidilise kauguse kasutamisel, kuna siin ei ole koordinaadid ruudus. Manhattani vahemaa arvutatakse valemi (4.3) abil.

(4.3)

Tšebõševi kaugus tuleks kasutada, kui on vaja määratleda kaks objekti kui "erinevad", kui need erinevad ühes mõõtmes. Tšebõševi kaugus arvutatakse valemiga (4.4).

(4.4)

Võimsuskaugus kasutatakse, kui soovitakse järk-järgult suurendada või vähendada kaalu, mis on seotud mõõtmega, mille vastavad objektid on väga erinevad. Võimsuskaugus arvutatakse valemiga (4.5).

(4.5)

kus r ja p- kasutaja määratud parameetrid. Parameeter lk vastutab üksikute koordinaatide, parameetri erinevuste järkjärgulise kaalumise eest r objektide vaheliste suurte vahemaade järkjärguliseks kaalumiseks. Kui mõlemad variandid r ja lk on võrdsed kahega, siis kattub see kaugus Eukleidese kaugusega.

Lahkarvamuste protsent kasutatakse siis, kui andmed on kategoorilised. See vahemaa arvutatakse valemiga (4.6).

(4.6)

Liitu- või linkimismeetodid

Esimesel etapil, kui iga objekt on eraldi klaster, määratakse nende objektide vahelised kaugused valitud mõõdiku järgi. Kui aga mitu objekti on omavahel seotud, tuleb klastrite vahelise kauguse määramiseks kasutada muid meetodeid. Klastritega liitumiseks on palju meetodeid:

Single link (lähima naabri meetod) – kahe klastri vaheline kaugus määratakse kahe lähima objekti (lähima naabri) vahemaa järgi erinevates klastrites.

Täielik ühendus (kõige kaugema naabri meetod) – klastrite vahelised kaugused määratakse suurima vahemaa järgi mis tahes kahe objekti vahel erinevates klastrites (st "kõige kaugemate naabrite" vahel).

Kaalumata paariskeskmine – kahe erineva klastri vaheline kaugus arvutatakse kõigi neis olevate objektide paaride keskmise kaugusena.

Kaalutud paaripõhine keskmine – meetod on meetodiga identne kaalumata paaride keskmine, välja arvatud see, et arvutustes kasutatakse kaalutegurina vastavate klastrite suurust (st neis sisalduvate objektide arvu).

Kaalumata tsentroidi meetod – kahe klastri vaheline kaugus on määratletud kui nende raskuskeskmete vaheline kaugus.

Kaalutud tsentroidi meetod (mediaan) - meetod on identne kaalumata tsentroidi meetodiga, välja arvatud see, et arvutustes kasutatakse kaalusid, et võtta arvesse klastrite suuruste erinevust (st nendes olevate objektide arvu).

Wardi meetod – klastrite vaheline kaugus on määratletud kui objektide ja klastrite keskpunktide kauguste ruudu summa suurenemine, mis saadakse nende ühinemise tulemusena. Meetod erineb kõigist teistest meetoditest, kuna see kasutab klastrite vaheliste kauguste hindamiseks ANOVA meetodeid. Meetod minimeerib igas etapis moodustatava kahe (hüpoteetilise) klastri ruutude summa.

Lähima naabri meetod

Kahe klassi vaheline kaugus on määratletud kui kaugus nende lähimate liikmete vahel.

Enne algoritmi käivitamist arvutatakse see välja kaugusmaatriks objektide vahel. Klassifikatsioonikriteeriumi järgi toimub liit klastrite vahel, mille lähimate esindajate vaheline kaugus on kõige väiksem: valitakse kaks kõige väiksema kaugusega objekti ühes klastris. Pärast seda on vaja kaugusmaatriks ümber arvutada, võttes arvesse uut klastrit. Igas etapis otsitakse kaugusmaatriksist minimaalset väärtust, mis vastab kahe lähima klastri vahelisele kaugusele. Leitud klastrid ühendatakse uueks klastriks. Seda protseduuri korratakse, kuni kõik klastrid on ühendatud.

Lähima naabri meetodi kasutamisel tuleks erilist tähelepanu pöörata objektide vahelise kauguse mõõdu valikule. Selle põhjal moodustatakse esialgne kaugusmaatriks, mis määrab kogu edasise klassifitseerimisprotsessi.

iteratiivsed meetodid.

Suure hulga vaatluste korral ei sobi klasteranalüüsi hierarhilised meetodid. Sellistel juhtudel kasutatakse mittehierarhilisi meetodeid, mis põhinevad algsete klastrite jagamisel teisteks klastriteks ja mis on iteratiivsed meetodid algse populatsiooni tükeldamiseks. Jagamise käigus moodustuvad uued klastrid kuni peatamisreegli täitmiseni.

Selline mittehierarhiline rühmitamine seisneb andmekogumi jagamises teatud arvuks eraldiseisvateks klastriteks. On kaks lähenemist. Esimene on defineerida klastrite piirid kui kõige tihedamad alad algandmete mitmemõõtmelises ruumis, st klastri määratlus, kus on suur "punktiklaster". Teine lähenemisviis on objektide erinevuse mõõtmise minimeerimine.

Erinevalt hierarhilistest klassifitseerimismeetoditest võivad iteratiivsed meetodid viia kattuvate klastrite moodustumiseni, kui üks objekt võib korraga kuuluda mitmesse klastrisse.

Iteratiivsed meetodid hõlmavad näiteks meetodit k-keskmised, kontsentratsioonide otsimise meetod ja teised. Iteratiivsed meetodid on kiired, mis võimaldab neid kasutada suurte algteabe massiivide töötlemiseks.

Algoritm k-means (k-means)

Iteratiivsete meetodite hulgas on kõige populaarsem meetod meetod k- keskmine McKean. Erinevalt hierarhilistest meetoditest peab enamiku selle meetodi rakenduste puhul kasutaja ise määrama soovitud arvu lõplikke klastreid, mida tavaliselt tähistatakse " k". Algoritm k- keskmise ehitusega küksteisest võimalikult kaugel paiknevad klastrid. Algoritmi lahendatavate probleemide tüübi põhinõue k-keskmised - eelduste (hüpoteeside) olemasolu klastrite arvu kohta, samas kui need peaksid olema võimalikult erinevad. Numbri valik k võib põhineda eelnevatel uuringutel, teoreetilistele kaalutlustele või intuitsioonile.

Sarnaselt hierarhiliste klastrimeetoditega saab kasutaja valida üht või teist tüüpi sarnasuse mõõtmise. Erinevad algoritmid meetod k-keskmised erinevad ka antud klastrite algtsentrite valimise viisi poolest. Mõnes meetodi versioonis saab (või peab) kasutaja ise selliseid algpunkte täpsustama, valides need reaalsete vaatluste hulgast või määrates iga muutuja jaoks nende punktide koordinaadid. Selle meetodi teistes rakendustes antud numbri valimine k algpunktid luuakse juhuslikult ja neid lähtepunkte (klastri keskusi) saab seejärel mitmes etapis täpsustada. Sellistel meetoditel on 4 peamist etappi:

valitud või määratud k vaatlused, mis on klastrite esmased keskused;

vajadusel moodustatakse vaheklastrid, määrates iga vaatluse lähimatele määratud klastri keskustele;

pärast kõigi vaatluste määramist üksikutele klastritele asendatakse esmased klastri keskused klastri keskmiste väärtustega;

eelmist iteratsiooni korratakse seni, kuni muutused klastri tsentrite koordinaatides muutuvad minimaalseks.

Algoritmi üldidee: antud kindlat arvu k vaatlusklastreid võrreldakse klastritega nii, et klastri keskmised (kõikide muutujate puhul) erinevad üksteisest võimalikult palju.

Algoritmi kirjeldus

Objektide esialgne jaotus klastrite kaupa.

Valitud number k ja k punktid. Esimeses etapis peetakse neid punkte klastrite "keskpunktideks". Iga klaster vastab ühele keskusele. Esialgsete tsentroidide valiku saab teha järgmiselt:

valik k- vaatlused esialgse vahemaa maksimeerimiseks;

juhuslik valik k- tähelepanekud;

esimene valik k- tähelepanekud.

Seejärel määratakse iga objekt teatud lähimasse klastrisse.

Iteratiivne protsess.

Arvutatakse välja klastrite keskpunktid, mida siis ja edasi loetakse klastrite koordinaatkeskväärtusteks. Objektid jaotatakse uuesti ümber. Keskuste arvutamise ja objektide ümberjaotamise protsess jätkub, kuni on täidetud üks järgmistest tingimustest:

klastri keskused on stabiliseerunud, st kõik vaatlused kuuluvad klastrisse, kuhu nad kuulusid enne praegust iteratsiooni. Selle meetodi mõnes versioonis saab kasutaja määrata kriteeriumi arvväärtuse, mida tõlgendatakse uute klastri keskuste valimise minimaalse kaugusena. Vaatlust ei peeta kandidaadiks uus keskus klastri, kui selle kaugus klastri asendatud keskpunktist ületab määratud arvu. Sellist parameetrit paljudes programmides nimetatakse "raadiuseks". Lisaks sellele parameetrile on võimalik määrata tavaliselt piisavalt väike arv, millega võrreldakse kauguse muutust kõigi klastri keskuste lõikes. Seda parameetrit nimetatakse tavaliselt "konvergentsiks", kuna see peegeldab iteratiivse klastri moodustamise protsessi konvergentsi;

iteratsioonide arv on võrdne maksimaalse iteratsioonide arvuga.

Klastrite kvaliteedi kontrollimine

Pärast meetodiga klasteranalüüsi tulemuste saamist k- keskmised, peaksite kontrollima rühmitamise õigsust (st hindama, kuidas klastrid erinevad üksteisest). Selleks arvutatakse iga klastri keskmised väärtused. Hea klasterdamine peaks andma kõigi mõõtmiste või vähemalt enamiku mõõtmiste jaoks väga erinevaid vahendeid.

Eelisedk-tähendab algoritm:

kasutusmugavus;

kasutuskiirus;

algoritmi selgus ja läbipaistvus.

Puudusedk-tähendab algoritm:

Algoritm on liiga tundlik kõrvalekallete suhtes, mis võivad keskmist moonutada. Võimalik lahendus see probleem seisneb selles, et kasutada algoritmi modifikatsiooni – algoritmi k- mediaanid;

Algoritm võib suurtes andmebaasides olla aeglane. Selle probleemi võimalik lahendus on andmete valimi kasutamine.

Aruanne peab sisaldama:

algoritmide kirjeldus ja plokkskeemid;

programmimoodulite lähtetekstid;

algoritmide tulemused graafikute kujul.

klastri analüüs(CLA) on mitmemõõtmeliste klassifitseerimismeetodite kogum, mille eesmärk on üksteisega sarnaste objektide rühmade (klastrite) moodustamine. Erinevalt tavapärastest rühmitustest, mida käsitletakse statistika üldteoorias, viib CL rühmadeks jagunemiseni, võttes arvesse kõiki rühmitamise tunnuseid üheaegselt.

CL meetodid võimaldavad lahendada järgmisi probleeme:

Objektide klassifitseerimine, võttes arvesse erinevaid tunnuseid;

Kontrollides tehtud oletusi mingi struktuuri olemasolu kohta uuritavas objektide komplektis, s.o. olemasoleva struktuuri otsimine;

Uute klassifikatsioonide koostamine väheuuritud nähtuste jaoks, kui on vaja tuvastada seoste olemasolu populatsiooni sees ja proovida sellesse struktuuri juurutada.

Formaliseeritud CL-algoritmide kirjutamiseks kasutatakse järgmist: konventsioonid:

– vaatlusobjektide komplekt;

– i-s tähelepanek m-mõõtmelises tunnusruumis ();

on -nda ja -nda objekti vaheline kaugus;

- algmuutujate normaliseeritud väärtused;

on objektide vahekauguste maatriks.

Mis tahes CL-meetodi rakendamiseks on vaja kasutusele võtta mõiste "objekti sarnasus". Veelgi enam, klassifitseerimise käigus peaksid igasse klastrisse sattuma objektid, millel on vaadeldavate muutujate osas kõige suurem sarnasus.

Sarnasuse kvantifitseerimiseks võetakse kasutusele mõõdiku mõiste. Iga objekti kirjeldatakse -tunnustega ja see on kujutatud punktina -mõõtmelises ruumis. Klassifitseeritud objektide sarnasus või erinevus määratakse sõltuvalt nendevahelisest meetrilisest kaugusest. Reeglina kasutatakse järgmisi objektide vahelise kauguse mõõtmisi:

Eukleidiline kaugus ;

Kaalutud eukleidiline kaugus ;

Linnaploki kaugus ;

Mahalanobise kaugus,

kus on -nda ja -nda objekti vaheline kaugus;

, on -muutuja ja vastavalt -nda ja -nda objekti väärtused;

, – -nda ja -nda objekti muutuvate väärtuste vektorid;

on üldine kovariatsioonimaatriks;

on -ndale muutujale määratud kaal.

Kõik CL-meetodid võib jagada kahte rühma: hierarhilised (aglomeratiivsed ja jagunevad) ja iteratiivsed (keskmise meetod, kontsentratsioonide otsimise meetod).

Hierarhiline klastri analüüs. Kõigist klasteranalüüsi meetoditest on kõige levinum aglomeratiivne klassifitseerimisalgoritm. Alogrütmi olemus seisneb selles, et esimeses etapis käsitletakse iga näidisobjekti eraldi klastrina. Klastrite kombineerimise protsess toimub järjestikku: kaugusmaatriksi või sarnasusmaatriksi alusel kombineeritakse lähimad objektid. Kui kaugusmaatriksil on algselt mõõde (), siis ühendamise protsess viiakse lõpule () sammude kaupa. Selle tulemusel ühendatakse kõik objektid üheks klastriks.

Ühinemisjärjestust saab kujutada joonisel 3.1 näidatud dendrogrammina. Dendrogramm näitab, et esimeses etapis ühendatakse teine ja kolmas objekt üheks klastriks, mille vahekaugus on 0,15. Teises etapis ühines nendega esimene objekt. Kaugus esimesest tunnusest teist ja kolmandat tunnust sisaldava kobarani 0,3 jne.

Paljusid hierarhilise klasteranalüüsi meetodeid eristavad assotsiatsiooni (sarnasus) algoritmid, millest levinumad on: üksikühendusmeetod, täisühendusmeetod, keskmine ühendusmeetod, Wardi meetod.

Täielik ühendamise meetod- uue objekti kaasamine klastrisse toimub ainult siis, kui kõigi objektide sarnasus ei ole väiksem kui mingi etteantud sarnasusaste (joonis 1.3).

Keskmine ühendusviis– kui uus objekt kaasatakse juba olemasolevasse klastrisse, arvutatakse sarnasuse mõõdiku keskmine väärtus, mida seejärel võrreldakse antud lävitasemega. Kui a me räägime kahe klastri liidu kohta, siis arvutatakse nende tsentrite sarnasus ja võrreldakse seda antud läviväärtusega. Vaatleme kahe klastriga geomeetrilist näidet (joonis 1.4).

Joonis 1.4. Kahe klastri ühendamine keskmise lingi meetodi abil:

Kui klastrite tsentrite sarnasuse mõõt () ei ole väiksem kui etteantud tase, siis liidetakse klastrid ja üheks.

Ward meetod– esimeses etapis koosneb iga klaster ühest objektist. Esialgu liidetakse kaks lähimat klastrit. Nende jaoks määratakse iga tunnuse keskmised väärtused ja arvutatakse kõrvalekallete ruudu summa

, (1.1)

kus on klastri number, on objekti number, on tunnuse number; - iga objekti iseloomustavate tunnuste arv; – objektide arv - mcluster.

Lisaks kombineeritakse algoritmi igas etapis need objektid või klastrid, mis annavad väärtuse väikseima juurdekasvu .

Wardi meetod viib ligikaudu võrdse suurusega klastrite moodustumiseni minimaalse klastrisisese variatsiooniga.

Hierarhilise klastri analüüsi algoritmi saab esitada protseduuride jadana:

Muutujate algväärtuste normaliseerimine;

Kaugusmaatriksi või sarnasusmõõtmiste maatriksi arvutamine;

Lähimate objektide (klastrite) paari ja nende kombinatsiooni määramine vastavalt valitud algoritmile;

Korrake kolme esimest protseduuri, kuni kõik objektid on ühendatud üheks klastriks.

Kahe klastri ühendamise sarnasuse mõõt määratakse järgmiste meetoditega:

"Lähima naabri" meetod – klastrite sarnasuse määra hinnatakse nende klastrite kõige sarnasemate (lähimate) objektide sarnasuse astme järgi;

"Kauge naabri" meetod - sarnasuse astet hinnatakse kõige kaugemate (erinevate) klastriobjektide sarnasuse astme järgi;

Keskmine ühendusmeetod - sarnasusastet hinnatakse klastri objektide sarnasusastme keskmise väärtusena;

Mediaanühendusmeetod - kaugus mis tahes klastri vahel S ja uus klaster, mis on klastrite kombineerimise tulemus R ja q, defineeritud kui kaugus klastri keskpunktist S klastrite keskpunkte ühendava segmendi keskpaigani R ja q.

Kondensatsiooni otsimise meetod. Üks iteratiivseid klassifitseerimismeetodeid on kontsentratsioonide otsimise algoritm. Iteratiivse algoritmi olemus seda meetodit seisneb antud raadiusega hüpersfääri kasutamises, mis liigub klassifikatsioonitunnuste ruumis, et otsida objektide lokaalseid kontsentratsioone.

Kontsentratsioonide otsimise meetod eeldab ennekõike objektide vahelise kaugusmaatriksi (või sarnasusmõõtude maatriksi) arvutamist ja sfääri algkeskme valikut. Tavaliselt on esimeses etapis sfääri keskpunkt objekt (punkt), mille lähimas naabruses asub kõige rohkem naabreid. Antud sfääri raadiuse alusel (R) määratakse sellesse sfääri jäävate punktide kogum ja nende jaoks arvutatakse keskpunkti koordinaadid (tunnuste keskmiste väärtuste vektor).

Kui järgmine sfääri keskpunkti koordinaatide ümberarvutamine annab sama tulemuse kui eelmine samm, kera liikumine peatub ja sellesse langevad punktid moodustavad klastri ning jäävad edasisest klasterdamisprotsessist välja. Ülaltoodud protseduure korratakse kõigi ülejäänud punktide puhul. Algoritmi töö lõpetatakse piiratud arvu sammudega ning kõik punktid jaotatakse klastrite vahel. Moodustunud klastrite arv pole ette teada ja sõltub tugevalt sfääri raadiusest.

Saadud partitsiooni stabiilsuse hindamiseks on soovitatav sfääri raadiuse erinevate väärtuste jaoks korrata klastrite moodustamise protsessi mitu korda, muutes iga kord raadiust vähesel määral.

Sfääri raadiuse valimiseks on mitu võimalust. Kui on -nda ja -nda objekti vaheline kaugus, siis vali raadiuse alumiseks piiriks (). , ja raadiuse ülemist piiri saab määratleda kui .

Kui algoritm algab väärtusega ja muutub iga kordumisel väikese väärtuse võrra, siis on võimalik tuvastada raadiuste väärtused, mis viivad sama arvu klastrite moodustumiseni, s.t. stabiilsele partitsioonile.

Näide 1 Tabeli 1.1 andmete põhjal on vaja hierarhilise aglomeratiivse klasteranalüüsi abil klassifitseerida viis ettevõtet.

Tabel 1.1

Siin: on fikseeritud keskmine aastane kulu tootmisvarad, miljardit rubla; - materjalikulud valmistatud toodete rubla kohta, kopikaid; - valmistatud toodete maht, miljard rubla.

Lahendus. Enne kaugusmaatriksi arvutamist normaliseerime lähteandmed valemi abil

Normaliseeritud muutujate väärtuste maatriks näeb välja selline

Klassifikatsioon viiakse läbi hierarhilise aglomeratiivse meetodi abil. Kaugusmaatriksi koostamiseks kasutame eukleidilist kaugust. Siis on näiteks esimese ja teise objekti vaheline kaugus

Kaugusmaatriks iseloomustab objektide vahelisi kaugusi, millest igaüks on esimeses etapis eraldi klaster

Nagu maatriksist näha, on objektid ja kõige lähemal. Ühendage need üheks klastriks ja määrake sellele number . Arvutame ümber kõigi allesjäänud objektide (klastrite) kaugused klastrisse, saame uue kaugusmaatriksi

Maatriksis määratakse klastrite vahelised kaugused "kaugnaaber" algoritmiga. Siis on objekti ja klastri vaheline kaugus

Maatriksist leiame taas lähimad klastrid. Need on ja , . Seetõttu ühendame selles etapis ka klastreid; hankige uus objekte sisaldav klaster , . Anna talle number . Nüüd on meil kolm klastrit (1.3), (2.5), (4).

Maatriksi järgi järgmine sammühendage klastrid ja , üheks klastriks ja määrake sellele number . Nüüd on meil ainult kaks klastrit:

Ja lõpuks, viimases etapis ühendame klastrid ja kaugusel 3,861.

Esitame klassifitseerimise tulemused dendrogrammi kujul (joonis 1.5). Dendrogramm näitab, et klaster on sissetulevate objektide koostise poolest homogeensem, kuna selles toimus liit väiksematel vahemaadel kui klastris.

Joonis 3.5 Viie objekti klastri dendrogramm

Näide 2. Alltoodud andmete põhjal klassifitseerige kauplused kolme kriteeriumi järgi: - pindala kaubanduspõrand, m 2, - käive müüja kohta, den. ühikut, - kasumlikkuse tase, %.

Kaupluse number				Kaupluse number

Kaupluste klassifitseerimiseks kasutage kontsentratsioonide otsimise meetodit (peate valima esimese klastri).

Lahendus. 1. Arvutage objektide vahelised kaugused eukleidilise meetrika abil

kus , on vastavalt -nda ja -nda objekti algmuutujate standardsed väärtused; t on funktsioonide arv.

2. Z-maatriksi põhjal arvutame välja objektide vahekauguste ruudukujulise sümmeetrilise maatriksi () .

Kaugusmaatriksi analüüs aitab määrata sfääri algkeskme asukohta ja valida sfääri raadiuse.

AT see näide enamus "väikesi" distantse on esimeses reas, st. esimesel objektil on palju "lähedasi" naabreid. Seetõttu võib esimest objekti võtta sfääri keskpunktiks.

3. Määrake sfääri raadius . Sel juhul langevad objektid sfääri, mille kaugus esimesest objektist on väiksem kui 2.

Kuue punkti (objektid 1, 2, 3, 6, 7, 8) jaoks määrame raskuskeskme koordinaadid: .

4. Algoritmi järgmises etapis asetame sfääri keskpunkti punkti ja määrame iga objekti kauguse uuest keskpunktist.

Suure hulga vaatluste korral ei sobi klasteranalüüsi hierarhilised meetodid. Sellistel juhtudel kasutatakse mittehierarhilisi jaotuspõhiseid meetodeid, mis on iteratiivsed meetodid algse populatsiooni poolitamine. Jagamise käigus moodustuvad uued klastrid kuni peatamise reegel.

Selline mittehierarhiline rühmitamine seisneb andmekogumi jagamises teatud arvuks eraldiseisvateks klastriteks. On kaks lähenemist. Esimene on defineerida klastrite piirid kui kõige tihedamad alad algandmete mitmemõõtmelises ruumis, s.o. klastri määratlus, kus on suur "punktide kontsentratsioon". Teine lähenemisviis on objektide erinevuse mõõtmise minimeerimine

Algoritm k-means (k-means)

Levinuim mittehierarhiliste meetodite seas k-tähendab algoritm, nimetatud ka kiire klastrianalüüs. Algoritmi täieliku kirjelduse leiate artiklist Hartigan ja Wong (1978). Erinevalt hierarhilistest meetoditest, mis ei nõua esialgseid eeldusi klastrite arvu kohta, on selle meetodi kasutamiseks vajalik hüpotees kõige tõenäolisema klastrite arvu kohta.

k-tähendab algoritm ehitab k klastrit, mis asuvad üksteisest võimalikult suurel kaugusel. Peamised probleemide tüübid, mis lahendatakse k-tähendab algoritm, - eelduste (hüpoteeside) olemasolu klastrite arvu kohta, samas kui need peaksid olema võimalikult erinevad. Arvu k valik võib põhineda varasematel uuringutel, teoreetilistel kaalutlustel või intuitsioonil.

Algoritmi üldidee: antud kindlat arvu k vaatlusklastreid võrreldakse klastritega nii, et klastri keskmised (kõikide muutujate puhul) erinevad üksteisest võimalikult palju.

Algoritmi kirjeldus

Objektide esialgne jaotus klastrite kaupa.
Valitakse arv k ja esimeses etapis loetakse need punktid klastrite "keskpunktideks". Iga klaster vastab ühele keskusele.

Esialgsete tsentroidide valiku saab teha järgmiselt:
- k-vaatluste valimine algkauguse maksimeerimiseks;
- juhuslik valik k-vaatlusi;
- esimeste k-vaatluste valik.
Selle tulemusena määratakse iga objekt konkreetsesse klastrisse.
Iteratiivne protsess.
Arvutatakse klastri keskused, mis siis ja allpool on klastrite koordinaatide keskmised. Objektid jaotatakse uuesti ümber.

Keskuste arvutamise ja objektide ümberjaotamise protsess jätkub, kuni on täidetud üks järgmistest tingimustest:
- klastrikeskused on stabiliseerunud, s.t. kõik vaatlused kuuluvad klastrisse, kuhu nad kuulusid enne praegust iteratsiooni;
- iteratsioonide arv on võrdne maksimaalse iteratsioonide arvuga.
Joonisel fig. 14.1 on töö näide k-tähendab algoritm kui k on võrdne kahega.

Riis. 14.1.

Klastrite arvu valik on keeruline küsimus. Kui selle arvu kohta eeldusi pole, on soovitav tulemusi võrrelda 2 klastrit, seejärel 3, 4, 5 jne.

Algoritm võib suurtes andmebaasides olla aeglane. Selle probleemi võimalik lahendus on andmete valimi kasutamine.

1.1. Hierarhilised aglomeratiivsed (kombineerivad) meetodid on meetodid, mis ühendavad objektid järjestikku klastriteks. Esimeses etapis käsitletakse iga näidisobjekti eraldi klastrina; edasi kombineeritakse sarnasusmaatriksi põhjal üksteisele kõige lähemal olevad objektid. Samamoodi on iga objekt kas rühmitatud teise objektiga või kaasatud olemasolevasse klastris. Klastrite moodustamise protsess on piiratud ja jätkub seni, kuni kõik objektid on ühendatud üheks klastriks. Loomulikult ei ole sellisel tulemusel üldjuhul mõtet ja uurija määrab iseseisvalt, millisel hetkel tuleb klasterdamine lõpetada.

1.2. Hierarhilised jagavad (eraldavad) meetodid on meetodid, mis jaotavad rühmad järjestikku eraldi objektideks. Meetodite põhieelduseks on see, et algselt kuuluvad kõik objektid samasse klastrisse. Klastrite moodustamise käigus eraldatakse sellest klastrist teatud reeglite kohaselt üksteisega sarnaste objektide rühmad. Seega suureneb klastrite arv igal etapil.

Tuleb märkida, et nii aglomeratiivseid kui ka jagavaid meetodeid saab rakendada erinevate algoritmide abil.

2. Iteratiivsed meetodid- meetodite olemus seisneb selles, et klassifitseerimisprotsess algab klastrite moodustamise algtingimuste (moodustunud klastrite arv, algklastrite tsentrite koordinaadid jne) määramisega. Algtingimuste muutmine muudab oluliselt klastrite moodustamise tulemusi, mistõttu nende meetodite kasutamine eeldab üldkogumi eeluuringut, kasutades selleks eelkõige hierarhilisi klasteranalüüsi meetodeid. Kõige sagedamini kasutatakse pärast hierarhilisi meetodeid iteratiivseid meetodeid. Iteratiivsed meetodid võivad viia kattuvate klastrite moodustumiseni, kui üks objekt kuulub korraga mitmesse klastrisse.

Iteratiivsete meetodite hulka kuuluvad: meetod juurde-keskmised, kontsentratsioonide otsimise meetod jne.

Klasteranalüüsi meetodeid valides juhindutakse varasemast kogemusest, üldkogumi kohta saadaolevast informatsioonist ja algandmetest. Tuleb märkida, et edasi esialgne etapp, enamasti valitakse korraga mitu klasteranalüüsi meetodit, mis viivad erinevate klasterdamise tulemusteni. Saadud objektide klassifikatsioone analüüsitakse kvaliteedikriteeriumide abil, mis võimaldavad valida kõige kvalitatiivsema klassifikatsiooni.

Suurte populatsioonide jaoks on kõik klasteranalüüsi meetodid väga aeganõudvad, seetõttu rakendatakse praeguses etapis nende rakendamist tarkvaratoodete, eriti SPSS-programmi abil.

Piisav üksikasjalik ülevaade ning töös on toodud erinevate klasteranalüüsi meetodite süstematiseerimine.

Klasteranalüüsi hierarhiliste meetodite aluseks on definitsioon sarnasuse meetmed objektid vaadeldavate muutujate järgi. Sarnasuse kvantifitseerimiseks klastrianalüüsis võetakse kasutusele mõõdiku mõiste. Objektide sarnasus või erinevus määratakse sõltuvalt objektide vahelisest meetrilisest kaugusest. Objektide sarnasusnäitajaid on erinevaid, nende hulgas on kõige populaarsemad järgmised:

Eukleidiline kaugus objektide vahel:

kaalutud eukleidiline kaugus:

Vahemaa vahel i ja j objektid,

Tähendus juurde-th muutuja y i- objekt,

Tähendus to- y muutuja j- objekt,

nädal- määratud kaal to- th muutuja.

Kui objekte kirjeldatakse mittemeetriliste muutujate abil, siis saab sarnasuse mõõtjatena kasutada järjestuskorrelatsioonikordajaid (näiteks Pearsoni paariskorrelatsioonikordajaid), assotsiatiivsuskordajaid ja muid sarnasusmõõtjaid.

Saada oma head tööd teadmistebaasi on lihtne. Kasutage allolevat vormi

Üliõpilased, magistrandid, noored teadlased, kes kasutavad teadmistebaasi oma õpingutes ja töös, on teile väga tänulikud.

Sarnased dokumendid

Turu segmenteerimise eesmärgid aastal turundustegevused. Klasteranalüüsi olemus, selle rakendamise peamised etapid. Valige, kuidas mõõta kaugust või sarnasust. Hierarhilised, mittehierarhilised klastrimeetodid. Töökindluse ja töökindluse hindamine.

aruanne, lisatud 02.11.2009

Krasnodari territooriumi ehitustööstuse omadused. Elamuehituse arengu prognoos. Kaasaegsed meetodid ja tööriistad klastri analüüs. Mitmemõõtmelised statistilised meetodid ettevõtte majandusliku olukorra diagnoosimiseks.

lõputöö, lisatud 20.07.2015

Modelleerimine. Determinism. Deterministlikud ülesanded faktoranalüüs. Tegurite mõju mõõtmise viisid deterministlikus analüüsis. Deterministlike majandus-matemaatika mudelite ja faktoranalüüsi meetodite arvutamine RUE "GZlin" näitel.

kursusetöö, lisatud 12.05.2008

Peamised omadused rahaline seisukord ettevõtetele. Kriis ettevõttes, selle põhjused, liigid ja tagajärjed. Klasteranalüüsi kaasaegsed meetodid ja vahendid, nende kasutamise tunnused ettevõtte finants- ja majandushindamiseks.

lõputöö, lisatud 09.10.2013

Ülesanded selle klastrianalüüsi etapi jaoks, aitavad teavitada. Näide majandusandmete klassifitseerimisest klasteranalüüsi algoritmi toetamiseks, meetodid klastri stabiilsuse uuesti kontrollimiseks, analüüsitulemuste tõlgendamiseks ja dendrogrammide stimuleerimiseks.

abstraktne, lisatud 15.07.2011

Faktoranalüüsi põhiterminoloogia, mõiste ja meetodid. Faktoranalüüsi põhietapid ja Tšebotarevi tehnika. Faktoranalüüsi praktiline tähtsus ettevõtte juhtimisele. Lagrange'i meetod faktoranalüüsi probleemide lahendamisel.

test, lisatud 26.11.2008

Tehke Statgraphics Plusi abil ettevõtete klasteranalüüs. Lineaarse regressiooni võrrandi konstrueerimine. Elastsuskordajate arvutamine regressioonimudelite abil. Võrrandi statistilise olulisuse ja määramiskordaja hindamine.

Klasteranalüüsi hierarhilised meetodid. I.A. Chubukova Loeng: Klasteranalüüsi meetodid. iteratiivsed meetodid. Interneti-infotehnoloogiaülikool. Viide Klasteranalüüsi meetod tükkide leidmiseks

Algoritm k-means (k-means)

Algoritmi kirjeldus

Saada oma head tööd teadmistebaasi on lihtne. Kasutage allolevat vormi

Sarnased dokumendid

Peamised seotud artiklid