Metode grafičke eksplorativne analize podataka. Statistički alati za grafičku istraživačku analizu podataka. Deskriptivna statistika, grupiranje, eksplorativna analiza Pravila odnosa primjer eksplorativne analize u statistici

Metode grafičke eksplorativne analize podataka. Statistički alati za grafičku istraživačku analizu podataka. Deskriptivna statistika, grupiranje, eksplorativna analiza Pravila odnosa primjer eksplorativne analize u statistici

Poglavlje 1

Poglavlje 2. JEDNOSTAVNI SAŽETAK PODATAKA - NUMERIČKI I GRAFIČKI

Poglavlje 10. KORIŠTENJE DVOSMERNE ANALIZE

Poglavlje 1

Poglavlje 2. JEDNOSTAVNI SAŽETAK PODATAKA - NUMERIČKI I GRAFIČKI

Poglavlje 10. KORIŠTENJE DVOSMERNE ANALIZE

Najpopularniji povezani članci

30.05.2020 Dekor

Ovo poglavlje nastavlja temu Izrada i analiza tablica. Preporučamo da ga pregledate, a zatim počnete čitati ovaj tekst i vježbe STATISTICA.

Analiza korespondencije (na engleskom coirespondence analysis) je istraživačka metoda analize koja vam omogućuje vizualno i numeričko istraživanje strukture tablica kontingencije velikih dimenzija.

Analiza korespondencije kao sredstvo za razvoj marketinških strategija gradova, 3. međunarodna konferencija o najnovijim dostignućima u znanosti o maloprodaji i uslugama, str. 22-25, lipanj 1996., Telfs-Buchen (Osterreich) Werani, Thomas).

Primjene metode poznate su u arheologiji, analizi teksta, gdje je važno istražiti strukture podataka (vidi Greenacre, M. J., 1993., Correspondence Analysis in Practice, London: Academic Press).

Evo nekoliko dodatnih primjera:

Studija društvene grupe stanovništva u različitim regijama sa stavkama izdataka za svaku skupinu.
Istraživanja rezultata glasovanja u UN-u o temeljnim pitanjima (1 - za, 0 - protiv, 0,5 - suzdržani, npr. 1967. proučavano je 127 zemalja o 13 važnih pitanja) pokazuju da su prema prvom faktoru zemlje jasno podijeljena u dvije skupine: jedna sa središtem SAD, druga sa središtem SSSR (bipolarni model svijeta). Ostali čimbenici mogu se tumačiti kao izolacionizam, neglasovanje itd.
Istraživanje uvoza automobila (marka automobila - red tablice, država proizvođača - stupac).
Proučavanje tablica koje se koriste u paleontologiji, kada se na temelju uzorka različitih dijelova kostura životinja pokušavaju klasificirati (pripisati jednom od mogućih tipova: zebra, konj itd.).
Istraživanje teksta. Poznat je sljedeći egzotičan primjer: časopis New-Yorker zatražio je od lingvista da identificiraju anonimnog autora skandalozne knjige o predsjedničkoj kampanji. Stručnjacima su ponuđeni tekstovi 15 mogućih autora i tekst anonimnog izdanja. Tekstovi su predstavljeni redovima tablice. Linija i označava učestalost zadane riječi j. Tako je dobivena tablica kontingencije. Metodom analize korespondencije utvrđen je najvjerojatniji autor skandaloznog teksta.

Korištenje analize korespondencije u medicini povezano je s proučavanjem strukture složenih tablica koje sadrže indikatorske varijable koje pokazuju prisutnost ili odsutnost određenog simptoma kod pacijenta. Tablice ove vrste imaju veliku dimenziju, a proučavanje njihove strukture nije trivijalan zadatak.

Zadaci vizualizacije složenih objekata također se mogu istražiti ili im se barem približiti uz pomoć analize korespondencije. Slika je višedimenzionalna tablica, a zadatak je pronaći ravninu koja vam omogućuje što točniju reprodukciju izvorne slike.

Matematička osnova metode. Analiza korespondencije oslanja se na hi-kvadrat statistiku. Možemo reći da je ovo nova interpretacija Pearsonove hi-kvadrat statistike.

Metoda je vrlo slična faktorska analiza No, za razliku od nje, ovdje se proučavaju tablice kontingencije, a kriterij kvalitete reprodukcije višedimenzionalne tablice u prostoru niže dimenzije je vrijednost hi-kvadrat statistike. Neslužbeno se o korespondentnoj analizi može govoriti kao o faktorskoj analizi kategoričkih podataka i smatrati je također metodom redukcije dimenzionalnosti.

Dakle, retci ili stupci izvorne tablice predstavljeni su točkama u prostoru, između kojih se izračunava hi-kvadrat udaljenost (slično kao što se izračunava hi-kvadrat statistika za usporedbu promatranih i očekivanih frekvencija).

Zatim morate pronaći prostor male dimenzije, obično dvodimenzionalan, u kojem su izračunate udaljenosti minimalno iskrivljene, iu tom smislu, reproducirati strukturu izvorne tablice što je točnije moguće uz održavanje odnosa između značajki (ako imate ideju o višedimenzionalnim metodama skaliranja, osjetit ćete poznatu melodiju).

Dakle, krećemo od uobičajene unakrsne tablice, odnosno tablice u kojoj je povezano više obilježja (više o unakrsnim tablicama potražite u poglavlju Izrada i analiza tablica).

Pretpostavimo da postoje podaci o pušačkim navikama zaposlenika određene tvrtke. Slični podaci dostupni su u datoteci Smoking.sta koja je uključena u standardni set primjera sustava STATISTICA.

U ovoj tablici atribut pušenje povezan je s položajem atributa:

Grupa zaposlenika	(1) Nepušači	(2) Lagani pušači	(3) Srednji pušači	(4) Teški pušači	Ukupno po retku
(1) Viši rukovoditelji
(2) Mlađi menadžeri
(3) Više osoblje
(4) Mlađi zaposlenici
(5) Tajnici
Ukupno po stupcu

Ovo je jednostavna križna tablica s dva ulaza. Pogledajmo prvo žice.

Možemo pretpostaviti da su prva 4 broja svakog retka tablice (rubne frekvencije, tj. zadnji stupac nije uzet u obzir) koordinate retka u 4-dimenzionalnom prostoru, što znači da možemo formalno izračunati hi-kvadrat udaljenosti između tih točaka (redova tablice).

Uz zadane rubne frekvencije, te se točke mogu prikazati u prostoru dimenzije 3 (broj stupnjeva slobode je 3).

Očito, što je udaljenost manja, to je veća sličnost između skupina, i obrnuto – što je udaljenost veća, to je razlika veća.

Sada pretpostavimo da se može pronaći niži dimenzionalni prostor, kao što je dimenzija 2, za predstavljanje točaka reda koji zadržava sve ili, točnije, gotovo sve informacije o razlikama između redaka.

Ovaj pristup možda neće biti učinkovit za male tablice poput gornje, ali je koristan za velike tablice poput onih pronađenih u istraživanju tržišta.

Na primjer, ako se zabilježe preferencije 100 ispitanika pri odabiru 15 piva, tada se kao rezultat primjene korespondentne analize može prikazati 15 sorti (točaka) na ravnini (vidi analizu prodaje u nastavku). Analizirajući položaj točaka, vidjet ćete uzorke u izboru piva, što će biti korisno pri provođenju marketinške kampanje.

Analiza korespondencije koristi određeni sleng.

Težina. Opažanja u tablici su normalizirana: izračunavaju se relativne frekvencije za tablicu, zbroj svih elemenata tablice postaje jednak 1 (svaki element se dijeli s ukupnim brojem opažanja, u ovaj primjer na 193). Stvoren je analog dvodimenzionalne gustoće distribucije. Dobivena standardizirana tablica pokazuje kako je masa raspoređena po ćelijama tablice ili po točkama u prostoru. U žargonu analize korespondencije, zbrojevi preko redaka i stupaca u relativnoj frekvencijskoj matrici nazivaju se masa retka i stupca.

Inercija. Inercija se definira kao Pearsonova vrijednost hi-kvadrat za tablicu s dva ulaza podijeljena s ukupnim brojem opažanja. U ovom primjeru: ukupna inercija = 2/193 - 16,442.

Inercija i profili redaka i stupaca. Ako su reci i stupci tablice potpuno neovisni (među njima nema nikakve veze – npr. pušenje ne ovisi o poziciji), tada se elementi tablice mogu reproducirati pomoću zbrojeva redaka i stupaca ili, terminološki rečeno, analize korespondencije, korištenjem profila redaka i stupaca (uz korištenje marginalnih frekvencija (vidi poglavlje Izrada i analiza tablica za Pearsonov hi-kvadrat test i Fisherov egzaktni test).

U skladu s dobro poznatom hi-kvadrat formulom za tablice s dva ulaza, očekivane učestalosti tablice u kojoj su stupci i retci neovisni izračunavaju se množenjem odgovarajućih profila stupaca i redaka i dijeljenjem rezultata s ukupnim zbrojem.

Svako odstupanje od očekivanih vrijednosti (pod hipotezom potpune neovisnosti varijabli u redovima i stupcima) pridonijet će statistici hi-kvadrat.

Analiza korespondencije može se smatrati dekompozicijom hi-kvadrat statistike na njene komponente kako bi se pronašao najmanji dimenzionalni prostor koji može predstavljati odstupanja od očekivanih vrijednosti (pogledajte tablicu u nastavku).

Ovdje su tablice s očekivanim učestalostima izračunatim prema hipotezi neovisnosti obilježja i promatranim učestalostima, kao i tablica doprinosa stanica hi-kvadratu:

Na primjer, tablica pokazuje da je broj mlađih zaposlenika nepušača oko 10 manji od onoga što bi se očekivalo prema hipotezi neovisnosti. S druge strane, broj starijih nepušača veći je za 9 nego što bi se očekivalo prema hipotezi neovisnosti itd. No, željeli bismo imati opću sliku.

Svrha korespondentne analize je sažimanje ovih odstupanja od očekivanih frekvencija ne u apsolutnim, već u relativnim jedinicama.

Analiza redaka i stupaca. Umjesto redaka tablice, također se mogu uzeti u obzir stupci i predstaviti ih kao točke u prostoru niže dimenzije, što reproducira što je točnije moguće sličnost (i udaljenosti) između relativnih frekvencija za stupce tablice. Možete istovremeno prikazati stupce i retke na istom grafikonu koji predstavljaju sve informacije sadržane u tablici s dva ulaza. A ova opcija je najzanimljivija jer omogućuje smislenu analizu rezultata.

Rezultati. Rezultati analize korespondencije obično se prikazuju u obliku grafikona, kao što je prikazano gore, a također i u obliku tablica kao što su:

Broj mjerenja	Postotak inercije	Kumulativni postotak	Hi-kvadrat

Pogledaj ovu tablicu. Kao što se sjećate, svrha analize je pronaći prostor niže dimenzije koji vraća tablicu, dok je kriterij kvalitete normalizirani hi-kvadrat, odnosno inercija. Vidi se da ako se u razmatranom primjeru koristi jednodimenzionalni prostor, odnosno jedna os, može se objasniti 87,76% tromosti stola.

Dvije dimenzije omogućuju da se objasni 99,51% inercije.

Koordinate retka i stupca. Razmotrite dobivene koordinate u dvodimenzionalnom prostoru.

Naziv retka	Promjena 1	Promjena 2
viši menadžeri
mlađi menadžeri
viši kadar
mlađi zaposlenici
Tajnice

To možete prikazati na dvodimenzionalnom dijagramu.

Očita prednost dvodimenzionalnog prostora je da su linije prikazane kao bliske točke također blizu jedna drugoj u relativnim frekvencijama.

S obzirom na položaj točaka duž prve osi, uočava se da je sv. osoblje i tajnice su relativno blizu koordinata. Obratimo li pažnju na retke tablice relativnih učestalosti (učestalosti su standardizirane tako da je njihov zbroj za svaki redak 100%), onda postaje očita sličnost ovih dviju skupina u pogledu intenziteta pušenja.

Kamata po redu:

	Kategorije pušača
Grupa zaposlenika	(1) Nepušači	(2) Lagani pušači	(3) Srednji pušači	(4) Teški pušači	Ukupno po retku
(1) Viši rukovoditelji
(2) Mlađi menadžeri
(3) Više osoblje
(4) Mlađi zaposlenici
(5) Tajnici

Konačni cilj korespondentne analize je tumačenje vektora u rezultirajućem nižedimenzionalnom prostoru. Jedan od načina koji može pomoći u tumačenju rezultata je predstavljanje stupčastog grafikona. Sljedeća tablica prikazuje koordinate stupaca:

	Dimenzija 1	Dimenzija 2
Nepušači
lagani pušači
Srednji pušači
Teški pušači

Možemo reći da prva os daje gradaciju intenziteta pušenja. Stoga se veliki stupanj sličnosti između viših menadžera i tajnika može objasniti prisustvom velikog broja nepušača u tim skupinama.

Metrika koordinatnog sustava. U nekim se slučajevima pojam udaljenost koristio za označavanje razlika između redaka i stupaca matrice relativne frekvencije, koje su pak bile predstavljene u prostoru niže dimenzije kao rezultat korištenja metoda analize korespondencije.

U stvarnosti, udaljenosti predstavljene kao koordinate u prostoru odgovarajuće dimenzije nisu samo euklidske udaljenosti izračunate iz relativnih frekvencija stupaca i redaka, već neke ponderirane udaljenosti.

Postupak prilagodbe težine uređen je na takav način da je u prostoru niže dimenzije metrika hi-kvadrat metrika, s obzirom na to da se uspoređuju točke retka i standardiziraju profili retka ili su standardizirani profili retka i stupca, ili uspoređuju se točke stupaca i standardiziraju se profili stupaca ili standardizacija profila redaka i stupaca.

Ocjena kvalitete rješenja. Postoje posebne statistike koje pomažu u procjeni kvalitete dobivenog rješenja. Sve ili većina točaka moraju biti ispravno prikazane, odnosno razmaci između njih ne smiju biti iskrivljeni kao rezultat primjene postupka korespondentne analize. Sljedeća tablica prikazuje rezultate izračuna statistike o dostupnim koordinatama retka, temeljene samo na jednodimenzionalnom rješenju u prethodnom primjeru (to jest, samo je jedna dimenzija korištena za rekonstrukciju profila redaka matrice relativne frekvencije).

Koordinate i doprinos inerciji linije:

Koordinate. Prvi stupac tablice rezultata sadrži koordinate čija interpretacija, kao što je već navedeno, ovisi o standardizaciji. Dimenziju može odabrati korisnik (u ovom smo primjeru odabrali jednodimenzionalni prostor), a koordinate se prikazuju za svaku dimenziju (odnosno, jedan stupac koordinata prikazuje se za svaku os).

Težina. Masa sadrži zbrojeve svih elemenata za svaki redak matrice relativne frekvencije (to jest, za matricu u kojoj svaki element sadrži odgovarajuću masu, kao što je gore spomenuto).

Ako je opcija odabrana kao metoda standardizacije Redni profili ili opciju Profili redaka i stupaca, koji je postavljen prema zadanim postavkama, tada se koordinate reda izračunavaju iz matrice profila reda. Drugim riječima, koordinate se izračunavaju na temelju matrice uvjetnih vjerojatnosti prikazane u stupcu Težina.

Kvaliteta. Stupac Kvaliteta sadrži podatke o kvaliteti prikaza odgovarajuće točke linije u koordinatnom sustavu određenom odabranom dimenzijom. U predmetnoj tablici odabrana je samo jedna dimenzija pa brojevi u stupcu Kvaliteta su kvaliteta prikaza rezultata u jednodimenzionalnom prostoru. Može se vidjeti da je kvaliteta za više menadžere vrlo niska, ali visoka za više i niže zaposlenike i tajnice.

Napominjemo ponovno da je, u računalnim terminima, cilj analize korespondencije prikazati udaljenosti između točaka u nižedimenzionalnom prostoru.

Ako se koristi maksimalna dimenzija (jednaka minimalnom broju redaka i stupaca minus jedan), sve se udaljenosti mogu točno reproducirati.

Kvaliteta točke definirana je kao omjer kvadrata udaljenosti od dane točke do ishodišta, u prostoru odabrane dimenzije, i kvadrata udaljenosti do ishodišta, definiranog u prostoru maksimalne dimenzije. (u ovom slučaju, metrika hi-kvadrat odabrana je kao metrika, kao što je ranije spomenuto). U faktorskoj analizi postoji sličan koncept općenitosti.

Kvaliteta koju izračunava STATISTICA neovisna je o odabranoj metodi standardizacije i uvijek koristi zadanu standardizaciju (tj. metrika udaljenosti je hi-kvadrat, a mjera kvalitete može se tumačiti kao udio hi-kvadrat definiran odgovarajućim redom u prostor odgovarajuće dimenzije).

Niska kvaliteta znači da raspoloživi broj mjerenja ne predstavlja dovoljno dobro odgovarajući redak (stupac).

Relativna inercija. Kvaliteta točke (vidi gore) predstavlja omjer doprinosa dane točke ukupnoj inerciji (Chi-kvadrat), što može objasniti odabranu dimenziju.

Kvaliteta ne odgovara na pitanje koliko i u kojoj mjeri odgovarajuća točka zapravo doprinosi tromosti (vrijednosti hi-kvadrat).

Relativna tromost predstavlja udio ukupne tromosti koja pripada određenoj točki i ne ovisi o dimenziji koju odabere korisnik. Imajte na umu da određeno rješenje može prilično dobro predstavljati točku (visoke kvalitete), ali ista točka može dati vrlo mali doprinos ukupnoj inerciji (tj. linija točke čiji su elementi relativne frekvencije ima sličnosti s nekom linijom, elementima što je prosjek svih redova).

Relativna inercija za svaku dimenziju. Ovaj stupac sadrži relativni doprinos odgovarajuće točke crte vrijednosti inercije zbog odgovarajuće dimenzije. U izvješću se ta vrijednost daje za svaku točku (redak ili stupac) i za svaku dimenziju.

Kosinus**2 (kvaliteta ili kvadratne korelacije sa svakom dimenzijom). Ovaj stupac sadrži kvalitetu za svaku točku, zbog odgovarajuće dimenzije. Ako zbrojimo red po red elemente kosinusa ** 2 stupca za svaku dimenziju, tada kao rezultat dobivamo stupac vrijednosti kvalitete, koje su već spomenute gore (budući da je dimenzija 1 odabrana u primjeru koji se razmatra, kosinus 2 stupac podudara se sa stupcem Kvaliteta). Ova se vrijednost može protumačiti kao "korelacija" između odgovarajuće točke i odgovarajuće dimenzije. Izraz kosinus ** 2 nastao je jer je ta vrijednost kvadrat kosinusa kuta koji čine dana točka i odgovarajuća os.

Dodatni bodovi. Uključivanje dodatnih točaka retka ili stupca koje izvorno nisu bile uključene u analizu može pomoći u tumačenju rezultata. Moguće je uključiti i dodatne točke retka i dodatne točke stupca. Također možete prikazati dodatne točke zajedno s izvornim točkama na istom grafikonu. Na primjer, razmotrite sljedeće rezultate:

Grupa zaposlenika	Dimenzija 1	Dimenzija 2
viši menadžeri
mlađi menadžeri
viši kadar
mlađi zaposlenici
Tajnice
Nacionalni prosjek

Ova tablica prikazuje koordinate (za dvije dimenzije) izračunate za frekvencijsku tablicu koja se sastoji od klasifikacije stupnja ovisnosti o pušenju među zaposlenicima na različitim pozicijama.

Linija Nacionalni prosjek sadrži koordinate dodatne točke, koja je prosječna razina (u postocima) izračunata za različite nacionalnosti pušača. U ovom primjeru, ovo su isključivo podaci modela.

Ako izgradite dvodimenzionalni dijagram grupa zaposlenika i nacionalnog prosjeka, odmah provjerite jesu li ova dodatna točka i grupa tajnika vrlo blizu jedna drugoj i nalaze li se na istoj strani vodoravne koordinatne osi s kategorijom Ne -pušači (točka stupca). Drugim riječima, uzorak prikazan u izvornoj tablici učestalosti sadrži više pušača od nacionalnog prosjeka.

Dok se isti zaključak može izvući gledanjem izvorne križne tablice, u većim tablicama takvi zaključci naravno nisu tako očiti.

Kvaliteta prikaza dodatnih bodova. Još jedan zanimljiv rezultat koji se tiče dodatnih bodova je interpretacija kvalitete, zastupljenosti za datu dimenziju.

Opet, svrha analize korespondencije je predstavljanje udaljenosti između koordinata retka ili stupca u nižedimenzionalnom prostoru. Znajući kako se ovaj problem rješava, potrebno je odgovoriti na pitanje je li adekvatno (u smislu udaljenosti do točaka u izvornom prostoru) predstavljati dodatnu točku u prostoru odabrane dimenzije. Ispod su statistike za izvorne bodove i za dodatni nacionalni prosjek bodova primijenjene na problem u 2D prostoru.

Mlađi menadžeri0,9998100,630578

Podsjetimo se da je kvaliteta točaka-redova ili stupaca definirana kao omjer kvadrata udaljenosti od točke do ishodišta u prostoru smanjene dimenzije i kvadrata udaljenosti od točke do ishodišta u izvornom prostoru (kao metrički, kao što je već navedeno, odabrana je hi-kvadrat udaljenost).

U određenom smislu, kvaliteta je veličina koja objašnjava udio kvadrata udaljenosti do težišta izvornog oblaka točaka.

Dodatna linijska točka Nacionalni prosjek ima ocjenu 0,76. To znači da je dana točka prilično dobro predstavljena u dvodimenzionalnom prostoru. Statistika kosinusa**2 je kvaliteta reprezentacije odgovarajućeg retka točke, zbog izbora prostora dane dimenzije (ako zbrojimo elemente stupaca kosinusa 2 za svaku dimenziju red po red, tada kao rezultatom ćemo doći do ranije dobivene vrijednosti kvalitete).

Grafička analiza rezultata. Ovo je najvažniji dio analize. U biti, možete zaboraviti na formalne kriterije kvalitete, ali vodite se nekima jednostavna pravila razumjeti grafove.

Dakle, na grafu su prikazane točke-redovi i točke-stupci. Dobar je oblik predstaviti i te i druge točke (na kraju krajeva, analiziramo odnose između redaka i stupaca tablice!).

Obično vodoravna os odgovara najvećoj inerciji. Blizu strelice prikazan je postotak ukupne inercije objašnjen ovom svojstvenom vrijednošću. Često se također daju odgovarajuće svojstvene vrijednosti preuzete iz tablice rezultata. Sjecište dviju osi je težište promatranih točaka, koje odgovaraju prosječnim profilima. Ako točke pripadaju istoj vrsti, to jest, ili su redovi ili stupci, tada što je manja udaljenost između njih, to je odnos bliži. Da bi se uspostavio odnos između točaka različitih vrsta (između redaka i stupaca), treba razmotriti kutovi između njih s vrhom u središtu gravitacije.

Opće pravilo za vizualnu procjenu stupnja ovisnosti je sljedeće.

Razmotrite 2 proizvoljne točke različitih tipova (retci i stupci tablice).
Spojimo ih segmentima s težištem (točka s koordinatama 0,0).
Ako je rezultirajući kut oštar, tada su red i stupac u pozitivnoj korelaciji.
Ako je rezultirajući kut tup, tada je korelacija između varijabli negativna.
Ako je kut pravi, nema korelacije.

Razmotrimo analizu konkretnih podataka u sustavu STATISTICA.

Primjer 1 (analiza pušača)

Korak 1. Pokrenite modul Analiza korespondencije.

Postoje 2 vrste analize u ploči za pokretanje modula: analiza korespondencije i multivarijatna analiza korespondencije.

Odaberi Analiza korespondencije. Multivarijatna analiza korespondencije bit će raspravljena u sljedećem primjeru.

Korak 2 Otvorite podatkovnu datoteku smoking.sta u mapi Primjeri.

Datoteka je već tablica nepredviđenih okolnosti, tako da nisu potrebne kartice. Odaberite vrstu analize - Frekvencije bez varijable grupiranja.

3. korak. Pritisnite gumb Varijable s frekvencijama i odaberite varijable za analizu.

Za ovaj primjer odaberite sve varijable.

Korak 4 Klik u redu i pokrenite postupak izračuna. Na ekranu će se pojaviti prozor s rezultatima.

Korak 5 Razmotrite rezultate pomoću opcija u ovom prozoru.

Obično se prvi razmatraju grafikoni za koje postoji grupa gumba Koordinatni grafikon.

Grafikoni su dostupni za retke i stupce, kao i za retke i stupce u isto vrijeme.

U opciji se postavlja dimenzija maksimalnog prostora Dimenzija.

Najzanimljivija dimenzija je 2. Imajte na umu da se na grafikonu, osobito ako ima puno podataka, oznake mogu međusobno preklapati, pa se opcija Skratite oznake.

Pritisnite treću tipku 2M u dijaloškom okviru. Na ekranu će se pojaviti grafikon:

Imajte na umu da su oba faktora prikazana na grafikonu: grupa zaposlenika - redovi i intenzitet pušenja - stupci.

Spojite crtom kategoriju STARIJI ZAPOSLENICI, kao i kategoriju NO s težištem.

Rezultirajući kut bit će oštar, što jezikom analize korespondencije govori o prisutnosti pozitivne korelacije između ovih značajki (pogledajte izvornu tablicu da to vidite).

Koordinate redaka i stupaca također se mogu pregledati numerički pomoću gumba Koordinate retka i stupca.

Korištenje gumba Svojstvene vrijednosti, možete vidjeti dekompoziciju hi-kvadrat statistike u smislu svojstvenih vrijednosti.

Opcija Raspored Samo odabrana mjerenja omogućuju pregled koordinata točaka duž odabranih osi.

Grupa opcija Pogledaj tablice u desnom dijelu prozora omogućuje pregled izvorne i očekivane tablice kontingencije, razlike između frekvencija i ostalih parametara izračunatih pod hipotezom neovisnosti tabličnih značajki (vidi poglavlje Izrada i analiza tablica, hi-kvadrat test).

Velike tablice najbolje je istraživati postupno, uvodeći dodatne varijable prema potrebi. Za to su dostupne sljedeće opcije: Dodaj točke retka, Dodaj točke stupca.

Primjer 2 (analiza prodaje)

U poglavlju Analiza i izrada tablica razmatran je primjer vezan uz analizu prodaje. Primijenimo analizu korespondencije na podatke.

Prethodno je napomenuto da je složeno pitanje koje je kupnje kupac obavio, pod uvjetom da su kupljene 3 robe.

Doista, imamo ukupno 21 proizvod. Da biste vidjeli sve tablice nepredviđenih okolnosti, trebate izvršiti 21 × 20 × 19 = 7980 radnji. Broj akcija se katastrofalno povećava s povećanjem robe i broja značajki. Primijenimo analizu korespondencije. Otvorimo podatkovnu datoteku s indikatorskim varijablama koje označavaju kupljeni proizvod.

Na ploči za pokretanje modula odaberite Multivarijatna analiza korespondencije.

Postavimo uvjet za odabir promatranja.

Ovaj uvjet omogućuje odabir kupaca koji su izvršili točno 3 kupnje.

Budući da se radi o netabeliranim podacima, odabrat ćemo vrstu analize Početni podaci(obavezna kartica).

Radi praktičnosti daljnjeg grafičkog prikaza odabiremo mali broj varijabli. Također odabiremo dodatne varijable (vidi okvir u nastavku).

Započnimo postupak izračuna.

U prozoru koji se pojavi Rezultati multivarijatne analize korespondencije pogledajmo rezultate.

Pomoću tipke 2M prikazuje se dvodimenzionalni grafikon varijabli.

Na ovom grafikonu dodatne varijable označene su crvenim točkama, što je zgodno za vizualnu analizu.

Imajte na umu da svaka varijabla ima oznaku 1 ako je stavka kupljena i oznaku 0 ako stavka nije kupljena.

Pogledajmo grafikon. Izaberimo, na primjer, bliske parove značajki.

Kao rezultat toga dobivamo sljedeće:

Slične studije mogu se provesti za druge podatke kada ne postoje a priori hipoteze o ovisnostima u podacima.

Knjiga, koju je 1977. godine napisao poznati američki matematički statističar, ocrtava osnove eksplorativne analize podataka, tj. primarna obrada rezultata opažanja, koja se provodi pomoću najjednostavnijih sredstava - olovke, papira i dijapozitiva. Na brojnim primjerima autor pokazuje kako prikaz opažanja u vizualnom obliku pomoću dijagrama, tablica i grafikona olakšava prepoznavanje obrazaca i odabir metoda za dublju statističku obradu. Izlaganje je popraćeno brojnim vježbama koje uključuju bogato gradivo iz prakse. Živahan, figurativan jezik olakšava razumijevanje prezentiranog materijala.

John Tukey. Analiza rezultata promatranja. Istraživačka analiza. – M.: Mir, 1981. – 696 str.

Preuzmi sažetak ( Sažetak) u formatu ili , primjeri u formatu

U trenutku objave bilješke knjiga se može pronaći samo u rabljenim knjižarama.

Autor statističku analizu dijeli na dvije faze: istraživačku i potvrdnu. Prva faza uključuje transformaciju opažačkih podataka i načine za njihovu vizualizaciju, omogućujući vam da identificirate unutarnje obrasce koji se pojavljuju u podacima. U drugoj fazi primjenjuju se tradicionalne statističke metode za procjenu parametara i testiranje hipoteza. Ova knjiga govori o eksplorativnoj analizi podataka (za potvrdnu analizu pogledajte ). Za čitanje knjige nije potrebno predznanje iz teorije vjerojatnosti i matematičke statistike.

Bilješka. Baguzin. S obzirom na godinu nastanka knjige, autor se fokusira na vizualizaciju podataka pomoću olovke, ravnala i papira (ponekad milimetarskog). Po mom mišljenju, danas je vizualni prikaz podataka povezan s računalom. Pa sam pokušao kombinirati originalne ideje autor i obrada u Excelu. Moji komentari su uvučeni.

Grafikon je najvrjedniji kada nas tjera da primijetimo stvari koje nismo očekivali vidjeti. Predstavljanje brojeva u obliku stabljike i lišća omogućuje vam prepoznavanje uzoraka. Na primjer, uzimajući desetice kao bazu stabljike, broj 35 može se pripisati stabljici 3. List će biti jednak 5. Za broj 108, stabljika je 10, list je 8.

Kao primjer, uzeo sam 100 nasumičnih brojeva distribuiranih prema normalnom zakonu sa srednjom vrijednosti 10 i standardnom devijacijom 3. Da bih dobio takve brojeve, upotrijebio sam formulu =NORM.INV(RAND();10;3) ( Sl. 1). Otvorite priloženu Excel datoteku. Pritiskom na F9 generirat ćete novi niz slučajnih brojeva.

Riža. 1. 100 nasumičnih brojeva

Vidljivo je da su brojevi uglavnom raspoređeni u rasponu od 5 do 16. No, teško je uočiti neki zanimljiv obrazac. Dijagram stabljike i lista (Slika 2) otkriva normalnu distribuciju. Parovi susjednih brojeva uzeti su kao deblo, na primjer, 4-5. Listovi odražavaju broj vrijednosti u tom rasponu. U našem primjeru postoje 3 takve vrijednosti.

Riža. 2. Grafikon "stabljika i lišće"

U programu Excel postoje dvije značajke koje vam omogućuju brzo istraživanje uzoraka učestalosti: funkcija FREQUENCY (Slika 3; pogledajte za više pojedinosti) i zaokretne tablice (Slika 4; za više pojedinosti pogledajte odjeljak Grupiranje numeričkih polja).

Riža. 3. Analiza korištenjem funkcije polja FREQUENCY

Riža. 4. Analiza korištenjem pivot tablica

Prikaz u obliku stabljike s lišćem (frekvencijski prikaz) omogućuje vam prepoznavanje sljedećih značajki podataka:

podjela u skupine;
asimetrični pad na krajeve - jedan "rep" je duži od drugog;
neočekivano "popularna" i "nepopularna" značenja;
o kojoj su vrijednosti opažanja "centrirana";
Koliko je velika raspršenost u podacima.

Prikaz brojeva u obliku stabljike s lišćem omogućuje vam da sagledate cjelokupnu sliku uzorka. Pred nama je zadatak naučiti sažeto izraziti ono što se najčešće pojavljuje zajedničke značajke uzorci. Za to se koriste sažeci podataka. Međutim, iako sažeci mogu biti od velike pomoći, oni ne daju sve pojedinosti o uzorku. Ako ovih detalja nema toliko da bi bili zbunjujući, najbolje je imati potpune podatke pred očima, postavljene na nama jasno prikladan način. Za velike skupove podataka potrebni su sažeci. Ne pretpostavljamo niti očekujemo da će oni zamijeniti kompletne podatke. Naravno, često je slučaj da dodavanje detalja malo čini, ali važno je shvatiti da ponekad detalji čine puno.

Ako, da bismo okarakterizirali uzorak kao cjelinu, moramo odabrati nekoliko brojeva koje je lako pronaći, tada će nam vjerojatno trebati:

ekstremne vrijednosti - najveće i najmanje, koje ćemo označiti simbolom "1" (prema rangu ili dubini);
neka srednja vrijednost.

Medijan= srednja vrijednost.

Za niz predstavljen kao stabljika s lišćem, srednja vrijednost može se lako pronaći odbrojavanjem od bilo kojeg kraja, pridjeljujući rang "1" krajnjoj vrijednosti. Tako svaka vrijednost u uzorku dobiva svoju rang. Možete početi brojati s bilo kojeg kraja. Najmanji od dva tako dobivena ranga koji se može dodijeliti istoj vrijednosti nazvat ćemo dubina(slika 5). Dubina ekstremne vrijednosti uvijek je 1.

Riža. 5. Određivanje dubine na temelju dva smjera rangiranja

dubina (ili rang) medijana = (1 + broj vrijednosti)/2

Ako želimo dodati još dva broja kako bismo formirali sažetak od 5 brojeva, tada je prirodno definirati ih brojanjem do polovice udaljenosti od svakog kraja do medijana. Proces pronalaženja medijana i zatim ovih novih vrijednosti može se zamisliti kao savijanje komada papira. Stoga je prirodno te nove vrijednosti nazvati nabora(danas češće korišten izraz kvartil).

Kada se skupi, niz od 13 vrijednosti može izgledati ovako:

Pet brojeva za karakterizaciju serije u rastućem redoslijedu bit će: -3,2; 0,1; 1,5; 3,0; 9.8 - jedan na svakoj točki savijanja reda. Pet brojeva (ekstremi, nabori, medijan) koji čine sažetak od 5 brojeva prikazat ćemo u obliku sljedećeg jednostavnog dijagrama:

gdje smo lijevo prikazali broj brojeva (označenih #), dubinu medijana (slovo M), dubinu nabora (slovo C) i dubinu ekstremnih vrijednosti (uvijek 1 , nema potrebe označavati ništa drugo).

Na sl. 8 pokazuje kako grafički prikazati 5-znamenkasti sažetak. Ova vrsta grafikona naziva se kutija s brkovima.

Riža. 8. Shematski dijagram ili kutija za brkove

Nažalost, Excel obično gradi grafikone dionica na temelju samo tri ili četiri vrijednosti (slika 9; pogledajte kako zaobići ovo ograničenje). Za izradu 5-znamenkasti sažetak, možete koristiti R statistički paket (Slika 10; pogledajte Osnovne mogućnosti R grafike: dijagrami raspršenosti za detalje; ako niste upoznati s R, možete početi s). Funkcija boxplot() u R-u, osim 5 brojeva, također odražava outliere (o njima malo kasnije).

Riža. 9. Moguće vrste grafikona dionica u Excelu

Riža. 10. Boxplot u R; za izradu takvog grafa dovoljno je izvršiti naredbu boxplot (count ~ sprej, podaci = InsectSprays), podaci pohranjeni u programu će se učitati i prikazani graf će biti izgrađen

Kada konstruiramo dijagram kutije i brkova, pridržavat ćemo se sljedeće jednostavne sheme:

"C-širina" = razlika između vrijednosti dvaju nabora;
"korak" - vrijednost jedan i pol puta veća od C-širine;
"unutarnje barijere" su izvan nabora na udaljenosti od jednog koraka;
"vanjske barijere" - izvana korak dalje od unutarnjih;
vrijednosti između unutarnjih i susjednih vanjskih barijera bit će "vanjske";
vrijednosti iza vanjskih barijera nazivat će se "odskačući" (ili ekstremi);
"raspon" = razlika između ekstremnih vrijednosti.

Riža. 19. Izračun pomičnog medijana: (a) detaljno za dio podataka; (b) za cijeli uzorak

Riža. 20. Glatka krivulja

Vrijeme je da razmislimo o dvosmjernoj analizi, kako zbog njezine važnosti, tako i zbog uvoda u niz istraživačkih metoda. U središtu dvofaktorske tablice (tablica "odgovora") su:

jedna vrsta odgovora;
dva faktora – a svaki od njih se očituje u svakom opažanju.

Dvofaktorska tablica reziduala. Analiza red-plus-stupac. Na sl. Slika 21 prikazuje prosječne mjesečne temperature za tri lokacije u Arizoni.

Riža. 21. Prosječna mjesečna temperatura u tri grada u Arizoni, °F

Odredimo medijan za svako mjesto i oduzmimo ga od pojedinačnih vrijednosti (slika 22).

Riža. 22. Približne vrijednosti (medijani) za svaki grad i reziduale

Sada odredimo aproksimaciju (medijan) za svaki red i oduzmimo ga od vrijednosti retka (Sl. 23).

Riža. 23. Približne vrijednosti (medijani) za svaki mjesec i reziduale

Za fig. 23 uvodimo pojam "učinak". Broj -24,7 je učinak stupca, a broj 19,1 je učinak retka. Učinak pokazuje kako se čimbenik ili skup čimbenika očituje u svakoj od promatranih vrijednosti. Ako je nastali dio faktora veći od onog što ostaje, tada je lakše vidjeti i razumjeti što se događa s podacima. Broj koji je oduzet od svih podataka bez iznimke (ovdje 70,8) naziva se "ukupno". To je manifestacija svih čimbenika zajedničkih svim podacima. Dakle, za količine na Sl. 23 vrijedi formula:

Ovo je obrazac konkretne analize red-PLUS-stupac. Vraćamo se našem starom triku pokušaja pronalaženja jednostavnog djelomičnog opisa - djelomičnog opisa koji je lakše razumjeti - djelomičnog opisa čije će nam oduzimanje dati dublji pogled na ono što još nije opisano.

Što možemo naučiti iz potpune dvosmjerne analize? Najveći rezidual, 1,9, mali je u usporedbi s veličinom promjene učinka od točke do točke i od mjeseca do mjeseca. Flagstaff je oko 25°F hladniji od Phoenixa, dok je Yuma 5-6°F topliji od Phoenixa. Slijed učinaka mjeseci monotono se smanjuje iz mjeseca u mjesec, prvo polako, zatim brzo, pa opet polako. Ovo je slično simetriji oko listopada (ovaj sam uzorak uočio ranije u primjeru duljine dana; vidi . - Bilješka. Baguzina); Uklonili smo oba vela - učinak sezone i učinak mjesta. Nakon toga smo mogli vidjeti dosta stvari koje su prije bile nezapažene.

Na sl. 24 je dano dijagram dva faktora. Iako je glavna stvar u ovoj slici aproksimacija, ne treba zanemariti ostatke. Na četiri točke povukli smo kratke okomite crte. Duljine ovih crtica jednake su vrijednostima odgovarajućih ostataka, tako da koordinate drugog kraja nisu aproksimativne vrijednosti, već

Podaci = aproksimacija PLUS ostatak.

Riža. 24. Dvofaktorski dijagram

Imajte na umu također da je svojstvo ovog ili bilo kojeg drugog dvofaktorskog dijagrama "razmjer samo u jednom smjeru", definirajući okomitu veličinu, tj. isprekidane vodoravne crte povučene uz bočne strane slike i nepostojanje bilo kakve veličine u vodoravnom smjeru.

Za značajke programa Excel pogledajte. Zanimljivo je da su neke od formula korištenih u ovoj bilješci nazvane po Tukeyu.

Ono što se zatim dogodilo, po mom mišljenju, postalo je prilično komplicirano ...

Data Mining Frolov Timofey. BI-1102 Data mining je proces analitičkog istraživanja velikih količina informacija (obično ekonomske prirode) kako bi se identificirali određeni obrasci i sustavni odnosi između varijabli, koji se zatim mogu primijeniti na nove skupove podataka. Ovaj proces uključuje tri glavna koraka: istraživanje, izgradnju modela ili strukture i njihovo testiranje. U idealnom slučaju, uz dovoljno podataka, može se organizirati iterativni postupak za izgradnju robusnog modela. Istodobno, u stvarnoj situaciji praktički je nemoguće testirati ekonomski model u fazi analize te su stoga početni rezultati u prirodi heuristike koja se može koristiti u procesu donošenja odluka (npr. dostupni podaci pokazuju da kod žena učestalost uzimanja tableta za spavanje raste s godinama brže nego kod muškaraca. Metode rudarenja podataka postaju sve popularnije kao alat za analizu ekonomskih informacija, posebno u slučajevima kada se pretpostavlja da se znanje može izvući iz postojećih podataka za donošenje odluka u uvjetima neizvjesnosti. Iako se nedavno povećao interes za razvoj novih metoda analize podataka posebno dizajniranih za poslovni sektor (na primjer, Klasifikacijska stabla), općenito se sustavi Data Mininga još uvijek temelje na klasičnim načelima Eksploratorne analize podataka (EDA) i izgradnje modela te koristiti iste pristupe i metode. Postoji, međutim, bitna razlika između postupka Data Mininga i klasične eksplorativne analize podataka (RAD): Data Mining sustavi više su usmjereni na praktičnu primjenu dobivenih rezultata nego na razjašnjavanje prirode fenomena. Drugim riječima, s Data Miningom nismo previše zainteresirani za specifične vrste ovisnosti između varijabli zadatka. Razjašnjenje prirode funkcija koje su ovdje uključene ili specifičnog oblika interaktivnih multivarijantnih ovisnosti između varijabli nije glavni cilj ovog postupka. Glavna pozornost posvećena je pronalaženju rješenja na temelju kojih bi bilo moguće graditi pouzdane prognoze. Tako je u području Data Mininga usvojen takav pristup analizi podataka i ekstrakciji znanja koji se ponekad karakterizira riječima "crna kutija". U ovom se slučaju koriste ne samo klasične metode eksplorativne analize podataka, već i metode poput neuronskih mreža koje vam omogućuju izradu pouzdanih prognoza bez specificiranja specifične vrste tih ovisnosti na kojima se takva prognoza temelji. Vrlo često se Data Mining tumači kao "mješavina statistike, metoda umjetne inteligencije (AI) i analize baze podataka" (Pregibon, 1997., str. 8), a donedavno nije bio prepoznat kao punopravno područje interes za statističare, a ponekad se čak naziva i "dvorištem statistike" (Pregibon, 1997., str. 8). Međutim, zbog svog velikog praktičnog značaja, ovaj se problem sada intenzivno razvija i privlači veliki interes (uključujući i statističke aspekte), au njemu su postignuti i važni teorijski rezultati (vidi, primjerice, materijale godišnje međunarodne konferencije on Knowledge Search and Data Mining (International Conferences on Knowledge Discovery and Data Mining), čiji je jedan od organizatora 1997. godine bilo American Statistical Association). skladište podataka je mjesto gdje se pohranjuju veliki višedimenzionalni skupovi podataka, što olakšava dohvaćanje i korištenje informacija u postupcima analize. Učinkovita arhitektura skladišta podataka trebala bi biti organizirana na takav način da bude sastavni dio informacijski sistem upravljanje poduzećem (ili barem biti povezan sa svim dostupnim podacima). U ovom slučaju potrebno je koristiti posebne tehnologije za rad s korporativnim bazama podataka (na primjer, Oracle, Sybase, MS SQL Server). Tehnologiju skladišta podataka visokih performansi koja korisnicima omogućuje organiziranje i učinkovito korištenje poslovne baze podataka gotovo neograničene složenosti razvili su StatSoft enterprise systems i naziva se SENS i SEWSS). Pojam OLAP (ili FASMI - Rapid Analysis of Distributed Multidimensional Information) odnosi se na metode koje korisnicima višedimenzionalnih baza podataka omogućuju generiranje deskriptivnih i usporednih sažetaka ("pregleda") podataka u stvarnom vremenu i dobivanje odgovora na razne druge analitičke upite. Imajte na umu da unatoč svom nazivu, ova metoda ne uključuje interaktivnu obradu podataka (u stvarnom vremenu); to znači proces parsiranja višedimenzionalnih baza podataka (koje, posebice, mogu sadržavati dinamički ažurirane informacije) sastavljanjem učinkovitih "višedimenzionalnih" upita za podatke različitih vrsta. OLAP alati mogu se ugraditi u korporativne (poduzeće) sustave baza podataka i omogućiti analitičarima i menadžerima da prate napredak i performanse svog poslovanja ili tržišta u cjelini (na primjer, različite aspekte proizvodnog procesa ili broj i kategorije transakcije koje su izvršile različite regije). Analiza izvedena OLAP metodama može varirati od jednostavnih (npr. tablice učestalosti, deskriptivna statistika, jednostavne tablice) do prilično složenih (npr. može uključivati sezonsku prilagodbu, uklanjanje izvanrednih vrijednosti i druga čišćenja podataka). Iako se metode Data Mininga mogu primijeniti na bilo koju informaciju, ne na prethodno obrađene, pa čak ni na nestrukturirane informacije, one se također mogu koristiti za analizu podataka i izvješća primljenih OLAP alatima u svrhu dubljeg istraživanja, obično u višim dimenzijama. U tom smislu, metode Data Mininga mogu se promatrati kao alternativni analitički pristup (koji služi u druge svrhe osim OLAP-a) ili kao analitičko proširenje OLAP sustava. RAD i testiranje hipoteza Za razliku od tradicionalnog testiranja hipoteza, koje je osmišljeno za testiranje prethodnih pretpostavki o povezanosti između varijabli (npr., "Postoji pozitivna korelacija između dobi osobe i njezine averzije prema riziku"), koristi se eksplorativna analiza podataka (EPA). pronaći asocijacije između varijabli u situacijama u kojima nema (ili nema dovoljno) apriornih ideja o prirodi tih odnosa. Eksplorativna analiza u pravilu razmatra i uspoređuje velik broj varijabli, a za pronalaženje obrazaca koriste se različite metode. Računalne metode RAD-a Računalne metode eksplorativne analize podataka uključuju osnovne statističke metode, kao i složenije, posebno razvijene metode multivarijantne analize, dizajnirane za pronalaženje obrazaca u multivarijantnim podacima. Osnovne metode eksplorativne statističke analize. Glavne metode eksplorativne statističke analize uključuju postupak za analizu distribucija varijabli (na primjer, za identifikaciju varijabli s asimetričnom ili ne-Gaussovom distribucijom, uključujući bimodalne), pregled korelacijskih matrica kako bi se pronašli koeficijenti koji prelaze određene vrijednosti praga (vidi prethodni primjer) , ili analiza frekvencijskih tablica s više ulaza (na primjer, "slojevito" sekvencijalno gledanje kombinacija razina kontrolnih varijabli). Metode višedimenzionalne eksplorativne analize. Metode multivarijantne eksplorativne analize posebno su dizajnirane za pronalaženje obrazaca u multivarijatnim podacima (ili nizovima jednovarijantnih podataka). To uključuje: analiza klastera, faktorska analiza, analiza liskriminantnih funkcija, multivarijantno skaliranje, log-linearna analiza, kanoničke korelacije, postupna linearna i nelinearna (na primjer, logit) regresija, korespondentna analiza, analiza vremenskih serija. Neuronske mreže. Ova klasa analitičkih metoda temelji se na ideji reprodukcije procesa učenja mislećih bića (kako se čine istraživačima) i funkcija živčanih stanica. Neuronske mreže mogu predvidjeti buduće vrijednosti varijabli iz već postojećih vrijednosti istih ili drugih varijabli, nakon što su prethodno provele takozvani proces učenja na temelju dostupnih podataka. Prethodno ispitivanje podataka može poslužiti samo kao prvi korak u procesu analize podataka, a dok se rezultati ne verificiraju (metodama unakrsne provjere) na drugim dijelovima baze podataka ili na neovisnom skupu podataka, mogu se uzimati najviše kao hipoteza. Ako su rezultati eksplorativne analize u korist modela, tada se njegova ispravnost može testirati primjenom na nove podatke i određivanjem stupnja njegove konzistentnosti s podacima (testiranje "predvidljivosti"). Za brzi odabir različitih podskupova podataka (na primjer, za čišćenje, provjeru itd.) i procjenu pouzdanosti rezultata, prikladno je koristiti uvjete za odabir promatranja.

Koncept "data mining" definira se kao proces analitičkog istraživanja velikih količina informacija (obično ekonomske prirode) kako bi se identificirali određeni obrasci i sustavni odnosi između varijabli, koji se zatim mogu primijeniti na nove skupove podataka. Ovaj proces uključuje tri glavna koraka: istraživanje, izgradnju modela ili strukture i njihovo testiranje. U idealnom slučaju, uz dovoljno podataka, može se organizirati iterativni postupak za izgradnju stabilnog (robustnog) modela. Istodobno, u stvarnoj situaciji gotovo je nemoguće testirati ekonomski model u fazi analize te su stoga početni rezultati u prirodi heuristike koja se može koristiti u procesu donošenja odluka (na primjer, "Dostupno dokazi pokazuju da se kod žena učestalost uzimanja tableta za spavanje s godinama povećava brže nego kod muškaraca.

Tehnike rudarenja podataka dobivaju na popularnosti kao alat za analizu ekonomskih informacija, osobito kada se pretpostavlja da se znanje može izvući iz postojećih podataka za donošenje odluka u nesigurnim uvjetima. Iako je nedavno došlo do povećanja interesa za razvoj novih metoda analize podataka posebno za poslovanje (npr. Klasifikacijska stabla), općenito se sustavi za rudarenje podataka još uvijek temelje na klasičnim načelima istraživačka analiza podataka(RAD) i izgradnju modela te koristiti iste pristupe i metode.

Postoji, međutim, bitna razlika između postupka rudarenja podataka i klasične eksplorativne analize podataka (EDA): sustavi rudarenja podataka više su usmjereni na praktičnu primjenu dobivenih rezultata nego na razjašnjavanje prirode fenomena. Drugim riječima, kada rudarimo podatke, nismo jako zainteresirani za specifičnu vrstu ovisnosti između varijabli zadatka. Razjašnjenje prirode funkcija koje su ovdje uključene ili specifičnog oblika interaktivnih multivarijantnih ovisnosti između varijabli nije glavni cilj ovog postupka. Glavna pozornost posvećena je pronalaženju rješenja na temelju kojih bi bilo moguće graditi pouzdane prognoze. Tako se u području rudarenja podataka usvaja pristup analizi podataka i ekstrakciji znanja koji se ponekad karakterizira riječima "crna kutija". U ovom se slučaju koriste ne samo klasične metode eksplorativne analize podataka, već i metode poput neuronskih mreža koje vam omogućuju izradu pouzdanih prognoza bez specificiranja specifične vrste tih ovisnosti na kojima se takva prognoza temelji.

Vrlo često se data mining tumači kao "mješavina statistike, metoda umjetne inteligencije (AI) i analize baze podataka" (Pregibon, 1997., str. 8), a donedavno nije bio prepoznat kao punopravno područje interesa za statističare, a ponekad se čak naziva i "dvorištem statistike" (Pregibon, 1997., str. 8). Međutim, zbog svog velikog praktičnog značaja, ovaj se problem danas intenzivno razvija i izaziva velik interes (i u statističkom aspektu), au njemu su postignuti važni teorijski rezultati.

Istraživačka analiza podataka (EDA)

Za razliku od tradicionalnog testiranja hipoteza, koje je osmišljeno za testiranje prethodnih pretpostavki o povezanosti između varijabli (npr. "Postoji pozitivna korelacija između dobi osobe i njezine averzije prema riziku"), Eksploratorna analiza podataka (EDA) koristi se za pronalaženje povezanosti između varijable u situacijama kada nema (ili nema dovoljno) apriornih ideja o prirodi tih veza. Eksplorativna analiza u pravilu razmatra i uspoređuje velik broj varijabli, a za pronalaženje obrazaca koriste se različite metode.

Metode multivarijantne eksplorativne analize posebno su dizajnirane za pronalaženje obrazaca u multivarijatnim podacima (ili nizovima jednovarijantnih podataka). To uključuje: klaster analizu, faktorsku analizu, analizu diskriminantne funkcije, multivarijantno skaliranje, log-linearnu analizu, kanoničke korelacije, postepenu linearnu i nelinearnu (na primjer, logit) regresiju, analizu korespondencije, analizu vremenskih nizova i klasifikacijska stabla.

analiza klastera

Pojam klaster analiza (prvi ga je uveo Tryon, 1939.) zapravo uključuje skup različitih algoritama klasifikacije. Općenito pitanje, koje postavljaju istraživači na mnogim područjima, jest kako organizirati promatrane podatke u vizualne strukture, tj. proširiti taksonomije. Na primjer, biolozi žele rastaviti životinje na različite vrste kako bi smisleno opisali razlike među njima. Prema suvremenom sustavu prihvaćenom u biologiji, čovjek spada u primate, sisavce, amniote, kralješnjake i životinje. Imajte na umu da u ovoj klasifikaciji, što je viša razina agregacije, to je manje sličnosti između članova u odgovarajućoj klasi. Čovjek ima više sličnosti s drugim primatima (tj. majmunima) nego s "dalekim" članovima obitelji sisavaca (tj. psima), i tako dalje.

Tehnika grupiranja koristi se u raznim područjima. Hartigan (1975) je dao izvrstan pregled mnogih objavljenih studija koje sadrže rezultate dobivene metodama klaster analize. Na primjer, u području medicine, grupiranje bolesti, liječenje bolesti ili simptoma bolesti dovodi do naširoko korištenih taksonomija. U području psihijatrije, ispravna dijagnoza skupova simptoma kao što su paranoja, shizofrenija itd. ključna je za uspješnu terapiju. U arheologiji, korištenjem klaster analize, istraživači pokušavaju uspostaviti taksonomije kamenog oruđa, pogrebnih predmeta itd. Postoji široka primjena analize klastera u marketinškim istraživanjima. Općenito, kad god je potrebno razvrstati "planine" informacija u skupine pogodne za daljnju obradu, klaster analiza pokazuje se vrlo korisnom i učinkovitom.

Opće metode klaster analize:

Unija (skupljanje stabala),

dvosmjerna unija

K znači metoda.

Glavne komponente i faktorska analiza

Glavni ciljevi faktorske analize su:

smanjenje broja varijabli (smanjenje podataka)

određivanje strukture odnosa između varijabli, tj. klasifikacija varijabli.

Stoga se faktorska analiza koristi ili kao metoda redukcije podataka ili kao metoda klasifikacije.

Faktorska analiza kao metoda redukcije podataka

Pretpostavimo da radite (pomalo "glupu") studiju u kojoj mjerite visinu stotinu ljudi u inčima i centimetrima. Dakle, imate dvije varijable. Ako želite dodatno istražiti, na primjer, učinke različitih dodataka prehrani na visinu, biste li nastavili koristiti obje varijable? Vjerojatno ne, jer visina je jedna od osobina osobe, bez obzira na jedinice u kojima se mjeri.

Recimo sada da želite mjeriti zadovoljstvo ljudi životom, za što sastavljate upitnik s raznim stavkama; između ostalog postavljate sljedeće: jesu li ljudi zadovoljni svojim hobijem (točka 1) i koliko se intenzivno njime bave (točka 2). Rezultati se pretvaraju tako da prosječni odgovori (npr. za zadovoljstvo) odgovaraju vrijednosti 100, dok su ispod i iznad prosjeka odgovori manji i velike vrijednosti, odnosno. Dvije varijable (odgovori na dvije različite čestice) međusobno su korelirane, a iz visoke korelacije ovih dviju varijabli možemo zaključiti da su te dvije čestice upitnika suvišne.

Analiza vremenskih serija

Prvo dajmo kratki osvrt metode za analizu podataka prikazanih u obliku vremenskih serija, tj. u obliku nizova mjerenja poredanih u neslučajnim vremenskim točkama. Za razliku od analize slučajnog uzorka, analiza vremenskih nizova temelji se na pretpostavci da se uzastopne vrijednosti u podatkovnoj datoteci promatraju u redovitim intervalima (dok kod drugih metoda ne brinemo i često ne brinemo o vremenu promatranja).

Dva su glavna cilja analize vremenskih serija:

određivanje prirode serije

predviđanje (predviđanje budućih vrijednosti vremenske serije na temelju sadašnjih i prošlih vrijednosti).

Oba ova cilja zahtijevaju da se model serije identificira i, više-manje, formalno opiše. Nakon što je model definiran, možete ga upotrijebiti za tumačenje dotičnih podataka (na primjer, upotrijebite ga u svojoj teoriji za razumijevanje sezonskih promjena u cijenama robe ako ste student ekonomije). Zanemarujući dubinu razumijevanja i valjanost teorije, možete ekstrapolirati niz na temelju pronađenog modela, tj. predvidjeti njegove buduće vrijednosti.

Kao i većina drugih vrsta analiza, analiza vremenskih nizova pretpostavlja da podaci sadrže sustavnu komponentu (obično uključuje nekoliko komponenti) i nasumični šum (pogrešku), što otežava otkrivanje regularnih komponenti. Većina metoda istraživanja vremenskih serija uključuje različite metode filtriranja šuma koje vam omogućuju da jasnije vidite pravilnu komponentu.

Većina regularnih komponenti vremenske serije pripada dvjema klasama: one su ili trend ili sezonska komponenta. Trend je cjelokupna sustavna linearna ili nelinearna komponenta koja se može mijenjati tijekom vremena. Sezonska komponenta je komponenta koja se periodički ponavlja. Obje ove vrste regularnih komponenti često su prisutne u nizu u isto vrijeme. Na primjer, prodaja poduzeća može rasti iz godine u godinu, ali ona također sadrži sezonsku komponentu (obično se 25% godišnje prodaje događa u prosincu, a samo 4% u kolovozu).

PREDAVANJE 8SUSTAVI ZNANJA. EKSPERTNI SUSTAVI.

Imenovanje ekspertnih sustava

Početkom 1980-ih formira se samostalan pravac u istraživanju umjetne inteligencije, nazvan "ekspertni sustavi" (ES). Cilj ES istraživanja je razviti programe koji pri rješavanju problema koji su teški za ljudskog stručnjaka, postižu rezultate koji po kvaliteti i učinkovitosti nisu inferiorni rješenjima dobivenim od strane stručnjaka. Istraživači u području ES-a za naziv svoje discipline često koriste i pojam „inženjering znanja“, koji je uveo E. Feigenbaum kao „dovođenje principa i alata istraživanja iz područja umjetne inteligencije u rješavanje teških primijenjenih problema koji zahtijevaju stručnu pomoć. znanje."

Programski alati (PS), temeljeni na tehnologiji ekspertnih sustava, odnosno inženjerstvu znanja (ubuduće ćemo ih koristiti kao sinonime), postali su rašireni u svijetu. Značaj ekspertnih sustava je sljedeći:

tehnologija ekspertnih sustava značajno proširuje raspon praktično značajnih zadataka koji se rješavaju na računalima, čije rješavanje donosi značajan ekonomski učinak;

ES tehnologija je najvažniji alat u rješavanju globalnih problema tradicionalnog programiranja: trajanje i, posljedično, visoka cijena razvoja složenih aplikacija;

visoki troškovi održavanja složenih sustava, koji često premašuju troškove njihovog razvoja nekoliko puta; niska razina mogućnosti ponovne upotrebe programa itd.;

kombinacija ES tehnologije s tradicionalnom tehnologijom programiranja dodaje nove kvalitete softverskim proizvodima zbog: pružanja dinamičke izmjene aplikacija od strane korisnika, a ne od strane programera; veća "transparentnost" aplikacije (npr. znanje se pohranjuje na ograničeni NL, što ne zahtijeva komentare znanja, pojednostavljuje obuku i održavanje); bolja grafika; sučelje i interakcija.

Prema vodećim stručnjacima, u bliskoj budućnosti ES će pronaći sljedeće primjene:

EC-ovi će imati vodeću ulogu u svim fazama dizajna, razvoja, proizvodnje, distribucije, prodaje, podrške i pružanja usluga;

ES tehnologija, koja je dobila komercijalnu distribuciju, omogućit će revolucionarni pomak u integraciji aplikacija iz gotovih modula za inteligentnu interakciju.

ES su dizajnirani za takozvane neformalizirane zadatke, tj. EK ne odbacuju niti zamjenjuju tradicionalni pristup razvoju programa usmjeren na rješavanje formaliziranih problema.

Neformalizirani zadaci obično imaju sljedeće značajke:

pogrešnost, dvosmislenost, nepotpunost i nedosljednost izvornih podataka;

zabluda, dvosmislenost, nepotpunost i nedosljednost znanja o problemskom području i problemu koji se rješava;

velika dimenzija prostora rješenja, tj. potraga za rješenjem je vrlo velika;

podaci i znanje koji se dinamički mijenjaju.

Treba naglasiti da neformalizirani problemi predstavljaju veliku i vrlo važnu klasu problema. Mnogi stručnjaci vjeruju da su ti problemi najraširenija klasa problema koje rješavaju računala.

Ekspertni sustavi i sustavi umjetne inteligencije razlikuju se od sustava za obradu podataka po tome što uglavnom koriste simboličko (a ne numeričko) predstavljanje, simboličko zaključivanje i heurističku potragu za rješenjem (umjesto izvršavanja poznatog algoritma).

Ekspertni sustavi se koriste za rješavanje samo teških praktičnih (ne igračaka) problema. Po kvaliteti i učinkovitosti rješenja ekspertni sustavi nisu inferiorni rješenjima čovjeka stručnjaka. Rješenja ekspertnih sustava imaju "transparentnost", tj. može se korisniku objasniti na kvalitativnoj razini. Ova kvaliteta ekspertnih sustava osigurana je njihovom sposobnošću rasuđivanja o svom znanju i zaključcima. Ekspertni sustavi mogu nadopuniti svoje znanje tijekom interakcije s ekspertom. Treba napomenuti da se trenutno tehnologija ekspertnih sustava koristi za rješavanje različitih vrsta problema (tumačenje, predviđanje, dijagnostika, planiranje, dizajn, kontrola, otklanjanje pogrešaka, upute, upravljanje) u širokom spektru problematičnih područja, kao što su financije , naftna i plinska industrija, energetika, promet, farmaceutska proizvodnja, svemir, metalurgija, rudarstvo, kemija, obrazovanje, industrija celuloze i papira, telekomunikacije i komunikacije itd.

Komercijalni uspjeh tvrtki koje razvijaju sustave umjetne inteligencije (AI) nije došao odmah. Tijekom 1960. - 1985. god. Napredak u umjetnoj inteligenciji uglavnom je u razvoju istraživanja koja su pokazala prikladnost AGI-ja za praktičnu upotrebu. Počevši oko 1985. (u masovnoj mjeri od 1988. - 1990.), prije svega, ES, a posljednjih godina, sustavi koji percipiraju prirodni jezik (NL-sustavi) i neuronske mreže (NN) aktivno se koriste u komercijalnim aplikacijama.

Treba napomenuti da neki stručnjaci (u pravilu stručnjaci za programiranje, a ne za umjetnu inteligenciju) nastavljaju tvrditi da ES i AIS nisu ispunili njihova očekivanja i umrli. Razlozi za takve zablude su u tome što su ti autori smatrali ES alternativom tradicionalnom programiranju, tj. polazili su od činjenice da sami ES (izolirani od ostalih softverskih alata) u potpunosti rješavaju zadatke s kojima se suočava kupac. Treba napomenuti da su u zoru nastanka ES-a, specifičnosti jezika koji se u njima koriste, tehnologija za razvoj aplikacija i korištena oprema (na primjer, Lisp-strojevi) dali razlog za pretpostavku da je integracija ES s tradicionalnim softverskim sustavima složen je i vjerojatno nemoguć zadatak pod ograničenjima koja nameću stvarne aplikacije. Međutim, trenutno se komercijalni alati (IS) za izradu ES-a razvijaju u potpunosti u skladu sa suvremenim tehnološkim trendovima tradicionalnog programiranja, čime se eliminiraju problemi koji nastaju pri izradi integriranih aplikacija.

Razlozi koji su doveli AIS do komercijalnog uspjeha su sljedeći.

Integracija Razvijeni su alati umjetne inteligencije (AI IS) koji se lako integriraju s drugim informacijskim tehnologijama i alatima (sa CASE-om, DBMS-om, kontrolerima, koncentratorima podataka itd.).

Otvorenost i prenosivost AI IC-ovi su dizajnirani prema standardima koji osiguravaju otvorenost i prenosivost.

Upotreba tradicionalnih programskih jezika i radnih stanica. Prijelaz s AI IS-a implementiranog u AI jezicima (Lisp, Prolog, itd.) na AI IS implementiran u tradicionalnim programskim jezicima (C, C++, itd.) pojednostavljena integracija pružanja usluga, smanjeni zahtjevi AI aplikacija na brzinu računala i količinu RAM-a. Korištenje radnih stanica (umjesto osobnih računala) dramatično je povećalo raspon aplikacija koje se mogu izvoditi na računalima pomoću AI IC-ova.

Arhitektura klijent-poslužitelj. Razvijeni su AI IS-ovi koji podržavaju distribuirano računalstvo na arhitekturi klijent-poslužitelj, što je omogućilo: smanjenje troškova opreme koja se koristi u aplikacijama, decentralizaciju aplikacija, povećanje pouzdanosti i ukupne performanse (budući da je smanjena količina informacija koje se šalju između računala , a svaki aplikacijski modul se izvodi na odgovarajućoj opremi).

Problemski/domenski orijentirani AI IS Prijelaz s razvoja AI IS-a opće namjene (iako nisu izgubili svoju važnost kao sredstvo za stvaranje fokusiranog IS-a) na problemsko/domenski orijentirani AI IS osigurava: smanjenje vremena razvoja aplikacije ; povećanje učinkovitosti korištenja IP-a; pojednostavljenje i ubrzanje rada vještaka; ponovno korištenje informacija i softvera (objekti, klase, pravila, procedure).

Struktura ekspertnih sustava

Tipični statički ES sastoji se od sljedećih glavnih komponenti:

rješavač (tumač);

radna memorija (RP), koja se naziva i baza podataka (DB);

baze znanja (KB);

komponente usvajanja znanja;

objašnjavajuća komponenta;

dijaloška komponenta.

Baza podataka (radna memorija) namijenjena je za pohranjivanje početnih i međupodataka problema koji se rješava u trenutnom trenutku. Ovaj izraz podudara se u nazivu, ali ne i u značenju s pojmom koji se koristi u sustavima za pretraživanje informacija (IPS) i sustavima za upravljanje bazama podataka (DBMS) za označavanje svih podataka (prvenstveno dugoročnih) pohranjenih u sustavu.

Baza znanja (KB) u ES-u dizajnirana je za pohranjivanje dugoročnih podataka koji opisuju područje koje se razmatra (umjesto trenutnih podataka) i pravila koja opisuju odgovarajuće transformacije podataka u ovom području.

Rješivač pomoću početnih podataka iz radne memorije i znanja iz baze znanja formira takav niz pravila koji, kada se primijene na početne podatke, dovode do rješenja problema.

Komponenta stjecanja znanja automatizira proces popunjavanja ES znanjem koji provodi stručni korisnik.

Eksplanatorna komponenta objašnjava kako je sustav dobio rješenje problema (ili zašto nije dobio rješenje) i koja znanja je pritom koristio, što stručnjaku olakšava testiranje sustava, a korisniku povećava povjerenje u proizlaziti.

Dijaloška komponenta usmjerena je na organiziranje prijateljske komunikacije s korisnikom kako u tijeku rješavanja problema, tako iu procesu stjecanja znanja i objašnjavanja rezultata rada.

U razvoju ES-a uključeni su predstavnici sljedećih specijalnosti:

stručnjak za problematiku čije će zadatke rješavati ES;

inženjer znanja - stručnjak za razvoj ES (tehnologija koju koristi, metode nazivaju se tehnologija (metode) inženjerstva znanja);

programer za razvoj alata (IS), namijenjenih ubrzanju razvoja ES.

Treba napomenuti da odsutnost inženjera znanja među sudionicima u razvoju (tj. njihova zamjena programerima) ili dovodi do neuspjeha u procesu stvaranja ES-a, ili ga značajno produljuje.

Stručnjak utvrđuje znanja (podatke i pravila) koja karakteriziraju problemsko područje, osigurava potpunost i ispravnost znanja unesenih u ES.

Inženjer znanja pomaže stručnjaku identificirati i strukturirati znanje potrebno za rad ES-a; odabire IS koji je najprikladniji za dano problemsko područje, te određuje način predstavljanja znanja u tom IS-u; odabire i programira (tradicionalnim sredstvima) standardne funkcije (tipične za određeno problematično područje) koje će se koristiti u pravilima koje je uveo stručnjak.

Programer razvija IS (ako se IS iznova razvija), koji sadrži sve glavne komponente ES-a u limitu, te ga povezuje s okolinom u kojoj će se koristiti.

Ekspertni sustav radi u dva načina: način stjecanja znanja i način rješavanja problema (koji se naziva i način konzultacija ili način korištenja ES).

U načinu stjecanja znanja komunikaciju sa ES-om (posredovanjem inženjera znanja) provodi stručnjak. U ovom načinu rada ekspert pomoću komponente stjecanja znanja popunjava sustav znanjem koje omogućuje ES u načinu rješenja da samostalno (bez stručnjaka) rješava probleme iz problemskog područja. Stručnjak opisuje problematično područje kao skup podataka i pravila. Podaci definiraju objekte, njihove karakteristike i značenja koja postoje u području vještačenja. Pravila definiraju načine na koje se manipulira podacima koji su specifični za predmetnu domenu.

Imajte na umu da način stjecanja znanja u tradicionalni pristup razvoj programa odgovara fazama algoritmizacije, programiranja i otklanjanja pogrešaka koje provodi programer. Dakle, za razliku od tradicionalnog pristupa, u slučaju ES-a razvoj programa ne provodi programer, već stručnjak (uz pomoć ES-a), koji ne poznaje programiranje.

U načinu konzultacije, komunikaciju s ES-om provodi krajnji korisnik, koji je zainteresiran za rezultat i (ili) način njegova dobivanja. Treba napomenuti da, ovisno o namjeni ES-a, korisnik možda nije stručnjak za ovo problematično područje (u ovom slučaju se obraća ES-u za rezultat, ne može ga sam dobiti) ili stručnjak (u ovom slučaju korisnik može sam dobiti rezultat, ali se obraća ES-u s ciljem da ubrza proces dobivanja rezultata ili povjeri ES-u rutinski rad). U konzultacijskom modu podaci o zadatku korisnika nakon obrade dijaloške komponente ulaze u radnu memoriju. Solver na temelju ulaznih podataka iz radne memorije, općih podataka o problemskom području i pravila iz baze znanja oblikuje rješenje problema. Prilikom rješavanja problema, ES ne samo da izvršava propisani redoslijed operacija, već ga i preliminarno oblikuje. Ako korisniku nije jasna reakcija sustava, može zahtijevati objašnjenje:

"Zašto sustav postavlja ovo ili ono pitanje?", "Kako je sustav primio odgovor?".

Struktura statičkog ES.ES ovog tipa koristi se u onim aplikacijama gdje je moguće zanemariti promjene u okolnom svijetu koje se događaju tijekom rješavanja problema. Prvi ES, koji su dobili praktičnu upotrebu, bili su statični.

U arhitekturu dinamičkog ES-a u usporedbi sa statičkim ES-om uvode se dvije komponente: podsustav za modeliranje vanjskog svijeta i podsustav za komunikaciju s vanjskim okruženjem. Potonji komunicira s vanjskim svijetom putem sustava senzora i kontrolera. Osim toga, tradicionalne komponente statičkog ES-a (baza znanja i mehanizam za zaključivanje) prolaze kroz značajne promjene kako bi odražavale vremensku logiku događaja koji se događaju u stvarnom svijetu.

Naglašavamo da struktura ES-a odražava samo komponente (funkcije), a mnogo toga ostaje "iza kulisa". Na sl. 1.3 prikazuje generaliziranu strukturu modernog IS-a za stvaranje dinamičkog ES-a, koji, osim glavnih komponenti, sadrži one značajke koje vam omogućuju stvaranje integriranih aplikacija u skladu s modernom tehnologijom programiranja.

Faze razvoja ekspertnih sustava

Razvoj ES-a ima značajne razlike od razvoja konvencionalnog softverskog proizvoda. Iskustvo stvaranja ES-a pokazalo je da korištenje metodologije usvojene u tradicionalnom programiranju tijekom njihovog razvoja ili pretjerano odgađa proces stvaranja ES-a, ili općenito dovodi do negativnog rezultata.

ES treba koristiti samo kada je razvoj ES moguć, opravdan i metode inženjerstva znanja odgovaraju problemu koji se rješava. Da bi razvoj ES-a bio moguć za danu primjenu, moraju se istovremeno ispuniti barem sljedeći zahtjevi:

1) postoje stručnjaci na tom području koji problem rješavaju puno bolje od početnika;

2) stručnjaci su suglasni oko ocjene predloženog rješenja, inače se neće moći ocijeniti kvaliteta izrađenog ES-a;

3) stručnjaci su sposobni verbalizirati (izraziti se prirodnim jezikom) i objasniti metode koje koriste, inače je teško očekivati da će se znanje stručnjaka "izvući" i uložiti u ES;

4) rješenje problema zahtijeva samo razmišljanje, a ne djelovanje;

5) zadatak ne smije biti pretežak (tj. za njegovo rješavanje stručnjaku treba nekoliko sati ili dana, a ne tjedana);

6) iako zadatak ne bi trebao biti izražen u formalnom obliku, ipak bi trebao pripadati prilično "razumljivom" i strukturiranom području, tj. treba istaknuti glavne pojmove, odnose i poznate (barem stručnjaku) načine dobivanja rješenja problema;

7) rješavanje problema ne bi se trebalo uvelike oslanjati na "zdrav razum" (tj. širok raspon opće informacije o svijetu i načinu na koji on funkcionira, što svaki normalan čovjek zna i može koristiti), budući da takva znanja još nisu (dovoljno) uložena u sustave umjetne inteligencije.

Korištenje ES-a u ovoj aplikaciji može biti moguće, ali nije opravdano. Korištenje ES-a može se opravdati jednim od sljedećih čimbenika:

rješenje problema će donijeti značajan učinak, na primjer, ekonomski;

upotreba ljudskog vještaka nije moguća zbog nedovoljnog broja vještaka ili zbog potrebe da se pregled obavlja istovremeno na različitim mjestima;

uporaba ES-a preporučljiva je u slučajevima kada prijenos informacija stručnjaku dovodi do neprihvatljivog gubitka vremena ili informacija;

uporaba ES-a je svrsishodna, ako je potrebno, za rješavanje problema u okolišu neprijateljskom prema ljudima.

Primjena odgovara ES metodama ako problem koji se rješava ima kombinaciju sljedećih karakteristika:

1) problem se može riješiti na prirodan način manipulacijom simbola (tj. korištenjem simboličkog razmišljanja), a ne manipulacijom brojeva, kao što je uobičajeno u matematičkim metodama i tradicionalnom programiranju;

2) zadatak treba imati heurističku, a ne algoritamsku prirodu, tj. njegovo bi rješenje trebalo zahtijevati primjenu heurističkih pravila. Problemi za koje se može jamčiti da će biti riješeni (podložni zadanim ograničenjima) uz pomoć nekih formalnih postupaka nisu prikladni za korištenje ES-a;

3) zadatak mora biti dovoljno složen da opravda trošak razvoja ES-a. Međutim, ne bi trebao biti previše složen (za rješavanje su potrebni sati stručnjaka, a ne tjedni) kako bi ga ES mogao riješiti;

4) zadatak treba biti dovoljno uzak da se može riješiti ES metodama i praktično značajan.

Pri razvoju ES-a u pravilu se koristi koncept "brzog prototipa". Bit ovog koncepta je da programeri ne pokušavaju odmah izgraditi konačni proizvod. U početnoj fazi stvaraju prototip (prototipove) ES-a. Prototipovi moraju zadovoljiti dva oprečna zahtjeva: s jedne strane, moraju rješavati tipične probleme određene aplikacije, a s druge strane, vrijeme i zahtjevnost njihovog razvoja moraju biti vrlo mali kako bi se proces akumulacije i otklanjanja pogrešaka znanja (nosio) van od strane stručnjaka) može biti maksimalno usporedan s procesom selekcije.(razvoj) softvera (provode inženjer znanja i programer). Kako bi se ispunili ti zahtjevi, u pravilu se pri izradi prototipa koriste različiti alati koji ubrzavaju proces projektiranja.

Prototip mora pokazati prikladnost tehnika inženjerstva znanja za primjenu. U slučaju uspjeha, stručnjak uz pomoć inženjera znanja proširuje znanje prototipa o problematičnom području. Neuspjeh može zahtijevati razvoj novog prototipa ili programeri mogu zaključiti da ES metode nisu prikladne za određenu primjenu. Kako se znanje povećava, prototip može doći do točke u kojoj uspješno rješava sve probleme dane aplikacije. Transformacija prototipa ES-a u konačni proizvod obično dovodi do reprogramiranja ES-a u jezicima niske razine, osiguravajući i povećanje brzine ES-a i smanjenje potrebne memorije. Složenost i vrijeme izrade ES-a uvelike ovise o vrsti alata koji se koriste.

Tijekom rada na stvaranju ES-a razvila se određena tehnologija za njihov razvoj, uključujući sljedećih šest faza:

identifikacija, konceptualizacija, formalizacija, izvedba, testiranje, probni rad. U fazi identifikacije određuju se zadaće koje treba riješiti, utvrđuju se razvojni ciljevi, stručnjaci i tipovi korisnika.

U fazi konceptualizacije provodi se smislena analiza problemskog područja, identificiraju se korišteni pojmovi i njihovi odnosi te određuju metode za rješavanje problema.

U fazi formalizacije odabiru se informacijski sustavi i utvrđuju načini reprezentacije svih vrsta znanja, formaliziraju se osnovni pojmovi, utvrđuju se načini interpretacije znanja, modelira rad sustava, provjerava se adekvatnost ciljeva sustava. ocjenjuju se fiksni koncepti, metode odlučivanja, sredstva predstavljanja i manipuliranja znanjem.

U fazi izvođenja, stručnjak popunjava bazu znanja. Zbog činjenice da je temelj ES-a znanje, ovoj fazi je najvažniji i najdugotrajniji korak u razvoju ES-a. Proces stjecanja znanja dijeli se na izvlačenje znanja od stručnjaka, organiziranje znanja koje osigurava učinkovit rad sustava i prezentiranje znanja u obliku razumljivom ES-u. Proces stjecanja znanja provodi inženjer znanja na temelju analize aktivnosti stručnjaka u rješavanju stvarnih problema.

Sučelje krajnjeg korisnika

Sustav G2 pruža programeru bogate mogućnosti oblikovanja jednostavnog, jasnog i izražajnog grafičkog korisničkog sučelja s elementima animacije. Predloženi skup alata omogućuje vam vizualni prikaz tehnoloških procesa gotovo neograničene složenosti na različitim razinama apstrakcije i detalja. Osim toga, grafički prikaz odnosa između aplikacijskih objekata može se izravno koristiti u deklarativnim konstrukcijama jezika opisa znanja.

RTworks nema izvorna sredstva za prikaz trenutnog stanja upravljanog procesa. Programer aplikacije prisiljen je koristiti sustav Dataview tvrtke VI Corporation, što uvelike ograničava njegove mogućnosti.

Korisničko sučelje TDC Expert-a ograničeno je mogućnostima sustava TDC 3000, tj. interakcija krajnjeg korisnika

ograničeno na tekstualni način.

Reprezentacija znanja u ekspertnim sustavima

Prvo i glavno pitanje koje treba riješiti prilikom izlaganja znanja je pitanje utvrđivanja sastava znanja, tj. određivanje "ŠTO PREDSTAVLJATI" u ekspertnom sustavu. Drugo pitanje se odnosi na "KAKO ZASTUPITI" znanje. Treba napomenuti da ova dva pitanja nisu neovisna. Dapače, odabrani način prezentacije može biti načelno neprikladan ili neučinkovit za izražavanje nekog znanja.

Po našem mišljenju, pitanje "KAKO REPREZENTIRATI" može se podijeliti na dva uvelike neovisna zadatka: kako organizirati (strukturirati) znanje i kako reprezentirati znanje u odabranom formalizmu.

Želja da se organizacija znanja odvoji u samostalan zadatak uzrokovana je, posebice, činjenicom da se ovaj zadatak javlja za bilo koji reprezentacijski jezik i da su metode za rješavanje ovog zadatka iste (ili slične) bez obzira na korišteni formalizam.

Dakle, u krug pitanja koja treba riješiti prilikom prezentiranja znanja uvrstit ćemo sljedeće:

određivanje sastava predstavljenog znanja;

organizacija znanja;

predstavljanje znanja, tj. prikaz definicije modela. Sastav ES znanja određen je sljedećim čimbenicima:

problematično okruženje;

arhitektura ekspertnog sustava;

potrebe i ciljevi korisnika;

jezik komunikacije.

U skladu s općom shemom statičkog ekspertnog sustava, za njegovo funkcioniranje potrebna su sljedeća znanja:

znanje o procesu rješavanja problema (tj. kontrolno znanje) koje koristi tumač (rješavač);

poznavanje jezika komunikacije i načina organiziranja dijaloga kojim se služi jezični procesor (komponenta dijaloga);

znanje o načinima predstavljanja i modificiranja znanja koje koristi komponenta stjecanja znanja;

potporno strukturno i kontrolno znanje koje koristi eksplanatorna komponenta.

Za dinamički ES, osim toga, potrebno je sljedeće znanje:

1) znanje o metodama interakcije s vanjskim okruženjem;

2) znanje o modelu vanjskog svijeta.

Ovisnost sastava znanja o zahtjevima korisnika očituje se u sljedećem:

koje zadatke (iz općeg skupa zadataka) i s kojim podacima korisnik želi riješiti;

koji su preferirani načini i metode rješenja;

pod kojim ograničenjima broja rezultata i metoda njihova dobivanja problem mora biti riješen;

koji su zahtjevi za jezik komunikacije i organizaciju dijaloga;

koji je stupanj općenitosti (specifičnosti) znanja o problemskom području dostupan korisniku;

koji su ciljevi korisnika.

Kompozicija znanja o jeziku komunikacije ovisi i o jeziku komunikacije i o potrebnoj razini razumijevanja.

Uzimajući u obzir arhitekturu ekspertnog sustava, znanje treba podijeliti na interpretabilno i interpretabilno. Prva vrsta uključuje znanje koje rješavač (interpretator) može interpretirati. Sva ostala znanja pripadaju drugoj vrsti. Rješivač ne poznaje njihovu strukturu i sadržaj. Ako bilo koja komponenta sustava koristi ovo znanje, tada nije "svjesna" tog znanja. Neinterpretirano znanje dijelimo na pomoćno znanje koje pohranjuje podatke o vokabularu i gramatici jezika komunikacije, podatke o strukturi dijaloga i pomoćno znanje. Pomoćna znanja obrađuje komponenta prirodnog jezika, ali rješavač ne shvaća tijek te obrade, jer je ova faza obrade ulaznih poruka pomoćna za ispit. Pomoćna znanja koriste se u izradi sustava i implementaciji objašnjenja. Potporno znanje igra ulogu opisa (opravdanja) i interpretiranog znanja i radnji sustava. Pomoćna znanja dijele se na tehnološka i semantička. Tehnološka prateća znanja sadrže informacije o vremenu nastanka znanja koje opisuju, o autoru znanja i sl. Semantičko potporno znanje sadrži semantički opis tog znanja. Sadrže informacije o razlozima uvođenja znanja, o svrsi znanja, opisuju način korištenja znanja i učinak koji se postiže. Pomoćno znanje je opisno.

Interpretirano znanje može se podijeliti na predmetno znanje koje kontrolira znanje o reprezentaciji.Znanje o reprezentaciji sadrži informacije o tome kako (u kojim strukturama) je interpretirano znanje predstavljeno u sustavu.

Predmetno znanje sadrži podatke o predmetnom području i načine transformacije tih podataka u rješavanju zadataka. Imajte na umu da su, u odnosu na predmetno znanje, znanje o reprezentaciji i znanje o kontroli meta-znanje.U predmetnom znanju mogu se razlikovati deskriptori i samo predmetno znanje. Deskriptori sadrže specifične informacije o predmetnom znanju, kao što je faktor sigurnosti pravila i podataka, mjere važnosti i složenosti. Zapravo je predmetno znanje raščlanjeno na činjenice i izvršne izjave. Činjenice određuju moguće vrijednosti cjelina i obilježja predmetnog područja. Izvršne izjave sadrže informacije o tome kako možete promijeniti opis predmetnog područja tijekom rješavanja problema. Drugim riječima, izvršne izjave su znanje koje definira postupke obrade. No, izbjegavamo koristiti izraz "proceduralno znanje" jer želimo naglasiti da se to znanje može specificirati ne samo u proceduralnom, već iu deklarativnom obliku.

Kontrolno znanje se može podijeliti na fokusirajuće i odlučujuće. Fokusiranje znanja opisuje koje bi znanje trebalo koristiti u određenoj situaciji. Obično fokusiranje znanja sadrži informacije o objektima koji najviše obećavaju ili pravila koja bi se trebala koristiti pri testiranju odgovarajućih hipoteza. U prvom slučaju pozornost je usmjerena na elemente radne memorije, u drugom - na pravila baze znanja. Presudno znanje sadrži informacije koje se koriste za odabir načina tumačenja znanja primjerenog trenutnoj situaciji. Ovo se znanje koristi za odabir strategija ili heuristika koje su najučinkovitije za rješavanje određenog problema.

Kvalitativni i kvantitativni pokazatelji ekspertnog sustava mogu se značajno poboljšati korištenjem metaznanja, tj. znanje o znanju. Metaknowledge ne predstavlja jedinstvenu cjelinu, može se koristiti za postizanje različitih ciljeva. Navodimo moguće svrhe metaznanja:

1) meta-znanje u obliku strateških meta-pravila koristi se za odabir relevantnih pravila;

2) metaznanjem se opravdava svrhovitost primjene pravila iz stručnog područja;

3) metapravila se koriste za otkrivanje sintaktičkih i semantičkih pogrešaka u pravilima predmeta;

4) meta-pravila omogućuju sustavu da se prilagodi okolini restrukturiranjem subjektnih pravila i funkcija;

5) metapravila vam omogućuju eksplicitno označavanje mogućnosti i ograničenja sustava, tj. odrediti što sustav zna, a što ne zna.

Pitanja organizacije znanja moraju se razmatrati u svakom prikazu, a njihovo rješavanje uvelike ne ovisi o odabranoj metodi (modelu) prikaza. Izdvajamo sljedeće aspekte problema organizacije znanja:

organizacija znanja po razinama prezentacije i razinama detalja;

organizacija znanja u radnoj memoriji;

organizacija znanja u bazi znanja.

Jednadžbe reprezentacije i razine detalja

Da bi ekspertni sustav mogao upravljati procesom pronalaženja rješenja, stjecati nova znanja i objašnjavati svoje postupke, mora biti sposoban ne samo koristiti svoje znanje, već i imati sposobnost razumijevanja i istražiti ih, tj. ekspertni sustav mora imati znanje o tome kako je predstavljeno njegovo znanje o problemskom okruženju. Ako se znanje o problematičnoj okolini naziva znanjem nulte razine reprezentacije, tada prva razina reprezentacije sadrži metaznanje, tj. znanje o tome kako je sustav znanja nulte razine predstavljen u unutarnjem svijetu. Prva razina sadrži znanje o tome koji se alati koriste za predstavljanje znanja nulte razine. Poznavanje prve razine igra bitnu ulogu u upravljanju procesom odlučivanja, u stjecanju i objašnjavanju djelovanja sustava. Zbog činjenice da znanje prve razine ne sadrži poveznice sa znanjem nulte razine, znanje prve razine je neovisno o problematičnom okruženju.

Broj razina prezentacije može biti više od dvije. Druga razina reprezentacije sadrži informacije o znanju prve razine, tj. znanje o prikazu temeljnih pojmova prve razine. Podjela znanja na razine prezentacije omogućuje proširenje opsega sustava.

Označavanje razina detalja omogućuje vam razmatranje znanja s različitim stupnjevima detalja. Broj razina detalja uvelike je određen specifičnostima zadataka koji se rješavaju, količinom znanja i načinom njihova prezentiranja. U pravilu se razlikuju najmanje tri razine detalja koje odražavaju opću, logičku i fizičku organizaciju znanja. Uvođenje višestrukih razina detalja pruža dodatni stupanj fleksibilnosti sustava, budući da dopušta izmjene na jednoj razini bez utjecaja na druge. Promjene na jednoj razini detalja mogu rezultirati dodatnim promjenama na toj razini, što je neophodno kako bi se osigurala dosljednost između struktura podataka i programa. Međutim, prisutnost različitih razina sprječava širenje promjena s jedne razine na druge.

Organizacija znanja u radnom sustavu

Radna memorija (WP) ekspertnih sustava namijenjena je pohrani podataka. Podaci u radnoj memoriji mogu biti homogeni ili razvrstani prema vrsti podataka. U potonjem slučaju svaka razina radne memorije pohranjuje podatke odgovarajuće vrste. Odabir razina komplicira strukturu ekspertnog sustava, ali čini sustav učinkovitijim. Na primjer, možete razlikovati razinu plana, razinu agenta (uređeni popis pravila spremnih za izvršenje) i razinu podataka domene (razina odluke).

U modernim ekspertnim sustavima, podaci u radnoj memoriji vide se kao izolirani ili povezani. U prvom slučaju radna memorija sastoji se od mnogo jednostavnih elemenata, au drugom slučaju sastoji se od jednog ili više (s nekoliko razina u RP) složenih elemenata (na primjer, objekata). U ovom slučaju, složeni element odgovara skupu jednostavnih, ujedinjenih u jednu cjelinu. Teoretski, oba pristupa daju cjelovitost, ali korištenje izoliranih elemenata u složenim predmetnim područjima dovodi do gubitka učinkovitosti.

Podaci u RP u najjednostavnijem slučaju su konstante i (ili) varijable.U ovom slučaju varijable se mogu tumačiti kao karakteristike nekog objekta, a konstante - kao vrijednosti odgovarajućih karakteristika. Ako se u RP-u zahtijeva istovremeno analiziranje više različitih objekata koji opisuju trenutnu problemsku situaciju, tada je potrebno navesti kojim objektima pripadaju karakteristike koje se razmatraju. Jedan od načina rješavanja ovog problema je eksplicitno označavanje kojem objektu pripada karakteristika.

Ako se RP sastoji od složenih elemenata, tada se odnos između pojedinih objekata eksplicitno označava, na primjer, postavljanjem semantičkih odnosa. Štoviše, svaki objekt može imati svoju unutarnju strukturu. Treba napomenuti da se radi ubrzanja pretraživanja i usporedbe podaci u RP mogu povezivati ne samo logički, već i asocijativno.

Organizacija znanja u bazi podataka

Pokazatelj inteligencije sustava u pogledu reprezentacije znanja jest sposobnost sustava da u pravom trenutku upotrijebi potrebno (relevantno) znanje. Sustavi koji nemaju sredstva za utvrđivanje relevantnog znanja neizbježno se suočavaju s problemom "kombinatorne eksplozije". Može se tvrditi da je ovaj problem jedan od glavnih razloga koji ograničavaju opseg ekspertnih sustava. U problemu pristupa znanju mogu se izdvojiti tri aspekta: povezanost znanja i podataka, mehanizam pristupa znanju, metoda usporedbe.

Povezivanje (agregacija) znanja je glavni način da se ubrza potraga za relevantnim znanjem. Većina stručnjaka došla je do zaključka da znanje treba organizirati oko najvažnijih objekata (entiteta) predmetnog područja. Sva znanja koja karakteriziraju neki entitet pridružena su i predstavljena kao zaseban objekt. S takvom organizacijom znanja, ako sustav treba informaciju o nekom entitetu, onda traži objekt koji opisuje taj entitet, a zatim unutar objekta pronalazi informaciju o tom entitetu. U objektima je preporučljivo razlikovati dvije vrste veza među elementima: vanjske i unutarnje.Unutarnje veze spajaju elemente u jedan objekt i imaju za cilj izražavanje strukture objekta. Vanjske veze odražavaju međuovisnosti koje postoje između objekata u području stručnosti. Mnogi istraživači klasificiraju vanjske veze kao porezne i asocijativne.Logičke veze izražavaju semantičke odnose između elemenata znanja. Asocijativne veze osmišljene su za pružanje odnosa koji pomažu ubrzati potragu za relevantnim znanjem.

Glavni problem pri radu s velikom bazom znanja je problem pronalaženja znanja relevantnog za problem koji se rješava. Zbog činjenice da podaci koji se obrađuju možda neće sadržavati eksplicitne naznake vrijednosti potrebnih za njihovu obradu, potreban je općenitiji mehanizam pristupa od metode izravnog pristupa (metoda eksplicitne reference). Zadatak ovog mehanizma je pronaći, u bazi znanja, objekte koji zadovoljavaju ovaj opis, prema nekom opisu entiteta koji je dostupan u radnoj memoriji. Očito, sređivanje i strukturiranje znanja može znatno ubrzati proces pretraživanja.

Pronalaženje željenih objekata u općem slučaju prikladno je smatrati procesom u dvije faze. U prvoj fazi, u skladu s procesom selekcije asocijativnim vezama, vrši se preliminarni odabir u bazi znanja potencijalnih kandidata za ulogu željenih objekata. U drugoj fazi, izvođenjem operacije usporedbe potencijalnih kandidata s opisima kandidata, provodi se konačan odabir željenih objekata. Prilikom organiziranja takvog mehanizma pristupa javljaju se određene poteškoće: Kako odabrati kriterij podobnosti kandidata? Kako organizirati rad u konfliktnim situacijama? itd.

Operacija uparivanja može se koristiti ne samo kao sredstvo odabira željenog objekta iz skupa kandidata; može se koristiti za klasifikaciju, validaciju, dekompoziciju i ispravak. Da bi se identificirao nepoznati objekt, može se usporediti s nekim poznatim uzorcima. Ovo će klasificirati nepoznati objekt kao takav poznati uzorak, u usporedbi s kojim su dobiveni najbolji rezultati. U potrazi, podudaranje se koristi za potvrdu nekih od mnogih mogućih kandidata. Ako usporedite neki poznati objekt s nepoznatim opisom, tada će se u slučaju uspješnog sparivanja izvršiti djelomična dekompozicija opisa.

Operacije slaganja vrlo su raznolike. Obično se razlikuju sljedeći oblici: sintaktičko, parametarsko, semantičko i prisilno podudaranje.Kod sintaktičkog podudaranja suodnose se oblici (uzorci), a ne sadržaj objekata. Uspješno podudaranje je ono koje rezultira identičnim uzorcima. Općenito se pretpostavlja da varijabla jednog uzorka može biti identična bilo kojoj konstanti (ili izrazu) drugog uzorka. Varijable uključene u uzorak ponekad podliježu zahtjevima koji određuju vrstu konstanti s kojom se mogu usporediti. Rezultat sintaktičkog podudaranja je binarni: uzorci se podudaraju ili ne podudaraju. Kod parametarskog podudaranja unosite parametar koji određuje stupanj podudaranja. U slučaju semantičke usporedbe, u korelaciji nisu uzorci predmeta, već njihove funkcije. U slučaju prisilnog podudaranja, jedan usklađeni uzorak razmatra se sa stajališta drugog. Za razliku od drugih vrsta podudaranja, ovdje se uvijek može dobiti pozitivan rezultat. Pitanje je moći prisile. Prisilom se mogu izvoditi posebni postupci povezani s objektima. Ako se ti postupci ne podudaraju, sustav javlja da se uspjeh može postići samo ako se određeni dijelovi dotičnih entiteta mogu smatrati odgovarajućima.

Metode traženja rješenja u ekspertnim sustavima

Metode rješavanja problema temeljene na njihovom svođenju na pretraživanje ovise o

psihodijagnostika u psihosomatici, kao i drugim sustavima. obilježja predmetnog područja u kojem se problem rješava, te o zahtjevima koje korisnik postavlja rješenju. Značajke predmetnog područja u smislu metoda rješenja mogu se okarakterizirati sljedećim parametrima:

veličina, koja određuje količinu prostora u kojem treba tražiti rješenje;

promjenjivost područja, karakterizira stupanj promjenjivosti područja u vremenu i prostoru (ovdje ćemo razlikovati statična i dinamička područja);

cjelovitost modela koji opisuje područje karakterizira primjerenost modela koji se koristi za opis datog područja. Obično, ako model nije potpun, tada se koristi nekoliko modela za opisivanje područja, koji se međusobno nadopunjuju odražavajući različita svojstva predmetnog područja;

sigurnost podataka o problemu koji se rješava, karakterizira stupanj točnosti (pogreške) i potpunosti (nepotpunosti) podataka. Točnost (pogreška) je pokazatelj da je predmetno područje u smislu zadataka koji se rješavaju opisano točnim ili netočnim podacima; pod potpunošću (nepotpunošću) podataka podrazumijeva se dostatnost (nedostatnost) ulaznih podataka za jedinstveno rješenje problema.

Zahtjevi korisnika za rezultatom problema riješenog pretraživanjem mogu se karakterizirati brojem rješenja i svojstvima rezultata i (ili) načinom njegova dobivanja. Parametar "broj odluka" može imati sljedeće osnovne vrijednosti: jedna odluka, više odluka, sve odluke. Parametar "svojstva" definira ograničenja koja mora zadovoljiti rezultat ili način njegovog dobivanja. Tako, primjerice, za sustav koji izdaje preporuke za liječenje pacijenata, korisnik može odrediti zahtjev da se određeni lijek ne koristi (zbog nedostatka ili zbog činjenice da je kontraindiciran za ovog pacijenta). Parametar "svojstva" također može odrediti takve značajke kao što je vrijeme rješenja ("ne više od", "vremenski raspon", itd.), količinu memorije koja se koristi za dobivanje rezultata, naznaku obvezne (nemoguće) upotrebe bilo kakvo znanje (podaci) itd.

Dakle, složenost problema, određena gornjim skupom parametara, varira od jednostavnih problema male dimenzije s nepromjenjivim određenim podacima i nepostojanjem ograničenja na rezultat i način dobivanja, do složenih problema velikih dimenzija s promjenjivim , pogrešni i nepotpuni podaci te proizvoljna ograničenja rezultata i načina dobivanja. Jasno je iz općih razmatranja da je nemoguće sve probleme riješiti jednom metodom. Obično su neke metode superiorne drugima samo u nekim od navedenih parametara.

Metode o kojima se raspravlja u nastavku mogu funkcionirati u statičnim i dinamičkim problematičnim okruženjima. Kako bi radili u dinamičkim uvjetima, potrebno je uzeti u obzir životni vijek varijabilnih vrijednosti, izvor podataka za varijable, a također osigurati mogućnost pohranjivanja povijesti varijabilnih vrijednosti, modelirati vanjsko okruženje i upravljati s privremenim kategorijama u pravilima.

Postojeće metode rješavanja problema koje se koriste u ekspertnim sustavima mogu se klasificirati na sljedeći način:

metode pretraživanja u jednom prostoru - metode namijenjene za korištenje u sljedećim uvjetima: područja malih dimenzija, cjelovitost modela, točni i potpuni podaci;

metode pretraživanja u hijerarhijskim prostorima - metode dizajnirane za rad u područjima visoke dimenzije;

metode traženja netočnih i nepotpunih podataka;

metode pretraživanja koje koriste nekoliko modela, dizajnirane za rad s područjima za koja jedan model nije dovoljan za primjeren opis.

Pretpostavlja se da navedene metode, po potrebi, treba kombinirati kako bi se omogućilo rješavanje problema čija se složenost istovremeno povećava u nekoliko parametara.

Kompleks alata za izradu statičkih ekspertnih sustava (na primjeru Eko integriranog kompleksa)

Razmotrimo značajke alata za stvaranje statičkog ES-a na primjeru ECO kompleksa razvijenog u Ruskom istraživačkom institutu za IT i AP. Kompleks se najuspješnije koristi za stvaranje ES-a koji rješava probleme dijagnostike (tehničke i medicinske), heurističke procjene (rizik, pouzdanost itd.), visokokvalitetnog predviđanja, ali i obuke.

Kompleks ECO koristi se: za izradu komercijalnih i industrijskih ekspertnih sustava na osobnim računalima, kao i za brzu izradu prototipova ekspertnih sustava u svrhu utvrđivanja primjenjivosti metoda inženjerstva znanja u određenom problemskom području.

Na temelju ECO kompleksa razvijeno je više od 100 primijenjenih ekspertnih sustava. Među njima ističemo sljedeće:

traženje pojedinačnih grešaka u osobnom računalu;

ocjena stanja hidrotehničkog objekta (HE Čarvak);

priprema poslovna pisma prilikom vođenja korespondencije s inozemnim partnerima;

provođenje probirne procjene imunološkog statusa;

procjena indikacija mikrobiološke pretrage bolesnika s nespecifičnim kroničnim plućnim bolestima;

Sredstva reprezentacije znanja i strategije upravljanja

IVF kompleks uključuje tri komponente.

Srž kompleksa je integrirana ljuska ECO ekspertnih sustava, koja osigurava brzu izradu učinkovitih aplikacija za rješavanje problema analize u statičnim problematičnim okruženjima tipa 1 i 2.

Pri razvoju alata za predstavljanje znanja ljuske, slijedila su se dva glavna cilja: učinkovito rješavanje prilično široke i praktično značajne klase zadataka korištenjem osobnih računala; fleksibilne opcije za opisivanje korisničkog sučelja i provođenje konzultacija u određenim aplikacijama. Prilikom predstavljanja znanja u ljusci koriste se specijalizirane (privatne) tvrdnje tipa "atribut-vrijednost" i privatna pravila, što omogućuje eliminaciju resursno intenzivne operacije podudaranja uzoraka i postizanje učinkovitosti razvijenih aplikacija. Izražajne mogućnosti ljuske značajno su proširene zahvaljujući integraciji koja je omogućena pozivanjem vanjskih programa putem konzultacijske skripte i spajanjem s bazama podataka (PIRS i dBase IV) i vanjskim programima. U ECO ljusci postoji slaba struktura baze znanja zbog njene podjele na zasebne komponente - za rješavanje pojedinačnih podzadataka u problematičnom okruženju - model (koncept "modela" ECO odgovara konceptu "modul" baze znanja sustava G2).

Sa stajališta tehnologije razvoja ES-a, ljuska podržava pristupe temeljene na površnom znanju i strukturiranju procesa rješenja.

Ljuska funkcionira u dva načina: u načinu stjecanja znanja i u načinu konzultacije (rješavanje problema). U prvom načinu, ES programer unosi opis određene aplikacije u bazu znanja pomoću uređivača dijaloga u smislu jezika za predstavljanje znanja ljuske. Ovaj je opis sastavljen u mrežu zaključivanja s izravnim adresnim poveznicama na određene izjave i pravila. U drugom načinu rada ljuska rješava specifične korisničke zadatke u dijaloškom ili batch načinu rada. U ovom slučaju, rješenja se izvode iz ciljeva u podatke (obrnuto razmišljanje).

Kako bi se proširile mogućnosti ljuske za rad s dubinskim znanjem, ECO kompleks može se nadopuniti komponentom K-ECO (konkretizator znanja), koja vam omogućuje da opišete obrasce u problematičnim okruženjima u smislu općih (apstraktnih) objekata i pravila. K-ECO se koristi u fazi učenja umjesto uređivača dijaloške ljuske za pretvaranje generičkih opisa u specifične mreže zaključivanja koje omogućuju učinkovito zaključivanje rješenja pomoću ECO ljuske. Dakle, uporaba betonizatora omogućuje rad s problematičnim okruženjima tipa 2 (vidi Poglavlje 3).

Treća komponenta kompleksa je sustav ILIS, koji vam omogućuje stvaranje ES-a u statičkim problematičnim okruženjima zbog induktivne generalizacije podataka (primjeri) i namijenjen je za korištenje u onim aplikacijama gdje nedostatak pravila koja odražavaju obrasce u problematičnom okruženju nadoknađuje se opsežnim eksperimentalnim materijalom. Sustav ILIS omogućuje automatsko generiranje najjednostavnijih specifičnih pravila i autonomno rješavanje problema na temelju njih; u ovom slučaju koristi se kruta shema dijaloga s korisnikom. Budući da pri izradi stvarnih aplikacija eksperti u pravilu prezentiraju i znanje o uzorcima u problemskom okruženju i eksperimentalni materijal (za rješavanje pojedinih podzadataka), postaje nužno koristiti pravila koja generira sustav ILIS unutar složenijih alata za reprezentaciju znanja . ECO kompleks omogućuje automatski prijevod takvih pravila u ECO shell format. Kao rezultat, moguće je dobiti cjelovit (adekvatan) prikaz stvarnog problematičnog okruženja, osim toga, postaviti fleksibilan opis organizacije interakcije između ES-a i krajnjeg korisnika.

Kompleks alata za izradu ekspertnih sustava u stvarnom vremenu (na primjeru integriranog okruženja g2-gensym corp., SAD)

Povijest razvoja IC-ova za stvaranje ES-a u stvarnom vremenu započela je 1985. godine, kada je Lisp Machine Inc. izdao sustav Picon za simbolička računala Symbolics. Uspjeh ovog IC-a naveo je skupinu vodećih Picon programera da 1986. godine osnuju privatnu tvrtku Gensym, koja je, značajno razvijajući ideje utjelovljene u Piconu, ušla na tržište 1988. godine s IC-om pod nazivom G2, verzija 1.0. Verzija 4.2 trenutno je operativna, a verzija 5.0 se priprema za izdavanje.

Glavna svrha softverskih proizvoda Gensym (SAD) je pomoći poduzećima da zadrže i iskoriste znanje i iskustvo svojih najtalentiranijih i najkvalificiranijih zaposlenika u inteligentnim sustavima u stvarnom vremenu koji poboljšavaju kvalitetu proizvoda, pouzdanost i sigurnost proizvodnje te smanjuju troškove proizvodnje. Koliko Gensym uspijeva izaći na kraj s ovim zadatkom barem govori podatak da danas posjeduje 50% svjetskog tržišta ekspertnih sustava koji se koriste u sustavima upravljanja.

Uz zaostatak za Gensymom od 2-3 godine, druge su tvrtke počele stvarati vlastite IC-ove za ES RT. Sa stajališta neovisnih NASA-inih stručnjaka koji su proveli sveobuhvatno istraživanje karakteristika i mogućnosti nekih od navedenih sustava, G2 (Gensym, SAD) u ovom trenutku zasigurno ostaje najnapredniji IS; sljedeća mjesta sa značajnim zaostatkom (implementirano je manje od 50% G2 mogućnosti) zauzimaju RTWorks - Talarian (SAD), COMDALE / C (Comdale Techn. - Kanada), COGSYS (SC - SAD), ILOG Rules ( ILOG – Francuska).

Klase zadataka za koje su dizajnirani G2 i slični sustavi:

praćenje u stvarnom vremenu;

sustavi upravljanja najviše razine;

sustavi za otkrivanje grešaka;

dijagnostika;

zakazivanje;

planiranje;

optimizacija;

sustavi - savjetnici operatera;

sustavi dizajna.

Gensymovi alati evolucijski su korak u razvoju tradicionalnih ekspertnih sustava iz statičkih u dinamičke domene. Značajan udio u uspjehu Gensyma osiguravaju temeljna načela kojih se pridržava u svojim novim razvojima:

usmjerenost na problem / predmet;

poštivanje standarda;

neovisnost od računalne platforme;

kompatibilnost odozdo prema gore s prethodnim verzijama;

univerzalne sposobnosti, neovisne o zadatku koji se rješava;

osiguranje tehnološke osnove za primijenjene sustave;

ugodno razvojno okruženje;

traženje novih načina razvoja tehnologije;

distribuirana klijent-poslužiteljska arhitektura;

visoke performanse.

Glavna prednost ljuske G2 ekspertnih sustava za ruske korisnike je mogućnost korištenja kao integrirajuće komponente, koja omogućuje, zbog otvorenosti sučelja i podrške za širok raspon računalnih platformi, jednostavno kombiniranje postojećih, različitih alata za automatizaciju u jedinstvenu integrirani sustav upravljanje, pokrivajući sve aspekte proizvodnih aktivnosti - od formiranja portfelja narudžbi do kontrole procesa i otpreme gotovih proizvoda. To je posebno važno za domaća poduzeća, čija je flota hardvera i softvera formirana najvećim dijelom slučajno, pod utjecajem oštrih fluktuacija u gospodarstvu.

Osim G2 sustava kao osnovnog razvojnog alata, Gensym nudi skup proširenja orijentiranih na domenu/domenu za brzu implementaciju složenih dinamičkih sustava temeljenih na specijaliziranim grafičkim jezicima, uključujući blokove operatera koji se mogu parametrizirati za predstavljanje elemenata procesa i tipične zadatke obrade informacija . Gensymov set alata, grupiran prema problemskoj orijentaciji, pokriva sve faze proizvodnog procesa i izgleda ovako:

inteligentna kontrola proizvodnje - G2, G2 Diagnostic Assistant (GDA), NeurOn-Line (NOL), Statistical Process Control (SPC), BatchDesign_Kit;

operativno planiranje - G2, G2 Scheduling Toolkit (GST), Dynamic Scheduling Packadge (DSP);

razvoj i modeliranje proizvodnih procesa - G2, ReThink, BatchDesign_Kit;

operacije i korporativno upravljanje mrežom - G2, Fault Expert.

Unatoč činjenici da se prva verzija sustava G2 pojavila ne tako davno - 1988. godine, nitko ga neće nazvati jeftinim čak ni u bogatoj Americi. G2 se može nazvati bestselerom na tržištu softvera - početkom 1996. u svijetu je instalirano više od 5000 njegovih primjeraka. Gensym opslužuje više od 30 industrija, od istraživanja zrakoplovstva do proizvodnje hrane. Popis G2 korisnika izgleda kao vodič Tko je tko kroz globalnu industriju. 25 najvećih svjetskih industrijskih korporacija koristi G2. Više od 500 aktivnih aplikacija napisano je na temelju G2.

Što objašnjava uspjeh G2 instrumentalnog kompleksa? Prije svega, G2 je dinamičan sustav u punom smislu te riječi. G2 je objektno orijentirani okvir za razvoj i održavanje aplikacija u stvarnom vremenu koje koriste baze znanja. G2 radi na većini postojećih platformi (Tablica 9.1). Baza znanja G2 spremljena je na uobičajeni način

Tablica 9.1 Platforme na kojima radi G2

Proizvodna tvrtka	Računalni sustav	Radno okruženje
	VAX Zxxx,4xxx,bxxx,
	7xxx, 8xxx, 9xxx
	DECstanica Zxxx, bxxx
		Otvoreni VMS, OSF/1,




	SPARC 1,2, 10, LX,	SunOS/Solaris 1, Solaris

Hewlett Packard	HP9000/4xx, 7xx, 8xx


Silicijska grafika
	Intel 486/Pentium	Windows NT, Windows 95

PREDAVANJE 9 STVARANJEMREŽAPIUM CHART STRANICE

Najlakši način korištenja komponente Popis zaokretne tablice je spremanje zaokretne tablice Microsoft Excel poput web stranice. Da biste to učinili, odaberite stavku izbornika Datoteka | Spremi kao web-stranicu, u dijaloškom okviru koji se pojavi pritisnite gumb Objavi, u dijaloškom okviru odaberite opciju Items on Sheet1 s padajućeg popisa Choose, zatim PivotTable, označite opciju Add interaktivnost s i odaberite PivotTable funkcionalnost iz popis.

Zatim, ako je potrebno, promijenite naslov koji će se pojaviti na budućoj web stranici i spremite ga. Otvorimo li ovu stranicu u Microsoft Internet Exploreru, možemo vidjeti da sadrži popis zaokretnih tablica, ActiveX kontrolu za pregled OLAP podataka i zaokretnih tablica na web stranicama ili Windows aplikacijama (slika 2).

Odmah napominjemo da se ova kontrola može koristiti samo na lokalnim mrežama na računalima za koja je kupljena licenca za Microsoft Office; druge upotrebe, kao što su web stranice dostupne na internetu, zabranjene su licencnim ugovorom.

Značajke komponente popisa zaokretne tablice

U predavanju ćemo se ukratko osvrnuti na mogućnosti koje pruža komponenta PivotTable List.

Korisnik koji upravlja ovom komponentom u pregledniku ili Windows aplikaciji može, kao u zaokretnoj tablici programa Excel, premjestiti podatke u područje retka, područje stupca i područje stranice (Web komponente Microsoft Officea koriste izraze područje retka, područje stupca i područje filtra) s dijaloškim okvirom ploča koja nalikuje ploči s popisom polja zaokretne tablice iz programa Excel 2013. Dijaloška ploča s popisom dimenzija i mjera prikazuje se klikom na gumb Popis polja na alatnoj traci komponente Popis zaokretne tablice.

Korisnik također može izvršiti operaciju drill-down klikom na ikone "+" (Slika 4).

Komponenta Popis zaokretne tablice omogućuje sortiranje i filtriranje podataka. Prvo, filtriranje podataka može se izvršiti prikazivanjem samo odabranih članova dimenzije, koji se mogu provjeriti na padajućem popisu sličnom odgovarajućem Excel popisu.

Drugo, pomoću dijaloške ploče Naredbe i mogućnosti (može se prikazati pomoću odgovarajućeg gumba na alatnoj traci komponente popisa zaokretne tablice), možete odabrati kako filtrirati i grupirati podatke (na primjer, prikazati određeni broj najviših ili najnižih vrijednosti - Top 5, Top 10, Bottom 25 itd.

Osim toga, korisnik može promijeniti atribute prikaza podataka - boju i font teksta, boju pozadine, poravnanje teksta, prikaz itd. Da biste to učinili, samo postavite pokazivač na jedan od podatkovnih elemenata čije atribute treba promijeniti (na primjer, na naziv člana dimenzije, na ćeliju sa sažetim podacima ili s ukupnim vrijednostima) i odaberite nove atribute za prikaz podatke ove vrste u istom dijaloškom okviru Naredbe i mogućnosti.

Osim toga, komponenta Popis zaokretne tablice omogućuje, na temelju skupnih podataka, izračunavanje frakcija ili postotaka ukupnog iznosa ili iznosa koji odgovara nadređenom članu dimenzije (na primjer, postotak godišnjeg profita ostvarenog u određenom kvartalu) - odgovarajuće opcije mogu se pronaći u kontekstnim izbornicima podatkovnih elemenata.

Korisnik također ima pristup posebno dizajniranoj datoteci pomoći (na ruskom, ako su web komponente s ruskog Microsoftove verzije Office XP). Međutim, korisnik ne može promijeniti izvor podataka i prikazati drugu OLAP kocku na web stranici, budući da samo programer web stranice ima pravo to učiniti (i za njega postoji zasebna datoteka pomoći, koja se značajno razlikuje od onoga što je namijenjen korisniku - on sadrži, posebice, informacije o objektnom modelu ove komponente).

Imajte na umu da se slična web stranica može izraditi i pomoću programa Microsoft FrontPage. Za umetanje popisa zaokretne tablice u web stranicu kreiranu u FrontPageu odaberite stavku izbornika Umetni | Web komponentu i u dijaloškom okviru koji se pojavi odaberite Office PivotTable iz odjeljka Proračunske tablice i grafikoni.

Nakon što se komponenta Popis zaokretne tablice pojavi na web-stranici, kliknite na hipertekstualnu vezu koja vas traži da definirate izvor podataka, a zatim odaberite ODBC izvor s predloženog popisa (ili ga opišite ako već nije na popisu; kako to je opisano u prethodnom članku u ovoj seriji). Kao izvor podataka možete koristiti OLAP kocku na strani poslužitelja i lokalnu stvorenu pomoću programa Excel (kao i rezultat upita prema bilo kojem ODBC izvoru koji vraća redoviti "ravni" skup podataka). Konačno, ako je potrebno, možete prikazati dijaloški okvir Popis polja zaokretne tablice i premjestiti nazive dimenzija i mjera u odgovarajuća područja ove komponente.

Imajte na umu da je stranica Izvor podataka dijaloškog okvira Naredbe i opcije dostupna samo u vrijeme dizajna (to jest, u FrontPageu ili, ako se komponenta Popis zaokretne tablice koristi u Windows aplikaciji, a ne na web stranici, tada u razvojnom alatu s kojim se stvara).Dodatak). Drugim riječima, krajnji korisnik nema mogućnost mijenjanja izvora podataka, to može učiniti samo programer.

Izrada web stranica sa zaokretnim grafikonima

Web komponente Microsoft Officea također vam omogućuju izradu zaokretnog grafikona na temelju podataka prikazanih u komponenti popisa zaokretne tablice. U tu svrhu upotrijebite kontrolu ChartSpace, koja je također uključena u Microsoft Office Web Components. Da biste ga postavili na web stranicu, odaberite stavku izbornika Insert | iz izbornika FrontPage. Web komponentu i u dijaloškom okviru koji se pojavi odaberite Uredski grafikon iz odjeljka Proračunske tablice i grafikoni.

Sljedeći korak u izradi grafikona je odabir izvora podataka za njegovo iscrtavanje. U našem slučaju, to će biti postojeća komponenta popisa zaokretne tablice.

Treba napomenuti da dobiveni zaokretni grafikon ima približno istu funkcionalnost kao i zaokretni grafikon programa Excel o kojem se govorilo u prethodnom članku u ovom ciklusu (na primjer, ova vam komponenta također omogućuje povlačenje naziva dimenzija i mjera mišem u različita područja grafikona i odaberite prikazane članove dimenzija), a promjene na grafikonu i zaokretnoj tablici su sinkrone, baš kao kod prikaza podataka OLAP kocke u Excelu.

Stožerni grafikon temeljen na OLAP kocki također se može izgraditi izravno pomoću komponente ChartSpace. Da biste to učinili, kada kreirate web stranicu, morate opisati izvor podataka na stranici Podaci o podacima u dijaloškom okviru Naredbe i opcije.

I konačno, još jedan način za stvaranje web stranice sa zaokretnim grafikonom. Sastoji se od spremanja Excel PivotChart-a kao web stranice. Međutim, u ovom slučaju, komponenta popisa zaokretne tablice povezana s grafikonom koji se stvara automatski će se dodati na istu stranicu.

Kao što je gore spomenuto, PivotTable List i ChartSpace komponente također se mogu koristiti u aplikacijama. To zahtijeva razvojni alat koji podržava korištenje ActiveX kontrola na obrascima (na primjer, Microsoft Visual Basic, Microsoft Visual C++, Borland Delphi, Borland C++Builder). Programeri zainteresirani za izradu takvih aplikacija mogu pogledati naše prethodno objavljene članke o ovoj temi (na primjer, Korištenje komponenti Microsoft Officea u aplikacijama.

REZULTATI

Tablica 8.3a. Regresijska statistika

Regresijska statistika
Višestruki R	0,998364
R-kvadrat	0,99673
Normalizirani R-kvadrat	0,996321
standardna pogreška	0,42405
Zapažanja	10

Pogledajmo najprije gornji dio izračuna prikazanih u tablici 8.3a, regresijsku statistiku.

Vrijednost R-kvadrata, koja se također naziva i mjera sigurnosti, karakterizira kvalitetu rezultirajuće regresijske linije. Ova se kvaliteta izražava stupnjem podudarnosti između izvornih podataka i regresijskog modela (izračunati podaci). Mjera izvjesnosti je uvijek unutar intervala.

U većini slučajeva, vrijednost R-kvadrata je između ovih vrijednosti, koje se nazivaju ekstremi, tj. između nule i jedan.

Ako je vrijednost R-kvadrata blizu jedinice, to znači da konstruirani model objašnjava gotovo svu varijabilnost odgovarajućih varijabli. Obrnuto, vrijednost R-kvadrata blizu nule znači lošu kvalitetu konstruiranog modela.

U našem primjeru, mjera sigurnosti je 0,99673, što ukazuje na vrlo dobro uklapanje regresijske linije prema izvornim podacima.

Višestruki R- koeficijent višestruke korelacije R - izražava stupanj ovisnosti nezavisnih varijabli (X) i zavisne varijable (Y).

Višestruki R jednak je kvadratnom korijenu koeficijenta determinacije, ova vrijednost uzima vrijednosti u rasponu od nula do jedan.

U jednostavnoj analizi linearne regresije, višestruki R jednak je Pearsonovom koeficijentu korelacije. Doista, višestruki R u našem slučaju jednak je Pearsonovom koeficijentu korelacije iz prethodnog primjera (0,998364).

Tablica 8.3b. Regresijski koeficijenti

	Izgledi	standardna pogreška	t-statistika
Y-raskrižje	2,694545455	0,33176878	8,121757129
Varijabla X 1	2,305454545	0,04668634	49,38177965
* Dana je skraćena verzija izračuna

Sada razmotrite srednji dio izračuna prikazanih u tablici 8.3b. Ovdje je dan regresijski koeficijent b (2,305454545) i pomak duž y-osi, tj. konstanta a (2,694545455).

Na temelju izračuna, jednadžbu regresije možemo napisati na sljedeći način:

Y= x*2,305454545+2,694545455

Smjer odnosa između varijabli određuje se na temelju predznaka (negativan ili pozitivan) koeficijenti regresije(koeficijent b).

Ako znak na koeficijent regresije- pozitivan, odnos ovisne varijable s nezavisnom bit će pozitivan. U našem slučaju predznak regresijskog koeficijenta je pozitivan, dakle i odnos je pozitivan.

Ako znak na koeficijent regresije- negativan, odnos između zavisne varijable i nezavisne varijable je negativan (inverzan).

U tablici 8.3c. prikazani su rezultati izlaza reziduala. Kako bi se ovi rezultati pojavili u izvješću, potrebno je aktivirati checkbox "Reziduali" prilikom pokretanja alata "Regresija".

PREOSTALO POVLAČENJE

Tablica 8.3c. Ostaci

Promatranje	Predviđeno Y	Ostaci	Standardna stanja
1	9,610909091	-0,610909091	-1,528044662
2	7,305454545	-0,305454545	-0,764022331
3	11,91636364	0,083636364	0,209196591
4	14,22181818	0,778181818	1,946437843
5	16,52727273	0,472727273	1,182415512
6	18,83272727	0,167272727	0,418393181
7	21,13818182	-0,138181818	-0,34562915
8	23,44363636	-0,043636364	-0,109146047
9	25,74909091	-0,149090909	-0,372915662
10	28,05454545	-0,254545455	-0,636685276

Pomoću ovog dijela izvješća možemo vidjeti odstupanja svake točke od konstruirane regresijske linije. Najveća apsolutna vrijednost

Odnosi se na inerciju.

Mjera tromosti1

Kosinus**2 mjere.1

viši menadžeri

mlađi menadžeri

viši kadar

mlađi zaposlenici