Graafilise uurimusliku andmeanalüüsi meetodid. Statistica tööriistad graafiliseks uurimuslikuks andmeanalüüsiks. Kirjeldav statistika, rühmitused, uurimuslik analüüs Seosereeglid uurimusliku analüüsi näide statistikas

Graafilise uurimusliku andmeanalüüsi meetodid. Statistica tööriistad graafiliseks uurimuslikuks andmeanalüüsiks. Kirjeldav statistika, rühmitused, uurimuslik analüüs Seosereeglid uurimusliku analüüsi näide statistikas

1. peatükk

Peatükk 2. LIHTNE ANDMETE KOKKUVÕTE – ARV- JA GRAAFILINE

10. peatükk. KAHESUUNA ANALÜÜSI KASUTAMINE

1. peatükk

Peatükk 2. LIHTNE ANDMETE KOKKUVÕTE – ARV- JA GRAAFILINE

10. peatükk. KAHESUUNA ANALÜÜSI KASUTAMINE

Peamised seotud artiklid

30.05.2020 Dekoratsioon

See peatükk jätkab tabelite koostamise ja analüüsimise teemat. Soovitame teil see üle vaadata ja seejärel alustada selle teksti ja STATISTICA harjutuste lugemist.

Korrespondentsanalüüs (inglise keeles coirespondence analysis) on uurimuslik analüüsimeetod, mis võimaldab visuaalselt ja numbriliselt uurida suurte mõõtmetega kontingentsitabelite struktuuri.

Correspondence Analysis as a Means for Developing City Marketing Strategies, 3rd International Conference on Recent Advances in Retailing and Services Science, lk 22-25, juuni 1996, Telfs-Buchen (Osterreich) Werani, Thomas.

Meetodi rakendused on tuntud arheoloogias, tekstianalüüsis, kus on oluline uurida andmestruktuure (vt Greenacre, M. J., 1993, Correspondence Analysis in Practice, London: Academic Press).

Siin on mõned täiendavad näited.

Uuring sotsiaalsed rühmad elanikkond erinevates piirkondades koos iga rühma kuluartiklitega.
ÜRO hääletustulemuste uuringud fundamentaalsetes küsimustes (1 - poolt, 0 - vastu, 0,5 - erapooletuid, näiteks 1967. aastal uuriti 127 riiki 13 olulises küsimuses) näitavad, et esimese teguri järgi on riigid jaguneb selgelt kahte rühma: üks USA keskusega, teine NSV Liidu keskusega (maailma bipolaarne mudel). Teisi tegureid võib tõlgendada kui isolatsionismi, mittehääletamist jne.
Autode impordi uuring (auto mark - tabeli rida, tootjariik - veerg).
Paleontoloogias kasutatavate tabelite uurimine, kui loomaskelettide erinevate osade valimi põhjal püütakse neid klassifitseerida (omastada ühele võimalikest tüüpidest: sebra, hobune jne).
Teksti uurimine. On teada järgmine eksootiline näide: ajakiri New-Yorker palus keeleteadlastel tuvastada presidendikampaaniat käsitleva skandaalse raamatu anonüümne autor. Ekspertidele pakuti 15 võimaliku autori tekste ja anonüümse väljaande teksti. Tekstid olid esindatud tabeliridadega. Rida i tähistas antud sõna j sagedust. Nii saadi varutabel. Skandaalse teksti tõenäolisem autor selgitati välja korrespondentanalüüsi meetodil.

Vastavusanalüüsi kasutamine meditsiinis on seotud komplekssete tabelite struktuuri uurimisega, mis sisaldavad indikaatormuutujaid, mis näitavad antud sümptomi olemasolu või puudumist patsiendil. Seda tüüpi tabelid on suure mõõtmega ja nende struktuuri uurimine on mittetriviaalne ülesanne.

Ka keeruliste objektide visualiseerimise ülesandeid saab uurida või vähemalt neile läheneda korrespondentanalüüsi abil. Pilt on mitmemõõtmeline tabel ja ülesandeks on leida tasapind, mis võimaldab võimalikult täpselt reprodutseerida originaalpilti.

Meetodi matemaatiline alus. Vastavusanalüüs tugineb hii-ruut statistikale. Võime öelda, et see on Pearsoni hii-ruudu statistika uus tõlgendus.

Meetod on väga sarnane faktoranalüüs, kuid erinevalt sellest uuritakse siin juhuslikkuse tabeleid ja mitmemõõtmelise tabeli reprodutseerimise kvaliteedi kriteeriumiks madalama mõõtmega ruumis on hii-ruutstatistika väärtus. Mitteametlikult võib korrespondentsianalüüsist rääkida kui kategooriliste andmete faktoranalüüsist ja käsitleda seda ka kui dimensioonide vähendamise meetodit.

Niisiis, algse tabeli read või veerud on esindatud ruumipunktidega, mille vahel arvutatakse hii-ruudu kaugus (sarnaselt sellele, kuidas arvutatakse hii-ruut statistika vaadeldavate ja eeldatavate sageduste võrdlemiseks).

Järgmiseks tuleb leida väikese mõõtmega, tavaliselt kahemõõtmeline ruum, milles arvutatud kaugused on minimaalselt moonutatud, ning selles mõttes võimalikult täpselt reprodutseerida algse tabeli struktuur, säilitades samas tunnustevahelised seosed (kui kui teil on ettekujutus mitmemõõtmelistest skaleerimismeetoditest, tunnete tuttavat viisi).

Niisiis, alustame tavalisest risttabelist ehk tabelist, milles on lingitud mitu funktsiooni (risttabelite kohta vt lisateavet peatükist Tabelite koostamine ja analüüsimine).

Oletame, et on olemas andmed teatud ettevõtte töötajate suitsetamisharjumuste kohta. Sarnased andmed on saadaval failis Smoking.sta, mis sisaldub STATISTICA süsteemi standardsete näidete komplektis.

Selles tabelis on atribuut suitsetamine seotud atribuudi positsiooniga:

Töötajate rühm	(1) Mittesuitsetajad	(2) Kerged suitsetajad	(3) Keskmised suitsetajad	(4) Rasked suitsetajad	Kokku rea kohta
(1) Kõrgemad juhid
(2) Nooremjuhid
(3) Vanemtöötajad
(4) Nooremtöötajad
(5) Sekretärid
Kokku veeru kohta

See on lihtne kahe sisendiga risttabel. Vaatame kõigepealt stringe.

Võib eeldada, et tabeli iga rea esimesed 4 numbrit (piirsagedused, st viimast veergu ei võeta arvesse) on rea koordinaadid 4-mõõtmelises ruumis, mis tähendab, et saame formaalselt arvutada hii-ruudu vahemaad nende punktide (tabeli ridade) vahel.

Antud piirsageduste korral saab neid punkte kuvada ruumis mõõtmega 3 (vabadusastmete arv on 3).

Ilmselgelt, mida väiksem on vahemaa, seda suurem on rühmadevaheline sarnasus ja vastupidi – mida suurem vahemaa, seda suurem on erinevus.

Oletame nüüd, et reapunktide esitamiseks võib leida madalama dimensiooniruumi, näiteks dimensiooni 2, mis säilitab kogu või täpsemalt peaaegu kogu teabe ridade erinevuste kohta.

See lähenemine ei pruugi olla efektiivne väikeste tabelite puhul, nagu ülaltoodud, kuid see on kasulik suurte tabelite jaoks, nagu need, mida leitakse turu-uuringutes.

Näiteks kui 15 õlle valikul fikseeritakse 100 vastaja eelistused, siis vastavusanalüüsi rakendamise tulemusena saab lennukis esindatud olla 15 sorti (punkti) (vt müügianalüüsi allpool). Punktide asukohta analüüsides näete õlle valikul mustreid, mis on kasulikud turunduskampaania läbiviimisel.

Kirjavahetuse analüüsis kasutatakse teatud slängi.

Kaal. Tabelis olevad vaatlused on normaliseeritud: arvutatakse tabeli suhtelised sagedused, tabeli kõigi elementide summa võrdub 1-ga (iga element jagatakse vaatluste koguarvuga, see näide 193 juures). Luuakse kahemõõtmelise jaotustiheduse analoog. Saadud standardtabel näitab, kuidas mass jaotub tabeli lahtrite või ruumipunktide vahel. Vastavusanalüüsi slängis nimetatakse suhtelise sagedusmaatriksi ridade ja veergude summasid vastavalt rea ja veeru massideks.

Inerts. Inerts on defineeritud kui Pearsoni hii-ruut väärtus kahe sisendiga tabeli jaoks jagatud vaatluste koguarvuga. Selles näites: koguinerts = 2/193 – 16,442.

Inerts ja ridade ja veergude profiilid. Kui tabeli read ja veerud on täiesti sõltumatud (nende vahel puudub seos - näiteks suitsetamine ei sõltu positsioonist), siis saab tabeli elemente reprodutseerida kasutades ridade ja veergude summasid või terminoloogias. vastavusanalüüsi, kasutades rida- ja veeruprofiile (kasutades piirsagedusi (vt peatükki Pearsoni hii-ruuttesti ja Fisheri täpse testi tabelite koostamine ja analüüsimine).

Kooskõlas tuntud kahesisendiga tabelite hii-ruut valemiga arvutatakse tabeli eeldatavad sagedused, milles veerud ja read on sõltumatud, korrutades vastavad veeru- ja reaprofiilid ning jagades tulemuse kogusummaga.

Kõik kõrvalekalded eeldatavatest väärtustest (muutujate täieliku sõltumatuse hüpoteesi alusel ridade ja veergude vahel) aitavad kaasa hii-ruudu statistikale.

Vastavusanalüüsi võib käsitleda kui hii-ruutstatistika jagamist selle komponentideks, et leida väikseim mõõtmetega ruum, mis võib kujutada kõrvalekaldeid oodatavatest väärtustest (vt allolevat tabelit).

Siin on tabelid eeldatavate sagedustega, mis on arvutatud tunnuse sõltumatuse hüpoteesi alusel, ja vaadeldud sagedused, samuti tabel lahtrite panuste kohta hii-ruudus:

Näiteks on tabelist näha, et mittesuitsetajate nooremtöötajate arv on umbes 10 võrra väiksem kui iseseisvuse hüpoteesi puhul eeldataks. Seevastu eakate mittesuitsetajate arv on 9 võrra suurem kui iseseisvuse hüpoteesi puhul eeldaks ja nii edasi.. Küll aga tahaks üldpilti.

Vastavusanalüüsi eesmärk on võtta need kõrvalekalded eeldatavatest sagedustest kokku mitte absoluutsetes, vaid suhtelistes ühikutes.

Ridade ja veergude analüüs. Tabeli ridade asemel võib vaadelda ka veerge ja esitada need punktidena väiksema mõõtmega ruumis, mis taasesitab võimalikult täpselt tabeli veergude suhteliste sageduste sarnasuse (ja kaugused). Saate kuvada üheaegselt samal graafikul veerge ja ridu, mis esindavad kogu kahesisendilises tabelis sisalduvat teavet. Ja see valik on kõige huvitavam, kuna see võimaldab tulemusi sisukalt analüüsida.

Tulemused. Vastavusanalüüsi tulemused esitatakse tavaliselt graafikute kujul, nagu ülal näidatud, ja ka tabelite kujul, näiteks:

Mõõtmiste arv	Inertsi protsent	Kumulatiivne protsent	Chi-ruut

Vaata seda tabelit. Nagu mäletate, on analüüsi eesmärk leida madalama mõõtmega ruum, mis taastab tabeli, samas kui kvaliteedikriteeriumiks on normaliseeritud hii-ruut ehk inerts. Näha on, et kui vaadeldavas näites on kasutatud ühemõõtmelist ruumi ehk ühte telge, saab seletada 87,76% tabeli inertsist.

Kaks mõõdet võimaldavad seletada 99,51% inertsist.

Ridade ja veergude koordinaadid. Mõelge saadud koordinaatidele kahemõõtmelises ruumis.

Rea nimi	Muuda 1	Muuda 2
kõrgemad juhid
nooremjuhid
kõrgemad töötajad
nooremad töötajad
Sekretärid

Saate seda kujutada kahemõõtmelisel diagrammil.

Kahemõõtmelise ruumi ilmselge eelis on see, et lähipunktidena kuvatavad jooned on üksteisele lähedal ka suhtelisel sagedusel.

Arvestades punktide asukohta piki esimest telge, võib märgata, et St. töötajad ja sekretärid on koordinaatidelt suhteliselt lähedal. Kui pöörata tähelepanu suhteliste sageduste tabeli ridadele (sagedused on standardiseeritud nii, et nende summa iga rea kohta on 100%), siis ilmneb nende kahe rühma sarnasus suitsetamise intensiivsuse osas.

Intress rea kohta:

	Suitsetajate kategooriad
Töötajate rühm	(1) Mittesuitsetajad	(2) Kerged suitsetajad	(3) Keskmised suitsetajad	(4) Rasked suitsetajad	Kokku rea kohta
(1) Kõrgemad juhid
(2) Nooremjuhid
(3) Vanemtöötajad
(4) Nooremtöötajad
(5) Sekretärid

Vastavusanalüüsi lõppeesmärk on tõlgendada vektoreid tekkivas madalama mõõtmega ruumis. Üks viis, mis võib tulemuste tõlgendamisel aidata, on tulpdiagrammi esitamine. Järgmine tabel näitab veergude koordinaate:

	Mõõde 1	2. mõõde
Mittesuitsetajad
kerged suitsetajad
Keskmised suitsetajad
Rasked suitsetajad

Võib öelda, et esimene telg annab suitsetamise intensiivsuse gradatsiooni. Seetõttu võib vanemjuhtide ja sekretäride suurt sarnasust seletada suure hulga mittesuitsetajate olemasoluga nendes rühmades.

Koordinaatsüsteemi mõõdik. Mõnel juhul on kauguse mõistet kasutatud suhteliste sageduste maatriksi ridade ja veergude erinevuste tähistamiseks, mis omakorda on vastavusanalüüsi meetodite kasutamise tulemusel kujutatud madalama mõõtmega ruumis. .

Tegelikult ei ole vastava mõõtmega ruumis koordinaatidena esitatud kaugused ainult Eukleidilised kaugused, mis on arvutatud veergude ja ridade suhteliste sageduste põhjal, vaid mõned kaalutud kaugused.

Kaalu sobitamise protseduur on kavandatud nii, et väiksema mõõtmega ruumis on mõõdikuks hii-ruutmeetria, arvestades, et reapunkte võrreldakse ja reaprofiile standarditakse või rea- ja veeruprofiilid on standarditud või veerupunkte võrreldakse ja veeruprofiilid standardiseeritakse või rea- ja veeruprofiilide standardimine.

Lahenduse kvaliteedi hindamine. On olemas spetsiaalne statistika, mis aitab hinnata saadud lahenduse kvaliteeti. Kõik või enamus punktidest peavad olema korrektselt esindatud, st nendevahelised kaugused ei tohi olla moonutatud vastavusanalüüsi protseduuri rakendamise tulemusena. Järgmises tabelis on toodud saadaolevate reakoordinaatide statistika arvutamise tulemused, mis põhinevad ainult eelmise näite ühemõõtmelisel lahendusel (see tähendab, et suhtelise sagedusmaatriksi reaprofiilide rekonstrueerimiseks kasutati ainult ühte dimensiooni).

Koordinaadid ja panus joone inertsi:

Koordinaadid. Tulemuste tabeli esimene veerg sisaldab koordinaate, mille tõlgendamine, nagu juba märgitud, sõltub standardimisest. Mõõtme saab kasutaja valida (selles näites valisime ühemõõtmelise ruumi) ja iga mõõtme koordinaadid kuvatakse (st iga telje jaoks kuvatakse üks koordinaatide veerg).

Kaal. Mass sisaldab kõigi elementide summasid suhtelise sagedusmaatriksi iga rea kohta (st maatriksi puhul, kus iga element sisaldab vastavat massi, nagu eespool mainitud).

Kui suvand on valitud standardimismeetodiks Rea profiilid või variant Ridade ja veergude profiilid, mis on vaikimisi määratud, siis arvutatakse rea koordinaadid reaprofiili maatriksist. Teisisõnu, koordinaadid arvutatakse veerus esitatud tingimuslike tõenäosuste maatriksi alusel Kaal.

Kvaliteet. Veerg Kvaliteet sisaldab teavet valitud mõõtmega määratud vastava joonepunkti esituse kvaliteedi kohta koordinaatsüsteemis. Kõnealuses tabelis valiti ainult üks dimensioon, seega veerus olevad numbrid Kvaliteet on tulemuste esituse kvaliteet ühemõõtmelises ruumis. On näha, et tippjuhtide kvaliteet on väga madal, aga vanem- ja nooremtöötajatel ning sekretäridel kõrge.

Pange tähele veel kord, et arvutuslikus mõttes on vastavusanalüüsi eesmärk kujutada madalama mõõtmega ruumi punktide vahelisi kaugusi.

Kui kasutatakse maksimaalset mõõdet (võrdne minimaalse ridade ja veergude arvuga miinus üks), saab kõiki vahemaid täpselt reprodutseerida.

Punkti kvaliteet on määratletud kui kauguse ruudu suhe antud punktist lähtepunktini valitud mõõtme ruumis ja kauguse lähtepunktist, mis on määratletud maksimaalse mõõtme ruumis. (sel juhul valitakse mõõdikuks hii-ruutmõõdik, nagu varem mainitud). Faktoranalüüsis on sarnane üldsuse mõiste.

STATISTICA arvutatud kvaliteet ei sõltu valitud standardimismeetodist ja kasutab alati vaikestandardit (st kauguse mõõdik on hii-ruut ja kvaliteedinäitajat saab tõlgendada kui hii-ruudu osakaalu, mis on määratletud vastava rea järgi). vastava mõõtmega ruum).

Madal kvaliteet tähendab, et saadaolev mõõtmiste arv ei esinda vastavat rida (veerg) piisavalt hästi.

Suhteline inerts. Punkti kvaliteet (vt eespool) kujutab antud punkti panuse suhet koguinertsi (Chi-ruut), mis võib selgitada valitud mõõdet.

Kvaliteet ei vasta küsimusele, kui palju ja mil määral vastav punkt tegelikult inertsile (hii-ruutväärtusele) kaasa aitab.

Suhteline inerts tähistab antud punkti koguinertsuse osakaalu ja ei sõltu kasutaja valitud dimensioonist. Pange tähele, et konkreetne lahendus võib kujutada punkti üsna hästi (kõrge kvaliteediga), kuid sama punkt võib anda väga väikese panuse üldisesse inertsi (st punktjoonel, mille elemendid on suhtelised sagedused, on sarnasusi mõne sirgega, elemendid mis on kõigi ridade keskmine).

Iga mõõtme suhteline inerts. See veerg sisaldab vastava joonepunkti suhtelist panust vastavast mõõtmest tuleneva inertsi väärtusesse. Aruandes on see väärtus antud iga punkti (rea või veeru) ja iga dimensiooni kohta.

Koosinus**2 (kvaliteet või ruutkorrelatsioonid iga mõõtmega). See veerg sisaldab iga punkti kvaliteeti vastava mõõtme tõttu. Kui liidame ridade kaupa koosinuse ** 2 veergu elemendid iga dimensiooni kohta, siis saame tulemuseks kvaliteediväärtuste veeru, millest oli juba eespool juttu (kuna selles näites valiti dimensioon 1, siis veerg Koosinus 2 langeb kokku veeruga Kvaliteet). Seda väärtust võib tõlgendada kui "korrelatsiooni" vastava punkti ja vastava mõõtme vahel. Mõiste koosinus ** 2 tekkis seetõttu, et see väärtus on antud punkti ja vastava telje poolt moodustatud nurga koosinuse ruut.

Lisapunktid. Täiendavate rea- või veerupunktide lisamine, mida algselt analüüsi ei kaasatud, võib aidata tulemusi tõlgendada. Võimalik on lisada nii täiendavaid reapunkte kui ka täiendavaid veerupunkte. Saate kuvada ka täiendavaid punkte koos algsete punktidega samal diagrammil. Näiteks kaaluge järgmisi tulemusi:

Töötajate rühm	Mõõde 1	2. mõõde
kõrgemad juhid
nooremjuhid
kõrgemad töötajad
nooremad töötajad
Sekretärid
Riigi keskmine

Selles tabelis kuvatakse koordinaadid (kahe mõõtme jaoks), mis on arvutatud sagedustabeli jaoks, mis koosneb erinevatel ametikohtadel töötajate suitsetamissõltuvuse klassifikatsioonist.

Rida Riigi keskmine sisaldab lisapunkti koordinaate, mis on suitsetajate eri rahvustest arvutatud keskmine tase (protsentides). Selles näites on tegemist puhtalt mudeliandmetega.

Kui koostate kahemõõtmelise diagrammi töötajate rühmade ja riigi keskmise kohta, siis veenduge kohe, et see lisapunkt ja sekretäride rühm on üksteisele väga lähedal ja asuvad horisontaalkoordinaatide teljega samal küljel kategooriaga Mitte. -suitsetajad (veerupunkt). Teisisõnu sisaldab algses sagedustabelis esitatud valim rohkem suitsetajaid kui riigi keskmine.

Kui algset risttabelit vaadates võib teha sama järelduse, siis suuremates tabelites pole sellised järeldused muidugi nii ilmsed.

Lisapunktide esituse kvaliteet. Veel üks huvitav lisapunkte puudutav tulemus on kvaliteedi, esituse tõlgendamine antud mõõtme jaoks.

Jällegi on vastavusanalüüsi eesmärk kujutada kaugusi ridade või veeru koordinaatide vahel madalama mõõtmega ruumis. Teades, kuidas see probleem lahendatakse, tuleb vastata küsimusele, kas on adekvaatne (algruumi punktide kauguste osas) esindada täiendavat punkti valitud dimensiooni ruumis. Allpool on statistika algpunktide ja riikliku keskmise lisapunkti kohta, nagu seda on rakendatud probleemile 2D-ruumis.

Nooremjuhid0,9998100,630578

Tuletame meelde, et punktiridade või veergude kvaliteet on määratletud kui ruudu kauguse suhe punktist lähtepunktini vähendatud mõõtmega ruumis punktist lähtepunktini kauguse ruudu suhet algses ruumis (nagu meetermõõdustik, nagu juba märgitud, valitakse hii-ruudu kaugus).

Teatud mõttes on kvaliteet suurus, mis selgitab algse punktipilve raskuskeskme kauguse ruudu murdosa.

Lisajoonepunkt Riigi keskmise kvaliteedinäitaja on 0,76. See tähendab, et antud punkt on kahemõõtmelises ruumis üsna hästi esindatud. Koosinus**2 statistika on vastava punktirea esituse kvaliteet, mis on tingitud antud dimensiooniga ruumi valikust (kui liita koosinus 2 veergude elemendid iga mõõtme rida rea kaupa, siis kui tulemusel jõuame varem saadud kvaliteedi väärtuseni).

Tulemuste graafiline analüüs. See on analüüsi kõige olulisem osa. Sisuliselt võite unustada formaalsed kvaliteedikriteeriumid, kuid juhinduge mõnest lihtsad reeglid graafikute mõistmiseks.

Seega on graafikul esitatud punktid-read ja punktid-veerud. Hea vorm on esitada nii neid kui ka muid punkte (analüüsime ju tabeli ridade ja veergude vahelisi seoseid!).

Tavaliselt vastab horisontaaltelg maksimaalsele inertsile. Noole lähedal on näidatud selle omaväärtusega seletatav koguinertsi protsent. Sageli antakse ka vastavad tulemuste tabelist võetud omaväärtused. Kahe telje ristumiskoht on vaadeldavate punktide raskuskese, mis vastab keskmistele profiilidele. Kui punktid kuuluvad samasse tüüpi, st need on kas read või veerud, siis mida väiksem on nendevaheline kaugus, seda tihedam on seos. Erinevat tüüpi punktide (ridade ja veergude vahel) seose loomiseks tuleks kaaluda nurgad nende vahel nii, et tipp on raskuskeskmes.

Sõltuvusastme visuaalse hindamise üldreegel on järgmine.

Vaatleme kahte erinevat tüüpi suvalist punkti (tabeli read ja veerud).
Ühendame need raskuskeskmega joonelõikudega (punkt koordinaatidega 0,0).
Kui saadud nurk on terav, on rida ja veerg positiivses korrelatsioonis.
Kui saadud nurk on nüri, siis on muutujate vaheline korrelatsioon negatiivne.
Kui nurk on õige, pole korrelatsiooni.

Kaaluge konkreetsete andmete analüüsi STATISTICA süsteemis.

Näide 1 (suitsetajate analüüs)

Samm 1. Käivitage moodul Kirjavahetuse analüüs.

Mooduli käivituspaneelil on 2 tüüpi analüüsi: vastavusanalüüs ja mitme muutujaga vastavusanalüüs.

Valige Kirjavahetuse analüüs. Mitme muutujaga vastavusanalüüsi käsitletakse järgmises näites.

2. samm Avage kaustas Näited andmefail smoking.sta.

Fail on juba situatsioonitabel, seega pole vahekaarte vaja. Valige analüüsi tüüp – sagedused ilma rühmitusmuutujata.

3. samm. Klõpsake nuppu Muutujad sagedustega ja valige analüüsitavad muutujad.

Selle näite jaoks valige kõik muutujad.

4. samm Klõpsake Okei ja käivitage arvutusprotseduur. Ekraanile ilmub aken tulemustega.

5. samm Kaaluge tulemusi selle akna valikute abil.

Tavaliselt vaadeldakse kõigepealt graafikuid, mille jaoks on olemas nuppude rühm Koordinaatide diagramm.

Graafikud on saadaval ridade ja veergude jaoks, samuti ridade ja veergude jaoks korraga.

Maksimaalse ruumi suurus määratakse valikus Mõõtmed.

Kõige huvitavam dimensioon on 2. Pange tähele, et diagrammil, eriti kui andmeid on palju, võivad sildid üksteisega kattuda, seega Lühendage silte.

Vajutage dialoogiboksis kolmandat 2M nuppu. Ekraanile ilmub graafik:

Pange tähele, et graafikul on esitatud mõlemad tegurid: töötajate rühm - read ja suitsetamise intensiivsus - veerud.

Ühendage joone segmendiga kategooria SENIOR EMPLOYEES, samuti kategooria EI raskuskeskmega.

Saadud nurk on terav, mis korrespondentsianalüüsi keeles räägib nende tunnuste vahelisest positiivsest korrelatsioonist (selleks vaadake algset tabelit).

Ridade ja veergude koordinaate saab nupu abil vaadata ka numbriliselt Ridade ja veergude koordinaadid.

Nupu kasutamine Omaväärtused, näete hii-ruutstatistika lagunemist omaväärtuste järgi.

Võimalus Ajakava ainult valitud mõõtmised võimaldavad teil vaadata punktide koordinaate piki valitud telge.

Valikute rühm Vaata tabeleid akna paremas osas võimaldab vaadata esialgset ja eeldatavat kontingentsustabelit, sageduste erinevusi ja muid tabelitunnuste sõltumatuse hüpoteesi alusel arvutatud parameetreid (vt peatükki Tabelite koostamine ja analüüs, hii-ruut test).

Suuri tabeleid on kõige parem uurida järk-järgult, lisades vajadusel täiendavaid muutujaid. Selleks on ette nähtud järgmised valikud: Lisa reapunkte, Lisa veerupunkte.

Näide 2 (müügianalüüs)

Peatükis Tabelite analüüsimine ja koostamine käsitleti müügianalüüsiga seotud näidet. Rakendame andmetele vastavusanalüüsi.

Eelnevalt märgiti, et küsimus, milliseid oste ostja tegi, eeldusel, et osteti 3 kaupa, on keeruline.

Tõepoolest, meil on kokku 21 toodet. Kõigi situatsioonitabelite vaatamiseks peate tegema 21 × 20 × 19 = 7980 toimingut. Toimingute arv suureneb katastroofiliselt koos kaupade ja funktsioonide arvu suurenemisega. Rakendame vastavusanalüüsi. Avame andmefaili ostetud toodet tähistavate indikaatormuutujatega.

Valige mooduli käivituspaneelil Mitmemõõtmeline vastavusanalüüs.

Seadkem vaatluste valimise tingimus.

See tingimus võimaldab valida ostjaid, kes on sooritanud täpselt 3 ostu.

Kuna tegemist on mittetabeliandmetega, siis valime analüüsi tüübi Esialgsed andmed(vajalik vahekaart).

Edasise graafilise esituse mugavuse huvides valime väikese arvu muutujaid. Valime ka täiendavad muutujad (vt allpool olevat kasti).

Alustame arvutusprotseduuriga.

Ilmuvas aknas Mitmemõõtmelise vastavusanalüüsi tulemused vaatame tulemusi.

Nupu 2M abil kuvatakse muutujate kahemõõtmeline graafik.

Sellel graafikul on täiendavad muutujad tähistatud punaste täppidega, mis on visuaalseks analüüsiks mugav.

Pange tähele, et iga muutuja lipp on 1, kui toode on ostetud, ja lipp 0, kui toodet ei osteta.

Vaatame diagrammi. Valime näiteks lähedased tunnuste paarid.

Selle tulemusena saame järgmise:

Sarnaseid uuringuid saab läbi viia ka muude andmete puhul, kui puuduvad a priori hüpoteesid andmete sõltuvuste kohta.

Tuntud Ameerika matemaatilise statistiku 1977. aastal kirjutatud raamat toob välja uurimusliku andmeanalüüsi põhitõed, s.o. vaatlustulemuste esmane töötlemine, mis viiakse läbi kõige lihtsamate vahenditega - pliiats, paber ja slaidijoon. Autor näitab arvukate näidete abil, kuidas vaatluste visuaalsel kujul esitamine diagrammide, tabelite ja graafikute abil hõlbustab mustrite tuvastamist ja meetodite valikut sügavamaks statistiliseks töötlemiseks. Ettekandega kaasnevad arvukad harjutused, mis sisaldavad rikkalikku materjali praktikast. Elav, kujundlik keel hõlbustab esitatud materjali mõistmist.

John Tukey. Vaatluste tulemuste analüüs. Uurimuslik analüüs. – M.: Mir, 1981. – 696 lk.

Laadige alla abstrakt ( kokkuvõte) vormingus või , näited vormingus

Märkme ilmumise ajal võib raamatut leida ainult kasutatud raamatupoodidest.

Autor jagab statistilise analüüsi kaheks etapiks: uurimuslik ja kinnitav. Esimene etapp hõlmab vaatlusandmete teisendamist ja viise nende visualiseerimiseks, võimaldades tuvastada andmetes esinevaid sisemustreid. Teises etapis rakendatakse traditsioonilisi statistilisi meetodeid parameetrite hindamiseks ja hüpoteeside testimiseks. See raamat räägib uurimuslikust andmeanalüüsist (kinnitava analüüsi kohta vt ). Raamatu lugemine ei eelda eelteadmisi tõenäosusteooriast ja matemaatilisest statistikast.

Märge. Baguzin. Arvestades raamatu kirjutamisaastat, keskendub autor andmete visualiseerimisele pliiatsi, joonlaua ja paberi (mõnikord millimeetrilise) abil. Minu arvates on tänapäeval andmete visuaalne esitus arvutiga seotud. Proovisin siis kombineerida originaalsed ideed autor ja töötlemine Excelis. Minu kommentaarid on taandega.

Diagramm on kõige väärtuslikum siis, kui see sunnib meid märkama asju, mida me ei oodanud näha. Numbrite kujutamine varre ja lehtede kujul võimaldab teil tuvastada mustreid. Näiteks kui võtta varre aluseks kümneid, saab varrele 3 omistada arvu 35. Leht võrdub 5-ga. Arvu 108 puhul on vars 10, leht on 8.

Näitena võtsin 100 tavaseaduse järgi jaotatud juhuslikku arvu, mille keskmine on 10 ja standardhälve 3. Selliste arvude saamiseks kasutasin valemit =NORM.INV(RAND();10;3) ( joonis 1). Avage lisatud Exceli fail. Vajutades F9, genereerite uue juhuslike numbrite seeria.

Riis. 1. 100 juhuslikku arvu

Näha on, et numbrid jagunevad peamiselt vahemikus 5 kuni 16. Huvitavat mustrit on aga raske märgata. Varre ja lehtede graafik (joonis 2) näitab normaaljaotust. Pagasiruumiks võeti naabernumbrite paarid, näiteks 4-5. Lehed kajastavad väärtuste arvu selles vahemikus. Meie näites on 3 sellist väärtust.

Riis. 2. Joonistage "vars ja lehed"

Excelis on kaks funktsiooni, mis võimaldavad teil kiiresti sagedusmustreid uurida: funktsioon FREQUENCY (joonis 3; vt lähemalt) ja pivot-tabelid (joonis 4; üksikasjalikumalt vt jaotist Numbriväljade rühmitamine).

Riis. 3. Analüüs, kasutades massiivi funktsiooni FREQUENCY

Riis. 4. Analüüs pivot-tabelite abil

Esindus lehtedega varre kujul (sagedusesitus) võimaldab tuvastada järgmisi andmete tunnuseid:

jagamine rühmadesse;
asümmeetriline kukkumine otsteni - üks "saba" on teisest pikem;
ootamatult "populaarsed" ja "ebapopulaarsed" tähendused;
millise väärtuse kohta vaatlused on "keskel";
Kui suur on andmete hajuvus.

Numbrite esitus lehtedega varre kujul võimaldab tajuda proovi üldpilti. Meie ees seisab ülesanne õppida lühidalt väljendama kõige sagedamini esinevat ühiseid jooni proovid. Selleks kasutatakse andmete kokkuvõtteid. Kuigi kokkuvõtted võivad olla palju abiks, ei anna need kõiki valimi üksikasju. Kui neid detaile pole nii palju, et need segadusse ajaksid, on kõige parem, kui kõik andmed on meie silme ees selgelt ja meile sobival viisil paigutatud. Suurte andmekogumite jaoks on vaja kokkuvõtteid. Me ei eelda ega eelda, et need asendavad täielikke andmeid. Muidugi on sageli nii, et detailide lisamine annab vähe, kuid oluline on mõista, et mõnikord teevad detailid palju.

Kui valimi kui terviku iseloomustamiseks peame valima mitu hõlpsasti leitavat numbrit, vajame tõenäoliselt:

äärmuslikud väärtused - suurim ja väikseim, mida tähistame sümboliga "1" (vastavalt nende auastmele või sügavusele);
mingi keskmine väärtus.

Mediaan= mediaanväärtus.

Lehtedega tüvena kujutatud seeria puhul saab keskmise väärtuse hõlpsasti leida, loendades igast otsast allapoole, määrates äärmuslikule väärtusele järgu "1". Seega saab iga valimi väärtus oma koht. Loendamist võite alustada mõlemast otsast. Nimetame kahest selliselt saadud auastmest väikseima, mida saab samale väärtusele omistada sügavus(joonis 5). Äärmusliku väärtuse sügavus on alati 1.

Riis. 5. Sügavuse määramine kahe järjestussuuna alusel

mediaani sügavus (või auaste) = (1 + väärtuste arv)/2

Kui tahame lisada veel kaks arvu, et moodustada 5-arvuline kokkuvõte, siis on loomulik defineerida need nii, et loetakse kuni pool kaugust mõlemast otsast mediaani. Mediaani ja seejärel nende uute väärtuste leidmise protsessi võib pidada paberitüki voltimiseks. Seetõttu on loomulik nimetada neid uusi väärtusi voldid(nüüd sagedamini kasutatav termin kvartiil).

Ahendatuna võib 13 väärtusest koosnev jada välja näha järgmine:

Viis numbrit, mis iseloomustavad seeriat kasvavas järjekorras, on: -3,2; 0,1; 1,5; 3,0; 9,8 - üks igas rea käändepunktis. Viis numbrit (äärmused, voldid, mediaan), mis moodustavad 5-numbrilise kokkuvõtte, kujutame järgmise lihtsa diagrammi kujul:

kus vasakul oleme näidanud numbrite arvu (tähistatud # märgiga), mediaani sügavust (täht M), voltide sügavust (täht C) ja äärmuslike väärtuste sügavust (alati 1, pole vaja midagi muud märkida).

Joonisel fig. 8 näitab, kuidas 5-kohalist kokkuvõtet graafiliselt kuvada. Seda tüüpi graafikut nimetatakse vuntsidega kastiks.

Riis. 8. Skemaatiline diagramm või vuntsikast

Kahjuks koostab Excel tavaliselt aktsiagraafikud ainult kolme või nelja väärtuse põhjal (joonis 9; vaadake, kuidas sellest piirangust mööda minna). 5-kohalise kokkuvõtte koostamiseks võite kasutada R-statistikapaketti (joonis 10; vt üksikasju jaotisest R-graafika põhivõimalused: hajuvusgraafikud; kui te pole R-ga tuttav, võite alustada). Boxplot() funktsioon R-is kajastab lisaks 5 numbrile ka kõrvalekaldeid (nende kohta veidi hiljem).

Riis. 9. Võimalikud aktsiagraafikute tüübid Excelis

Riis. 10. Boxplot in R; sellise graafiku koostamiseks piisab käsu täitmisest boxplot (count ~ spray, data = InsectSprays), laaditakse programmis salvestatud andmed ja koostatakse esitatud graafik

Karbi ja vurrude diagrammi koostamisel järgime järgmist lihtsat skeemi:

"C-laius" = erinevus kahe volti väärtuste vahel;
"samm" - väärtus, mis on poolteist korda suurem kui C-laius;
"sisetõkked" on väljaspool volte ühe astme kaugusel;
"välistõkked" - väljastpoolt sammu võrra kaugemal kui sisemised;
sisemiste ja külgnevate välistõkete vahelised väärtused on "välimine";
välimiste tõkete taga olevaid väärtusi nimetatakse põrkavateks (või kõrvalekalleteks);
"vahemik" = äärmuslike väärtuste erinevus.

Riis. 19. Liikuva mediaani arvutamine: a) üksikasjalikult osa andmete kohta; b) kogu valimi kohta

Riis. 20. Sujuv kõver

On aeg kaaluda kahepoolset analüüsi nii selle tähtsuse kui ka seetõttu, et see on sissejuhatus mitmesugustesse uurimismeetoditesse. Kahe teguri tabeli ("vastuse" tabeli) keskmes on:

ühte tüüpi vastuseid;
kaks tegurit – ja igaüks neist avaldub igas vaatluses.

Kahefaktoriline jääkide tabel. Rida-pluss-veerg analüüs. Joonisel fig. Joonisel 21 on näidatud keskmine kuu temperatuur kolmes Arizona asukohas.

Riis. 21. Kuu keskmised temperatuurid kolmes Arizona linnas, °F

Määrame iga koha mediaani ja lahutame selle üksikutest väärtustest (joonis 22).

Riis. 22. Ligikaudsed väärtused (mediaanid) iga linna ja jääkide kohta

Nüüd määrame iga rea lähenduse (mediaan) ja lahutame selle rea väärtustest (joonis 23).

Riis. 23. Ligikaudsed väärtused (mediaanid) iga kuu ja jääkide kohta

Joonise fig. 23 tutvustame mõistet "efekt". Arv -24,7 on veeru efekt ja number 19,1 on rea efekt. Mõju näitab, kuidas tegur või tegurite kogum avaldub igas vaadeldavas väärtuses. Kui teguri tekkiv osa on ülejäävast suurem, siis on andmetega toimuvat lihtsam näha ja mõista. Arvu, mis lahutati kõigist eranditeta andmetest (siin 70,8), nimetatakse "kokku". See on kõigi andmetele ühiste tegurite ilming. Seega on joonisel fig. 23 kehtib valem:

See on betoonrida-PLUS-veeru analüüsi muster. Me pöördume tagasi oma vana nipi juurde, püüdes leida lihtsat osalist kirjeldust – osalist kirjeldust, millest on lihtsam aru saada – osalist kirjeldust, mille lahutamine annab meile sügavama ülevaate sellest, mida pole veel kirjeldatud.

Mida saame täielikust kahesuunalisest analüüsist õppida? Suurim jääk, 1,9, on väike võrreldes punktist punkti ja kuude lõikes toimuva efekti muutuse ulatusega. Lipuvarras on umbes 25 °F jahedam kui Phoenix, samas kui Yuma on 5–6 °F soojem kui Phoenix. Kuude mõjude jada väheneb monotoonselt kuust kuusse, alguses aeglaselt, siis kiiresti, siis jälle aeglaselt. See sarnaneb oktoobri paiku sümmeetriaga (vaatasin seda mustrit varem päeva pikkuse näites; vt . - Märge. Baguzina); Võtsime maha mõlemad loorid – hooaja mõju ja koha mõju. Peale seda saime näha päris palju asju, mis varem märkamatuks jäid.

Joonisel fig. 24 antakse kahe teguri diagramm. Kuigi sellel joonisel on peamine asi ligikaudne, ei tohiks me jääke tähelepanuta jätta. Neljas punktis tõmbasime lühikesed vertikaalsed jooned. Nende kriipsude pikkused on võrdsed vastavate jääkide väärtustega, nii et teiste otste koordinaadid ei ole ligikaudsed väärtused, vaid

Andmed = ligikaudne PLUS jääk.

Riis. 24. Kahefaktoriline diagramm

Pange tähele ka seda, et selle või mõne muu kahefaktorilise diagrammi omaduseks on "skaala ainult ühes suunas", mis määrab vertikaalse suuruse, st. piki pildi külgi tõmmatud horisontaalsed punktiirjooned ja mis tahes suuruse puudumine horisontaalsuunas.

Exceli funktsioonide kohta vt. On uudishimulik, et mõned selles märkuses kasutatud valemid on nimetatud Tukey järgi.

See, mis edasi sai, muutus minu arvates üsna keeruliseks ...

Andmekaevandamine Frolov Timofey. BI-1102 andmekaeve on protsess, mille käigus uuritakse analüütiliselt suurtes kogustes teavet (tavaliselt majanduslikku laadi), et tuvastada teatud mustrid ja süstemaatilised seosed muutujate vahel, mida saab seejärel rakendada uutele andmekogumitele. See protsess hõlmab kolme peamist etappi: uurimine, mudeli või struktuuri loomine ja selle testimine. Ideaalis saab piisavate andmete olemasolul korraldada iteratiivse protseduuri, et luua vastupidav mudel. Samas on reaalses olukorras majandusmudelit analüüsifaasis praktiliselt võimatu testida ja seetõttu on esialgsed tulemused oma olemuselt heuristika, mida saab otsustusprotsessis kasutada (näiteks " olemasolevad andmed näitavad, et naistel suureneb unerohtude võtmise sagedus vanusega kiiremini kui meestel. Andmekaevemeetodid muutuvad majandusteabe analüüsimise vahendina üha populaarsemaks, eriti juhtudel, kui eeldatakse, et olemasolevatest andmetest saab teadmisi ammutada otsuste tegemiseks ebakindluse tingimustes. Kuigi viimasel ajal on suurenenud huvi uute, spetsiaalselt ärisektorile mõeldud andmeanalüüsi meetodite (näiteks klassifikatsioonipuud) väljatöötamise vastu, põhinevad andmekaevesüsteemid üldiselt endiselt uurimusliku andmeanalüüsi (EDA) klassikalistel põhimõtetel ja mudelite loomisel. ja kasutada samu lähenemisviise ja meetodeid. Andmekaevandamise protseduuril ja klassikalisel uurimuslikul andmeanalüüsil (RAD) on aga oluline erinevus: andmekaevesüsteemid on rohkem keskendunud saadud tulemuste praktilisele rakendamisele kui nähtuse olemuse selgitamisele. Teisisõnu, andmekaeve puhul ei huvita meid ülesande muutujate vahelised konkreetsed sõltuvused. Siin osalevate funktsioonide olemuse või muutujate interaktiivsete mitme muutujaga sõltuvuste spetsiifilise vormi selgitamine ei ole selle protseduuri peamine eesmärk. Põhitähelepanu pööratakse lahenduste leidmisele, mille põhjal oleks võimalik ehitada usaldusväärseid prognoose. Nii on andmekaeve valdkonnas omaks võetud selline andmeanalüüsi ja teadmiste ammutamise lähenemisviis, mida mõnikord iseloomustavad sõnad "must kast". Sel juhul ei kasutata mitte ainult klassikalisi uurimusliku andmeanalüüsi meetodeid, vaid ka selliseid meetodeid nagu närvivõrgud, mis võimaldavad koostada usaldusväärseid prognoose, määramata kindlaks nende sõltuvuste konkreetset tüüpi, millel selline prognoos põhineb. Väga sageli tõlgendatakse andmekaeve "statistika, tehisintellekti (AI) meetodite ja andmebaasianalüüsi seguna" (Pregibon, 1997, lk 8) ning kuni viimase ajani ei tunnustatud seda täieõigusliku valdkonnana huvi statistikute jaoks ja mõnikord isegi "statistika tagahooviks" (Pregibon, 1997, lk 8). Seda probleemi aga oma suure praktilise tähtsuse tõttu praegu intensiivselt arendatakse ja see pälvib suurt huvi (sh statistiliste aspektide osas) ning selles on saavutatud olulisi teoreetilisi tulemusi (vt nt iga-aastase rahvusvahelise konverentsi materjale. Knowledge Search and Data Mining (International Conferences on Knowledge Discovery and Data Mining), mille üks korraldajatest oli 1997. aastal Ameerika Statistikaliit). andmeladu on koht, kus hoitakse suuri mitmemõõtmelisi andmekogumeid, mis muudab teabe hankimise ja kasutamise analüüsiprotseduurides lihtsaks. Tõhus andmelao arhitektuur peaks olema korraldatud nii, et see oleks selle lahutamatu osa infosüsteem ettevõtte juhtimine (või vähemalt olema ühendatud kõigi olemasolevate andmetega). Sel juhul on ettevõtte andmebaasidega töötamiseks vaja kasutada spetsiaalseid tehnoloogiaid (näiteks Oracle, Sybase, MS SQL Server). Suure jõudlusega andmelaotehnoloogia, mis võimaldab kasutajatel korraldada ja tõhusalt kasutada peaaegu piiramatu keerukusega ettevõtte andmebaasi, töötati välja StatSofti ettevõttesüsteemides ja seda nimetatakse SENS-iks ja SEWSS-iks. Mõiste OLAP (või FASMI – hajutatud mitmemõõtmelise teabe kiire analüüs) viitab tehnikatele, mis võimaldavad mitmemõõtmeliste andmebaaside kasutajatel reaalajas koostada kirjeldavaid ja võrdlevaid kokkuvõtteid ("vaateid") andmetest ning saada vastuseid mitmesugustele muudele analüütilistele päringutele. Pange tähele, et vaatamata nimele ei hõlma see meetod interaktiivset (reaalajas) andmetöötlust; see tähendab mitmemõõtmeliste andmebaaside analüüsimise protsessi (mis võivad eelkõige sisaldada dünaamiliselt uuendatud teavet), koostades tõhusaid "mitmemõõtmelisi" päringuid erinevat tüüpi andmete kohta. OLAP-i tööriistu saab manustada ettevõtte (üle ettevõtte) andmebaasisüsteemidesse ning need võimaldavad analüütikutel ja juhtidel jälgida oma äritegevuse või turu kui terviku edenemist ja toimivust (näiteks tootmisprotsessi erinevaid aspekte või nende arvu ja kategooriaid). erinevate piirkondade tehtud tehingud). OLAP-meetoditega tehtav analüüs võib ulatuda lihtsast (nt sagedustabelid, kirjeldav statistika, lihtsad tabelid) kuni üsna keerukani (nt võib hõlmata hooajalist korrigeerimist, kõrvalekallete eemaldamist ja muud andmete puhastamist). Kuigi andmekaevandamise meetodeid saab rakendada mis tahes teabele, mitte varem töödeldud ja isegi struktureerimata teabele, saab neid kasutada ka OLAP-i tööriistade poolt saadud andmete ja aruannete analüüsimiseks põhjalikuma uurimistöö eesmärgil, tavaliselt suuremates mõõtmetes. Selles mõttes võib andmekaeve meetodeid vaadelda alternatiivse analüütilise lähenemisviisina (mis teenindab muid eesmärke peale OLAP-i) või OLAP-süsteemide analüütilise laiendusena. RAD ja hüpoteesi testimine Erinevalt traditsioonilisest hüpoteesi testimisest, mis on loodud a priori eelduste testimiseks muutujate vaheliste seoste kohta (nt "Inimese vanuse ja tema riskikartlikkuse vahel on positiivne korrelatsioon"), on uurimuslik andmete analüüs (EPA) kasutatakse seoste leidmiseks.muutujate vahel olukordades, kus nende seoste olemuse kohta ei ole (või ei ole piisavalt) a priori ideid. Reeglina võetakse uurimusliku analüüsi käigus arvesse ja võrreldakse suurt hulka muutujaid ning mustrite leidmiseks kasutatakse mitmesuguseid meetodeid. RAD-i arvutusmeetodid Uurimusliku andmeanalüüsi arvutusmeetodid hõlmavad nii põhilisi statistilisi meetodeid kui ka keerukamaid, spetsiaalselt välja töötatud mitmemõõtmelise analüüsi meetodeid, mis on loodud mitme muutujaga andmete mustrite leidmiseks. Uurimusliku statistilise analüüsi põhimeetodid. Uurimusliku statistilise analüüsi peamised meetodid hõlmavad muutujate jaotuste analüüsi protseduuri (näiteks asümmeetrilise või mitte-Gaussi jaotusega muutujate, sealhulgas bimodaalsete muutujate tuvastamiseks), korrelatsioonimaatriksite vaatamist, et otsida teatud läviväärtusi ületavaid koefitsiente. (vt eelmist näidet) või mitme sisendiga sagedustabelite analüüs (näiteks juhtmuutujate tasemete kombinatsioonide "kihiline" järjestikune vaatamine). Mitmemõõtmelise uurimusliku analüüsi meetodid. Mitme muutujaga uurimusliku analüüsi meetodid on spetsiaalselt loodud mitme muutujaga andmete (või ühemõõtmeliste andmete jadade) mustrite leidmiseks. Need sisaldavad: klastri analüüs, faktoranalüüs, liskriminantsete funktsioonide analüüs, mitme muutujaga skaleerimine, log-lineaarne analüüs, kanoonilised korrelatsioonid, astmeline lineaarne ja mittelineaarne (näiteks logit) regressioon, vastavusanalüüs, aegridade analüüs. Närvivõrgud. See analüütiliste meetodite klass põhineb ideel reprodutseerida mõtlevate olendite õppimisprotsesse (nagu need teadlastele näivad) ja närvirakkude funktsioone. Närvivõrgud suudavad ennustada muutujate tulevasi väärtusi samade või muude muutujate juba olemasolevate väärtuste põhjal, olles eelnevalt läbi viinud olemasolevate andmete põhjal nn õppeprotsessi. Andmete esialgne uurimine võib olla vaid esimene samm andmeanalüüsi protsessis ja kuni tulemuste kinnitamiseni (ristvalideerimise meetoditega) teistel andmebaasi fragmentidel või sõltumatul andmekogul, saab neid võtta. kõige rohkem hüpoteesina. Kui uurimusliku analüüsi tulemused on mudeli kasuks, siis saab selle õigsust testida, rakendades seda uutele andmetele ja määrates selle andmetega vastavuse määra ("ennustavuse" testimine). Erinevate andmehulkade kiireks valimiseks (näiteks puhastamiseks, kontrollimiseks jne) ja tulemuste usaldusväärsuse hindamiseks on mugav kasutada vaatluste valiku tingimusi.

Mõistet "andmekaeve" defineeritakse kui suurte (tavaliselt majanduslikku laadi) teabehulkade analüütilise uurimise protsessi, et tuvastada teatud mustrid ja süstemaatilised seosed muutujate vahel, mida saab seejärel rakendada uutele andmekogumitele. See protsess hõlmab kolme peamist etappi: uurimine, mudeli või struktuuri loomine ja selle testimine. Ideaalis saab piisavate andmete olemasolul stabiilse (jõulise) mudeli loomiseks korraldada iteratiivse protseduuri. Samas on reaalses olukorras majandusmudelit analüüsifaasis praktiliselt võimatu testida ja seetõttu on esialgsed tulemused oma olemuselt heuristika, mida saab otsustusprotsessis kasutada (näiteks „ olemasolevad tõendid näitavad, et naistel suureneb unerohtude võtmise sagedus vanusega kiiremini kui meestel.

Andmekaevetehnikad muutuvad majandusteabe analüüsimise vahendina üha populaarsemaks, eriti kui eeldatakse, et olemasolevatest andmetest saab teadmisi ammutada otsuste tegemiseks ebakindluse tingimustes. Kuigi viimasel ajal on suurenenud huvi uute, spetsiaalselt äri jaoks mõeldud andmeanalüüsi meetodite väljatöötamise vastu (näiteks Klassifikatsioonipuud), üldiselt põhinevad andmekaevesüsteemid endiselt klassikalistel põhimõtetel uurimuslik andmete analüüs(RAD) ja mudeli koostamine ning kasutada samu lähenemisviise ja meetodeid.

Andmekaeve protseduuril ja klassikalisel uurimuslikul andmeanalüüsil (EDA) on aga oluline erinevus: andmekaevesüsteemid on rohkem keskendunud saadud tulemuste praktilisele rakendamisele kui nähtuse olemuse selgitamisele. Teisisõnu ei huvita meid andmete kaevandamisel ülesande muutujate vahelised konkreetsed sõltuvused. Siin osalevate funktsioonide olemuse või muutujate interaktiivsete mitme muutujaga sõltuvuste spetsiifilise vormi selgitamine ei ole selle protseduuri peamine eesmärk. Põhitähelepanu pööratakse lahenduste leidmisele, mille põhjal oleks võimalik ehitada usaldusväärseid prognoose. Seega võetakse andmekaeve valdkonnas kasutusele andmeanalüüsi ja teadmiste ammutamise lähenemisviis, mida mõnikord iseloomustavad sõnad "must kast". Sel juhul ei kasutata mitte ainult klassikalisi uurimusliku andmeanalüüsi meetodeid, vaid ka selliseid meetodeid nagu närvivõrgud, mis võimaldavad koostada usaldusväärseid prognoose, määramata kindlaks nende sõltuvuste konkreetset tüüpi, millel selline prognoos põhineb.

Väga sageli tõlgendatakse andmekaevet kui "statistika, tehisintellekti (AI) meetodite ja andmebaasianalüüsi segu" (Pregibon, 1997, lk 8) ning kuni viimase ajani ei tunnustatud seda täieõigusliku huvivaldkonnana. statistikute jaoks ja mõnikord nimetatakse seda isegi "statistika tagahooviks" (Pregibon, 1997, lk 8). Seda probleemi aga oma suure praktilise tähtsuse tõttu praegu intensiivselt arendatakse ja see pälvib suurt huvi (sh statistiliste aspektide osas) ning selles on saavutatud olulisi teoreetilisi tulemusi.

Uurimuslik andmete analüüs (EDA)

Erinevalt traditsioonilisest hüpoteesi testimisest, mille eesmärk on testida eelnevaid eeldusi muutujate vaheliste seoste kohta (nt "Indiviidi vanuse ja tema riskikartlikkuse vahel on positiivne korrelatsioon"), kasutatakse uurimuslikku andmete analüüsi (EDA) seoste leidmiseks muutujad olukordades, kus nende seoste olemuse kohta pole (või ei ole piisavalt) a priori ideid. Reeglina võetakse uurimusliku analüüsi käigus arvesse ja võrreldakse suurt hulka muutujaid ning mustrite leidmiseks kasutatakse mitmesuguseid meetodeid.

Mitme muutujaga uurimusliku analüüsi meetodid on spetsiaalselt loodud mitme muutujaga andmete (või ühemõõtmeliste andmete jadade) mustrite leidmiseks. Nende hulka kuuluvad: klastrianalüüs, faktoranalüüs, diskrimineeriva funktsiooni analüüs, mitme muutujaga skaleerimine, log-lineaarne analüüs, kanoonilised korrelatsioonid, astmeline lineaarne ja mittelineaarne (näiteks logit) regressioon, vastavusanalüüs, aegridade analüüs ja klassifikatsioonipuud.

klastri analüüs

Mõiste klastrianalüüs (esmakordselt kasutusele Tryon, 1939) sisaldab tegelikult mitmeid erinevaid klassifitseerimisalgoritme. Üldine küsimus, küsisid paljude valdkondade teadlased, kuidas korraldada vaadeldavaid andmeid visuaalseteks struktuurideks, s.t. laiendada taksonoomiat. Näiteks bioloogide eesmärk on jagada loomi erinevateks liikideks, et nendevahelisi erinevusi sisukalt kirjeldada. Bioloogias aktsepteeritud kaasaegse süsteemi järgi kuulub inimene primaatide, imetajate, amnioni, selgroogsete ja loomade hulka. Pange tähele, et selles klassifikatsioonis, mida kõrgem on liitmise tase, seda väiksem on sarnasus vastava klassi liikmete vahel. Inimesel on rohkem sarnasusi teiste primaatidega (st ahvidega) kui imetajate perekonna "kaugete" liikmetega (st koertega) jne.

Klasterdamistehnikat kasutatakse väga erinevates valdkondades. Hartigan (1975) on andnud suurepärase ülevaate paljudest avaldatud uuringutest, mis sisaldavad klasteranalüüsi meetoditega saadud tulemusi. Näiteks meditsiini valdkonnas viib haiguste rühmitamine, haiguste ravi või haigussümptomid laialdaselt kasutatavate taksonoomiateni. Psühhiaatria valdkonnas on eduka ravi jaoks ülioluline sümptomite rühmituste, nagu paranoia, skisofreenia jne, õige diagnoosimine. Arheoloogias püüavad teadlased kobaranalüüsi abil paika panna kivitööriistade, matuseesemete jms taksonoomiaid. Turundusuuringutes on klastrianalüüsil laialdasi rakendusi. Üldiselt, kui on vaja info "mägesid" edasiseks töötlemiseks sobivatesse rühmadesse liigitada, osutub klasteranalüüs väga kasulikuks ja tõhusaks.

Klasteranalüüsi üldised meetodid:

Liit (puude rühmitus),

kahesuunaline liit

K tähendab meetodit.

Põhikomponendid ja faktorianalüüs

Faktoranalüüsi peamised eesmärgid on:

muutujate arvu vähendamine (andmete vähendamine)

muutujatevaheliste seoste struktuuri määramine, s.o. muutujate klassifikatsioon.

Seetõttu kasutatakse faktoranalüüsi kas andmete vähendamise meetodina või klassifitseerimismeetodina.

Faktoranalüüs kui andmete redutseerimise meetod

Oletame, et teete (mõnevõrra "rumala") uuringut, mille käigus mõõdate saja inimese pikkust tollides ja sentimeetrites. Seega on teil kaks muutujat. Kui soovite täiendavalt uurida näiteks erinevate toidulisandite mõju pikkusele, kas jätkaksite mõlema muutuja kasutamist? Tõenäoliselt mitte, sest pikkus on üks inimese omadus, olenemata ühikutest, milles seda mõõdetakse.

Oletame nüüd, et soovite mõõta inimeste eluga rahulolu, mille jaoks koostate erinevate punktidega küsimustiku; muuhulgas küsite: kas inimesed on oma hobiga rahul (punkt 1) ja kui intensiivselt nad sellega tegelevad (punkt 2). Tulemused teisendatakse nii, et keskmised vastused (näiteks rahulolu jaoks) vastavad väärtusele 100, samas kui keskmised vastused alla ja üle on väiksemad ja suured väärtused, vastavalt. Kaks muutujat (vastus kahele erinevale punktile) on omavahel korrelatsioonis, nende kahe muutuja kõrgest korrelatsioonist võime järeldada, et küsimustiku kaks punkti on üleliigsed.

Aegridade analüüs

Kõigepealt anname lühike ülevaade meetodid aegridade kujul esitatavate andmete analüüsimiseks, s.o. mittejuhuslikel ajahetkedel järjestatud mõõtmiste jadade kujul. Erinevalt juhuvalimi analüüsist põhineb aegridade analüüs eeldusel, et andmefailis olevaid järjestikuseid väärtusi vaadeldakse korrapäraste ajavahemike järel (samas kui teiste meetodite puhul me ei hooli ja sageli ei hooli vaatluste ajastusest).

Aegridade analüüsil on kaks peamist eesmärki:

sarja olemuse kindlaksmääramine

prognoosimine (aegrea tulevikuväärtuste ennustamine oleviku ja mineviku väärtuste põhjal).

Mõlemad eesmärgid nõuavad seeriamudeli tuvastamist ja enam-vähem ametlikku kirjeldamist. Kui mudel on määratletud, saate seda kasutada kõnealuste andmete tõlgendamiseks (näiteks kasutage seda oma teoorias, et mõista toormehindade hooajalisi muutusi, kui olete majandustudeng). Ignoreerides mõistmise sügavust ja teooria paikapidavust, saad seejärel leitud mudeli põhjal seeria ekstrapoleerida, s.t. ennustada oma tulevasi väärtusi.

Nagu enamik teisi analüüsitüüpe, eeldab aegridade analüüs, et andmed sisaldavad süstemaatilist komponenti (tavaliselt sisaldab see mitut komponenti) ja juhuslikku müra (viga), mis muudab tavakomponentide tuvastamise keeruliseks. Enamik aegridade uurimismeetodeid sisaldab erinevaid müra filtreerimise meetodeid, mis võimaldavad tavakomponenti selgemalt näha.

Enamik aegrea tavalisi komponente kuulub kahte klassi: need on kas trendi- või hooajakomponendid. Trend on üldine süstemaatiline lineaarne või mittelineaarne komponent, mis võib aja jooksul muutuda. Hooajaline komponent on perioodiliselt korduv komponent. Mõlemat tüüpi tavalisi komponente on seerias sageli korraga. Näiteks võib ettevõtte müük aasta-aastalt kasvada, kuid see sisaldab ka hooajalist komponenti (tavaliselt toimub 25% aastakäibest detsembris ja vaid 4% augustis).

LOENG 8TEADMISESÜSTEEMID. EKSPERTSÜSTEEMID.

Ekspertsüsteemide määramine

1980. aastate alguses kujunes tehisintellektiuuringutes iseseisev suund, mida kutsuti "ekspertsüsteemideks" (ES). ES-teemalise uurimistöö eesmärk on välja töötada programme, mis inimeksperdile raskete probleemide lahendamisel saavad tulemusi, mis ei jää kvaliteedilt ja efektiivsuselt alla eksperdi poolt saadud lahendustele. ES valdkonna teadlased kasutavad oma distsipliini nimetuses sageli ka mõistet "knowledge engineering", mille E. Feigenbaum tutvustas kui "tehisintellekti valdkonna teadusuuringute põhimõtete ja vahendite toomist keerukate rakendusprobleemide lahendamiseni, mis nõuavad asjatundjaid". teadmised."

Maailmas on laialt levinud tarkvaratööriistad (PS), mis põhinevad ekspertsüsteemide tehnoloogial ehk teadmustehnikal (kasutame neid edaspidi sünonüümidena). Ekspertsüsteemide tähtsus on järgmine:

ekspertsüsteemide tehnoloogia laiendab oluliselt arvutites lahendatavate praktiliselt oluliste ülesannete ringi, mille lahendamine toob kaasa olulise majandusliku efekti;

ES-tehnoloogia on kõige olulisem vahend traditsioonilise programmeerimise globaalsete probleemide lahendamisel: keeruliste rakenduste arendamise kestus ja sellest tulenevalt ka kõrge hind;

keeruliste süsteemide ülalpidamise kõrge hind, mis sageli ületab nende arendamise kulusid mitu korda; programmide taaskasutatavuse madal tase jne;

ES-tehnoloogia kombineerimine traditsioonilise programmeerimistehnoloogiaga lisab tarkvaratoodetele uusi omadusi tänu: rakenduste dünaamilisele muutmisele kasutaja, mitte programmeerija poolt; rakenduse suurem "läbipaistvus" (näiteks teadmised salvestatakse piiratud NL-ile, mis ei nõua teadmiste kohta kommentaare, lihtsustab koolitust ja hooldust); parem graafika; liides ja interaktsioon.

Juhtivate ekspertide sõnul leiab ES lähitulevikus järgmised rakendused:

EÜ-d mängivad juhtivat rolli projekteerimise, arendamise, tootmise, levitamise, müügi, toe ja teenuste osutamise kõikides etappides;

Kommertsiaalselt levitatud ES-tehnoloogia pakub revolutsioonilist läbimurret valmis intelligentselt interakteeruvate moodulite rakenduste integreerimisel.

ES on mõeldud nn mitteformaliseeritud ülesannete jaoks, st. EK-d ei lükka tagasi ega asenda traditsioonilist lähenemist programmide arendamiseks, mis keskendub formaliseeritud probleemide lahendamisele.

Mitteformaliseeritud ülesannetel on tavaliselt järgmised funktsioonid:

lähteandmete ekslikkus, mitmetähenduslikkus, ebatäielikkus ja ebaühtlus;

probleemse valdkonna ja lahendatava probleemiga seotud teadmiste ekslikkus, ebaselgus, ebatäielikkus ja ebaühtlus;

lahendusruumi suur mõõde, s.o. lahenduse otsimine on väga suur;

dünaamiliselt muutuvaid andmeid ja teadmisi.

Tuleb rõhutada, et mitteformaliseeritud probleemid esindavad suurt ja väga olulist probleemide klassi. Paljud eksperdid usuvad, et need probleemid on kõige levinum arvutite abil lahendatavate probleemide klass.

Ekspertsüsteemid ja tehisintellektisüsteemid erinevad andmetöötlussüsteemidest selle poolest, et nad kasutavad peamiselt sümboolset (mitte numbrilist) esitust, sümboolset järeldust ja heuristilist lahenduse otsimist (mitte tuntud algoritmi täitmisel).

Ekspertsüsteeme kasutatakse ainult keeruliste praktiliste (mitte mänguasjade) probleemide lahendamiseks. Lahenduse kvaliteedi ja efektiivsuse poolest ei jää ekspertsüsteemid alla inimeksperdi lahendustele. Ekspertsüsteemide lahendustel on "läbipaistvus", s.t. saab kasutajale kvalitatiivsel tasemel selgitada. Ekspertsüsteemide sellise kvaliteedi tagab nende oskus oma teadmisi ja järeldusi põhjendada. Ekspertsüsteemid suudavad eksperdiga suhtlemise käigus oma teadmisi täiendada. Tuleb märkida, et praegu kasutatakse ekspertsüsteemide tehnoloogiat erinevat tüüpi probleemide lahendamiseks (tõlgendus, ennustamine, diagnostika, planeerimine, projekteerimine, juhtimine, silumine, juhendamine, juhtimine) väga erinevates probleemvaldkondades, näiteks rahanduses. , nafta- ja gaasitööstus , energeetika, transport, ravimitootmine, kosmos, metallurgia, kaevandus, keemia, haridus, tselluloosi- ja paberitööstus, telekommunikatsioon ja side jne.

Tehisintellektisüsteeme (AI) arendavate ettevõtete äriline edu ei tulnud kohe. Aastatel 1960-1985. AI edusammud on olnud peamiselt teadusarendused, mis on näidanud AGI sobivust praktiliseks kasutamiseks. Alates umbes 1985. aastast (massiliselt aastatel 1988–1990) on kommertsrakendustes aktiivselt kasutatud ennekõike ES-i ja viimastel aastatel loomulikku keelt (NL-süsteemid) ja närvivõrke (NN) tajuvaid süsteeme.

Tuleb märkida, et mõned spetsialistid (reeglina programmeerimise ja mitte AI spetsialistid) väidavad jätkuvalt, et ES ja AIS ei vastanud nende ootustele ja surid. Selliste väärarusaamade põhjused on selles, et need autorid pidasid ES-i alternatiiviks traditsioonilisele programmeerimisele, s.t. nad lähtusid sellest, et ES üksi (eraldatult teistest tarkvaravahenditest) lahendab täielikult kliendi ees seisvad ülesanded. Tuleb märkida, et ES-i tekke koidikul andis neis kasutatavate keelte eripära, rakenduste arendamise tehnoloogia ja kasutatavad seadmed (näiteks Lisp-masinad) alust eeldada, et ES traditsiooniliste tarkvarasüsteemidega on keeruline ja võib-olla võimatu ülesanne reaalsete rakenduste kehtestatud piirangute tõttu. Kuid praegu arendatakse ES-i loomiseks mõeldud kommertstööriistu (IS) täielikult kooskõlas traditsioonilise programmeerimise kaasaegsete tehnoloogiliste suundumustega, mis välistab integreeritud rakenduste loomisel tekkivad probleemid.

Põhjused, mis viisid AIS-i ärilise eduni, on järgmised.

Integratsioon.On välja töötatud tehisintellekti tööriistad (AI IS), mida on lihtne integreerida teiste infotehnoloogiate ja tööriistadega (koos CASE-ga, DBMS-iga, kontrollerite, andmekontsentraatoritega jne).

Avatus ja kaasaskantavus.AI IC-d on loodud vastavalt standarditele, mis tagavad avatuse ja kaasaskantavuse.

Traditsiooniliste programmeerimiskeelte ja tööjaamade kasutamine. Üleminek tehisintellekti keeltes (Lisp, Prolog jne) rakendatud AI IS-ilt traditsioonilistes programmeerimiskeeltes (C, C ++ jne) rakendatavale AI IS-ile on toimunud lihtsustas sätete integreerimist, vähendas tehisintellekti rakenduste nõudeid arvuti kiirusele ja RAM-i hulgale. Tööjaamade kasutamine (arvutite asemel) on järsult suurendanud rakenduste valikut, mida saab teha AI IC-sid kasutavates arvutites.

Klient-server arhitektuur. AI IS-id on välja töötatud, mis toetavad hajutatud andmetöötlust klient-server arhitektuuril, mis võimaldas: vähendada rakendustes kasutatavate seadmete maksumust, detsentraliseerida rakendusi, suurendada töökindlust ja üldist jõudlust (kuna arvutite vahel edastatava teabe hulk väheneb ja iga rakenduse moodul käivitatakse sobival seadmel).

Probleemile/domeenile orienteeritud AI IS. Üleminek üldotstarbelise AI IS-i arendamiselt (kuigi need ei ole kaotanud oma tähtsust fokuseeritud IS-i loomise vahendina) probleemile/domeenile orienteeritud AI IS-ile annab: rakenduse arendamise aja vähenemise. ; IP kasutamise efektiivsuse tõstmine; eksperdi töö lihtsustamine ja kiirendamine; teabe ja tarkvara taaskasutatavus (objektid, klassid, reeglid, protseduurid).

Ekspertsüsteemide struktuur

Tüüpiline staatiline ES koosneb järgmistest põhikomponentidest:

lahendaja (tõlk);

töömälu (RP), mida nimetatakse ka andmebaasiks (DB);

teadmistebaasid (KB);

teadmiste omandamise komponendid;

selgitav komponent;

dialoogi komponent.

Andmebaas (töömälu) on mõeldud hetkel lahendatava probleemi alg- ja vaheandmete salvestamiseks. See mõiste kattub nime poolest, kuid mitte tähenduselt mõistega, mida kasutatakse teabeotsingusüsteemides (IPS) ja andmebaasihaldussüsteemides (DBMS), mis viitab kõikidele süsteemis salvestatud andmetele (peamiselt pikaajaliselt).

ES-i teadmistebaas (KB) on loodud vaadeldavat piirkonda kirjeldavate pikaajaliste andmete (pigem jooksvate andmete) ja reeglite salvestamiseks, mis kirjeldavad selle valdkonna andmete sobivaid teisendusi.

Lahendaja, kasutades töömälust algandmeid ja teadmistebaasi teadmisi, moodustab sellise reeglite jada, mis lähteandmetele rakendades viib ülesande lahendamiseni.

Teadmiste omandamise komponent automatiseerib ES-i teadmistega täitmise protsessi, mille viib läbi asjatundlik kasutaja.

Selgitav komponent selgitab, kuidas süsteem probleemile lahenduse sai (või miks ta lahendust ei saanud) ja milliseid teadmisi ta seda tehes kasutas, mis muudab eksperdi jaoks süsteemi testimise lihtsamaks ja suurendab kasutaja usaldust süsteemi vastu. tulemus.

Dialoogikomponent on keskendunud kasutajaga sõbraliku suhtluse korraldamisele nii probleemide lahendamise käigus kui ka teadmiste omandamise ja töö tulemuste selgitamise protsessis.

ES arendamisse on kaasatud järgmiste erialade esindajad:

probleemvaldkonna ekspert, kelle ülesandeid ES lahendab;

teadmusinsener - ES-i arendamise spetsialist (tema kasutatav tehnoloogia, meetodeid nimetatakse teadmustehnika tehnoloogiaks (meetoditeks);

programmeerija tööriistade arendamiseks (IS), mis on loodud ES-i väljatöötamise kiirendamiseks.

Tuleb märkida, et teadmusinseneride puudumine arenduses osalejate hulgas (st nende asendamine programmeerijatega) viib ES-i loomise protsessi ebaõnnestumiseni või pikendab seda oluliselt.

Ekspert määrab probleemvaldkonda iseloomustavad teadmised (andmed ja reeglid), tagab ES-sse sisestatud teadmiste täielikkuse ja õigsuse.

Teadmiste insener aitab eksperdil tuvastada ja struktureerida ES tööks vajalikke teadmisi; valib antud probleemvaldkonna jaoks sobivaima IS-i ja määrab viisi, kuidas selles IS-is teadmisi esitada; valib ja programmeerib (traditsiooniliste vahenditega) standardfunktsioonid (tüüpilised antud probleemvaldkonnale), mida kasutatakse eksperdi poolt tutvustatavates reeglites.

Programmeerija töötab välja IS-i (kui IS-i arendatakse uuesti), mis sisaldab limiidis kõiki ES-i põhikomponente ja liidestab selle keskkonnaga, milles seda kasutama hakatakse.

Ekspertsüsteem töötab kahes režiimis: teadmiste omandamise režiim ja probleemide lahendamise režiim (nimetatakse ka konsultatsioonirežiimiks või ES kasutusrežiimiks).

Teadmiste omandamise režiimis suhtleb ES-ga (teadmisinseneri vahendusel) ekspert. Selles režiimis täidab ekspert teadmiste omandamise komponenti kasutades süsteemi teadmistega, mis võimaldavad lahendusrežiimis ES-il iseseisvalt (ilma eksperdita) probleemipiirkonna probleeme lahendada. Ekspert kirjeldab probleemset piirkonda andmete ja reeglite kogumina. Andmed määratlevad objektid, nende omadused ja tähendused, mis eksisteerivad ekspertiisivaldkonnas. Reeglid määratlevad viisid, kuidas kõnealusele domeenile omaste andmetega manipuleeritakse.

Pange tähele, et teadmiste omandamise viis traditsiooniline lähenemine programmide arendus vastab programmeerija poolt läbiviidavatele algoritmiseerimise, programmeerimise ja silumise etappidele. Seega erinevalt traditsioonilisest lähenemisest tegeleb ES-i puhul programmide väljatöötamisega mitte programmeerija, vaid ekspert (ES abiga), kes programmeerimist ei valda.

Konsultatsioonirežiimis suhtleb ES-ga lõppkasutaja, kes on huvitatud tulemusest ja (või) selle saamise viisist. Tuleb märkida, et olenevalt ES eesmärgist ei pruugi kasutaja olla selle probleemse valdkonna spetsialist (sel juhul pöördub ta tulemuse saamiseks ES-i poole, ise saamata) või spetsialist (sel juhul saab kasutaja tulemuse ise, kuid ta pöördub ES-i poole eesmärgiga kas kiirendada tulemuse saamist või usaldada ES-le rutiinne töö). Konsultatsioonirežiimis sisenevad andmed kasutaja ülesande kohta pärast dialoogikomponendi töötlemist töömällu. Lahendaja, tuginedes töömälu sisendandmetele, probleemvaldkonna üldistele andmetele ja teadmistebaasi reeglitele, moodustab probleemile lahenduse. Probleemi lahendamisel ES mitte ainult ei täida ettenähtud toimingute jada, vaid ka vormistab selle eelnevalt. Kui süsteemi reaktsioon pole kasutajale selge, võib ta nõuda selgitust:

"Miks süsteem küsib seda või teist?", "kuidas saadi vastus, mille süsteem kogus?".

Seda tüüpi staatilise ES.ES struktuuri kasutatakse nendes rakendustes, kus on võimalik ignoreerida ülesande lahendamise käigus toimuvaid muutusi ümbritsevas maailmas. Esimesed ES-d, mis said praktilise kasutuse, olid staatilised.

Dünaamilise ES-i arhitektuuris on võrreldes staatilise ES-ga sisse toodud kaks komponenti: välismaailma modelleerimise alamsüsteem ja väliskeskkonnaga suhtlemise alamsüsteem. Viimane suhtleb välismaailmaga andurite ja kontrollerite süsteemi kaudu. Lisaks on staatilise ES-i (teadmistebaas ja järeldusmootor) traditsioonilised komponendid läbimas olulisi muutusi, et kajastada reaalses maailmas toimuvate sündmuste ajalist loogikat.

Rõhutame, et ES-i struktuur peegeldab ainult komponente (funktsioone) ja palju jääb "kulisside taha". Joonisel fig. 1.3 näitab kaasaegse IS-i üldistatud struktuuri dünaamilise ES-i loomiseks, mis sisaldab lisaks põhikomponentidele ka neid funktsioone, mis võimaldavad luua integreeritud rakendusi vastavalt kaasaegsele programmeerimistehnoloogiale.

Ekspertsüsteemide väljatöötamise etapid

ES arendusel on olulisi erinevusi tavapärase tarkvaratoote arendamisest. ES-i loomise kogemus on näidanud, et traditsioonilises programmeerimises omaks võetud metoodika kasutamine nende väljatöötamisel kas lükkab ülemääraselt ES-i loomise protsessi edasi või viib isegi negatiivse tulemuseni.

ES-i tuleks kasutada ainult siis, kui ES-i väljatöötamine on võimalik, põhjendatud ja teadmustehnilised meetodid vastavad lahendatavale probleemile. Et konkreetse rakenduse jaoks oleks võimalik kokkupuutestsenaariumi väljatöötamine, peavad üheaegselt olema täidetud vähemalt järgmised nõuded:

1) on oma ala asjatundjad, kes lahendavad probleemi palju paremini kui algajad;

2) eksperdid lepivad välja pakutud lahenduse hinnangu, vastasel juhul ei ole võimalik hinnata väljatöötatud ES-i kvaliteeti;

3) eksperdid oskavad verbaliseerida (loomulikus keeles väljendada) ja selgitada, milliseid meetodeid nad kasutavad, vastasel juhul on raske eeldada, et ekspertide teadmised "välja võetakse" ja investeeritakse ES-sse;

4) ülesande lahendamine nõuab ainult arutluskäiku, mitte tegutsemist;

5) ülesanne ei tohiks olla liiga raske (st selle lahendamine peaks eksperdil võtma mitu tundi või päeva, mitte nädalat);

6) kuigi ülesannet ei tohiks väljendada formaalses vormis, peaks see siiski kuuluma üsna "arusaadavale" ja struktureeritud valdkonda, s.t. esile tuleks tuua peamised mõisted, seosed ja teadaolevad (vähemalt eksperdile) viisid probleemile lahenduse leidmiseks;

7) probleemide lahendamine ei tohiks suuresti tugineda "tervele mõistusele" (st laiale valikule Üldine informatsioon maailmast ja selle toimimisest, mida iga normaalne inimene teab ja oskab kasutada), kuna selliseid teadmisi pole veel (piisavalt) tehisintellektisüsteemidesse investeeritud.

ES-i kasutamine selles rakenduses võib olla võimalik, kuid mitte õigustatud. ES-i kasutamist võib õigustada üks järgmistest teguritest:

probleemi lahendamine toob kaasa olulise, näiteks majandusliku mõju;

inimeksperdi kasutamine ei ole võimalik kas ekspertide ebapiisava arvu tõttu või vajaduse tõttu teha ekspertiis üheaegselt erinevates kohtades;

ES-i kasutamine on soovitatav juhtudel, kui teabe edastamine eksperdile toob kaasa lubamatu aja- või teabekao;

ES kasutamine on vajadusel otstarbekas probleemi lahendamiseks inimvaenulikus keskkonnas.

Rakendus vastab ES meetoditele, kui lahendataval probleemil on kombinatsioon järgmistest omadustest:

1) probleemi saab lahendada loomulikul teel sümbolitega manipuleerimise (s.o. sümboolse arutluse abil), mitte arvudega manipuleerimisega, nagu on kombeks matemaatilistes meetodites ja traditsioonilises programmeerimises;

2) ülesanne peaks olema heuristilise, mitte algoritmilise iseloomuga, s.t. selle lahendus peaks nõudma heuristiliste reeglite rakendamist. Probleemid, mille lahendamine (vastavalt etteantud piirangutele) mõne formaalse protseduuri abil, ei sobi ES-i kasutamiseks;

3) ülesanne peab olema piisavalt keeruline, et õigustada ES-i väljatöötamise kulusid. Siiski ei tohiks see olla liiga keeruline (lahendamiseks kulub eksperditunde, mitte nädalaid), et ES saaks selle lahendada;

4) ülesanne peaks olema piisavalt kitsas, et seda saaks ES-meetoditega lahendada, ja praktiliselt oluline.

ES arendamisel kasutatakse reeglina mõistet "kiire prototüüp". Selle kontseptsiooni olemus seisneb selles, et arendajad ei püüa kohe lõpptoodet luua. Algstaadiumis loovad nad ES-i prototüübi (prototüübid). Prototüübid peavad vastama kahele vastandlikule nõudele: ühelt poolt peavad nad lahendama konkreetse rakenduse tüüpilisi probleeme ja teisest küljest peavad nende arendamise aeg ja töömahukus olema väga väikesed, et teadmiste kogumise ja silumise protsess (vedamine) välja ekspert) saab olla maksimaalselt paralleelne valikuprotsessiga.(arendus)tarkvara (viivad läbi teadmusinsener ja programmeerija). Nende nõuete täitmiseks kasutatakse prototüübi loomisel reeglina erinevaid tööriistu projekteerimisprotsessi kiirendamiseks.

Prototüüp peab näitama teadmustehnoloogia tehnikate sobivust rakenduse jaoks. Edu korral laiendab ekspert teadmusinseneri abiga prototüübi teadmisi probleemse valdkonna kohta. Ebaõnnestumine võib nõuda uue prototüübi väljatöötamist või arendajad võivad järeldada, et ES-meetodid ei sobi antud rakenduse jaoks. Teadmiste suurenedes võib prototüüp jõuda punkti, kus see lahendab edukalt kõik antud rakenduse probleemid. ES-i prototüübi muutmine lõpptooteks viib tavaliselt ES-i ümberprogrammeerimiseni madalatasemelistes keeltes, tagades nii ES-i kiiruse suurenemise kui ka vajaliku mälumahu vähenemise. ES-i loomise keerukus ja aeg sõltuvad suuresti kasutatavate tööriistade tüübist.

ES-i loomise käigus on välja töötatud nende arendamiseks teatud tehnoloogia, mis hõlmab järgmist kuut etappi:

identifitseerimine, kontseptualiseerimine, formaliseerimine, täitmine, testimine, proovioperatsioon. Identifitseerimise etapis määratakse lahendatavad ülesanded, selgitatakse välja arengueesmärgid, määratakse eksperdid ja kasutajatüübid.

Kontseptualiseerimise etapis viiakse läbi probleemse valdkonna mõtestatud analüüs, selgitatakse välja kasutatavad mõisted ja nende seosed ning määratakse probleemide lahendamise meetodid.

Formaliseerimise etapis valitakse IS-d ja määratakse igat tüüpi teadmiste esitamise viisid, vormistatakse põhimõisted, määratakse teadmiste tõlgendamise meetodid, modelleeritakse süsteemi toimimine, fikseeritud süsteemi eesmärkide adekvaatsus. hinnatakse mõisteid, otsustusmeetodeid, teadmiste esitamise ja manipuleerimise vahendeid.

Täitmisetapis täidab ekspert teadmistebaasi. Tulenevalt asjaolust, et ES-i aluseks on teadmised, see etapp on ES-i arendamise kõige olulisem ja aeganõudvam samm. Teadmiste omandamise protsess jaguneb eksperdilt teadmiste ammutamiseks, süsteemi efektiivset toimimist tagavate teadmiste korrastamiseks ja teadmiste esitamiseks ES-ile arusaadaval kujul. Teadmiste omandamise protsessi viib läbi teadmusinsener, tuginedes eksperdi tegevuse analüüsile reaalsete probleemide lahendamisel.

Lõppkasutaja liides

G2 süsteem annab arendajale rikkalikud võimalused lihtsa, selge ja ilmeka animatsioonielementidega graafilise kasutajaliidese moodustamiseks. Kavandatav tööriistakomplekt võimaldab visuaalselt kuvada peaaegu piiramatu keerukusega tehnoloogilisi protsesse erinevatel abstraktsiooni- ja detailitasemetel. Lisaks saab rakendusobjektide vaheliste seoste graafilist kuvamist vahetult kasutada teadmiste kirjeldamise keele deklaratiivsetes konstruktsioonides.

RTworksil pole natiivseid vahendeid hallatava protsessi hetkeoleku kuvamiseks. Rakenduse arendaja on sunnitud kasutama VI Corporationi Dataview süsteemi, mis piirab oluliselt selle võimalusi.

TDC Experti kasutajaliides on piiratud TDC 3000 süsteemi võimalustega, s.o. lõppkasutaja suhtlus

piiratud tekstirežiimiga.

Teadmiste kujutamine ekspertsüsteemides

Esimene ja peamine küsimus, mis teadmiste esitamisel lahendamist vajab, on teadmiste koosseisu määramise küsimus, s.o. ekspertsüsteemis "MIDA ESINDADA" määramine. Teine küsimus puudutab teadmisi "KUIDAS ESINDADA". Tuleb märkida, et need kaks küsimust ei ole sõltumatud. Tõepoolest, valitud esitlusviis võib olla mõne teadmise väljendamiseks põhimõtteliselt sobimatu või ebaefektiivne.

Küsimuse "KUIDAS ESINDADA" võib meie arvates jagada kaheks suuresti iseseisvaks ülesandeks: kuidas teadmisi organiseerida (struktureerida) ja kuidas teadmisi valitud formalismis esindada.

Soov eraldada teadmiste organiseerimine iseseisvaks ülesandeks on tingitud eelkõige sellest, et see ülesanne tekib iga esituskeele puhul ja selle ülesande lahendamise meetodid on olenemata kasutatavast formalismist ühesugused (või sarnased).

Seega lisame teadmiste esitamisel lahendatavate probleemide hulka järgmised:

esindatavate teadmiste koosseisu määramine;

teadmiste organiseerimine;

teadmiste kujutamine, s.o. vaadake mudeli määratlust. ES-teadmiste koostise määravad järgmised tegurid:

probleemne keskkond;

ekspertsüsteemi arhitektuur;

kasutajate vajadused ja eesmärgid;

suhtluskeel.

Staatilise ekspertsüsteemi üldise skeemi kohaselt on selle toimimiseks vaja järgmisi teadmisi:

tõlgi (lahendaja) poolt kasutatavad teadmised probleemi lahendamise protsessist (st kontrollteadmised);

teadmised keelelise töötleja (dialoogikomponent) kasutatavast suhtluskeelest ja dialoogi korraldamise viisidest;

teadmised teadmiste omandamise komponendi poolt kasutatavate teadmiste esitamise ja muutmise viiside kohta;

selgitava komponendi poolt kasutatavate struktuuri- ja kontrolliteadmiste toetamine.

Dünaamilise ES jaoks on lisaks vaja järgmisi teadmisi:

1) teadmised väliskeskkonnaga suhtlemise meetoditest;

2) teadmised välismaailma mudelist.

Teadmiste koostise sõltuvus kasutaja nõudmistest väljendub järgmises:

milliseid ülesandeid (ülesannete üldkogumist) ja milliste andmetega soovib kasutaja lahendada;

millised on eelistatud lahendusviisid ja -meetodid;

milliste tulemuste arvu ja nende saamise meetodite piirangute korral tuleb probleem lahendada;

millised on nõuded suhtluskeelele ja dialoogi korraldusele;

milline on kasutajale kättesaadavate teadmiste üldistus (spetsiifilisus) probleemvaldkonna kohta;

millised on kasutajate eesmärgid.

Suhtluskeelealaste teadmiste koosseis sõltub nii suhtluskeelest kui ka nõutavast arusaamise tasemest.

Arvestades ekspertsüsteemi arhitektuuri, tuleks teadmised jagada tõlgendatavateks ja tõlgendatavateks. Esimesse tüüpi kuuluvad teadmised, mida lahendaja (tõlk) suudab tõlgendada. Kõik muud teadmised kuuluvad teise tüüpi. Lahendaja ei tea nende struktuuri ja sisu. Kui neid teadmisi kasutab mõni süsteemi komponent, siis ta ei ole sellest teadmisest "teadlik". Tõlgendamata teadmised jagunevad abiteadmisteks, mis talletavad infot suhtluskeele sõnavara ja grammatika kohta, infot dialoogi ülesehituse kohta ning toetavateks teadmisteks. Abiteadmisi töötleb loomuliku keele komponent, kuid lahendaja ei taju selle töötluse kulgu, kuna see sisendsõnumite töötlemise etapp on uurimise jaoks abistav. Süsteemi loomisel ja selgituste rakendamisel kasutatakse toetavaid teadmisi. Toetavad teadmised täidavad nii tõlgendatud teadmiste kui ka süsteemitoimingute kirjelduste (põhjenduste) rolli. Toetavad teadmised jagunevad tehnoloogilisteks ja semantilisteks. Tehnoloogilised tugiteadmised sisaldavad teavet nende poolt kirjeldatud teadmise loomise aja, teadmiste autori jms kohta. Semantiline tugiteadmine sisaldab nende teadmiste semantilist kirjeldust. Need sisaldavad teavet teadmiste juurutamise põhjuste, teadmiste eesmärgi kohta, kirjeldavad teadmiste kasutamise viisi ja saavutatavat mõju. Teadmiste toetamine on kirjeldav.

Tõlgendatavad teadmised võib jagada aineteadmisteks, mis kontrollivad teadmisi representatsiooni kohta.Teadmised representatsioonist sisaldavad teavet selle kohta, kuidas (millistes struktuurides) tõlgendatud teadmised süsteemis esitatakse.

Aineteadmised sisaldavad andmeid ainevaldkonna kohta ja võimalusi nende andmete muundamiseks ülesannete lahendamisel. Pange tähele, et seoses aineteadmistega on teadmised representatsioonist ja teadmised juhtimisest metateadmised.Aineteadmistes saab eristada deskriptoreid ja aineteadmisi. Deskriptorid sisaldavad spetsiifilist teavet ainealaste teadmiste kohta, näiteks reeglite ja andmete kindlustegurit, tähtsuse ja keerukuse mõõtmeid. Tegelikult jagatakse aineteadmised faktideks ja käivitatavateks väideteks. Faktid määravad üksuste võimalikud väärtused ja ainevaldkonna omadused. Täitatavad avaldused sisaldavad teavet selle kohta, kuidas saate ülesannete lahendamise käigus ainevaldkonna kirjeldust muuta. Teisisõnu, käivitatavad avaldused on teadmised, mis määratlevad töötlemisprotseduurid. Väldime aga termini "protseduurilised teadmised" kasutamist, sest tahame rõhutada, et neid teadmisi saab täpsustada mitte ainult protseduurilises, vaid ka deklaratiivses vormis.

Kontrolliteadmised võib jagada fokusseerivateks ja otsustavateks. Teadmiste keskendumine kirjeldab, milliseid teadmisi tuleks antud olukorras kasutada. Tavaliselt sisaldab fokusseerimise teadmine infot kõige perspektiivikamate objektide või reeglite kohta, mida tuleks vastavate hüpoteeside kontrollimisel kasutada. Esimesel juhul keskendutakse töömälu elementidele, teisel - teadmistebaasi reeglitele. Otsustavad teadmised sisaldavad teavet, mille põhjal valitakse, kuidas teadmisi hetkeolukorrale sobivalt tõlgendada. Neid teadmisi kasutatakse strateegiate või heuristika valimiseks, mis on antud probleemi lahendamiseks kõige tõhusamad.

Ekspertsüsteemi kvalitatiivseid ja kvantitatiivseid näitajaid saab oluliselt parandada metateadmiste kasutamisega, s.t. teadmised teadmistest. Metaknowledge ei esinda ühtset üksust, seda saab kasutada erinevate eesmärkide saavutamiseks. Loetleme metateadmiste võimalikud eesmärgid:

1) metateadmisi strateegiliste metareeglite kujul kasutatakse asjakohaste reeglite valimiseks;

2) ekspertiisivaldkonna reeglite rakendamise otstarbekuse põhjendamiseks kasutatakse metateadmisi;

3) metareegleid kasutatakse ainereeglite süntaktiliste ja semantiliste vigade tuvastamiseks;

4) metareeglid võimaldavad süsteemil kohaneda keskkonnaga, restruktureerides ümber ainereegleid ja funktsioone;

5) metareeglid võimaldavad selgelt välja tuua süsteemi võimalused ja piirangud, st. määrata, mida süsteem teab ja mida mitte.

Teadmiste organiseerimise küsimusi tuleb käsitleda igas esituses ning nende lahendamine ei sõltu suuresti valitud esitusviisist (mudelist). Toome välja järgmised teadmuskorralduse probleemi aspektid:

teadmiste organiseerimine esitustasemete ja detailiastmete järgi;

teadmiste organiseerimine töömälus;

teadmiste organiseerimine teadmistebaasi.

Esitusvõrrandid ja detailsusastmed

Selleks, et ekspertsüsteem suudaks juhtida lahenduse leidmise protsessi, saaks omandada uusi teadmisi ja selgitada oma tegevust, peab ta suutma mitte ainult oma teadmisi kasutada, vaid omama ka oskust mõista ja neid uurima, s.t. ekspertsüsteemil peavad olema teadmised selle kohta, kuidas tema teadmised probleemkeskkonnast on esindatud. Kui teadmist probleemse keskkonna kohta nimetatakse esituse nulltaseme teadmiseks, siis esinduse esimene tasand sisaldab metateadmisi, s.t. teadmised selle kohta, kuidas nulltaseme teadmiste süsteem on sisemaailmas esindatud. Esimene tase sisaldab teadmisi selle kohta, milliseid vahendeid kasutatakse nulltaseme teadmiste esitamiseks. Esimese taseme teadmised mängivad olulist rolli otsustusprotsessi juhtimisel, süsteemi toimingute omandamisel ja selgitamisel. Tulenevalt sellest, et esmatasandi teadmised ei sisalda seoseid nulltaseme teadmistega, on esmatasandi teadmised probleemkeskkonnast sõltumatud.

Esitlustasemete arv võib olla rohkem kui kaks. Teine esituse tase sisaldab infot esimese taseme teadmiste kohta, s.o. teadmised esimese astme põhimõistete esitusest. Teadmiste jaotamine esitlustasanditeks annab süsteemi ulatuse laienduse.

Detailsuse taseme esiletõstmine võimaldab teil arvestada erineva detailsusastmega teadmisi. Detailsusastmete arvu määrab suuresti lahendatavate ülesannete spetsiifika, teadmiste hulk ja nende esitamise viis. Reeglina eristatakse vähemalt kolme detailsuse taset, mis peegeldavad vastavalt teadmiste üldist, loogilist ja füüsilist korraldust. Mitme detailitaseme kasutuselevõtt annab süsteemi täiendava paindlikkuse, kuna võimaldab teha muudatusi ühel tasandil teisi mõjutamata. Ühel detailitasemel tehtavad muudatused võivad sellel tasemel kaasa tuua täiendavaid muudatusi, mis on vajalikud andmestruktuuride ja programmide järjepidevuse tagamiseks. Erinevate tasandite olemasolu takistab aga muutuste levikut ühelt tasandilt teistele.

Teadmiste organiseerimine toimivas süsteemis

Ekspertsüsteemide töömälu (WP) on mõeldud andmete salvestamiseks. Töömälus olevad andmed võivad olla homogeensed või andmetüübi järgi mitmetasandilised. Viimasel juhul salvestab iga töömälu tase vastavat tüüpi andmeid. Taseme valik muudab ekspertsüsteemi ülesehituse keeruliseks, kuid muudab süsteemi efektiivsemaks. Näiteks saate eristada plaani taset, agendi taset (täitmisvalmis reeglite järjestatud loend) ja domeeni andmetaseme (otsustase).

Kaasaegsetes ekspertsüsteemides nähakse töömälus olevaid andmeid kas isoleeritud või seotuna. Esimesel juhul koosneb töömälu paljudest lihtsatest elementidest ja teisel juhul ühest või mitmest (RP-s mitme tasemega) keerulisest elemendist (näiteks objektid). Sel juhul vastab kompleksne element lihtsate elementide hulgale, mis on ühendatud üheks tervikuks. Teoreetiliselt pakuvad mõlemad lähenemisviisid terviklikkust, kuid eraldatud elementide kasutamine keerulistes ainevaldkondades toob kaasa efektiivsuse kaotuse.

RP-s olevad andmed on lihtsaimal juhul konstandid ja (või) muutujad. Sel juhul saab muutujaid tõlgendada mõne objekti omadustena ja konstante - vastavate omaduste väärtustena. Kui RP-s on vaja üheaegselt analüüsida mitut erinevat hetke probleemsituatsiooni kirjeldavat objekti, siis tuleb märkida, milliste objektide juurde vaadeldavad tunnused kuuluvad. Üks selle probleemi lahendamise viise on selgelt näidata, millisele objektile tunnus kuulub.

Kui RP koosneb keerukatest elementidest, siis näidatakse üksikute objektide vahelist seost eksplitsiitselt, näiteks semantiliste suhete seadmisega. Lisaks võib igal objektil olla oma sisemine struktuur. Tuleb märkida, et otsingu ja võrdlemise kiirendamiseks saab RP-s olevaid andmeid siduda mitte ainult loogiliselt, vaid ka assotsiatiivselt.

Teadmiste organiseerimine andmebaasis

Süsteemi intelligentsuse indikaator teadmiste esituse osas on süsteemi võime kasutada vajalikke (asjakohaseid) teadmisi õigel ajal. Süsteemid, millel puuduvad vahendid asjakohaste teadmiste määramiseks, seisavad paratamatult silmitsi "kombinatiivse plahvatuse" probleemiga. Võib väita, et see probleem on üks peamisi põhjuseid, mis piirab ekspertsüsteemide ulatust. Teadmisele juurdepääsu probleemis võib eristada kolme aspekti: teadmiste ja andmete ühenduvus, teadmistele juurdepääsu mehhanism, võrdlusmeetod.

Teadmiste ühenduvus (agregeerimine) on peamine viis asjakohaste teadmiste otsimise kiirendamiseks. Enamik spetsialiste jõudis järeldusele, et teadmised tuleks organiseerida ainevaldkonna olulisemate objektide (olemite) ümber. Kõik teadmised, mis iseloomustavad mõnda olemit, on seotud ja esindatud eraldi objektina. Sellise teadmiste korralduse korral, kui süsteem vajab teavet mõne olemi kohta, otsib ta seda olemit kirjeldavat objekti ja seejärel leiab objekti seest teavet selle olemi kohta. Objektides on soovitav eristada kahte tüüpi elementide vahelisi seoseid: väliseid ja sisemisi.Sisemised lingid ühendavad elemente üheks objektiks ja on mõeldud objekti struktuuri väljendamiseks. Välislingid peegeldavad vastastikuseid sõltuvusi, mis eksisteerivad ekspertiisivaldkonna objektide vahel. Paljud teadlased liigitavad välislingid maksu- ja assotsiatiivseteks.Loogilised seosed väljendavad semantilisi seoseid teadmuselementide vahel. Assotsiatiivsed lingid on loodud pakkuma seoseid, mis aitavad kiirendada asjakohaste teadmiste otsimist.

Suure teadmistebaasiga töötamise peamine probleem on lahendatava probleemi jaoks asjakohaste teadmiste leidmise probleem. Tulenevalt asjaolust, et töödeldavad andmed ei pruugi sisaldada selgesõnalisi viiteid nende töötlemiseks vajalike väärtuste kohta, on vaja üldisemat juurdepääsumehhanismi kui otsejuurdepääsu meetod (selgesõnaline võrdlusmeetod). Selle mehhanismi ülesanne on leida teadmistebaasist objektid, mis vastavad sellele kirjeldusele vastavalt töömälus saadaolevale olemi kirjeldusele. Ilmselgelt võib teadmiste järjestamine ja struktureerimine otsinguprotsessi oluliselt kiirendada.

Soovitud objektide leidmist on üldjuhul kohane käsitleda kaheetapilise protsessina. Esimeses etapis, mis vastab assotsiatiivsete linkide abil valikuprotsessile, tehakse potentsiaalsete kandidaatide teadmistebaasis eelvalik soovitud objektide rolli jaoks. Teises etapis, sooritades potentsiaalsete kandidaatide võrdlemise kandidaatide kirjeldustega, viiakse läbi soovitud objektide lõplik valik. Sellise juurdepääsumehhanismi korraldamisel tekivad teatud raskused: Kuidas valida kandidaadi sobivuskriteeriumi? Kuidas korraldada tööd konfliktiolukordades? jne.

Sobitamistoimingut saab kasutada mitte ainult vahendina soovitud objekti valimiseks kandidaatide hulgast; seda saab kasutada klassifitseerimiseks, kinnitamiseks, dekomponeerimiseks ja korrigeerimiseks. Tundmatu objekti tuvastamiseks saab seda võrrelda mõne teadaoleva näidisega. See võimaldab klassifitseerida tundmatu objekti selliseks teadaolevaks valimiks, kui võrrelda sellega, millega saadi parimad tulemused. Otsingus kasutatakse sobitamist mõne paljudest võimalikest kandidaatidest kinnitamiseks. Kui võrrelda mõnda teadaolevat objekti tundmatu kirjeldusega, siis eduka sobitamise korral viiakse läbi kirjelduse osaline dekomponeerimine.

Sobitamise operatsioonid on väga mitmekesised. Tavaliselt eristatakse järgmisi vorme: süntaktiline, parameetriline, semantiline ja sundsobitus.Süntaktilise sobitamise puhul on korrelatsioonis vormid (näidised), mitte objektide sisu. Edukas vaste on see, mille tulemuseks on identsed proovid. Üldiselt eeldatakse, et ühe mustri muutuja võib olla identne teise mustri mis tahes konstandiga (või avaldisega). Mustris sisalduvate muutujate suhtes kehtivad mõnikord nõuded, mis määravad kindlaks konstantide tüübi, millega need sobivad. Süntaktilise vaste tulemus on binaarne: mustrid on sobitatud või mitte. Parameetrilises sobitamises sisestate parameetri, mis määrab sobivuse astme. Semantilise võrdluse puhul ei ole korrelatsioonis mitte objektinäidised, vaid nende funktsioonid. Sundsobitamise puhul vaadeldakse üht sobitatud mustrit teise vaatenurgast. Erinevalt teist tüüpi sobitamisest saab siin alati positiivse tulemuse. Küsimus on sunni jõus. Sund võib läbi viia objektidega seotud eriprotseduure. Kui need protseduurid ei ühti, teatab süsteem, et edu on võimalik saavutada ainult siis, kui kõnealuste üksuste teatud osi võib pidada sobivaks.

Lahenduse otsimise meetodid ekspertsüsteemides

Probleemide lahendamise meetodid, mis põhinevad nende otsinguks taandamisel, sõltuvad sellest

psühhosomaatika psühhodiagnostika, aga ka muud süsteemid. selle ainevaldkonna tunnused, milles probleemi lahendatakse, ja kasutaja poolt lahendusele seatud nõuded. Ainevaldkonna iseärasusi lahendusmeetodite osas saab iseloomustada järgmiste parameetritega:

suurus, mis määrab ruumi hulga, millest lahendust otsida;

ala varieeruvus, iseloomustab ala varieeruvuse astet ajas ja ruumis (siin eristame staatilisi ja dünaamilisi alasid);

piirkonda kirjeldava mudeli täielikkus iseloomustab antud piirkonna kirjeldamiseks kasutatud mudeli adekvaatsust. Tavaliselt, kui mudel ei ole täielik, kasutatakse valdkonna kirjeldamiseks mitut mudelit, mis täiendavad üksteist ainevaldkonna erinevate omaduste kajastamise kaudu;

andmete kindlus lahendatava probleemi kohta, iseloomustab andmete täpsuse (vea) ja täielikkuse (puudulikkus) astet. Täpsus (viga) on näitaja, mis näitab, et ainevaldkonda lahendatavate ülesannete osas kirjeldatakse täpsete või ebatäpsete andmetega; andmete täielikkuse (mittetäielikkuse) all mõistetakse sisendandmete piisavust (puudulikkust) probleemi ainulaadseks lahendamiseks.

Kasutaja nõudeid otsingu abil lahendatud ülesande tulemusele saab iseloomustada lahenduste arvu ja tulemuse omaduste ja (või) saamise meetodiga. Parameeter "Otsuste arv" võib võtta järgmisi põhiväärtusi: üks otsus, mitu otsust, kõik otsused. Parameeter "omadused" määratleb piirangud, millele tulemus või selle saamise meetod peab vastama. Nii et näiteks süsteemi puhul, mis annab soovitusi patsientide raviks, saab kasutaja määrata nõude teatud ravimit mitte kasutada (selle puudumise tõttu või selle tõttu, et see on sellele patsiendile vastunäidustatud). Parameeter "omadused" võib määratleda ka selliseid omadusi nagu lahendusaeg ("mitte rohkem kui", "ajavahemik" jne), tulemuse saamiseks kasutatud mälumaht, märge selle kohustusliku (võimatu) kasutamise kohta. mingeid teadmisi (andmeid) jne.

Seega varieerub probleemi keerukus, mis on määratud ülaltoodud parameetrite kogumiga, alates lihtsatest väikesemõõtmelistest probleemidest, kus teatud andmed ei muutu ja tulemusele ja selle saamise meetodile pole piiranguid, kuni suurte mõõtmetega keerukate probleemideni, millel on muutuv, ekslik. ja mittetäielikud andmed ning meelevaldsed piirangud tulemusele ja selle saamise meetodile. Üldiste kaalutluste põhjal on selge, et kõiki probleeme on võimatu ühegi meetodiga lahendada. Tavaliselt on mõned meetodid teistest paremad ainult mõne loetletud parameetri poolest.

Allpool käsitletud meetodid võivad töötada staatilistes ja dünaamilistes probleemsetes keskkondades. Et need töötaksid dünaamilistes tingimustes, on vaja arvesse võtta muutujate väärtuste eluiga, muutujate andmete allikat ning anda ka võimalus salvestada muutujate väärtuste ajalugu, modelleerida väliskeskkonda ja töötada. ajutiste kategooriatega reeglites.

Eksperdisüsteemides kasutatavad olemasolevad probleemide lahendamise meetodid võib liigitada järgmiselt:

otsingumeetodid ühes ruumis - meetodid, mis on mõeldud kasutamiseks järgmistel tingimustel: väikese mõõtmega alad, mudeli täielikkus, täpsed ja täielikud andmed;

otsingumeetodid hierarhilistes ruumides - meetodid, mis on loodud töötama kõrge mõõtmega aladel;

ebatäpsete ja mittetäielike andmete otsimise meetodid;

mitut mudelit kasutavad otsingumeetodid, mis on loodud töötama valdkondadega, mille adekvaatseks kirjeldamiseks ühest mudelist ei piisa.

Eeldatakse, et loetletud meetodeid tuleks vajadusel kombineerida, et võimaldada lahendada probleeme, mille keerukus suureneb samaaegselt mitmes parameetris.

Tööriistakompleks staatiliste ekspertsüsteemide loomiseks (öko-integreeritud kompleksi näitel)

Vaatleme staatilise ES-i loomise tööriistade omadusi Venemaa IT ja AP uurimisinstituudis välja töötatud ECO-kompleksi näitel. Kõige edukamalt kasutatakse kompleksi diagnostika (tehniline ja meditsiiniline), heuristilise hindamise (risk, usaldusväärsus jne), kvaliteetse prognoosimise ja ka koolituse probleeme lahendavate ES-de loomiseks.

ECO kompleksi kasutatakse: personaalarvutites kaubanduslike ja tööstuslike ekspertsüsteemide loomiseks, samuti ekspertsüsteemide prototüüpide kiireks loomiseks, et teha kindlaks teadmustehniliste meetodite rakendatavus konkreetses probleemvaldkonnas.

ÖKO kompleksi baasil on välja töötatud üle 100 rakendusliku ekspertsüsteemi. Nende hulgas märgime järgmist:

üksikute vigade otsimine personaalarvutis;

hüdrokonstruktsiooni seisukorra hindamine (Charvak HEJ);

ettevalmistus ärikirjad välispartneritega kirjavahetuse pidamisel;

immunoloogilise seisundi sõeluuringu läbiviimine;

mittespetsiifiliste krooniliste kopsuhaiguste all kannatava patsiendi mikrobioloogilise uuringu näidustuste hindamine;

Teadmiste esitusvahendid ja juhtimisstrateegiad

IVF kompleks sisaldab kolme komponenti.

Kompleksi tuumaks on integreeritud ECO ekspertsüsteemide kest, mis tagab efektiivsete rakenduste kiire loomise analüüsiprobleemide lahendamiseks 1. ja 2. tüüpi staatilistes probleemsetes keskkondades.

Shell-teadmiste esitusvahendite väljatöötamisel taotleti kahte peamist eesmärki: üsna laia ja praktiliselt olulise ülesannete klassi efektiivne lahendamine personaalarvutite abil; paindlikud võimalused kasutajaliidese kirjeldamiseks ja konsultatsioonide läbiviimiseks konkreetsetes rakendustes. Kui teadmised on kestas esindatud, kasutatakse "atribuut-väärtus" tüüpi spetsiaalseid (privaatseid) väiteid ja privaatseid reegleid, mis võimaldab välistada mustrite sobitamise ressursimahuka toimimise ja saavutada arendatud rakenduste tõhususe. Shelli väljendusvõime on oluliselt laienenud tänu integratsioonile, mida pakub väliste programmide kutsumine konsultatsiooniskripti kaudu ning dokkimine andmebaaside (PIRS ja dBase IV) ja väliste programmidega. ECO kestas on teadmistebaasi nõrk struktureerimine selle jagunemise tõttu eraldi komponentideks - probleemses keskkonnas üksikute alamülesannete lahendamiseks - mudel (ECO "mudeli" mõiste vastab kontseptsioonile. G2 süsteemi teadmistebaasi "moodul").

ES arendustehnoloogia seisukohalt toetab kest pinnapealsetel teadmistel ja lahendusprotsessi struktureerimisel põhinevaid lähenemisi.

Shell toimib kahes režiimis: teadmiste omandamise režiimis ja konsulteerimise (probleemide lahendamise) režiimis. Esimeses režiimis sisestab ES-i arendaja dialoogiredaktorit kasutades teadmusbaasi konkreetse rakenduse kirjelduse kesta teadmiste esituskeele järgi. See kirjeldus on koondatud järeldusvõrku, millel on otselingid konkreetsetele väidetele ja reeglitele. Teises režiimis lahendab kest konkreetseid kasutajaülesandeid dialoogi- või pakkrežiimis. Sel juhul tuletatakse lahendused eesmärkidest andmeteni (pööratud arutluskäik).

Shelli võimaluste laiendamiseks süvateadmistega töötamiseks saab ECO kompleksi täiendada K-ECO komponendiga (teadmiste konkretiseerija), mis võimaldab kirjeldada probleemsetes keskkondades mustreid üldiste (abstraktsete) objektide ja reeglid. C-ECO-d kasutatakse õppefaasis dialoogikesta redaktori asemel, et teisendada üldised kirjeldused spetsiifilisteks järeldusvõrkudeks, mis võimaldavad ECO kesta abil lahendusi tõhusalt järeldada. Seega võimaldab betoneerija kasutamine töötada 2. tüüpi probleemsete keskkondadega (vt ptk 3).

Kompleksi kolmandaks komponendiks on ILIS-süsteem, mis võimaldab andmete (näidete) induktiivse üldistamise tõttu luua ES-i staatilistes probleemsetes keskkondades ja on mõeldud kasutamiseks nendes rakendustes, kus probleemses keskkonnas mustreid kajastavate reeglite puudumine kompenseeritakse ulatuslik katsematerjal. ILIS-süsteem võimaldab kõige lihtsamate spetsiifiliste reeglite automaatset genereerimist ja nende alusel iseseisvat probleemide lahendamist; sel juhul kasutatakse jäika kasutajaga dialoogi skeemi. Kuna reaalsete rakenduste loomisel esitavad eksperdid reeglina nii teadmisi probleemkeskkonna mustrite kohta kui ka eksperimentaalset materjali (konkreetsete alamülesannete lahendamiseks), tekib vajadus kasutada ILIS-süsteemi genereeritud reegleid keerukamate teadmiste esitusvahendite sees. . ECO kompleks pakub selliste reeglite automaatset tõlkimist ECO kesta vormingusse. Selle tulemusena on võimalik saada täielik (adekvaatne) esitus tegelikust probleemsest keskkonnast, lisaks seada paindlik kirjeldus ES-i ja lõppkasutaja interaktsiooni korraldusest.

Tööriistakompleks reaalajas ekspertsüsteemide loomiseks (integreeritud keskkonna g2-gensym corp., USA näitel)

Reaalajas ES-i loomiseks mõeldud IC-de arendamise ajalugu algas 1985. aastal, kui Lisp Machine Inc. andis välja Symbolics sümboolsete arvutite süsteemi Picon. Selle IC edu viis Piconi juhtivatest arendajatest 1986. aastal eraettevõtte Gensymi loomiseni, mis Piconis kehastatud ideid oluliselt arendades tuli turule 1988. aastal G2-nimelise IC-ga, versioon 1.0. Versioon 4.2 töötab praegu ja versiooni 5.0 valmistatakse ette väljalaskmiseks.

Gensymi tarkvaratoodete (USA) peamine eesmärk on aidata ettevõtetel säilitada ja kasutada oma kõige andekamate ja kvalifitseeritumate töötajate teadmisi ja kogemusi reaalajas intelligentsetes süsteemides, mis parandavad toote kvaliteeti, töökindlust ja tootmise ohutust ning vähendavad tootmiskulusid. Seda, kuidas Gensym selle ülesandega hakkama saab, näitab vähemalt fakt, et täna kuulub talle 50% juhtimissüsteemides kasutatavate ekspertsüsteemide maailmaturust.

Gensymist 2–3 aastat maha jäädes hakkasid teised ettevõtted ES RT jaoks oma IC-sid looma. Mõnede loetletud süsteemide omaduste ja võimaluste põhjaliku uuringu läbi viinud sõltumatute NASA ekspertide seisukohalt on praegu G2 (Gensym, USA) kindlasti kõige arenenum IS; järgmised olulise viivitusega kohad (rakendatud on alla 50% G2 võimalustest) on hõivatud RTWorks - Talarian (USA), COMDALE / C (Comdale Techn. - Kanada), COGSYS (SC - USA), ILOG reeglitega ( ILOG – Prantsusmaa).

Ülesandeklassid, mille jaoks on loodud G2 ja sarnased süsteemid:

jälgimine reaalajas;

tipptasemel juhtimissüsteemid;

rikete tuvastamise süsteemid;

diagnostika;

ajakava koostamine;

planeerimine;

optimeerimine;

süsteemid – operaatori nõustajad;

projekteerimissüsteemid.

Gensymi tööriistad on evolutsiooniline samm traditsiooniliste ekspertsüsteemide arendamisel staatilistest valdkondadest dünaamilisteni. Märkimisväärse osa Gensymi edust annavad aluspõhimõtted, millest ta oma uutes arendustes kinni peab:

probleemile/ainele orienteeritus;

standardite järgimine;

sõltumatus arvutusplatvormist;

alt-üles ühilduvus eelmiste versioonidega;

universaalsed võimalused, sõltumata lahendatavast ülesandest;

tehnoloogilise baasi pakkumine rakendussüsteemidele;

mugav arenduskeskkond;

otsida uusi tehnoloogiaarenduse viise;

hajutatud klient-server arhitektuur;

suur jõudlus.

G2 ekspertsüsteemide kesta peamine eelis Venemaa kasutajatele on võimalus kasutada seda integreeriva komponendina, mis võimaldab liideste avatuse ja paljude arvutusplatvormide toe tõttu hõlpsasti kombineerida olemasolevaid erinevaid automatiseerimistööriistu. singlisse integreeritud süsteem juhtimine, mis hõlmab tootmistegevuse kõiki aspekte – alates tellimuste portfelli moodustamisest kuni tehnoloogilise protsessi juhtimise ja valmistoodete tarnimiseni. See on eriti oluline kodumaiste ettevõtete jaoks, kelle riist- ja tarkvarapark kujunes valdavalt juhuslikult, majanduse järskude kõikumiste mõjul.

Lisaks G2 süsteemile kui põhilisele arendustööriistale pakub Gensym domeenile/domeenile orienteeritud laienduste komplekti keeruliste dünaamiliste süsteemide kiireks juurutamiseks, mis põhinevad spetsiaalsetel graafikakeeltel, sealhulgas parameetritega seadistatavad operaatoriplokid protsessielementide ja tüüpiliste infotöötlusülesannete esitamiseks. . Gensymi tööriistakomplekt, mis on rühmitatud probleemile orienteerituse järgi, hõlmab kõiki tootmisprotsessi etappe ja näeb välja järgmine:

intelligentne tootmisjuhtimine - G2, G2 diagnostikaassistent (GDA), NeurOn-Line (NOL), statistilise protsessi juhtimine (SPC), BatchDesign_Kit;

operatiivplaneerimine - G2, G2 Scheduling Toolkit (GST), Dynamic Scheduling Packadge (DSP);

tootmisprotsesside arendamine ja modelleerimine - G2, ReThink, BatchDesign_Kit;

toimingud ja ettevõtte võrguhaldus – G2, rikkeekspert.

Hoolimata asjaolust, et G2 süsteemi esimene versioon ilmus mitte nii kaua aega tagasi - 1988. aastal, ei nimeta keegi seda odavaks isegi rikkas Ameerikas. G2 võib nimetada tarkvaraturu bestselleriks – 1996. aasta alguses paigaldati seda maailmas üle 5000 eksemplari. Gensym teenindab enam kui 30 tööstusharu, alates kosmoseuuringutest kuni toiduainete tootmiseni. G2 kasutajate loend näeb välja nagu Kes-Is-Kes juhend ülemaailmsele tööstusele. 25 maailma suurimat tööstuskorporatsiooni kasutavad G2. G2 põhjal on kirjutatud üle 500 aktiivse avalduse.

Mis seletab G2 instrumentaalkompleksi edu? Esiteks on G2 dünaamiline süsteem selle sõna täies tähenduses. G2 on objektorienteeritud raamistik teadmistebaase kasutavate reaalajas rakenduste arendamiseks ja hooldamiseks. G2 töötab enamikel olemasolevatel platvormidel (tabel 9.1). G2 teadmistebaas salvestatakse tavalisse

Tabel 9.1 Platvormid, millel G2 töötab

Tootmisettevõte	Arvutussüsteem	Töökeskkond
	VAX Zxxx, 4xxx, bxxx,
	7xxx, 8xxx, 9xxx
	DECstation Zxxx, bxxx
		Ava VMS, OSF/1,




	SPARC 1,2, 10, LX,	SunOS/Solaris 1, Solaris

Hewlett Packard	HP9000/4xx, 7xx, 8xx


Ränist graafika
	Intel 486/Pentium	Windows NT, Windows 95

LOENG 9 LOOMINEVÕRKPIUM TAABILEHED

Lihtsaim viis PivotTable-liigendtabeli loendi komponendi kasutamiseks on PivotTable-liigendtabeli salvestamine Microsoft Excel nagu veebileht. Selleks vali menüükäsk Fail | Salvesta veebilehena vajutage ilmuvas dialoogiboksis nuppu Avalda, dialoogiboksis valige ripploendist Choose suvand Üksused lehel 1, seejärel PivotTable, märkige valik Lisa interaktiivsus koos ja valige PivotTable-liigendtabeli funktsionaalsus. nimekirja.

Järgmiseks muutke vajadusel tulevasel veebilehel ilmuvat pealkirja ja salvestage see. Kui avame selle lehe Microsoft Internet Exploreris, näeme, et see sisaldab PivotTable-liigendtabeli loendit, ActiveX-juhtelementi OLAP-i andmete ja PivotTable-liigendtabelite vaatamiseks veebilehtedel või Windowsi rakendustes (joonis 2).

Märgime kohe, et seda juhtelementi saab kasutada ainult kohalikes võrkudes arvutites, mille jaoks on ostetud Microsoft Office'i litsents; muu kasutamine, näiteks Internetis saadaolevatel veebilehtedel, on litsentsilepinguga keelatud.

PivotTable-liigendtabeli loendi komponendi omadused

Loengus vaatleme põgusalt PivotTable List komponendi poolt pakutavaid funktsioone.

Seda komponenti brauseris või Windowsi rakenduses manipuleeriv kasutaja saab, nagu Exceli PivotTable-liigendtabeli puhul, teisaldada andmeid reaalale, veerualale ja lehealale (Microsoft Office'i veebikomponendid kasutavad termineid reaala, veeruala ja filtriala) dialoogiga paneel, mis sarnaneb Excel 2013 PivotTable-liigendtabeli väljaloendi paneeliga. Dimensioonide ja mõõtude loendiga dialoogipaneel kuvatakse, klõpsates PivotTable-liigendtabeli loendi komponendi tööriistaribal nuppu Väljade loend.

Samuti saab kasutaja teha puurimistoimingu, klõpsates ikoonidel "+" (joonis 4).

PivotTable-liigendtabeli loendi komponent võimaldab teil andmeid sortida ja filtreerida. Esiteks saab andmete filtreerimist teha ainult valitud dimensiooniliikmete kuvamisega, mida saab kontrollida vastava Exceli loendiga sarnasest rippmenüüst.

Teiseks saate dialoogipaneeli Käsud ja suvandid (seda saab kuvada komponendi PivotTable List tööriistaribal vastava nupuga) kasutades valida, kuidas andmeid filtreerida ja rühmitada (näiteks kuvada teatud arv suurimaid või väikseimaid väärtusi - Top 5, Top 10, Alumine 25 jne.

Lisaks saab kasutaja muuta andmete kuvamise atribuute – teksti värvi ja fonti, taustavärvi, teksti joondamist, kuvamist jne. Selleks asetage kursor lihtsalt ühele andmeelemendile, mille atribuute tuleb muuta (näiteks dimensiooniliikme nimele, kokkuvõtlike andmete või koguväärtustega lahtrile) ja valige kuvamiseks uued atribuudid. seda tüüpi andmed samas dialoogiboksis Käsud ja suvandid. .

Lisaks võimaldab PivotTable-liigendtabeli loendi komponent koondandmete põhjal arvutada murdosasid või protsente kogusummast või dimensiooni emaliikmele vastavast summast (näiteks antud kvartalis saadud aastakasumi protsent) - vastavad valikud leiate andmeelementide kontekstimenüüdest.

Samuti on kasutajal juurdepääs spetsiaalselt tema jaoks loodud abifailile (vene keeles, kui kasutatakse venekeelsest paketist pärit veebikomponente). Microsofti versioonid Office XP). Samas ei saa kasutaja muuta andmeallikat ja kuvada veebilehel teistsugust OLAP-kuubikut, kuna selleks on õigus ainult veebilehe arendajal (ja tema jaoks on olemas eraldi abifail, mis erineb oluliselt mõeldud kasutajale - see sisaldab eelkõige teavet selle komponendi objektimudeli kohta).

Pange tähele, et sarnase veebilehe saab luua ka Microsoft FrontPage'i abil. PivotTable-liigendtabeli loendi lisamiseks FrontPage'is loodud veebilehele valige menüükäsk Insert | Veebikomponent ja ilmuvas dialoogiboksis valige jaotisest Arvutustabelid ja diagrammid Office PivotTable.

Pärast seda, kui veebilehele ilmub PivotTable-liigendtabeli loendi komponent, klõpsake hüperteksti lingil, mis palub teil määrata andmeallika, ja seejärel valige pakutud loendist ODBC allikas (või kirjeldage seda, kui seda veel loendis pole; kuidas seda kirjeldati selle sarja eelmises artiklis). Andmeallikana saate kasutada kas serveripoolset OLAP-kuubikut või Exceli abil loodud kohalikku (nagu ka mis tahes ODBC-allika päringu tulemust, mis tagastab tavalise "lameda" andmestiku). Lõpuks saate vajadusel kuvada PivotTable-liigendtabeli väljaloendi dialoogiboksi ja teisaldada dimensioonide ja mõõtude nimed selle komponendi sobivatesse piirkondadesse.

Pange tähele, et dialoogiboksi Käsud ja suvandid Andmeallika leht on saadaval ainult kavandamise ajal (st FrontPage'is või kui PivotTable-liigendtabeli loendi komponenti kasutatakse mitte veebilehel, vaid Windowsi rakenduses, siis arenduses tööriist, millega see luuakse. Lisa). Teisisõnu, lõppkasutaja ei saa andmeallikat muuta, seda saab teha ainult arendaja.

Veebilehtede loomine PivotChartsi abil

Microsoft Office Web Components võimaldab teil koostada PivotChart-liigenddiagrammi ka PivotTable-liigendtabeli loendi komponendis kuvatavate andmete põhjal. Selleks kasutage juhtelementi ChartSpace, mis on samuti Microsoft Office'i veebikomponentidega kaasas. Selle veebilehele paigutamiseks valige FrontPage'i menüüst menüükäsk Lisa | Veebikomponent ja ilmuvas dialoogiboksis valige jaotisest Arvutustabelid ja diagrammid Office Chart.

Järgmine samm diagrammi loomisel on andmeallika valimine selle joonistamiseks. Meie puhul on selleks olemasolev PivotTable-liigendtabeli loendi komponent.

Tuleb märkida, et saadud pöördediagrammil on ligikaudu sama funktsionaalsus kui selle seeria eelmises artiklis käsitletud Exceli pöördediagrammil (näiteks võimaldab see komponent ka dimensioonide ja mõõtude nimesid hiirega erinevatesse piirkondadesse lohistada diagrammi ja valige dimensioonide kuvatavad liikmed) ning diagrammi ja PivotTable-liigendtabeli muudatused on sünkroonsed, täpselt nagu OLAP-i kuubiandmete kuvamisel Excelis.

OLAP-i kuubil põhineva pöördediagrammi saab koostada ka otse ChartSpace komponendi abil. Selleks peate veebilehe loomisel kirjeldama andmeallikat dialoogiboksis Käsud ja suvandid lehel Andmete üksikasjad.

Ja lõpuks veel üks viis pöördediagrammiga veebilehe loomiseks. See seisneb Exceli PivotCharti veebilehena salvestamises. Kuid sel juhul lisatakse loodava diagrammiga seotud PivotTable-liigendtabeli loendi komponent automaatselt samale lehele.

Nagu eespool mainitud, saab rakendustes kasutada ka PivotTable-liigendtabeli loendi ja diagrammiruumi komponente. Selleks on vaja arendustööriista, mis toetab ActiveX-juhtelementide kasutamist vormidel (näiteks Microsoft Visual Basic, Microsoft Visual C++, Borland Delphi, Borland C++Builder). Selliste rakenduste loomisest huvitatud arendajad võivad lugeda meie sellel teemal varem avaldatud artikleid (nt Microsoft Office'i komponentide kasutamine rakendustes.

TULEMUSED

Tabel 8.3a. Regressioonistatistika

Regressioonistatistika
Mitu R	0,998364
R-ruut	0,99673
Normaliseeritud R-ruut	0,996321
standardviga	0,42405
Tähelepanekud	10

Vaatame esmalt tabelis 8.3a toodud arvutuste ülemist osa, regressioonistatistikat.

Väärtus R-ruut, mida nimetatakse ka kindluse mõõduks, iseloomustab saadud regressioonisirge kvaliteeti. Seda kvaliteeti väljendab algandmete ja regressioonimudeli (arvutatud andmete) vastavuse määr. Kindluse mõõt on alati intervalli sees.

Enamasti jääb R-ruudu väärtus nende väärtuste vahele, mida nimetatakse äärmusteks, st. nulli ja ühe vahel.

Kui R-ruudu väärtus on ühele lähedane, tähendab see, et konstrueeritud mudel selgitab peaaegu kogu vastavate muutujate varieeruvuse. Ja vastupidi, nullilähedane R-ruudu väärtus tähendab konstrueeritud mudeli halba kvaliteeti.

Meie näites on kindluse mõõduks 0,99673, mis näitab regressioonijoone väga head sobivust algandmetega.

Mitu R- mitmikkorrelatsiooni koefitsient R - väljendab sõltumatute muutujate (X) ja sõltuva muutuja (Y) sõltuvusastet.

Mitu R võrdub määramiskoefitsiendi ruutjuurega, see väärtus võtab väärtusi vahemikus nullist üheni.

Lihtsa lineaarse regressioonianalüüsi korral on mitmekordne R võrdne Pearsoni korrelatsioonikoefitsiendiga. Tõepoolest, meie puhul on mitmekordne R võrdne eelmise näite Pearsoni korrelatsioonikoefitsiendiga (0, 998364).

Tabel 8.3b. Regressioonikoefitsiendid

	Koefitsiendid	standardviga	t-statistika
Y-ristmik	2,694545455	0,33176878	8,121757129
Muutuja X 1	2,305454545	0,04668634	49,38177965
* Esitatakse arvutuste kärbitud versioon

Vaatleme nüüd tabelis 8.3b esitatud arvutuste keskmist osa. Siin on antud regressioonikordaja b (2,305454545) ja nihe piki y-telge, s.o. konstant a (2,694545455).

Arvutuste põhjal saame regressioonivõrrandi kirjutada järgmiselt:

Y= x*2,305454545+2,694545455

Muutujate vahelise seose suund määratakse märkide (negatiivse või positiivse) alusel. regressioonikoefitsiendid(koefitsient b).

Kui märk kl regressioonikoefitsient- positiivne, sõltuva muutuja suhe sõltumatuga on positiivne. Meie puhul on regressioonikordaja märk positiivne, järelikult on ka seos positiivne.

Kui märk kl regressioonikoefitsient- negatiivne, sõltuva muutuja ja sõltumatu muutuja vaheline seos on negatiivne (pöördvõrdeline).

Tabelis 8.3c. esitatakse jääkide väljundi tulemused. Selleks, et need tulemused aruandesse ilmuksid, tuleb "Regressiooni" tööriista käivitamisel aktiveerida märkeruut "Jääkud".

JÄÄB VÄLJAVÕTE

Tabel 8.3c. Jäänused

Vaatlus	Ennustas Y	Jäänused	Standardsaldod
1	9,610909091	-0,610909091	-1,528044662
2	7,305454545	-0,305454545	-0,764022331
3	11,91636364	0,083636364	0,209196591
4	14,22181818	0,778181818	1,946437843
5	16,52727273	0,472727273	1,182415512
6	18,83272727	0,167272727	0,418393181
7	21,13818182	-0,138181818	-0,34562915
8	23,44363636	-0,043636364	-0,109146047
9	25,74909091	-0,149090909	-0,372915662
10	28,05454545	-0,254545455	-0,636685276

Aruande seda osa kasutades näeme iga punkti kõrvalekaldeid konstrueeritud regressioonijoonest. Suurim absoluutväärtus

Seostub inertsiga.

Inerts mõõdab.1

Koosinus**2 mõõt.1

kõrgemad juhid

nooremjuhid

kõrgemad töötajad

nooremad töötajad

Sekretärid