Grafiskās izpētes datu analīzes metodes. Statistikas rīki grafiskai izpētes datu analīzei. Aprakstošā statistika, grupējumi, pētnieciskā analīze Attiecību noteikumu pētnieciskās analīzes piemērs statistikā

Grafiskās izpētes datu analīzes metodes. Statistikas rīki grafiskai izpētes datu analīzei. Aprakstošā statistika, grupējumi, pētnieciskā analīze Attiecību noteikumu pētnieciskās analīzes piemērs statistikā

1. nodaļa

2. nodaļa. VIENKĀRŠS DATU KOPSAVILKUMS - SKAITLIS UN GRAFISKS

10. nodaļa. DIVVIRZIENU ANALĪZES IZMANTOŠANA

1. nodaļa

2. nodaļa. VIENKĀRŠS DATU KOPSAVILKUMS - SKAITLIS UN GRAFISKS

10. nodaļa. DIVVIRZIENU ANALĪZES IZMANTOŠANA

Populārākie saistītie raksti

30.05.2020 Dekors

Šī nodaļa turpina tēmu par tabulu veidošanu un analīzi. Mēs iesakām to pārskatīt un pēc tam sākt lasīt šo tekstu un STATISTIKA vingrinājumus.

Korespondences analīze (angļu valodā coirespondence analysis) ir pētnieciska analīzes metode, kas ļauj vizuāli un skaitliski izpētīt lielu izmēru nejaušības tabulu struktūru.

Korespondences analīze kā līdzeklis pilsētas mārketinga stratēģiju izstrādei, 3. starptautiskā konference par jaunākajiem sasniegumiem mazumtirdzniecības un pakalpojumu zinātnē, 22.–25. lpp., 1996. gada jūnijs, Telfs-Buchen (Osterreich) Werani, Thomas.

Metodes pielietojumi ir zināmi arheoloģijā, teksta analīzē, kur ir svarīgi izpētīt datu struktūras (skat. Greenacre, M. J., 1993, Correspondence Analysis in Practice, London: Academic Press).

Šeit ir daži papildu piemēri:

Pētījums sociālās grupas iedzīvotāju skaitu dažādos reģionos ar izdevumu pozīcijām katrai grupai.
Pētījumi par ANO balsošanas rezultātiem fundamentālajos jautājumos (1 - par, 0 - pret, 0,5 - atturējās, piemēram, 1967. gadā tika pētītas 127 valstis par 13 svarīgiem jautājumiem) liecina, ka saskaņā ar pirmo faktoru valstis ir skaidri sadalīts divās grupās: viena ar ASV centru, otra ar PSRS centru (pasaules bipolārs modelis). Citus faktorus var interpretēt kā izolacionismu, nebalsošanu utt.
Auto importa izpēte (auto marka - tabulas rinda, ražotājvalsts - kolonna).
Paleontoloģijā izmantoto tabulu izpēte, kad, pamatojoties uz dzīvnieku skeletu atšķirīgu daļu paraugu, tiek mēģināts tās klasificēt (piešķirt kādam no iespējamiem veidiem: zebra, zirgs utt.).
Teksta izpēte. Ir zināms šāds eksotisks piemērs: žurnāls New-Yorker lūdza valodniekiem identificēt skandalozas grāmatas par prezidenta vēlēšanu kampaņu anonīmo autoru. Ekspertiem tika piedāvāti 15 iespējamo autoru teksti un anonīma izdevuma teksts. Teksti tika attēloti ar tabulas rindām. Rindā i tika atzīmēta dotā vārda j biežums. Tādējādi tika iegūta neparedzētu gadījumu tabula. Skandalozā teksta visticamākais autors tika noteikts pēc korespondences analīzes metodes.

Korespondences analīzes izmantošana medicīnā ir saistīta ar kompleksu tabulu struktūras izpēti, kas satur indikatoru mainīgos, kas parāda konkrēta simptoma esamību vai neesamību pacientam. Šāda veida tabulām ir liela dimensija, un to struktūras izpēte ir nenozīmīgs uzdevums.

Sarežģītu objektu vizualizācijas uzdevumus var arī izpētīt vai vismaz pietuvoties ar korespondences analīzes palīdzību. Attēls ir daudzdimensionāla tabula, un uzdevums ir atrast plakni, kas ļauj pēc iespējas precīzāk reproducēt sākotnējo attēlu.

Metodes matemātiskais pamats. Atbilstības analīze balstās uz hī kvadrāta statistiku. Mēs varam teikt, ka šī ir jauna Pīrsona hī kvadrāta statistikas interpretācija.

Metode ir ļoti līdzīga faktoru analīze, tomēr, atšķirībā no tā, šeit tiek pētītas nejaušības tabulas, un daudzdimensiju tabulas reproducēšanas kvalitātes kritērijs zemākas dimensijas telpā ir hī kvadrāta statistikas vērtība. Neformāli par korespondences analīzi var runāt kā par kategorisko datu faktoru analīzi un uzskatīt to arī par dimensiju samazināšanas metodi.

Tātad sākotnējās tabulas rindas vai kolonnas ir attēlotas ar punktiem telpā, starp kuriem aprēķina hī kvadrāta attālumu (līdzīgi tam, kā tiek aprēķināta hī kvadrāta statistika, lai salīdzinātu novērotās un paredzamās frekvences).

Tālāk jums ir jāatrod maza izmēra telpa, parasti divdimensiju, kurā aprēķinātie attālumi ir minimāli izkropļoti, un šajā ziņā pēc iespējas precīzāk jāatveido sākotnējās tabulas struktūra, vienlaikus saglabājot attiecības starp pazīmēm (ja ir priekšstats par daudzdimensiju mērogošanas metodēm, jūs sajutīsiet pazīstamu melodiju).

Tātad, mēs sākam no parastās krusteniskās tabulas, tas ir, tabulas, kurā ir saistītas vairākas funkcijas (plašāku informāciju par krusteniskām tabulām skatiet sadaļā Tabulu veidošana un analīze).

Pieņemsim, ka ir dati par konkrēta uzņēmuma darbinieku smēķēšanas paradumiem. Līdzīgi dati ir pieejami failā Smoking.sta, kas iekļauts sistēmas STATISTICA standarta piemēru komplektā.

Šajā tabulā atribūts smēķēšana ir saistīts ar atribūta pozīciju:

Darbinieku grupa	(1) Nesmēķētāji	(2) Vieglie smēķētāji	(3) Vidēji smēķētāji	(4) Smagi smēķētāji	Kopā vienā rindā
(1) Augstākie vadītāji
(2) Jaunākie vadītāji
(3) Vecākais personāls
(4) Jaunākie darbinieki
(5) Sekretāri
Kopā kolonnā

Šī ir vienkārša divu ieeju krusteniskā tabula. Vispirms apskatīsim stīgas.

Var pieņemt, ka katras tabulas rindas pirmie 4 skaitļi (robežfrekvences, tas ir, pēdējā kolonna netiek ņemta vērā) ir rindas koordinātas 4-dimensiju telpā, kas nozīmē, ka mēs varam formāli aprēķināt hī kvadrāta attālumi starp šiem punktiem (tabulas rindām).

Ar noteiktām robežfrekvencēm šos punktus var attēlot telpā ar dimensiju 3 (brīvības pakāpju skaits ir 3).

Acīmredzot, jo mazāks attālums, jo lielāka līdzība starp grupām, un otrādi – jo lielāks attālums, jo lielāka atšķirība.

Tagad pieņemsim, ka var atrast zemākas dimensijas telpu, piemēram, dimensiju 2, lai attēlotu rindas punktus, kas saglabā visu vai, precīzāk, gandrīz visu atšķirīgo informāciju starp rindām.

Šī pieeja var nebūt efektīva tādām mazām tabulām kā iepriekš, taču tā ir noderīga lielām tabulām, piemēram, tām, kas atrodamas tirgus izpētē.

Piemēram, ja, izvēloties 15 alus, tiek fiksētas 100 respondentu vēlmes, tad korespondences analīzes rezultātā lidmašīnā var tikt pārstāvētas 15 šķirnes (punkti) (sk. pārdošanas analīzi zemāk). Analizējot punktu izvietojumu, jūs redzēsiet modeļus alus izvēlē, kas noderēs, veicot mārketinga kampaņu.

Korespondences analīzē tiek izmantots noteikts slengs.

Svars. Novērojumi tabulā tiek normalizēti: tiek aprēķinātas tabulas relatīvās frekvences, visu tabulas elementu summa kļūst vienāda ar 1 (katrs elements tiek dalīts ar kopējo novērojumu skaitu, šis piemērs pie 193). Tiek izveidots divdimensiju sadalījuma blīvuma analogs. Iegūtā standartizētā tabula parāda, kā masa tiek sadalīta pa tabulas šūnām vai telpas punktiem. Korespondences analīzes slengā summas, kas noteiktas rindu un kolonnu relatīvajā biežuma matricā, sauc attiecīgi par rindu un kolonnu masu.

Inerce. Inerce tiek definēta kā Pīrsona hī kvadrāta vērtība divu ievades tabulai, kas dalīta ar kopējo novērojumu skaitu. Šajā piemērā: kopējā inerce = 2/193 - 16,442.

Rindu un kolonnu inerce un profili. Ja tabulas rindas un kolonnas ir pilnīgi neatkarīgas (starp tām nav nekādas saistības - piemēram, smēķēšana nav atkarīga no pozīcijas), tad tabulas elementus var reproducēt, izmantojot rindu un kolonnu summas vai, terminoloģijā runājot atbilstības analīzes, izmantojot rindu un kolonnu profilus (ar robežfrekvenču izmantošanu (skatiet nodaļu Pīrsona Hī kvadrāta testa un Fišera precīzā testa tabulu veidošana un analīze).

Saskaņā ar labi zināmo hī kvadrāta formulu divu ievades tabulām, tabulas, kurā kolonnas un rindas ir neatkarīgas, paredzamās frekvences tiek aprēķinātas, reizinot atbilstošos kolonnu un rindu profilus un dalot rezultātu ar kopējo summu.

Jebkura novirze no paredzamajām vērtībām (saskaņā ar hipotēzi par mainīgo lielumu pilnīgu neatkarību starp rindām un kolonnām) veicinās hī kvadrāta statistiku.

Atbilstības analīzi var uzskatīt par hī kvadrāta statistikas sadalīšanu tā sastāvdaļās, lai atrastu mazāko izmēru telpu, kas var atspoguļot novirzes no paredzamajām vērtībām (skatiet tabulu zemāk).

Šeit ir tabulas ar paredzamajām frekvencēm, kas aprēķinātas saskaņā ar pazīmju neatkarības hipotēzi, un novērotajām frekvencēm, kā arī tabula ar šūnu ieguldījumiem hī kvadrātā:

Piemēram, tabulā redzams, ka nesmēķējošo jaunāko darbinieku skaits ir par aptuveni 10 mazāks nekā tas, kas būtu sagaidāms saskaņā ar neatkarības hipotēzi. Savukārt vecāka gadagājuma nesmēķētāju skaits ir par 9 vairāk, nekā varētu gaidīt saskaņā ar neatkarības hipotēzi utt.. Tomēr mēs vēlētos iegūt vispārēju priekšstatu.

Atbilstības analīzes mērķis ir apkopot šīs novirzes no sagaidāmajām frekvencēm nevis absolūtās, bet relatīvās vienībās.

Rindu un kolonnu analīze. Tabulas rindu vietā var aplūkot arī kolonnas un attēlot tās kā punktus mazākas dimensijas telpā, kas pēc iespējas precīzāk atveido tabulas kolonnu relatīvo biežumu līdzību (un attālumus). Varat vienlaikus attēlot kolonnas un rindas vienā un tajā pašā diagrammā, kas atspoguļo visu informāciju, kas atrodas divu ievades tabulā. Un šī iespēja ir visinteresantākā, jo tā ļauj jēgpilni analizēt rezultātus.

Rezultāti. Atbilstības analīzes rezultāti parasti tiek parādīti grafiku veidā, kā parādīts iepriekš, kā arī tabulu veidā, piemēram:

Mērījumu skaits	Inerces procents	Kumulatīvais procents	Chi kvadrāts

Paskaties uz šo tabulu. Kā atceraties, analīzes mērķis ir atrast zemākas dimensijas telpu, kas atjauno tabulu, savukārt kvalitātes kritērijs ir normalizētais hī kvadrāts jeb inerce. Redzams, ka, ja aplūkojamajā piemērā tiek izmantota viendimensionāla telpa, tas ir, viena ass, var izskaidrot 87,76% no tabulas inerces.

Divas dimensijas ļauj izskaidrot 99,51% inerces.

Rindas un kolonnas koordinātas. Apsveriet iegūtās koordinātas divdimensiju telpā.

Rindas nosaukums	Mainīt 1	Mainīt 2
augstākie vadītāji
jaunākie vadītāji
vecākais personāls
jaunākie darbinieki
Sekretāri

To var attēlot divdimensiju diagrammā.

Acīmredzama divdimensiju telpas priekšrocība ir tā, ka līnijas, kas attēlotas kā tuvu punkti, atrodas tuvu viena otrai arī relatīvās frekvencēs.

Ņemot vērā punktu novietojumu pa pirmo asi, var pamanīt, ka Sv. darbinieki un sekretāri ir samērā tuvu koordinātām. Ja pievēršam uzmanību relatīvo biežumu tabulas rindām (biežumi ir standartizēti tā, lai to summa katrai rindai būtu 100%), tad kļūst acīmredzama šo divu grupu līdzība smēķēšanas intensitātes ziņā.

Procenti par rindu:

	Smēķētāju kategorijas
Darbinieku grupa	(1) Nesmēķētāji	(2) Vieglie smēķētāji	(3) Vidēji smēķētāji	(4) Smagi smēķētāji	Kopā vienā rindā
(1) Augstākie vadītāji
(2) Jaunākie vadītāji
(3) Vecākais personāls
(4) Jaunākie darbinieki
(5) Sekretāri

Atbilstības analīzes galvenais mērķis ir interpretēt vektorus iegūtajā zemākās dimensijas telpā. Viens veids, kas var palīdzēt rezultātu interpretācijā, ir attēlot joslu diagrammu. Nākamajā tabulā parādītas kolonnu koordinātas:

	1. izmērs	2. dimensija
Nesmēķētāji
vieglie smēķētāji
Vidēji smēķētāji
Smagie smēķētāji

Var teikt, ka pirmā ass dod smēķēšanas intensitātes gradāciju. Tāpēc lielā līdzība starp augstākajiem vadītājiem un sekretāriem ir izskaidrojama ar to, ka šajās grupās ir liels nesmēķētāju skaits.

Koordinātu sistēmas metrika. Atsevišķos gadījumos ar terminu attālums apzīmē atšķirības starp relatīvās frekvenču matricas rindām un kolonnām, kuras, savukārt, atbilstības analīzes metožu izmantošanas rezultātā tika attēlotas zemākas dimensijas telpā.

Patiesībā attālumi, kas attēloti kā atbilstošās dimensijas koordinātas telpā, nav tikai Eiklīda attālumi, kas aprēķināti no kolonnu un rindu relatīvajām frekvencēm, bet gan daži svērtie attālumi.

Svara pielāgošanas procedūra ir sakārtota tā, ka zemākas dimensijas telpā metrika ir hī kvadrāta metrika, ja tiek salīdzināti rindu punkti un standartizēti rindu profili vai standartizēti rindu un kolonnu profili, vai tiek salīdzināti kolonnu punkti un tiek standartizēti kolonnu profili vai rindu un kolonnu profilu standartizācija.

Risinājuma kvalitātes novērtējums. Ir īpaša statistika, kas palīdz novērtēt iegūtā risinājuma kvalitāti. Visiem vai lielākajai daļai punktu jābūt pareizi attēlotiem, tas ir, attālumi starp tiem nedrīkst tikt izkropļoti korespondences analīzes procedūras rezultātā. Nākamajā tabulā parādīti statistikas aprēķināšanas rezultāti par pieejamajām rindu koordinātām, pamatojoties tikai uz iepriekšējā piemēra viendimensiju risinājumu (tas ir, tikai viena dimensija tika izmantota, lai rekonstruētu relatīvās frekvences matricas rindu profilus).

Koordinātas un ieguldījums līnijas inercē:

Koordinātas. Rezultātu tabulas pirmajā kolonnā ir koordinātas, kuru interpretācija, kā jau minēts, ir atkarīga no standartizācijas. Dimensiju var izvēlēties lietotājs (šajā piemērā mēs izvēlējāmies viendimensiju telpu), un katras dimensijas koordinātas tiek parādītas (tas ir, katrai asij tiek parādīta viena koordinātu kolonna).

Svars. Masa satur visu elementu summas katrai relatīvās frekvences matricas rindai (tas ir, matricai, kurā katrs elements satur atbilstošo masu, kā minēts iepriekš).

Ja opcija ir atlasīta kā standartizācijas metode Rindu profili vai opcija Rindu un kolonnu profili, kas ir iestatīts pēc noklusējuma, tad rindas koordinātas tiek aprēķinātas no rindas profila matricas. Citiem vārdiem sakot, koordinātas tiek aprēķinātas, pamatojoties uz kolonnā uzrādīto nosacīto varbūtību matricu Svars.

Kvalitāte. Kolonna Kvalitāte satur informāciju par atbilstošā līnijas punkta attēlojuma kvalitāti koordinātu sistēmā, ko nosaka izvēlētā dimensija. Attiecīgajā tabulā tika atlasīta tikai viena dimensija, tātad skaitļi kolonnā Kvalitāte ir rezultātu attēlojuma kvalitāte viendimensijas telpā. Redzams, ka augstākā līmeņa vadītājiem kvalitāte ir ļoti zema, bet augstākajiem un jaunākajiem darbiniekiem un sekretārēm augsta.

Vēlreiz ņemiet vērā, ka skaitļošanas izteiksmē atbilstības analīzes mērķis ir attēlot attālumus starp punktiem zemākas dimensijas telpā.

Ja izmanto maksimālo izmēru (vienāds ar minimālo rindu un kolonnu skaitu mīnus viens), visus attālumus var precīzi reproducēt.

Punkta kvalitāte ir definēta kā attāluma kvadrāta attiecība no dotā punkta līdz sākuma punktam izvēlētās dimensijas telpā pret attāluma kvadrātu līdz sākuma punktam, kas definēts maksimālās dimensijas telpā. (šajā gadījumā kā metrika tiek izvēlēta hī kvadrāta metrika, kā minēts iepriekš). Faktoranalīzē ir līdzīga vispārīguma koncepcija.

STATISTICA aprēķinātā kvalitāte ir neatkarīga no izvēlētās standartizācijas metodes un vienmēr izmanto noklusējuma standartizāciju (t.i., attāluma metrika ir hī kvadrāts, un kvalitātes mērauklu var interpretēt kā hī kvadrāta proporciju, kas noteikta atbilstošā rindā atbilstošās dimensijas telpa).

Zema kvalitāte nozīmē, ka pieejamais mērījumu skaits nepietiekami labi atspoguļo atbilstošo rindu (kolonnu).

Relatīvā inerce. Punkta kvalitāte (skat. iepriekš) atspoguļo noteiktā punkta ieguldījuma attiecību pret kopējo inerci (Hi kvadrātu), kas var izskaidrot izvēlēto dimensiju.

Kvalitāte neatbild uz jautājumu, cik daudz un cik lielā mērā attiecīgais punkts faktiski veicina inerci (hī kvadrāta vērtību).

Relatīvā inerce ir kopējās inerces daļa, kas pieder konkrētam punktam, un tā nav atkarīga no lietotāja izvēlētās dimensijas. Ņemiet vērā, ka konkrēts risinājums var diezgan labi attēlot punktu (augsta kvalitāte), bet tas pats punkts var dot ļoti nelielu ieguldījumu kopējā inercē (t.i., punkta līnijai, kuras elementi ir relatīvas frekvences, ir līdzības ar kādu līniju, elementi kas ir visu rindu vidējais rādītājs).

Relatīvā inerce katrai dimensijai.Šajā slejā ir ietverts attiecīgā līnijas punkta relatīvais ieguldījums inerces vērtībā attiecīgās dimensijas dēļ. Pārskatā šī vērtība ir norādīta katram punktam (rindai vai kolonnai) un katrai dimensijai.

Kosinuss**2 (kvalitāte vai kvadrātiskās korelācijas ar katru dimensiju).Šajā kolonnā ir norādīta katra punkta kvalitāte atbilstošās dimensijas dēļ. Ja rindu pēc rindas summējam kosinusa elementus ** 2 kolonnas katrai dimensijai, tad rezultātā iegūstam Kvalitātes vērtību kolonnu, kas jau tika minētas augstāk (tā kā aplūkojamajā piemērā tika izvēlēta dimensija 1, kosinuss 2 kolonna sakrīt ar sleju Kvalitāte). Šo vērtību var interpretēt kā "korelāciju" starp atbilstošo punktu un atbilstošo dimensiju. Termins kosinuss ** 2 radās, jo šī vērtība ir leņķa kosinusa kvadrāts, ko veido dots punkts un atbilstošā ass.

Papildu punkti. Papildu rindu vai kolonnu punktu iekļaušana, kas sākotnēji netika iekļauti analīzē, var palīdzēt interpretēt rezultātus. Ir iespējams iekļaut gan papildu rindas punktus, gan papildu kolonnas punktus. Varat arī parādīt papildu punktus kopā ar sākotnējiem punktiem tajā pašā diagrammā. Piemēram, apsveriet šādus rezultātus:

Darbinieku grupa	1. izmērs	2. dimensija
augstākie vadītāji
jaunākie vadītāji
vecākais personāls
jaunākie darbinieki
Sekretāri
Valsts vidējais rādītājs

Šajā tabulā ir parādītas koordinātas (divām dimensijām), kas aprēķinātas biežuma tabulai, kas sastāv no dažādu amatu darbinieku smēķēšanas atkarības pakāpes klasifikācijas.

Rindā Valsts vidējais ir norādītas papildu punkta koordinātas, kas ir vidējais līmenis (procentos), kas aprēķināts dažādām smēķētāju tautībām. Šajā piemērā tie ir tikai modeļa dati.

Ja veidojat darbinieku grupu un valsts vidējā divdimensiju diagrammu, nekavējoties pārliecinieties, vai šis papildu punkts un sekretāru grupa atrodas ļoti tuvu viens otram un atrodas vienā horizontālās koordinātu ass pusē ar kategoriju Non. -smēķētāji (kolonnas punkts). Citiem vārdiem sakot, sākotnējā biežuma tabulā parādītajā paraugā ir vairāk smēķētāju nekā vidēji valstī.

Lai gan to pašu secinājumu var izdarīt, aplūkojot sākotnējo krustenisko tabulu, lielākās tabulās šādi secinājumi, protams, nav tik acīmredzami.

Papildu punktu attēlojuma kvalitāte. Vēl viens interesants rezultāts attiecībā uz papildu punktiem ir kvalitātes, reprezentācijas interpretācija noteiktai dimensijai.

Atkal atbilstības analīzes mērķis ir attēlot attālumus starp rindu vai kolonnu koordinātām zemākas dimensijas telpā. Zinot, kā šī problēma tiek atrisināta, ir jāatbild uz jautājumu, vai ir adekvāti (attālumu izteiksmē līdz punktiem sākotnējā telpā) attēlot papildu punktu izvēlētās dimensijas telpā. Tālāk ir sniegta statistika par sākotnējiem punktiem un papildu punkta valsts vidējais rādītājs, kas piemērots problēmai 2D telpā.

Jaunākie vadītāji0.9998100.630578

Atgādiniet, ka punktu rindu vai kolonnu kvalitāte tiek definēta kā kvadrātā attāluma no punkta līdz sākuma punktam samazināta izmēra telpā pret attāluma kvadrātu no punkta līdz sākuma vietai sākotnējā telpā (kā metriska, kā jau minēts, ir izvēlēts hī kvadrāta attālums).

Noteiktā nozīmē kvalitāte ir kvantitāte, kas izskaidro attāluma kvadrāta daļu līdz sākotnējā punktu mākoņa smaguma centram.

Papildu līnijas punkts Valsts vidējais rādītājs ir 0,76. Tas nozīmē, ka dotais punkts ir diezgan labi attēlots divdimensiju telpā. Kosinusa**2 statistika ir atbilstošās punkta rindas attēlojuma kvalitāte, kas saistīta ar dotās dimensijas telpas izvēli (ja katrai dimensijas rindiņai summējam kosinusa 2 kolonnu elementus, tad kā rezultātā mēs nonāksim pie iepriekš iegūtās kvalitātes vērtības).

Rezultātu grafiskā analīze.Šī ir vissvarīgākā analīzes daļa. Būtībā var aizmirst par formāliem kvalitātes kritērijiem, bet jāvadās pēc dažiem vienkārši noteikumi lai saprastu grafikus.

Tātad grafikā tiek parādīti punkti-rindas un punkti-kolonnas. Laba forma ir parādīt gan tos, gan citus punktus (galu galā mēs analizējam tabulas rindu un kolonnu attiecības!).

Parasti horizontālā ass atbilst maksimālajai inercei. Blakus bultiņai ir parādīta kopējās inerces procentuālā daļa, ko izskaidro šī īpašvērtība. Bieži vien tiek norādītas arī atbilstošās īpašvērtības, kas ņemtas no rezultātu tabulas. Abu asu krustpunkts ir novēroto punktu smaguma centrs, kas atbilst vidējiem profiliem. Ja punkti pieder vienam un tam pašam tipam, tas ir, tie ir vai nu rindas, vai kolonnas, tad, jo mazāks attālums starp tiem, jo ciešāks savienojums. Lai izveidotu attiecības starp dažāda veida punktiem (starp rindām un kolonnām), ir jāapsver stūriem starp tām ar augšdaļu smaguma centrā.

Vispārējais noteikums atkarības pakāpes vizuālai novērtēšanai ir šāds.

Apsveriet 2 patvaļīgus dažāda veida punktus (tabulas rindas un kolonnas).
Savienosim tos ar līniju segmentiem ar smaguma centru (punkts ar koordinātām 0,0).
Ja iegūtais leņķis ir akūts, tad rinda un kolonna ir pozitīvi korelētas.
Ja iegūtais leņķis ir neass, tad korelācija starp mainīgajiem ir negatīva.
Ja leņķis ir pareizs, korelācijas nav.

Apsveriet konkrētu datu analīzi STATISTICA sistēmā.

1. piemērs (smēķētāju analīze)

1. darbība. Palaidiet moduli Korespondences analīze.

Moduļa palaišanas panelī ir 2 analīzes veidi: korespondences analīze un daudzfaktoru korespondences analīze.

Izvēlieties Korespondences analīze. Daudzfaktoru atbilstības analīze tiks aplūkota nākamajā piemērā.

2. darbība Mapē Piemēri atveriet datu failu smoking.sta.

Fails jau ir neparedzētu gadījumu tabula, tāpēc cilnes nav vajadzīgas. Atlasiet analīzes veidu — Biežums bez grupēšanas mainīgā.

3. darbība. Noklikšķiniet uz pogas Mainīgie lielumi ar frekvencēm un atlasiet analizējamos mainīgos.

Šajā piemērā atlasiet visus mainīgos.

4. darbība Klikšķis labi un palaidiet aprēķina procedūru. Ekrānā parādīsies logs ar rezultātiem.

5. darbība Apsveriet rezultātus, izmantojot šī loga opcijas.

Parasti vispirms tiek aplūkoti grafiki, kuriem ir pogu grupa Koordinātu diagramma.

Grafiki ir pieejami rindām un kolonnām, kā arī rindām un kolonnām vienlaikus.

Maksimālās vietas izmērs ir iestatīts opcijā Izmērs.

Interesantākā dimensija ir 2. Ņemiet vērā, ka diagrammā, it īpaši, ja ir daudz datu, etiķetes var pārklāties viena ar otru, tāpēc opcija Saīsiniet etiķetes.

Dialoglodziņā nospiediet trešo 2M pogu. Ekrānā parādīsies diagramma:

Ņemiet vērā, ka grafikā ir parādīti abi faktori: darbinieku grupa - rindas un smēķēšanas intensitāte - kolonnas.

Savienojiet ar līnijas segmentu kategoriju SENIOR EMPLOYEES, kā arī kategoriju NĒ ar smaguma centru.

Iegūtais leņķis būs ass, kas korespondences analīzes valodā runā par pozitīvas korelācijas esamību starp šīm pazīmēm (lai to redzētu, skatiet sākotnējo tabulu).

Rindu un kolonnu koordinātas var apskatīt arī skaitliski, izmantojot pogu Rindas un kolonnas koordinātas.

Izmantojot pogu Pašvērtības, jūs varat redzēt hī kvadrāta statistikas sadalījumu īpašvērtību izteiksmē.

Opcija Grafiks tikai atlasītie mērījumi ļauj skatīt punktu koordinātas pa izvēlētajām asīm.

Opciju grupa Skatīt tabulas loga labajā pusē ļauj apskatīt sākotnējo un paredzamo nejaušības tabulu, atšķirības starp frekvencēm un citus parametrus, kas aprēķināti saskaņā ar hipotēzi par tabulēto pazīmju neatkarību (skat. nodaļu Tabulu uzbūve un analīze, hī kvadrāta tests).

Lielas tabulas vislabāk izpētīt pakāpeniski, vajadzības gadījumā ieviešot papildu mainīgos. Tam tiek nodrošinātas šādas iespējas: Pievienot rindas punktus, Pievienot kolonnas punktus.

2. piemērs (pārdošanas analīze)

Nodaļā Tabulu analīze un veidošana tika apskatīts piemērs, kas saistīts ar pārdošanas analīzi. Piemērosim datiem korespondences analīzi.

Iepriekš tika atzīmēts, ka jautājums par to, kādus pirkumus veicis pircējs, ja iegādātas 3 preces, ir sarežģīts.

Patiešām, mums kopā ir 21 produkts. Lai skatītu visas ārkārtas situācijas tabulas, jāveic 21 × 20 × 19 = 7980 darbības. Darbību skaits katastrofāli palielinās, palielinoties preču un funkciju skaitam. Pielietosim korespondences analīzi. Atvērsim datu failu ar indikatora mainīgajiem, kas iezīmē iegādāto preci.

Moduļa palaišanas panelī atlasiet Daudzfaktoru atbilstības analīze.

Izvirzīsim nosacījumu novērojumu atlasei.

Šis nosacījums ļauj atlasīt pircējus, kuri veikuši tieši 3 pirkumus.

Tā kā mēs strādājam ar netabulētiem datiem, mēs izvēlēsimies analīzes veidu Sākotnējie dati(nepieciešama cilne).

Tālākā grafiskā attēlojuma ērtībai mēs izvēlamies nelielu skaitu mainīgo. Mēs arī atlasām papildu mainīgos (skatiet lodziņu zemāk).

Sāksim skaitļošanas procedūru.

Parādītajā logā Daudzfaktoru korespondences analīzes rezultāti paskatīsimies uz rezultātiem.

Izmantojot pogu 2M, tiek parādīts mainīgo lielumu divdimensiju grafiks.

Šajā grafikā papildu mainīgie ir atzīmēti ar sarkaniem punktiem, kas ir ērti vizuālai analīzei.

Ņemiet vērā, ka katram mainīgajam ir karodziņš 1, ja prece ir iegādāta, un karodziņš 0, ja prece nav iegādāta.

Apskatīsim diagrammu. Izvēlēsimies, piemēram, tuvus pazīmju pārus.

Rezultātā mēs iegūstam sekojošo:

Līdzīgus pētījumus var veikt arī citiem datiem, ja nav a priori hipotēžu par datu atkarībām.

Grāmatā, ko 1977. gadā sarakstījis pazīstams amerikāņu matemātiskais statistiķis, ir izklāstīti pētnieciskās datu analīzes pamati, t. novērojumu rezultātu primārā apstrāde, ko veic ar vienkāršākajiem līdzekļiem - zīmuli, papīru un slaidu. Izmantojot daudzus piemērus, autore parāda, kā novērojumu attēlošana vizuālā veidā, izmantojot diagrammas, tabulas un grafikus, atvieglo modeļu identificēšanu un metožu izvēli dziļākai statistiskai apstrādei. Prezentāciju pavada daudzi vingrinājumi, kas ietver bagātīgu prakses materiālu. Dzīva, tēlaina valoda atvieglo prezentētā materiāla izpratni.

Džons Tūkijs. Novērojumu rezultātu analīze. Izpētes analīze. – M.: Mir, 1981. – 696 lpp.

Lejupielādēt kopsavilkumu ( kopsavilkums) formātā vai , piemēri formātā

Piezīmes publicēšanas brīdī grāmata ir atrodama tikai lietotu grāmatu veikalos.

Autore statistisko analīzi iedala divos posmos: pētnieciskajā un apstiprinošajā. Pirmais posms ietver novērojumu datu transformāciju un veidus, kā tos vizualizēt, ļaujot identificēt iekšējos modeļus, kas parādās datos. Otrajā posmā tiek pielietotas tradicionālās statistikas metodes parametru novērtēšanai un hipotēžu pārbaudei. Šī grāmata ir par pētniecisko datu analīzi (apstiprinošai analīzei sk. ). Grāmatas lasīšanai nav nepieciešamas priekšzināšanas varbūtību teorijā un matemātiskajā statistikā.

Piezīme. Baguzins.Ņemot vērā grāmatas tapšanas gadu, autors koncentrējas uz datu vizualizāciju, izmantojot zīmuli, lineālu un papīru (dažreiz milimetru papīru). Manuprāt, šodien datu vizuālais attēlojums ir saistīts ar datoru. Tāpēc es mēģināju apvienot oriģinālas idejas autors un apstrāde programmā Excel. Mani komentāri ir ar atkāpi.

Diagramma ir visvērtīgākā, ja tā liek mums pamanīt lietas, kuras mēs nebijām gaidījuši. Ciparu attēlošana kāta un lapu veidā ļauj identificēt modeļus. Piemēram, par stublāja pamatni ņemot desmitniekus, uz stublāju 3 var attiecināt skaitli 35. Lapa būs vienāda ar 5. Skaitlim 108 kāts ir 10, lapa ir 8.

Kā piemēru es paņēmu 100 nejaušus skaitļus, kas sadalīti saskaņā ar parasto likumu ar vidējo 10 un standarta novirzi 3. Lai iegūtu šādus skaitļus, es izmantoju formulu =NORM.INV(RAND();10;3) ( 1. att.). Atveriet pievienoto Excel failu. Nospiežot taustiņu F9, tiks izveidota jauna nejaušu skaitļu sērija.

Rīsi. 1. 100 nejauši skaitļi

Var redzēt, ka skaitļi galvenokārt ir sadalīti diapazonā no 5 līdz 16. Tomēr ir grūti pamanīt kādu interesantu modeli. Stublāju un lapu gabals (2. attēls) parāda normālu sadalījumu. Par stumbru tika ņemti blakus esošo skaitļu pāri, piemēram, 4-5. Lapas atspoguļo vērtību skaitu šajā diapazonā. Mūsu piemērā ir 3 šādas vērtības.

Rīsi. 2. Grafs "stublājs un lapas"

Programmā Excel ir divas iespējas, kas ļauj ātri izpētīt frekvenču modeļus: funkcija FREQUENCY (3. att.; sīkāku informāciju skatiet) un rakurstabulas (4. att.; sīkāku informāciju skatiet sadaļā Skaitlisko lauku grupēšana).

Rīsi. 3. Analīze, izmantojot masīva FREQUENCY funkciju

Rīsi. 4. Analīze, izmantojot rakurstabulas

Atveidojums kāta formā ar lapām (biežuma attēlojums) ļauj identificēt šādas datu pazīmes:

sadalīšana grupās;
asimetrisks kritums līdz galiem - viena "aste" ir garāka par otru;
negaidīti "populāras" un "nepopulāras" nozīmes;
par kādu vērtību novērojumi ir "centrēti";
Cik liela ir datu izkliede.

Ciparu attēlojums kāta formā ar lapām ļauj uztvert parauga kopējo ainu. Mēs saskaramies ar uzdevumu iemācīties kodolīgā veidā izteikt visbiežāk sastopamo kopīgas iezīmes paraugi. Šim nolūkam tiek izmantoti datu kopsavilkumi. Tomēr, lai gan kopsavilkumi var būt ļoti noderīgi, tajos nav sniegta visa informācija par paraugu. Ja šo detaļu nav tik daudz, lai tās mulsinātu, vislabāk ir, ja mūsu acu priekšā ir visi dati, kas izvietoti mums nepārprotami ērtā veidā. Lielām datu kopām ir nepieciešami kopsavilkumi. Mēs neuzskatām un negaidām, ka tie aizstās visus datus. Protams, bieži ir tā, ka detaļu pievienošana dod maz, taču ir svarīgi apzināties, ka dažkārt detaļas dara daudz.

Ja, lai raksturotu paraugu kopumā, mums ir jāatlasa vairāki viegli atrodami skaitļi, tad, iespējams, mums būs nepieciešams:

galējās vērtības - lielākās un mazākās, kuras atzīmēsim ar simbolu "1" (pēc to ranga vai dziļuma);
kāda vidēja vērtība.

Mediāna= vidējā vērtība.

Sērijai, kas attēlota kā kāts ar lapām, vidējo vērtību var viegli atrast, skaitot no jebkura gala uz leju, galējai vērtībai piešķirot pakāpi "1". Tādējādi katra izlases vērtība iegūst savu rangs. Jūs varat sākt skaitīt no jebkura gala. Mēs izsauksim mazāko no abām šādi iegūtajām pakāpēm, kurām var piešķirt vienu un to pašu vērtību dziļums(5. att.). Galējās vērtības dziļums vienmēr ir 1.

Rīsi. 5. Dziļuma noteikšana, pamatojoties uz diviem ranžēšanas virzieniem

mediānas dziļums (vai rangs) = (1 + vērtību skaits)/2

Ja mēs vēlamies pievienot vēl divus skaitļus, lai izveidotu 5 skaitļu kopsavilkumu, tad ir dabiski tos definēt, saskaitot līdz pusei attāluma no katra gala līdz mediānai. Vidējās vērtības un pēc tam šo jauno vērtību atrašanas procesu var uzskatīt par papīra lapas locīšanu. Tāpēc ir dabiski šīs jaunās vērtības saukt krokas(tagad biežāk lietots termins kvartile).

Sakļautā 13 vērtību sērija var izskatīties šādi:

Pieci skaitļi, kas raksturo sēriju augošā secībā, būs: -3,2; 0,1; 1,5; 3,0; 9,8 - pa vienam katrā rindas locījuma punktā. Piecus skaitļus (galējības, krokas, mediāna), kas veido 5 skaitļu kopsavilkumu, mēs attēlosim šādas vienkāršas diagrammas veidā:

kur kreisajā pusē ir parādīts skaitļu skaits (apzīmēts ar #), mediānas dziļums (burts M), locījumu dziļums (burts C) un galējo vērtību dziļums (vienmēr 1 , nekas cits nav jāatzīmē).

Uz att. 8 parāda, kā grafiski parādīt 5 ciparu kopsavilkumu. Šāda veida grafiku sauc par kastīti ar ūsām.

Rīsi. 8. Shematiska diagramma vai ūsu kastīte

Diemžēl programma Excel parasti veido akciju diagrammas, pamatojoties tikai uz trim vai četrām vērtībām (9. attēls; skatiet, kā apiet šo ierobežojumu). Lai izveidotu 5 ciparu kopsavilkumu, varat izmantot R statistikas pakotni (10. attēls; skatiet sadaļu R grafikas pamatiespējas: izkliedes diagrammas, lai iegūtu sīkāku informāciju; ja neesat pazīstams ar R, varat sākt ar to). Funkcija boxplot() R, papildus 5 skaitļiem, atspoguļo arī izņēmumus (par tiem nedaudz vēlāk).

Rīsi. 9. Iespējamie akciju diagrammu veidi programmā Excel

Rīsi. 10. Boxplot in R; lai izveidotu šādu grafiku, pietiek izpildīt komandu boxplot (count ~ spray, data = InsectSprays), tiks ielādēti programmā saglabātie dati un tiks izveidots parādītais grafiks

Veidojot kastes un ūsu diagrammu, mēs pieturēsimies pie šādas vienkāršas shēmas:

"C-platums" = atšķirība starp divu kroku vērtībām;
"solis" - vērtība, kas ir pusotru reizi lielāka par C platumu;
"iekšējās barjeras" atrodas ārpus ielocēm viena soļa attālumā;
"ārējās barjeras" - no ārpuses soli tālāk par iekšējām;
vērtības starp iekšējām un blakus esošajām ārējām barjerām būs "ārējās";
vērtības, kas atrodas aiz ārējām barjerām, tiks sauktas par “atlēcieniem” (vai novirzēm);
"diapazons" = atšķirība starp galējām vērtībām.

Rīsi. 19. Kustīgās mediānas aprēķins: a) detalizēti attiecībā uz daļu datu; b) visam paraugam

Rīsi. 20.Gluda līkne

Ir pienācis laiks apsvērt divvirzienu analīzi gan tās svarīguma dēļ, gan tāpēc, ka tā ir ievads dažādām pētniecības metodēm. Divu faktoru tabulas ("atbildes" tabulas) centrā ir:

viens atbildes veids;
divi faktori – un katrs no tiem izpaužas katrā novērojumā.

Divfaktoru atlikuma tabula. Rindas un kolonnas analīze. Uz att. 21. attēlā parādīta mēneša vidējā temperatūra trīs vietās Arizonas štatā.

Rīsi. 21. Mēneša vidējā temperatūra trīs Arizonas pilsētās, °F

Noteiksim katras vietas mediānu un atņemsim to no individuālajām vērtībām (22. att.).

Rīsi. 22. Aptuvenās vērtības (mediānas) katrai pilsētai un atlikumiem

Tagad noteiksim katras rindas tuvinājumu (mediānu) un atņemsim to no rindas vērtībām (23. attēls).

Rīsi. 23. Aptuvenās vērtības (mediānas) katram mēnesim un atlikumiem

Att. 23 mēs ieviešam jēdzienu "efekts". Skaitlis -24,7 ir kolonnas efekts, un skaitlis 19,1 ir rindas efekts. Efekts parāda, kā faktors vai faktoru kopa izpaužas katrā no novērotajām vērtībām. Ja faktora topošā daļa ir lielāka par atlikušo, tad ir vieglāk redzēt un saprast, kas notiek ar datiem. Skaitlis, kas tika atņemts no visiem datiem bez izņēmuma (šeit 70,8), tiek saukts par "kopējo". Tā ir visu faktoru izpausme, kas ir kopīga visiem datiem. Tādējādi daudzumiem attēlā. 23 formula ir derīga:

Šis ir betona rindu-PLUS-kolonnu analīzes modelis. Mēs atgriežamies pie mūsu vecā trika, mēģinot atrast vienkāršu daļēju aprakstu - daļēju aprakstu, kas ir vieglāk saprotams - daļēju aprakstu, kuru atņemot, mēs varēsim dziļāk aplūkot to, kas vēl nav aprakstīts.

Ko mēs varam mācīties no pilnīgas divvirzienu analīzes? Lielākais atlikums, 1,9, ir mazs, salīdzinot ar viena punkta un mēneša ietekmes izmaiņu lielumu. Flagstaff ir aptuveni 25 °F vēsāks nekā Fīniksā, savukārt Jumā ir 5–6 °F siltāks nekā Fīniksā. Mēnešu iedarbības secība no mēneša uz mēnesi monotoni samazinās, sākumā lēnām, tad strauji, tad atkal lēnām. Tas ir līdzīgs simetrijai ap oktobri (šo modeli iepriekš novēroju dienas garuma piemērā; sk. Piezīme. Baguzina); Noņēmām abus plīvurus - gan sezonas efektu, gan vietas efektu. Pēc tam varējām redzēt diezgan daudz lietu, kas iepriekš bija palikušas nepamanītas.

Uz att. 24 ir dots divu faktoru diagramma. Lai gan šajā attēlā galvenais ir aptuvens rādītājs, mums nevajadzētu atstāt novārtā atlikumus. Četros punktos mēs novilkām īsas vertikālas līnijas. Šo domuzīmju garumi ir vienādi ar atbilstošo atlikumu vērtībām, tāpēc otro galu koordinātas nav tuvinātas vērtības, bet

Dati = tuvinājums PLUS atlikums.

Rīsi. 24.Divfaktoru diagramma

Ņemiet vērā arī to, ka šīs vai jebkuras citas divu faktoru diagrammas īpašība ir "mērogs tikai vienā virzienā", kas nosaka vertikālo izmēru, t.i. punktētas horizontālas līnijas, kas novilktas gar attēla malām, un jebkura izmēra trūkums horizontālā virzienā.

Par Excel līdzekļiem skatiet . Interesanti, ka dažas no šajā piezīmē izmantotajām formulām ir nosauktas Tukey vārdā.

Tālākais, manuprāt, kļuva diezgan sarežģīts...

Datu ieguve Frolovs Timofejs. BI-1102 datu ieguve ir liela informācijas apjoma (parasti ekonomiska rakstura) analītiskas izpētes process, lai noteiktu noteiktus modeļus un sistemātiskas attiecības starp mainīgajiem, ko pēc tam var izmantot jaunām datu kopām. Šis process ietver trīs galvenos soļus: izpēti, modeļa vai struktūras izveidi un tā testēšanu. Ideālā gadījumā, ja ir pietiekami daudz datu, var organizēt iteratīvu procedūru, lai izveidotu stabilu modeli. Tajā pašā laikā reālā situācijā ir praktiski neiespējami pārbaudīt ekonomisko modeli analīzes stadijā, un tāpēc sākotnējie rezultāti ir heiristikas raksturs, ko var izmantot lēmumu pieņemšanas procesā (piemēram, " pieejamie dati liecina, ka sievietēm miega zāļu lietošanas biežums pieaug līdz ar vecumu ātrāk nekā vīriešiem. Datu ieguves metodes kļūst arvien populārākas kā rīks ekonomiskās informācijas analīzei, īpaši gadījumos, kad tiek pieņemts, ka zināšanas var iegūt no esošajiem datiem lēmumu pieņemšanai nenoteiktības apstākļos. Lai gan pēdējā laikā pieaug interese par jaunu datu analīzes metožu izstrādi, kas īpaši izstrādātas biznesa sektoram (piemēram, klasifikācijas koki), kopumā datu ieguves sistēmas joprojām balstās uz klasiskajiem izpētes datu analīzes (EDA) un modeļu veidošanas principiem. un izmantot tās pašas pieejas un metodes. Tomēr pastāv būtiska atšķirība starp datu ieguves procedūru un klasisko pētniecisko datu analīzi (RAD): datu ieguves sistēmas ir vairāk vērstas uz iegūto rezultātu praktisko pielietojumu, nevis uz parādības būtības noskaidrošanu. Citiem vārdiem sakot, izmantojot datu ieguvi, mūs īpaši neinteresē konkrēta veida atkarības starp uzdevuma mainīgajiem. Šeit iesaistīto funkciju būtības vai mainīgo interaktīvo daudzfaktoru atkarību īpašās formas noskaidrošana nav šīs procedūras galvenais mērķis. Galvenā uzmanība tiek pievērsta risinājumu meklēšanai, uz kuru pamata būtu iespējams veidot ticamas prognozes. Tādējādi datu ieguves jomā tiek pieņemta šāda pieeja datu analīzei un zināšanu ieguvei, ko dažkārt raksturo vārdi "melnā kaste". Šajā gadījumā tiek izmantotas ne tikai klasiskās izpētes datu analīzes metodes, bet arī tādas metodes kā neironu tīkli, kas ļauj veidot uzticamas prognozes, nenorādot, uz kādiem konkrētiem atkarību veidiem šāda prognoze ir balstīta. Ļoti bieži datu ieguve tiek interpretēta kā "statistikas, mākslīgā intelekta (AI) metožu un datu bāzes analīzes sajaukums" (Pregibon, 1997, 8. lpp.), un vēl nesen tā netika atzīta par pilntiesīgu statistiķu interese un dažkārt pat saukta par "statistikas pagalmu" (Pregibon, 1997, 8. lpp.). Taču, ņemot vērā tās lielo praktisko nozīmi, šī problēma šobrīd tiek intensīvi attīstīta un izraisa lielu interesi (t.sk. tās statistiskajos aspektos), un tajā ir sasniegti nozīmīgi teorētiski rezultāti (sk., piemēram, ikgadējās Starptautiskās konferences materiālus par zināšanu meklēšanu un datu ieguvi (International Conferences on Knowledge Discovery and Data Mining), kuras viens no organizatoriem 1997. gadā bija Amerikas Statistikas asociācija). datu noliktava ir vieta, kur tiek glabātas lielas daudzdimensionālas datu kopas, kas ļauj ērti izgūt un izmantot informāciju analīzes procedūrās. Efektīva datu noliktavas arhitektūra ir jāorganizē tā, lai tā būtu tās neatņemama sastāvdaļa informācijas sistēma uzņēmuma vadība (vai vismaz jābūt saistītai ar visiem pieejamajiem datiem). Šajā gadījumā ir nepieciešams izmantot īpašas tehnoloģijas darbam ar korporatīvajām datu bāzēm (piemēram, Oracle, Sybase, MS SQL Server). StatSoft uzņēmuma sistēmas izstrādāja augstas veiktspējas datu noliktavas tehnoloģiju, kas lietotājiem ļauj organizēt un efektīvi izmantot gandrīz neierobežotas sarežģītības uzņēmuma datu bāzi, un to sauc par SENS un SEWSS. Termins OLAP (vai FASMI — izplatītās daudzdimensiju informācijas ātrā analīze) attiecas uz metodēm, kas ļauj daudzdimensiju datu bāzu lietotājiem ģenerēt reāllaika aprakstošus un salīdzinošus datu kopsavilkumus ("skatījumus") un iegūt atbildes uz dažādiem citiem analītiskajiem vaicājumiem. Ņemiet vērā, ka, neskatoties uz tās nosaukumu, šī metode neietver interaktīvu (reāllaika) datu apstrādi; tas nozīmē daudzdimensiju datu bāzu parsēšanas procesu (kurās jo īpaši var būt dinamiski atjaunināta informācija), apkopojot efektīvus "daudzdimensiju" vaicājumus par dažāda veida datiem. OLAP rīkus var iegult korporatīvās (uzņēmuma) datu bāzu sistēmās, un tie ļauj analītiķiem un vadītājiem uzraudzīt sava biznesa vai tirgus kopumā progresu un sniegumu (piemēram, dažādus ražošanas procesa aspektus vai datu bāzu skaitu un kategorijas). darījumiem, kas veikti dažādos reģionos). Analīze, ko veic ar OLAP metodēm, var būt no vienkāršas (piemēram, biežuma tabulas, aprakstoša statistika, vienkāršas tabulas) līdz diezgan sarežģītai (piem., tā var ietvert sezonālo korekciju, novirzes noņemšanu un citu datu tīrīšanu). Lai gan datu ieguves metodes var izmantot jebkurai informācijai, nevis iepriekš apstrādātai un pat nestrukturētai informācijai, tās var izmantot arī OLAP rīku saņemto datu un pārskatu analīzei, lai veiktu padziļinātu izpēti, parasti lielākās dimensijās. Šajā ziņā datu ieguves metodes var uzskatīt par alternatīvu analītisko pieeju (kas kalpo citiem mērķiem, nevis OLAP) vai kā OLAP sistēmu analītisko paplašinājumu. RAD un hipotēžu pārbaude Atšķirībā no tradicionālās hipotēžu pārbaudes, kas paredzēta, lai pārbaudītu iepriekšējos pieņēmumus par saistību starp mainīgajiem (piemēram, "Pastāv pozitīva korelācija starp personas vecumu un viņa/viņas izvairīšanos no riska"), tiek izmantota izpētes datu analīze (EPA). atrast asociācijas.starp mainīgajiem situācijās, kad nav (vai nav pietiekami) a priori priekšstatu par šo attiecību būtību. Parasti pētnieciskajā analīzē tiek ņemts vērā un salīdzināts liels skaits mainīgo, un modeļu atrašanai tiek izmantotas dažādas metodes. RAD skaitļošanas metodes Izpētes datu analīzes skaitļošanas metodes ietver statistikas pamatmetodes, kā arī sarežģītākas, īpaši izstrādātas daudzfaktoru analīzes metodes, kas paredzētas daudzfaktoru datu modeļu atrašanai. Pētnieciskās statistiskās analīzes pamatmetodes. Galvenās pētnieciskās statistiskās analīzes metodes ietver mainīgo sadalījumu analīzes procedūru (piemēram, lai identificētu mainīgos ar asimetrisku vai ne-Gausa sadalījumu, ieskaitot bimodālos), korelācijas matricu apskati, lai atrastu koeficientus, kas pārsniedz noteiktas sliekšņa vērtības. (skatiet iepriekšējo piemēru) vai vairāku ieeju frekvenču tabulu analīze (piemēram, vadības mainīgo līmeņu kombināciju "slāņveida" secīga apskate). Daudzdimensiju pētnieciskās analīzes metodes. Daudzfaktoru izpētes analīzes metodes ir īpaši izstrādātas, lai atrastu modeļus daudzfaktoru datos (vai vienfaktoru datu secībās). Tie ietver: klasteru analīze, faktoru analīze, liskriminantu funkciju analīze, daudzfaktoru mērogošana, log-lineārā analīze, kanoniskās korelācijas, pakāpeniskā lineārā un nelineārā (piemēram, logit) regresija, korespondences analīze, laikrindu analīze. Neironu tīkli. Šī analītisko metožu klase ir balstīta uz domu par domājošo būtņu mācīšanās procesu (kā tie šķiet pētniekiem) un nervu šūnu funkciju reproducēšanu. Neironu tīkli var paredzēt mainīgo nākotnes vērtības no tā paša vai citu mainīgo jau esošajām vērtībām, iepriekš veicot tā saukto mācību procesu, pamatojoties uz pieejamajiem datiem. Datu iepriekšēja pārbaude var kalpot tikai kā pirmais solis datu analīzes procesā, un, kamēr rezultāti nav pārbaudīti (ar savstarpējās validācijas metodēm) citās datu bāzes daļās vai neatkarīgā datu kopā, tos var veikt. kā hipotēzi. Ja pētnieciskās analīzes rezultāti ir par labu modelim, tad tā pareizību var pārbaudīt, piemērojot to jauniem datiem un nosakot tā atbilstības pakāpi datiem (pārbaudot "paredzamību"). Lai ātri atlasītu dažādas datu apakškopas (piemēram, tīrīšanai, pārbaudei utt.) un novērtētu rezultātu ticamību, ir ērti izmantot novērojumu atlases nosacījumus.

Jēdziens "datu ieguve" ir definēts kā liela informācijas apjoma (parasti ekonomiska rakstura) analītiskas izpētes process, lai noteiktu noteiktus modeļus un sistemātiskas attiecības starp mainīgajiem lielumiem, ko pēc tam var piemērot jaunām datu kopām. Šis process ietver trīs galvenos soļus: izpēti, modeļa vai struktūras izveidi un tā testēšanu. Ideālā gadījumā ar pietiekamiem datiem var organizēt iteratīvu procedūru, lai izveidotu stabilu (noturīgu) modeli. Tajā pašā laikā reālā situācijā ir gandrīz neiespējami pārbaudīt ekonomisko modeli analīzes stadijā, un tāpēc sākotnējie rezultāti ir heiristikas raksturs, ko var izmantot lēmumu pieņemšanas procesā (piemēram, "Pieejams pierādījumi liecina, ka sievietēm miegazāles lietošanas biežums pieaug līdz ar vecumu ātrāk nekā vīriešiem.

Datu ieguves metodes kļūst arvien populārākas kā rīks ekonomiskās informācijas analīzei, jo īpaši, ja tiek pieņemts, ka zināšanas var iegūt no esošajiem datiem lēmumu pieņemšanai nenoteiktības apstākļos. Lai gan pēdējā laikā ir pieaugusi interese par jaunu datu analīzes metožu izstrādi, kas īpaši paredzētas biznesam (piemēram, Klasifikācijas koki), kopumā datu ieguves sistēmas joprojām balstās uz klasiskajiem principiem izpētes datu analīze(RAD) un modeļu veidošanā un izmanto tās pašas pieejas un metodes.

Tomēr pastāv būtiska atšķirība starp datu ieguves procedūru un klasisko pētniecisko datu analīzi (EDA): datu ieguves sistēmas ir vairāk vērstas uz iegūto rezultātu praktisko pielietojumu, nevis uz parādības būtības noskaidrošanu. Citiem vārdiem sakot, iegūstot datus, mūs īpaši neinteresē konkrēta veida atkarības starp uzdevuma mainīgajiem. Šeit iesaistīto funkciju būtības vai mainīgo interaktīvo daudzfaktoru atkarību īpašās formas noskaidrošana nav šīs procedūras galvenais mērķis. Galvenā uzmanība tiek pievērsta risinājumu meklēšanai, uz kuru pamata būtu iespējams veidot ticamas prognozes. Tādējādi datu ieguves jomā tiek pieņemta pieeja datu analīzei un zināšanu ieguvei, ko dažkārt raksturo vārdi "melnā kaste". Šajā gadījumā tiek izmantotas ne tikai klasiskās izpētes datu analīzes metodes, bet arī tādas metodes kā neironu tīkli, kas ļauj veidot uzticamas prognozes, nenorādot, uz kādiem konkrētiem atkarību veidiem šāda prognoze ir balstīta.

Ļoti bieži datu ieguve tiek interpretēta kā "statistikas, mākslīgā intelekta (AI) metožu un datu bāzes analīzes sajaukums" (Pregibon, 1997, 8. lpp.), un vēl nesen tā netika atzīta par pilnvērtīgu interešu jomu. statistiķiem un dažreiz pat tiek saukta par "statistikas pagalmu" (Pregibon, 1997, 8. lpp.). Taču, pateicoties savai lielajai praktiskajai nozīmei, šī problēma šobrīd tiek intensīvi attīstīta un izraisa lielu interesi (t.sk. tās statistiskajos aspektos), un tajā ir sasniegti nozīmīgi teorētiski rezultāti.

Izpētes datu analīze (EDA)

Atšķirībā no tradicionālās hipotēžu pārbaudes, kas paredzēta, lai pārbaudītu iepriekšējos pieņēmumus par saistību starp mainīgajiem (piemēram, "Pastāv pozitīva korelācija starp personas vecumu un viņa/viņas izvairīšanos no riska"), izpētes datu analīze (EDA) tiek izmantota, lai atrastu saistību starp mainīgie situācijās, kad nav (vai nav pietiekami) a priori priekšstatu par šo savienojumu būtību. Parasti pētnieciskajā analīzē tiek ņemts vērā un salīdzināts liels skaits mainīgo, un modeļu atrašanai tiek izmantotas dažādas metodes.

Daudzfaktoru izpētes analīzes metodes ir īpaši izstrādātas, lai atrastu modeļus daudzfaktoru datos (vai vienfaktoru datu secībās). Tie ietver: klasteru analīzi, faktoru analīzi, diskriminējošu funkciju analīzi, daudzfaktoru mērogošanu, log-lineāro analīzi, kanoniskās korelācijas, pakāpenisku lineāru un nelineāru (piemēram, logit) regresiju, atbilstības analīzi, laikrindu analīzi un klasifikācijas kokus.

klasteru analīze

Termins klasteru analīze (pirmo reizi ieviesa Tryon, 1939) faktiski ietver dažādu klasifikācijas algoritmu kopumu. Vispārīgs jautājums, ko jautā daudzu jomu pētnieki, ir tas, kā organizēt novērotos datus vizuālās struktūrās, t.i. paplašināt taksonomijas. Piemēram, biologu mērķis ir sadalīt dzīvniekus dažādās sugās, lai jēgpilni aprakstītu atšķirības starp tiem. Saskaņā ar mūsdienu bioloģijā pieņemto sistēmu cilvēks pieder primātiem, zīdītājiem, amniotiem, mugurkaulniekiem un dzīvniekiem. Ņemiet vērā, ka šajā klasifikācijā, jo augstāks ir apkopošanas līmenis, jo mazāka līdzība starp dalībniekiem attiecīgajā klasē. Cilvēkam ir vairāk līdzību ar citiem primātiem (t.i., pērtiķiem) nekā ar "tāliem" zīdītāju dzimtas pārstāvjiem (t.i., suņiem) un tā tālāk.

Klasterizācijas tehnika tiek izmantota ļoti dažādās jomās. Hartigan (1975) ir sniedzis lielisku pārskatu par daudzajiem publicētajiem pētījumiem, kas satur rezultātus, kas iegūti ar klasteru analīzes metodēm. Piemēram, medicīnas jomā slimību grupēšana, slimību ārstēšana vai slimību simptomi noved pie plaši izmantotām taksonomijām. Psihiatrijas jomā veiksmīgai terapijai izšķiroša nozīme ir simptomu kopu, piemēram, paranojas, šizofrēnijas utt., pareizai diagnostikai. Arheoloģijā, izmantojot klasteru analīzi, pētnieki mēģina noteikt akmens instrumentu, bēru priekšmetu u.c. taksonomijas. Ir plaši klasteru analīzes pielietojumi mārketinga pētījumos. Kopumā vienmēr, kad nepieciešams klasificēt informācijas "kalnus" tālākai apstrādei piemērotās grupās, klasteru analīze izrādās ļoti noderīga un efektīva.

Vispārējās klasteru analīzes metodes:

savienība (koku grupēšana),

divvirzienu savienība

K nozīmē metodi.

Galvenās sastāvdaļas un faktoru analīze

Faktoranalīzes galvenie mērķi ir:

mainīgo lielumu skaita samazināšana (datu samazināšana)

attiecību struktūras noteikšana starp mainīgajiem, t.i. mainīgo lielumu klasifikācija.

Tāpēc faktoru analīzi izmanto vai nu kā datu samazināšanas metodi, vai kā klasifikācijas metodi.

Faktoranalīze kā datu samazināšanas metode

Pieņemsim, ka veicat (nedaudz "stulbu") pētījumu, kurā mēra simts cilvēku augumu collās un centimetros. Tādējādi jums ir divi mainīgie. Ja vēlaties sīkāk izpētīt, piemēram, dažādu uztura bagātinātāju ietekmi uz augumu, vai turpinātu izmantot abus mainīgos? Droši vien nē, jo augums ir viena cilvēka īpašība neatkarīgi no tā, kādās mērvienībās tas tiek mērīts.

Tagad pieņemsim, ka vēlaties izmērīt cilvēku apmierinātību ar dzīvi, kam jūs sastādat anketu ar dažādiem priekšmetiem; cita starpā jūs uzdodat šādu jautājumu: vai cilvēki ir apmierināti ar savu hobiju (1. punkts) un cik intensīvi viņi ar to nodarbojas (2. punkts). Rezultāti tiek konvertēti tā, lai vidējās atbildes (piemēram, lai apmierinātu) atbilstu vērtībai 100, savukārt zem un virs vidējās atbildes ir mazākas un lielas vērtības, attiecīgi. Divi mainīgie (atbildes uz diviem dažādiem jautājumiem) ir savstarpēji korelēti.No šo divu mainīgo lielās korelācijas varam secināt, ka abi anketas vienumi ir lieki.

Laika rindu analīze

Vispirms dosim īss apskats metodes datu analīzei, kas sniegtas laikrindu veidā, t.i. mērījumu secību veidā, kas sakārtotas negadījuma laika punktos. Atšķirībā no nejaušās izlases analīzes, laikrindu analīze balstās uz pieņēmumu, ka secīgas vērtības datu failā tiek novērotas ar regulāriem intervāliem (turpretim citās metodēs mums ir vienalga un bieži vien nav svarīgi par novērojumu laiku).

Ir divi galvenie laikrindu analīzes mērķi:

sērijas rakstura noteikšana

prognozēšana (laikrindas nākotnes vērtību prognozēšana, pamatojoties uz pašreizējām un pagātnes vērtībām).

Abiem šiem mērķiem ir nepieciešams, lai sērijas modelis tiktu identificēts un vairāk vai mazāk oficiāli aprakstīts. Kad modelis ir definēts, varat to izmantot, lai interpretētu attiecīgos datus (piemēram, izmantojiet to savā teorijā, lai izprastu preču cenu sezonālās izmaiņas, ja esat ekonomikas students). Ignorējot izpratnes dziļumu un teorijas pamatotību, pēc tam varat ekstrapolēt sēriju, pamatojoties uz atrasto modeli, t.i. prognozēt tās nākotnes vērtības.

Tāpat kā lielākā daļa citu analīzes veidu, laikrindu analīze pieņem, ka datos ir sistemātisks komponents (parasti ietver vairākus komponentus) un nejaušs troksnis (kļūda), kas apgrūtina regulāru komponentu noteikšanu. Lielākā daļa laikrindu izpētes metožu ietver dažādas trokšņu filtrēšanas metodes, kas ļauj skaidrāk redzēt parasto komponentu.

Lielākā daļa laika rindas parasto komponentu pieder pie divām klasēm: tās ir vai nu tendence, vai sezonas komponents. Tendence ir vispārējs sistemātisks lineārs vai nelineārs komponents, kas laika gaitā var mainīties. Sezonas komponents ir periodiski atkārtojošs komponents. Abi šie parasto komponentu veidi bieži vien ir sērijā vienlaikus. Piemēram, uzņēmuma pārdošanas apjomi var pieaugt gadu no gada, taču tie satur arī sezonālu komponentu (parasti 25% no gada pārdošanas apjoma notiek decembrī un tikai 4% augustā).

8. LEKCIJAZINĀŠU SISTĒMAS. EKSPERTU SISTĒMAS.

Ekspertu sistēmu iecelšana

80. gadu sākumā mākslīgā intelekta pētījumos izveidojās neatkarīgs virziens, ko sauca par "ekspertu sistēmām" (ES). ES pētījumu mērķis ir izstrādāt programmas, kas, risinot cilvēku ekspertam sarežģītas problēmas, iegūst rezultātus, kas pēc kvalitātes un efektivitātes nav zemāki par eksperta iegūtajiem risinājumiem. Pētnieki ES jomā savas disciplīnas nosaukumā bieži lieto arī terminu "zināšanu inženierija", ko ieviesa E. Feigenbaums kā "mākslīgā intelekta jomas pētniecības principu un instrumentu ienesšanu sarežģītu lietišķu problēmu risināšanā, kurām nepieciešams eksperts". zināšanas."

Pasaulē plaši izplatīti ir programmatūras rīki (PS), kuru pamatā ir ekspertu sistēmu tehnoloģija jeb zināšanu inženierija (tos turpmāk izmantosim kā sinonīmus). Ekspertu sistēmu nozīme ir šāda:

ekspertu sistēmu tehnoloģija būtiski paplašina datoros risināmo praktiski nozīmīgu uzdevumu loku, kuru risināšana nes ievērojamu ekonomisko efektu;

ES tehnoloģija ir svarīgākais instruments tradicionālās programmēšanas globālo problēmu risināšanā: sarežģītu lietojumprogrammu izstrādes ilgums un līdz ar to augstās izmaksas;

sarežģītu sistēmu uzturēšanas augstās izmaksas, kas bieži vien vairākas reizes pārsniedz to izstrādes izmaksas; zems programmas atkārtotas izmantošanas līmenis utt.;

ES tehnoloģijas kombinācija ar tradicionālo programmēšanas tehnoloģiju piešķir programmatūras produktiem jaunas kvalitātes, jo: nodrošina dinamisku lietojumprogrammu modifikāciju, ko veic lietotājs, nevis programmētājs; lielāka lietojumprogrammas "caurspīdīgums" (piemēram, zināšanas tiek glabātas ierobežotā NL, kas neprasa komentārus par zināšanām, vienkāršo apmācību un uzturēšanu); labāka grafika; saskarne un mijiedarbība.

Pēc vadošo ekspertu domām, tuvākajā nākotnē ES atradīs šādas lietojumprogrammas:

EK būs vadošā loma visos projektēšanas, izstrādes, ražošanas, izplatīšanas, pārdošanas, atbalsta un pakalpojumu sniegšanas posmos;

ES tehnoloģija, kas ir saņēmusi komerciālu izplatīšanu, nodrošinās revolucionāru izrāvienu lietojumprogrammu integrācijā no gataviem inteliģenti mijiedarbīgiem moduļiem.

ES ir paredzēti tā sauktajiem neformalizētajiem uzdevumiem, t.i. EK nenoraida un neaizstāj tradicionālo pieeju programmu izstrādei, kas vērsta uz formalizētu problēmu risināšanu.

Neformalizētiem uzdevumiem parasti ir šādas funkcijas:

avota datu maldīgums, neskaidrība, nepilnīgums un nekonsekvence;

maldīgums, neskaidrība, nepilnīgums un zināšanu nekonsekvence par problēmzonu un risināmo problēmu;

liela risinājuma telpas dimensija, t.i. risinājuma meklējumi ir ļoti lieli;

dinamiski mainīgi dati un zināšanas.

Jāuzsver, ka neformalizētas problēmas pārstāv lielu un ļoti svarīgu problēmu klasi. Daudzi eksperti uzskata, ka šīs problēmas ir visizplatītākā datoru problēmu klase.

Ekspertu sistēmas un mākslīgā intelekta sistēmas atšķiras no datu apstrādes sistēmām ar to, ka tās galvenokārt izmanto simbolisku (nevis skaitlisku) attēlojumu, simbolisku secinājumu izdarīšanu un heiristisku risinājuma meklēšanu (nevis zināma algoritma izpildi).

Ekspertu sistēmas tiek izmantotas tikai sarežģītu praktisku (nevis rotaļlietu) problēmu risināšanai. Risinājuma kvalitātes un efektivitātes ziņā ekspertu sistēmas nav zemākas par cilvēku eksperta risinājumiem. Ekspertu sistēmu risinājumiem ir "caurspīdīgums", t.i. var izskaidrot lietotājam kvalitatīvā līmenī. Šo ekspertu sistēmu kvalitāti nodrošina viņu spēja pamatot savas zināšanas un secinājumus. Ekspertu sistēmas spēj papildināt savas zināšanas mijiedarbības laikā ar ekspertu. Jāpiebilst, ka šobrīd ekspertu sistēmu tehnoloģija tiek izmantota dažāda veida problēmu risināšanai (interpretācija, prognozēšana, diagnostika, plānošana, projektēšana, kontrole, atkļūdošana, instrukcija, vadība) visdažādākajās problēmsfērās, piemēram, finansēs. , naftas un gāzes rūpniecība , enerģētika, transports, farmācijas ražošana, kosmoss, metalurģija, kalnrūpniecība, ķīmija, izglītība, celulozes un papīra rūpniecība, telekomunikācijas un sakari utt.

Komerciālie panākumi uzņēmumiem, kas izstrādā mākslīgā intelekta sistēmas (AI), nenāca uzreiz. Laikā no 1960. līdz 1985. gadam. AI sasniegumi galvenokārt ir saistīti ar pētniecības attīstību, kas ir pierādījusi AGI piemērotību praktiskai lietošanai. Sākot ar 1985. gadu (masveida mērogā no 1988. līdz 1990. gadam), pirmkārt, ES un pēdējos gados sistēmas, kas uztver dabisko valodu (NL-sistēmas) un neironu tīklus (NN), tiek aktīvi izmantotas komerciālos lietojumos.

Jāatzīmē, ka daži eksperti (parasti programmēšanas, nevis AI speciālisti) turpina apgalvot, ka ES un AIS neattaisnoja viņu cerības un nomira. Iemesli šādiem maldīgiem priekšstatiem ir tādi, ka šie autori uzskatīja ES par alternatīvu tradicionālajai programmēšanai, t.i. tie balstījās uz to, ka ES viena pati (atšķirībā no citiem programmatūras rīkiem) pilnībā atrisina klienta uzdevumus. Jāatzīmē, ka ES rašanās rītausmā tajās izmantoto valodu specifika, lietojumprogrammu izstrādes tehnoloģija un izmantotais aprīkojums (piemēram, Lisp-machines) ļāva uzskatīt, ka integrācija ES ar tradicionālajām programmatūras sistēmām ir sarežģīts un, iespējams, neiespējams uzdevums reālu lietojumprogrammu noteikto ierobežojumu apstākļos. Taču šobrīd komerciālie rīki (IS) ES izveidei tiek izstrādāti pilnībā saskaņā ar tradicionālās programmēšanas mūsdienu tehnoloģiskajām tendencēm, kas novērš problēmas, kas rodas, veidojot integrētās aplikācijas.

Iemesli, kas noveda pie AIS komerciāliem panākumiem, ir šādi.

Integrācija.Izstrādāti mākslīgā intelekta rīki (AI IS), kas viegli integrējami ar citām informācijas tehnoloģijām un rīkiem (ar CASE, DBVS, kontrolieriem, datu koncentratoriem u.c.).

Atvērtība un pārnesamība. AI IC ir izstrādāti atbilstoši standartiem, kas nodrošina atvērtību un pārnesamību.

Tradicionālo programmēšanas valodu un darbstaciju izmantošana. Pārejai no AI valodās (Lisp, Prolog u.c.) ieviestā AI IS uz tradicionālajās programmēšanas valodās (C, C++ u.c.) ieviesto AI IS ir notikusi vienkāršoja nodrošinājuma integrāciju, samazināja AI lietojumprogrammu prasības līdz datora ātrumam un RAM apjomam. Darbstaciju izmantošana (personālo datoru vietā) ir ievērojami palielinājusi lietojumprogrammu klāstu, ko var veikt datoros, izmantojot AI IC.

Klienta-servera arhitektūra. Ir izstrādāti AI IS, kas atbalsta dalīto skaitļošanu klienta-servera arhitektūrā, kas ļāva: samazināt lietojumprogrammās izmantotā aprīkojuma izmaksas, decentralizēt lietojumprogrammas, palielināt uzticamību un kopējo veiktspēju (jo tiek samazināts starp datoriem nosūtītās informācijas apjoms , un katrs lietojumprogrammas modulis tiek izpildīts ar atbilstošu aprīkojumu).

Uz problēmu/domēnu orientēta AI IS. Pāreja no vispārējas nozīmes AI IS izstrādes (lai gan tie nav zaudējuši savu nozīmi kā līdzeklis fokusētas IS izveidei) uz problēmu/domēnu orientētu AI IS nodrošina: lietojumprogrammu izstrādes laika samazināšanu. ; IP izmantošanas efektivitātes paaugstināšana; eksperta darba vienkāršošana un paātrināšana; informācijas un programmatūras atkārtota izmantošana (objekti, klases, noteikumi, procedūras).

Ekspertu sistēmu struktūra

Tipisks statisks ES sastāv no šādiem galvenajiem komponentiem:

risinātājs (tulks);

darba atmiņa (RP), ko sauc arī par datu bāzi (DB);

zināšanu bāzes (KB);

zināšanu apguves sastāvdaļas;

skaidrojošais komponents;

dialoga komponents.

Datu bāze (darba atmiņa) ir paredzēta pašreizējā brīdī risināmās problēmas sākotnējo un starpposma datu glabāšanai. Šis termins pēc nosaukuma sakrīt, bet ne pēc nozīmes ar terminu, ko izmanto informācijas izguves sistēmās (IPS) un datu bāzes pārvaldības sistēmās (DBVS), lai apzīmētu visus sistēmā glabātos datus (galvenokārt ilgtermiņa).

Zināšanu bāze (KB) ES ir paredzēta, lai uzglabātu ilgtermiņa datus, kas apraksta aplūkojamo apgabalu (nevis pašreizējos datus), un noteikumus, kas apraksta atbilstošās datu transformācijas šajā jomā.

Risinātājs, izmantojot sākotnējos datus no darba atmiņas un zināšanas no zināšanu bāzes, veido tādu noteikumu secību, kas, piemērojot sākotnējos datus, noved pie problēmas risinājuma.

Zināšanu apguves komponents automatizē ES aizpildīšanas ar zināšanām procesu, ko veic pieredzējis lietotājs.

Paskaidrojošā sastāvdaļa izskaidro, kā sistēma ieguva problēmas risinājumu (vai kāpēc tā nesaņēma risinājumu) un kādas zināšanas tā izmantoja, lai to izdarītu, kas ekspertam atvieglo sistēmas testēšanu un palielina lietotāja pārliecību par rezultāts.

Dialoga komponents ir vērsts uz draudzīgas komunikācijas organizēšanu ar lietotāju gan problēmu risināšanas gaitā, gan zināšanu apguves un darba rezultātu skaidrošanas procesā.

ES attīstībā ir iesaistīti šādu specialitāšu pārstāvji:

problēmzonas eksperts, kura uzdevumus risinās VD;

zināšanu inženieris - speciālists ES izstrādē (viņa izmantotā tehnoloģija, metodes sauc par zināšanu inženierijas tehnoloģiju (metodēm);

programmētājs rīku (IS) izstrādei, kas paredzēts ES izstrādes paātrināšanai.

Jāatzīmē, ka zināšanu inženieru trūkums izstrādes dalībnieku vidū (t.i., viņu aizstāšana ar programmētājiem) vai nu noved pie neveiksmes ES izveides procesā, vai arī to ievērojami pagarina.

Eksperts nosaka zināšanas (datus un noteikumus), kas raksturo problēmzonu, nodrošina ES ievadīto zināšanu pilnīgumu un pareizību.

Zināšanu inženieris palīdz ekspertam identificēt un strukturēt IS darbībai nepieciešamās zināšanas; izvēlas IS, kas ir vispiemērotākā konkrētajai problēmzonai, un nosaka veidu, kā šajā IS atspoguļot zināšanas; atlasa un ieprogrammē (ar tradicionāliem līdzekļiem) standarta funkcijas (tipiskas konkrētai problēmzonai), kuras tiks izmantotas eksperta ieviestajos noteikumos.

Programmētājs izstrādā IS (ja IS tiek izstrādāta no jauna), kas satur visas galvenās ES sastāvdaļas limitā un saskaras ar vidi, kurā tā tiks izmantota.

Ekspertu sistēma darbojas divos režīmos: zināšanu iegūšanas režīmā un problēmu risināšanas režīmā (saukts arī par konsultāciju režīmu vai ES lietošanas režīmu).

Zināšanu apguves veidā saziņu ar ES (ar zināšanu inženiera starpniecību) veic eksperts. Šajā režīmā eksperts, izmantojot zināšanu apguves komponenti, piepilda sistēmu ar zināšanām, kas ļauj ES risinājuma režīmā patstāvīgi (bez eksperta) risināt problēmas no problēmzonas. Eksperts problēmzonu raksturo kā datu un noteikumu kopumu. Dati definē objektus, to īpašības un nozīmes, kas pastāv ekspertīzes jomā. Noteikumi nosaka veidus, kādos tiek apstrādāti dati, kas ir raksturīgi konkrētajam domēnam.

Ņemiet vērā, ka zināšanu iegūšanas veids tradicionālā pieeja programmu izstrāde atbilst programmētāja veiktajiem algoritmizācijas, programmēšanas un atkļūdošanas posmiem. Tādējādi, atšķirībā no tradicionālās pieejas, ES gadījumā programmu izstrādi veic nevis programmētājs, bet gan eksperts (ar ES palīdzību), kurš nepārzina programmēšanu.

Konsultācijas režīmā saziņu ar ES veic gala lietotājs, kuru interesē rezultāts un (vai) tā iegūšanas metode. Jāņem vērā, ka atkarībā no ES mērķa lietotājs var nebūt speciālists šajā problēmzonā (šajā gadījumā viņš vēršas pie ES pēc rezultāta, pats nevarot to iegūt), vai arī speciālists (šajā gadījumā lietotājs pats var iegūt rezultātu, bet viņš vēršas pie ES ar mērķi vai nu paātrināt rezultāta iegūšanas procesu, vai arī uzticēt IS rutīnas darbus). Konsultāciju režīmā dati par lietotāja uzdevumu pēc dialoga komponenta apstrādes tiek ievadīti darba atmiņā. Risinātājs, pamatojoties uz ievades datiem no darba atmiņas, vispārīgiem datiem par problēmas apgabalu un noteikumiem no zināšanu bāzes, veido problēmas risinājumu. Atrisinot problēmu, ES ne tikai izpilda noteikto darbību secību, bet arī to provizoriski veido. Ja sistēmas reakcija lietotājam nav skaidra, viņš var pieprasīt paskaidrojumu:

"Kāpēc sistēma uzdod to vai citu jautājumu?", "kā tika saņemta sistēmas apkopotā atbilde?".

Šāda veida statisko ES.ES struktūra tiek izmantota tajās lietojumprogrammās, kurās ir iespējams ignorēt problēmas risināšanas laikā notiekošās izmaiņas apkārtējā pasaulē. Pirmie ES, kas tika praktiski izmantoti, bija statiski.

Dinamiskā ES arhitektūrā, salīdzinot ar statisko ES, ir ieviestas divas sastāvdaļas: ārējās pasaules modelēšanas apakšsistēma un apakšsistēma saziņai ar ārējo vidi. Pēdējais sazinās ar ārpasauli, izmantojot sensoru un kontrolieru sistēmu. Turklāt tradicionālie statiskā ES komponenti (zināšanu bāze un secinājumu dzinējs) tiek būtiski mainīti, lai atspoguļotu reālajā pasaulē notiekošo notikumu laika loģiku.

Uzsveram, ka ES struktūra atspoguļo tikai sastāvdaļas (funkcijas), un daudz kas paliek "aizkulisēs". Uz att. 1.3 parāda vispārinātu mūsdienu IS struktūru dinamiskas ES izveidei, kas papildus galvenajām sastāvdaļām satur tās funkcijas, kas ļauj izveidot integrētas lietojumprogrammas atbilstoši mūsdienu programmēšanas tehnoloģijai.

Ekspertu sistēmu izstrādes stadijas

ES izstrādei ir būtiskas atšķirības no parastā programmatūras produkta izstrādes. ES izveides pieredze rāda, ka tradicionālajā programmēšanā pieņemtās metodoloģijas izmantošana to izstrādes laikā vai nu pārmērīgi aizkavē ES izveides procesu, vai arī kopumā noved pie negatīva rezultāta.

ES jāizmanto tikai tad, ja ES izstrāde ir iespējama, pamatota un zināšanu inženierijas metodes atbilst risināmajai problēmai. Lai konkrētam lietojumam būtu iespējams izstrādāt ES, vienlaikus ir jāievēro vismaz šādas prasības:

1) ir jomas eksperti, kas problēmu risina daudz labāk nekā iesācēji;

2) eksperti vienojas par piedāvātā risinājuma vērtējumu, pretējā gadījumā nebūs iespējams novērtēt izstrādātā ES kvalitāti;

3) eksperti spēj verbalizēt (izteikt dabiskā valodā) un izskaidrot izmantotās metodes, pretējā gadījumā ir grūti sagaidīt, ka ekspertu zināšanas tiks "izvilktas" un ieguldītas ES;

4) problēmas risinājums prasa tikai argumentāciju, nevis rīcību;

5) uzdevums nedrīkst būt pārāk grūts (t.i., tā risināšanai ekspertam vajadzētu aizņemt vairākas stundas vai dienas, nevis nedēļas);

6) lai gan uzdevumam nevajadzētu izpausties formālā formā, tam tomēr vajadzētu piederēt pie diezgan "saprotamas" un strukturētas jomas, t.i. jāizceļ galvenie jēdzieni, sakarības un zināmie (vismaz ekspertam) veidi, kā iegūt problēmas risinājumu;

7) problēmu risināšanai nevajadzētu lielā mērā paļauties uz "veselo saprātu" (t.i., plašu Galvenā informācija par pasauli un tās funkcionēšanu, ko zina un var izmantot jebkurš normāls cilvēks), jo šādas zināšanas vēl nav (pietiekami) ieguldītas mākslīgā intelekta sistēmās.

ES izmantošana šajā lietojumprogrammā var būt iespējama, bet ne pamatota. ES izmantošanu var pamatot ar vienu no šādiem faktoriem:

problēmas risinājums dos būtisku efektu, piemēram, ekonomisku;

cilvēkeksperta izmantošana nav iespējama vai nu nepietiekamā ekspertu skaita dēļ, vai arī tāpēc, ka ekspertīzi nepieciešams veikt vienlaikus dažādās vietās;

ES vēlams izmantot gadījumos, kad informācijas nodošana ekspertam rada nepieņemamu laika vai informācijas zudumu;

ES izmantošana ir lietderīga, ja nepieciešams, lai atrisinātu problēmu cilvēkiem naidīgā vidē.

Lietojumprogramma atbilst ES metodēm, ja risināmajai problēmai ir šādu īpašību kombinācija:

1) problēmu var atrisināt dabiskā veidā, manipulējot ar simboliem (t.i., izmantojot simbolisku spriešanu), nevis manipulējot ar skaitļiem, kā tas ir pieņemts matemātiskajās metodēs un tradicionālajā programmēšanā;

2) uzdevumam jābūt heiristiskam, nevis algoritmiskam, t.i. tā risinājumam būtu jāpiemēro heiristiskie noteikumi. Problēmas, kuras var garantēt atrisināt (ievērojot noteiktos ierobežojumus) ar dažu formālu procedūru palīdzību, nav piemērotas ES lietošanai;

3) uzdevumam jābūt pietiekami sarežģītam, lai attaisnotu ES izstrādes izmaksas. Tomēr tas nedrīkst būt pārāk sarežģīts (atrisināšanai nepieciešamas eksperta stundas, nevis nedēļas), lai ES varētu to atrisināt;

4) uzdevumam jābūt pietiekami šauram, lai to atrisinātu ar ES metodēm, un praktiski nozīmīgam.

Izstrādājot ES, parasti tiek izmantots "ātrā prototipa" jēdziens. Šīs koncepcijas būtība ir tāda, ka izstrādātāji nemēģina nekavējoties izveidot gala produktu. Sākotnējā posmā viņi izveido ES prototipu (prototipus). Prototipiem jāatbilst divām pretrunīgām prasībām: no vienas puses, tiem jāatrisina tipiskas konkrētas lietojumprogrammas problēmas, un, no otras puses, to izstrādes laikam un darbietilpībai jābūt ļoti mazai, lai zināšanu uzkrāšanas un atkļūdošanas process (pārnēsā ko veic eksperts) var maksimāli paralēli atlases procesam (izstrādāšanai) (ko veic zināšanu inženieris un programmētājs). Lai izpildītu šīs prasības, parasti, veidojot prototipu, tiek izmantoti dažādi rīki, lai paātrinātu projektēšanas procesu.

Prototipam jāpierāda zināšanu inženierijas metožu piemērotība lietojumam. Ja tas izdodas, eksperts ar zināšanu inženiera palīdzību paplašina prototipa zināšanas par problēmzonu. Neveiksmes gadījumā var būt nepieciešams izstrādāt jaunu prototipu, vai arī izstrādātāji var secināt, ka ES metodes nav piemērotas konkrētai lietojumprogrammai. Pieaugot zināšanām, prototips var sasniegt punktu, kurā tas veiksmīgi atrisina visas konkrētā lietojumprogrammas problēmas. ES prototipa pārveidošana galaproduktā parasti noved pie ES pārprogrammēšanas zema līmeņa valodās, nodrošinot gan ES ātruma palielināšanos, gan nepieciešamās atmiņas samazināšanos. ES izveides sarežģītība un laiks lielā mērā ir atkarīgs no izmantoto rīku veida.

Darba laikā pie ES izveides ir izstrādāta noteikta tehnoloģija to izstrādei, kas ietver šādus sešus posmus:

identifikācija, konceptualizācija, formalizācija, izpilde, testēšana, izmēģinājuma darbība. Identifikācijas posmā tiek noteikti risināmie uzdevumi, noteikti attīstības mērķi, noteikti eksperti un lietotāju veidi.

Konceptualizācijas posmā tiek veikta jēgpilna problēmzonas analīze, apzināti lietotie jēdzieni un to attiecības, kā arī noteiktas problēmu risināšanas metodes.

Formalizācijas stadijā tiek atlasītas informācijas sistēmas un noteikti visu veidu zināšanu reprezentācijas veidi, formalizēti pamatjēdzieni, noteikti zināšanu interpretācijas veidi, modelēta sistēmas darbība, sistēmas mērķu atbilstība. tiek vērtēti fiksētie jēdzieni, lēmumu pieņemšanas metodes, zināšanu reprezentēšanas un manipulācijas līdzekļi.

Izpildes stadijā eksperts aizpilda zināšanu bāzi. Sakarā ar to, ka ES pamatā ir zināšanas, šis posms ir vissvarīgākais un laikietilpīgākais ES izstrādes posms. Zināšanu apguves process tiek sadalīts zināšanu ieguvē no eksperta, zināšanu organizēšanā, kas nodrošina sistēmas efektīvu darbību, un zināšanu pasniegšanā ES saprotamā formā. Zināšanu apguves procesu veic zināšanu inženieris, pamatojoties uz eksperta darbības analīzi reālu problēmu risināšanā.

Gala lietotāja interfeiss

G2 sistēma sniedz izstrādātājam bagātīgas iespējas veidot vienkāršu, skaidru un izteiksmīgu grafisku lietotāja interfeisu ar animācijas elementiem. Piedāvātais rīku komplekts ļauj vizuāli attēlot gandrīz neierobežotas sarežģītības tehnoloģiskos procesus dažādos abstrakcijas un detalizācijas līmeņos. Turklāt grafisko attiecību attēlojumu starp lietojumprogrammu objektiem var tieši izmantot zināšanu apraksta valodas deklaratīvajās konstrukcijās.

RTworks nav vietējo līdzekļu, lai parādītu pārvaldītā procesa pašreizējo stāvokli. Lietojumprogrammu izstrādātājs ir spiests izmantot Dataview sistēmu no VI Corporation, kas ievērojami ierobežo tās iespējas.

TDC Expert lietotāja interfeisu ierobežo TDC 3000 sistēmas iespējas, t.i. gala lietotāja mijiedarbība

tikai teksta režīmā.

Zināšanu atspoguļošana ekspertu sistēmās

Pirmais un galvenais jautājums, kas jāatrisina, pasniedzot zināšanas, ir jautājums par zināšanu sastāva noteikšanu, t.i. "KO PĀRSTĀVĒT" noteikšana ekspertu sistēmā. Otrais jautājums attiecas uz zināšanām "KĀ PĀRSTĀVĒT". Jāatzīmē, ka šie divi jautājumi nav neatkarīgi. Patiešām, izvēlētais prezentācijas veids var būt principā nepiemērots vai neefektīvs kādu zināšanu paušanai.

Mūsuprāt, jautājumu "KĀ PĀRSTĀVĒT" var iedalīt divos lielā mērā neatkarīgos uzdevumos: kā sakārtot (strukturēt) zināšanas un kā reprezentēt zināšanas izvēlētajā formālismā.

Vēlmi nodalīt zināšanu organizēšanu patstāvīgā uzdevumā it īpaši izraisa tas, ka šis uzdevums rodas jebkurai reprezentācijas valodai un šī uzdevuma risināšanas metodes ir vienādas (vai līdzīgas) neatkarīgi no izmantotā formālisma.

Tātad jautājumu lokā, kas jāatrisina, sniedzot zināšanas, iekļausim sekojošo:

pārstāvēto zināšanu sastāva noteikšana;

zināšanu organizēšana;

zināšanu reprezentācija, t.i. apskatīt modeļa definīciju. ES zināšanu sastāvu nosaka šādi faktori:

problemātiska vide;

ekspertu sistēmu arhitektūra;

lietotāju vajadzības un mērķi;

saziņas valoda.

Saskaņā ar statiskās ekspertu sistēmas vispārējo shēmu tās darbībai ir nepieciešamas šādas zināšanas:

zināšanas par problēmas risināšanas procesu (t.i., kontroles zināšanas), ko izmanto tulks (risinātājs);

zināšanas par saziņas valodu un dialoga organizēšanas veidiem, ko izmanto lingvistiskais procesors (dialoga komponents);

zināšanas par zināšanu atspoguļošanas un modificēšanas veidiem, ko izmanto zināšanu apguves komponente;

atbalsta strukturālās un kontroles zināšanas, ko izmanto skaidrojošais komponents.

Dinamiskajai ES papildus ir nepieciešamas šādas zināšanas:

1) zināšanas par mijiedarbības metodēm ar ārējo vidi;

2) zināšanas par ārējās pasaules modeli.

Zināšanu sastāva atkarība no lietotāja prasībām izpaužas šādi:

kādus uzdevumus (no vispārējā uzdevumu kopas) un ar kādiem datiem lietotājs vēlas atrisināt;

kādi ir vēlamie risinājuma veidi un metodes;

pie kādiem rezultātu skaita ierobežojumiem un to iegūšanas metodēm problēma jārisina;

kādas ir prasības saziņas valodai un dialoga organizācijai;

kāda ir lietotājam pieejamo zināšanu vispārīguma (specifiskuma) pakāpe par problēmzonu;

kādi ir lietotāju mērķi.

Zināšanu sastāvs par saziņas valodu ir atkarīgs gan no saziņas valodas, gan no nepieciešamā izpratnes līmeņa.

Ņemot vērā ekspertu sistēmas arhitektūru, zināšanas jāsadala interpretējamās un interpretējamās. Pirmais veids ietver zināšanas, kuras risinātājs (tulks) spēj interpretēt. Visas pārējās zināšanas pieder pie otrā tipa. Risinātājs nezina to struktūru un saturu. Ja šīs zināšanas izmanto kāda sistēmas sastāvdaļa, tad tā šīs zināšanas "neapzinās". Neinterpretētās zināšanas iedala palīgzināšanās, kas glabā informāciju par saziņas valodas vārdu krājumu un gramatiku, informācijā par dialoga struktūru un atbalsta zināšanās. Papildzināšanas apstrādā dabiskās valodas komponents, bet risinātājs neapzinās šīs apstrādes gaitu, jo šis ievades ziņojumu apstrādes posms ir eksāmena palīgs. Sistēmas izveidē un skaidrojumu ieviešanā tiek izmantotas atbalsta zināšanas. Atbalsta zināšanas spēlē gan interpretēto zināšanu, gan sistēmas darbību aprakstu (pamatojuma) lomu. Atbalsta zināšanas ir sadalītas tehnoloģiskajās un semantiskajās. Tehnoloģiskās atbalsta zināšanas satur informāciju par tajās aprakstīto zināšanu radīšanas laiku, par zināšanu autoru utt. Semantiskās atbalsta zināšanas satur šo zināšanu semantisko aprakstu. Tie satur informāciju par zināšanu ieviešanas iemesliem, par zināšanu mērķi, apraksta veidu, kā zināšanas tiek izmantotas un iegūto efektu. Atbalsta zināšanas ir aprakstošas.

Interpretētās zināšanas var iedalīt priekšmeta zināšanās, kas kontrolē zināšanas par reprezentāciju.Zināšanas par reprezentāciju satur informāciju par to, kā (kādās struktūrās) interpretētās zināšanas tiek pasniegtas sistēmā.

Priekšmeta zināšanas satur datus par mācību priekšmetu jomu un veidiem, kā šos datus pārveidot uzdevumu risināšanā. Ņemiet vērā, ka attiecībā uz priekšmeta zināšanām zināšanas par reprezentāciju un zināšanas par kontroli ir meta-zināšanas. Priekšmeta zināšanās var atšķirt deskriptorus un pašas priekšmeta zināšanas. Deskriptori satur specifisku informāciju par priekšmeta zināšanām, piemēram, noteikumu un datu noteiktības faktoru, svarīguma un sarežģītības mērus. Faktiski priekšmeta zināšanas tiek sadalītas faktos un izpildāmos paziņojumos. Fakti nosaka iespējamās entītiju vērtības un priekšmeta jomas raksturlielumus. Izpildāmie paziņojumi satur informāciju par to, kā problēmu risināšanas gaitā var mainīt mācību priekšmeta aprakstu. Citiem vārdiem sakot, izpildāmie paziņojumi ir zināšanas, kas nosaka apstrādes procedūras. Taču izvairāmies lietot terminu "procedūras zināšanas", jo vēlamies uzsvērt, ka šīs zināšanas var precizēt ne tikai procesuālā, bet arī deklaratīvā formā.

Kontroles zināšanas var iedalīt fokusējošās un izlēmīgās. Zināšanu fokusēšana apraksta, kādas zināšanas būtu jāizmanto konkrētā situācijā. Parasti fokusēšanas zināšanas satur informāciju par daudzsološākajiem objektiem vai noteikumiem, kas jāizmanto, pārbaudot atbilstošās hipotēzes. Pirmajā gadījumā uzmanība tiek vērsta uz darba atmiņas elementiem, otrajā - uz zināšanu bāzes noteikumiem. Izšķirošās zināšanas satur informāciju, kas tiek izmantota, lai izvēlētos, kā interpretēt zināšanas atbilstoši esošajai situācijai. Šīs zināšanas tiek izmantotas, lai izvēlētos stratēģijas vai heiristikas, kas ir visefektīvākās konkrētas problēmas risināšanai.

Ekspertu sistēmas kvalitatīvos un kvantitatīvos rādītājus var būtiski uzlabot, izmantojot metazināšanas, t.i. zināšanas par zināšanām. Metaknowledge nepārstāv vienu vienību, to var izmantot dažādu mērķu sasniegšanai. Mēs uzskaitām iespējamos metazināšanu mērķus:

1) metazināšanas stratēģisku metanoteikumu veidā tiek izmantotas, lai atlasītu attiecīgus noteikumus;

2) tiek izmantotas metazināšanas, lai pamatotu ekspertīzes jomas noteikumu piemērošanas lietderību;

3) metalikumi tiek izmantoti, lai atklātu sintaktiskās un semantiskās kļūdas mācību priekšmeta noteikumos;

4) metanoteikumi ļauj sistēmai pielāgoties videi, pārstrukturējot priekšmetu noteikumus un funkcijas;

5) metanoteikumi ļauj skaidri norādīt sistēmas iespējas un ierobežojumus, t.i. noteikt, ko sistēma zina un ko nezina.

Zināšanu organizācijas jautājumi ir jāapsver jebkurā reprezentācijā, un to risinājums lielā mērā nav atkarīgs no izvēlētās reprezentācijas metodes (modeļa). Mēs izceļam šādus zināšanu organizācijas problēmas aspektus:

zināšanu organizēšana pēc prezentācijas līmeņiem un detalizācijas līmeņiem;

zināšanu organizēšana darba atmiņā;

zināšanu organizēšana zināšanu bāzē.

Attēlojuma vienādojumi un detalizācijas līmeņi

Lai ekspertu sistēma spētu vadīt risinājuma atrašanas procesu, spētu apgūt jaunas zināšanas un izskaidrot savu rīcību, tai ir jāspēj ne tikai izmantot savas zināšanas, bet arī jāspēj saprast un izpētīt tos, t.i. ekspertu sistēmai ir jābūt zināšanām par to, kā tiek atspoguļotas tās zināšanas par problēmvidi. Ja zināšanas par problemātisko vidi sauc par reprezentācijas nulles līmeņa zināšanām, tad pirmais reprezentācijas līmenis satur metazināšanas, t.i. zināšanas par to, kā nulles līmeņa zināšanu sistēma tiek attēlota iekšējā pasaulē. Pirmajā līmenī ir zināšanas par to, kādi rīki tiek izmantoti, lai attēlotu nulles līmeņa zināšanas. Pirmā līmeņa zināšanām ir būtiska loma lēmumu pieņemšanas procesa vadīšanā, sistēmas darbību apgūšanā un skaidrošanā. Sakarā ar to, ka pirmā līmeņa zināšanas nesatur saites uz nulles līmeņa zināšanām, pirmā līmeņa zināšanas ir neatkarīgas no problēmvides.

Prezentācijas līmeņu skaits var būt vairāk nekā divi. Otrais reprezentācijas līmenis satur informāciju par pirmā līmeņa zināšanām, t.i. zināšanas par pirmā līmeņa pamatjēdzienu reprezentāciju. Zināšanu iedalījums prezentācijas līmeņos nodrošina sistēmas darbības jomas paplašināšanu.

Detaļu līmeņu izcelšana ļauj apsvērt zināšanas ar dažādu detalizācijas pakāpi. Detalizācijas līmeņu skaitu lielā mērā nosaka risināmo uzdevumu specifika, zināšanu apjoms un to pasniegšanas veids. Parasti tiek izdalīti vismaz trīs detalizācijas līmeņi, kas atspoguļo attiecīgi vispārējo, loģisko un fizisko zināšanu organizāciju. Vairāku detalizācijas līmeņu ieviešana nodrošina papildu sistēmas elastības pakāpi, jo ļauj veikt izmaiņas vienā līmenī, neietekmējot citus. Izmaiņas vienā detalizācijas līmenī var radīt papildu izmaiņas šajā līmenī, kas nepieciešamas, lai nodrošinātu datu struktūru un programmu konsekvenci. Tomēr dažādu līmeņu klātbūtne novērš izmaiņu izplatīšanos no viena līmeņa uz citiem.

Zināšanu organizēšana strādājošā sistēmā

Ekspertu sistēmu darba atmiņa (WP) ir paredzēta datu glabāšanai. Dati darba atmiņā var būt viendabīgi vai sakārtoti pēc datu veida. Pēdējā gadījumā katrs darba atmiņas līmenis saglabā atbilstošā tipa datus. Līmeņu izvēle sarežģī ekspertu sistēmas struktūru, bet padara sistēmu efektīvāku. Piemēram, varat atšķirt plāna līmeni, aģenta līmeni (sakārtots izpildei gatavu noteikumu saraksts) un domēna datu līmeni (lēmuma līmeni).

Mūsdienu ekspertu sistēmās dati darba atmiņā tiek uzskatīti par izolētiem vai saistītiem. Pirmajā gadījumā darba atmiņa sastāv no daudziem vienkāršiem elementiem, bet otrajā gadījumā tā sastāv no viena vai vairākiem (ar vairākiem RP līmeņiem) sarežģītiem elementiem (piemēram, objektiem). Šajā gadījumā sarežģīts elements atbilst vienkāršu elementu kopai, kas apvienota vienā vienībā. Teorētiski abas pieejas nodrošina pilnīgumu, bet izolētu elementu izmantošana sarežģītās priekšmetu jomās noved pie efektivitātes zuduma.

Dati RP vienkāršākajā gadījumā ir konstantes un (vai) mainīgie. Šajā gadījumā mainīgos var interpretēt kā kāda objekta raksturlielumus, bet konstantes - kā atbilstošo raksturlielumu vērtības. Ja RP nepieciešams vienlaicīgi analizēt vairākus dažādus objektus, kas raksturo aktuālo problēmsituāciju, tad jānorāda, pie kuriem objektiem pieder aplūkojamie raksturlielumi. Viens no veidiem, kā atrisināt šo problēmu, ir skaidri norādīt, kuram objektam pieder pazīme.

Ja RP sastāv no sarežģītiem elementiem, tad attiecības starp atsevišķiem objektiem tiek skaidri norādītas, piemēram, iestatot semantiskās attiecības. Turklāt katram objektam var būt sava iekšējā struktūra. Jāpiebilst, ka, lai paātrinātu meklēšanu un salīdzināšanu, datus RP var sasaistīt ne tikai loģiski, bet arī asociatīvi.

Zināšanu organizēšana datu bāzē

Sistēmas intelekta rādītājs zināšanu reprezentācijas ziņā ir sistēmas spēja izmantot nepieciešamās (atbilstošās) zināšanas īstajā laikā. Sistēmas, kurām nav līdzekļu, lai noteiktu attiecīgās zināšanas, neizbēgami saskaras ar "kombinatoriskā sprādziena" problēmu. Var apgalvot, ka šī problēma ir viens no galvenajiem iemesliem, kas ierobežo ekspertu sistēmu darbības jomu. Zināšanu pieejamības problēmā var izdalīt trīs aspektus: zināšanu un datu savienojamība, piekļuves zināšanām mehānisms, salīdzināšanas metode.

Zināšanu savienojamība (apkopošana) ir galvenais veids, kā paātrināt attiecīgo zināšanu meklēšanu. Vairums speciālistu nonāca pie secinājuma, ka zināšanas jāorganizē ap priekšmeta jomas svarīgākajiem objektiem (entītijām). Visas zināšanas, kas raksturo kādu entītiju, tiek asociētas un attēlotas kā atsevišķs objekts. Ar šādu zināšanu organizāciju, ja sistēmai ir nepieciešama informācija par kādu entītiju, tad tā meklē objektu, kas apraksta šo entītiju, un tad objekta iekšienē atrod informāciju par šo entītiju. Objektos vēlams izšķirt divu veidu saites starp elementiem: ārējās un iekšējās.Iekšējās saites apvieno elementus vienotā objektā un ir paredzētas objekta struktūras izteikšanai. Ārējās saites atspoguļo savstarpējo atkarību, kas pastāv starp objektiem ekspertīzes jomā. Daudzi pētnieki ārējās saites klasificē kā nodokļu un asociatīvās.Loģiskās saites izsaka semantiskās attiecības starp zināšanu elementiem. Asociatīvās saites ir paredzētas, lai nodrošinātu attiecības, kas palīdz paātrināt atbilstošu zināšanu meklēšanu.

Galvenā problēma, strādājot ar lielu zināšanu bāzi, ir risināmajai problēmai atbilstošu zināšanu atrašanas problēma. Sakarā ar to, ka apstrādājamie dati var nesaturēt skaidru norādes par to apstrādei nepieciešamajām vērtībām, ir nepieciešams vispārīgāks piekļuves mehānisms nekā tiešās piekļuves metode (skaidra atsauces metode). Šī mehānisma uzdevums ir atrast zināšanu bāzē objektus, kas atbilst šim aprakstam, saskaņā ar kādu entītijas aprakstu, kas ir pieejams darba atmiņā. Acīmredzot zināšanu sakārtošana un strukturēšana var ievērojami paātrināt meklēšanas procesu.

Vēlamo objektu atrašanu vispārīgā gadījumā ir lietderīgi uzskatīt par divpakāpju procesu. Pirmajā posmā, kas atbilst atlases procesam pēc asociatīvajām saitēm, potenciālo kandidātu zināšanu bāzē tiek veikta sākotnējā atlase vēlamo objektu lomai. Otrajā posmā, veicot potenciālo kandidātu salīdzināšanas operāciju ar kandidātu aprakstiem, tiek veikta gala vēlamo objektu atlase. Organizējot šādu piekļuves mehānismu, rodas zināmas grūtības: Kā izvēlēties kandidāta piemērotības kritēriju? Kā organizēt darbu konfliktsituācijās? utt.

Saskaņošanas darbību var izmantot ne tikai kā līdzekli vēlamā objekta atlasei no kandidātu kopas; to var izmantot klasifikācijai, apstiprināšanai, sadalīšanai un korekcijai. Lai identificētu nezināmu objektu, to var salīdzināt ar dažiem zināmiem paraugiem. Tādējādi nezināmais objekts tiks klasificēts kā zināms paraugs, salīdzinot ar kuru tika iegūti vislabākie rezultāti. Meklējot, atbilstība tiek izmantota, lai apstiprinātu dažus no daudzajiem iespējamajiem kandidātiem. Ja salīdzina kādu zināmu objektu ar nezināmu aprakstu, tad veiksmīgas saskaņošanas gadījumā tiks veikta daļēja apraksta dekompozīcija.

Saskaņošanas darbības ir ļoti dažādas. Parasti tiek izdalītas šādas formas: sintaktiskā, parametriskā, semantiskā un piespiedu saskaņošana.Sintaktiskās saskaņošanas gadījumā tiek korelētas formas (paraugi), nevis objektu saturs. Veiksmīga spēle ir tāda, kuras rezultāts ir identiski paraugi. Parasti tiek pieņemts, ka viena modeļa mainīgais var būt identisks jebkurai cita modeļa konstantei (vai izteiksmei). Uz modelī iekļautajiem mainīgajiem dažreiz attiecas prasības, kas nosaka konstantu veidu, ar kādu tie var atbilst. Sintaktiskās atbilstības rezultāts ir binārs: modeļi ir saskaņoti vai nesakrīt. Parametru saskaņošanā ievadāt parametru, kas nosaka atbilstības pakāpi. Semantiskā salīdzinājuma gadījumā korelē nevis objektu paraugus, bet gan to funkcijas. Piespiedu saskaņošanas gadījumā viens saskaņotais modelis tiek aplūkots no cita viedokļa. Atšķirībā no citiem saskaņošanas veidiem šeit vienmēr var iegūt pozitīvu rezultātu. Jautājums ir par piespiešanas spēku. Piespiešana var veikt īpašas procedūras, kas saistītas ar objektiem. Ja šīs procedūras nesakrīt, sistēma ziņo, ka panākumus var sasniegt tikai tad, ja var uzskatīt, ka noteiktas attiecīgo entītiju daļas atbilst.

Risinājumu meklēšanas metodes ekspertu sistēmās

Problēmu risināšanas metodes, kuru pamatā ir to samazināšana līdz meklēšanai, ir atkarīgas no

psihodiagnostika psihosomatikā, kā arī citās sistēmās. tēmas jomas iezīmes, kurā problēma tiek atrisināta, un lietotāja izvirzītās prasības risinājumam. Priekšmeta jomas iezīmes risināšanas metožu ziņā var raksturot ar šādiem parametriem:

izmērs, kas nosaka telpas daudzumu, kurā meklēt risinājumu;

laukuma mainīgums, raksturo apgabala mainīguma pakāpi laikā un telpā (šeit nošķirsim statiskos un dinamiskos apgabalus);

apgabalu aprakstošā modeļa pilnība raksturo dotās teritorijas aprakstīšanai izmantotā modeļa atbilstību. Parasti, ja modelis nav pilnīgs, tad apgabala raksturošanai tiek izmantoti vairāki modeļi, kas viens otru papildina, atspoguļojot dažādas tēmas jomas īpašības;

datu noteiktība par risināmo problēmu, raksturo datu precizitātes (kļūdas) un pilnīguma (nepilnīguma) pakāpi. Precizitāte (kļūda) ir rādītājs, ka mācību priekšmetu jomu risināmo uzdevumu izteiksmē raksturo precīzi vai neprecīzi dati; datu pilnīgums (nepilnīgums) tiek saprasts kā ievades datu pietiekamība (nepietiekamība) unikālam problēmas risinājumam.

Lietotāja prasības ar meklēšanu atrisinātas problēmas rezultātam var raksturot ar risinājumu skaitu un rezultāta īpašībām un (vai) tā iegūšanas metodi. Parametram "lēmumu skaits" var būt šādas pamatvērtības: viens lēmums, vairāki lēmumi, visi lēmumi. Parametrs "īpašības" nosaka ierobežojumus, kas jāizpilda rezultātam vai tā iegūšanas metodei. Tā, piemēram, sistēmai, kas sniedz ieteikumus pacientu ārstēšanai, lietotājs var norādīt prasību nelietot noteiktas zāles (tā trūkuma dēļ vai tāpēc, ka šim pacientam tās ir kontrindicētas). Parametrs "īpašības" var noteikt arī tādas pazīmes kā risinājuma laiks ("ne vairāk kā", "laika diapazons" utt.), rezultāta iegūšanai izmantotās atmiņas apjoms, norāde par obligātu (neiespējamu) jebkādas zināšanas (dati) utt.

Tātad problēmas sarežģītība, ko nosaka iepriekšminētā parametru kopa, atšķiras no vienkāršām maza izmēra problēmām ar nemainīgiem noteiktiem datiem un rezultātu un tā iegūšanas metodes ierobežojumu neesamību, līdz sarežģītām lielu izmēru problēmām ar mainīgu. , kļūdaini un nepilnīgi dati un patvaļīgi ierobežojumi rezultātam un tā iegūšanas metodei. No vispārīgiem apsvērumiem ir skaidrs, ka visas problēmas nav iespējams atrisināt ar vienu metodi. Parasti dažas metodes ir pārākas par citām tikai dažos no uzskaitītajiem parametriem.

Tālāk aplūkotās metodes var darboties statiskā un dinamiskā problemātiskā vidē. Lai tie darbotos dinamiskos apstākļos, ir jāņem vērā mainīgo vērtību dzīves ilgums, mainīgo datu avots, kā arī jānodrošina iespēja saglabāt mainīgo vērtību vēsturi, modelēt ārējo vidi un darboties. ar pagaidu kategorijām noteikumos.

Esošās problēmu risināšanas metodes, ko izmanto ekspertu sistēmās, var klasificēt šādi:

meklēšanas metodes vienā telpā - metodes, kas paredzētas lietošanai šādos apstākļos: maza izmēra laukumi, modeļa pilnība, precīzi un pilnīgi dati;

meklēšanas metodes hierarhiskās telpās - metodes, kas paredzētas darbam augstas dimensijas jomās;

neprecīzu un nepilnīgu datu meklēšanas metodes;

meklēšanas metodes, kurās tiek izmantoti vairāki modeļi, kas paredzēti darbam ar jomām, kuru adekvātai aprakstīšanai nepietiek ar vienu modeli.

Tiek pieņemts, ka uzskaitītās metodes, ja nepieciešams, ir jāapvieno, lai ļautu atrisināt problēmas, kuru sarežģītība palielinās vienlaikus vairākos parametros.

Rīku komplekss statisku ekspertu sistēmu izveidei (par eko integrētā kompleksa piemēru)

Apskatīsim statisko ES izveides rīku iezīmes, izmantojot Krievijas IT un AP pētniecības institūtā izstrādātā ECO kompleksa piemēru. Komplekss visveiksmīgāk tiek izmantots, lai izveidotu ES, kas risina diagnostikas (tehniskās un medicīniskās), heiristiskās novērtēšanas (riska, uzticamības utt.), kvalitatīvas prognozēšanas, kā arī apmācības problēmas.

EKO komplekss tiek izmantots: komerciālu un industriālu ekspertu sistēmu izveidei uz personālajiem datoriem, kā arī ekspertu sistēmu prototipu ātrai izveidei, lai noteiktu zināšanu inženierijas metožu pielietojamību konkrētā problēmzonā.

Uz EKO kompleksa bāzes ir izstrādātas vairāk nekā 100 lietišķo ekspertu sistēmas. Starp tiem mēs atzīmējam sekojošo:

atsevišķu defektu meklēšana personālajā datorā;

hidrotehniskās būves stāvokļa novērtējums (Charvak HES);

sagatavošana biznesa vēstules veicot saraksti ar ārvalstu partneriem;

imunoloģiskā stāvokļa skrīninga novērtējuma veikšana;

pacienta ar nespecifiskām hroniskām plaušu slimībām mikrobioloģiskās izmeklēšanas indikāciju izvērtēšana;

Zināšanu reprezentācijas līdzekļi un vadības stratēģijas

IVF komplekss ietver trīs sastāvdaļas.

Kompleksa kodols ir integrēts ECO ekspertu sistēmu apvalks, kas nodrošina ātru efektīvu aplikāciju izveidi analīzes problēmu risināšanai 1. un 2. tipa statiskās problemātiskās vidēs.

Izstrādājot čaulas zināšanu reprezentācijas rīkus, tika izvirzīti divi galvenie mērķi: diezgan plašas un praktiski nozīmīgas uzdevumu klases efektīva risināšana, izmantojot personālos datorus; elastīgas iespējas lietotāja interfeisa aprakstīšanai un konsultāciju veikšanai konkrētās lietojumprogrammās. Zināšanas attēlojot čaulā, tiek izmantoti specializēti (privāti) "atribūta-vērtības" tipa apgalvojumi un privātie noteikumi, kas ļauj novērst resursietilpīgo modeļu saskaņošanas darbību un sasniegt izstrādāto lietojumprogrammu efektivitāti. Korpusa izteiksmīgās iespējas ir ievērojami paplašinātas, pateicoties integrācijai, ko nodrošina ārējo programmu izsaukšana caur konsultāciju skriptu un dokošana ar datu bāzēm (PIRS un dBase IV) un ārējām programmām. EKO apvalkā tiek nodrošināta vāja zināšanu bāzes strukturēšana, pateicoties tās sadalīšanai atsevišķos komponentos - atsevišķu apakšuzdevumu risināšanai problemātiskā vidē - modelī (EKO "modeļa" jēdziens atbilst jēdzienam G2 sistēmas zināšanu bāzes "modulis").

No ES izstrādes tehnoloģijas viedokļa apvalks atbalsta pieejas, kas balstītas uz virspusējām zināšanām un risinājuma procesa strukturēšanu.

Apvalks darbojas divos režīmos: zināšanu iegūšanas režīmā un konsultācijas (problēmu risināšanas) režīmā. Pirmajā režīmā ES izstrādātājs ievada konkrētas lietojumprogrammas aprakstu zināšanu bāzē, izmantojot dialoga redaktoru čaulas zināšanu attēlojuma valodas izteiksmē. Šis apraksts ir apkopots secinājumu tīklā ar tiešām adreses saitēm uz konkrētiem paziņojumiem un noteikumiem. Otrajā režīmā apvalks atrisina konkrētus lietotāja uzdevumus dialoga vai pakešu režīmā. Šajā gadījumā risinājumi tiek iegūti no mērķiem līdz datiem (apgrieztā spriešana).

Lai paplašinātu čaulas iespējas darbam ar padziļinātām zināšanām, EKO kompleksu var papildināt ar K-ECO komponenti (zināšanu konkretizētājs), kas ļauj aprakstīt modeļus problemātiskajās vidēs vispārīgu (abstraktu) objektu un noteikumiem. K-ECO tiek izmantots mācību fāzē dialoga čaulas redaktora vietā, lai pārveidotu vispārīgos aprakstus īpašos secinājumu tīklos, kas ļauj efektīvi secināt risinājumus, izmantojot ECO apvalku. Tādējādi betonētāja izmantošana dod iespēju strādāt ar 2. tipa problemātiskām vidēm (skat. 3. nodaļu).

Trešā kompleksa sastāvdaļa ir ILIS sistēma, kas ļauj izveidot ES statiskās problemātiskās vidēs, pateicoties datu induktīvai vispārināšanai (piemēri) un ir paredzēta lietošanai tajās lietojumprogrammās, kurās trūkst noteikumu, kas atspoguļo modeļus problemātiskajā vidē. tiek kompensēts ar plašu eksperimentālu materiālu. ILIS sistēma nodrošina vienkāršāko specifisko noteikumu automātisku ģenerēšanu un uz tiem balstītu autonomu problēmu risināšanu; šajā gadījumā tiek izmantota stingra dialoga shēma ar lietotāju. Tā kā, veidojot reālas lietojumprogrammas, eksperti, kā likums, sniedz gan zināšanas par modeļiem problēmas vidē, gan eksperimentālo materiālu (konkrētu apakšuzdevumu risināšanai), rodas nepieciešamība izmantot ILIS sistēmas ģenerētos noteikumus sarežģītākos zināšanu reprezentācijas rīkos. . ECO komplekss nodrošina šādu noteikumu automātisku tulkošanu ECO apvalka formātā. Rezultātā ir iespējams iegūt pilnīgu (adekvātu) reālās problemātiskās vides attēlojumu, papildus uzstādīt elastīgu aprakstu mijiedarbības organizācijai starp ES un gala lietotāju.

Rīku komplekss reāllaika ekspertu sistēmu izveidei (uz integrētās vides piemēra g2-gensym corp., ASV)

IC izstrādes vēsture reāllaika ES izveidei sākās 1985. gadā, kad Lisp Machine Inc. izlaida Picon sistēmu Symbolics simboliskajiem datoriem. Šīs IC panākumi lika vadošo Picon izstrādātāju grupai 1986. gadā izveidot privātu firmu Gensym, kas, būtiski attīstot Picon iemiesotās idejas, 1988. gadā tirgū ienāca ar IC ar nosaukumu G2, versija 1.0. Pašlaik darbojas versija 4.2, un versija 5.0 tiek sagatavota izlaišanai.

Gensym programmatūras produktu (ASV) galvenais mērķis ir palīdzēt uzņēmumiem saglabāt un izmantot savu talantīgāko un kvalificētāko darbinieku zināšanas un pieredzi reāllaika viedās sistēmās, kas uzlabo produktu kvalitāti, uzticamību un ražošanas drošību un samazina ražošanas izmaksas. Par to, kā Gensym izdodas tikt galā ar šo uzdevumu, liecina vismaz tas, ka šobrīd tai pieder 50% no vadības sistēmās izmantoto ekspertu sistēmu pasaules tirgus.

Atpaliekot no Gensym par 2–3 gadiem, citi uzņēmumi sāka veidot savus IC priekš ES RT. No neatkarīgo NASA ekspertu viedokļa, kuri veica visaptverošu dažu uzskaitīto sistēmu īpašību un iespēju izpēti, šobrīd G2 (Gensym, ASV) noteikti joprojām ir vismodernākā IS; šādas vietas ar ievērojamu nobīdi (tiek ieviesti mazāk nekā 50% no G2 iespējām) aizņem RTWorks - Talarian (ASV), COMDALE / C (Comdale Techn. - Kanāda), COGSYS (SC - ASV), ILOG noteikumi ( ILOG — Francija).

Uzdevumu klases, kurām paredzētas G2 un līdzīgas sistēmas:

uzraudzība reālā laikā;

augstākā līmeņa kontroles sistēmas;

defektu noteikšanas sistēmas;

diagnostika;

plānošana;

optimizācija;

sistēmas - operatora konsultanti;

projektēšanas sistēmas.

Gensym rīki ir evolucionārs solis tradicionālo ekspertu sistēmu attīstībā no statiskām uz dinamiskām jomām. Ievērojamu daļu no Gensym panākumiem nodrošina pamatprincipi, kurus tas ievēro savās jaunajās izstrādēs:

problēmorientācija/priekšmets;

standartu ievērošana;

neatkarība no skaitļošanas platformas;

augšupēja saderība ar iepriekšējām versijām;

universālas iespējas neatkarīgi no risināmā uzdevuma;

lietišķo sistēmu tehnoloģiskās bāzes nodrošināšana;

komfortablu attīstības vidi;

meklēt jaunus tehnoloģiju attīstības ceļus;

izplatīta klienta-servera arhitektūra;

augsta veiktspēja.

Galvenā G2 ekspertu sistēmu čaulas priekšrocība Krievijas lietotājiem ir iespēja to izmantot kā integrējošu komponentu, kas ļauj, pateicoties saskarņu atvērtībai un plašam skaitļošanas platformu atbalstam, viegli apvienot esošos, atšķirīgos automatizācijas rīkus. singlā integrēta sistēma vadība, kas aptver visus ražošanas darbības aspektus – no pasūtījumu portfeļa veidošanas līdz procesu kontrolei un gatavās produkcijas nosūtīšanai. Īpaši svarīgi tas ir vietējiem uzņēmumiem, kuru datortehnikas un programmatūras parks lielākoties veidojies nejauši, krasu ekonomikas svārstību ietekmē.

Papildus G2 sistēmai kā pamata izstrādes rīkam, Gensym piedāvā uz domēnu/domēnu orientētu paplašinājumu komplektu, lai ātri ieviestu sarežģītas dinamiskas sistēmas, kuru pamatā ir specializētas grafiskās valodas, tostarp parametrizējami operatoru bloki procesa elementu attēlošanai un tipiski informācijas apstrādes uzdevumi. . Gensym rīku komplekts, kas sagrupēts pēc problēmu orientācijas, aptver visus ražošanas procesa posmus un izskatās šādi:

inteliģenta ražošanas kontrole - G2, G2 Diagnostic Assistant (GDA), NeurOn-Line (NOL), Statistical Process Control (SPC), BatchDesign_Kit;

darbības plānošana - G2, G2 plānošanas rīkkopa (GST), dinamiskā plānošanas pakotne (DSP);

ražošanas procesu izstrāde un modelēšana - G2, ReThink, BatchDesign_Kit;

operācijas un korporatīvā tīkla vadība - G2, Fault Expert.

Neskatoties uz to, ka G2 sistēmas pirmā versija parādījās ne tik sen - 1988. gadā, neviens to nenosauks par lētu pat bagātajā Amerikā. G2 var saukt par bestselleru programmatūras tirgū – 1996. gada sākumā pasaulē tika uzstādīti vairāk nekā 5000 tā kopiju. Gensym apkalpo vairāk nekā 30 nozares, sākot no kosmosa pētniecības līdz pārtikas ražošanai. G2 lietotāju saraksts izskatās kā globālās nozares ceļvedis Who-Is-Who. 25 no pasaules lielākajām rūpniecības korporācijām izmanto G2. Uz G2 bāzes ir uzrakstīti vairāk nekā 500 aktīvo pieteikumu.

Kas izskaidro G2 instrumentālā kompleksa panākumus? Pirmkārt, G2 ir dinamiska sistēma vārda pilnā nozīmē. G2 ir uz objektu orientēta sistēma reāllaika lietojumprogrammu izstrādei un uzturēšanai, kas izmanto zināšanu bāzes. G2 darbojas lielākajā daļā esošo platformu (9.1. tabula). G2 zināšanu bāze tiek saglabāta parastajā veidā

9.1. tabula Platformas, uz kurām darbojas G2

Ražošanas uzņēmums	Skaitļošanas sistēma	Darbības vide
	VAX Zxxx,4xxx,bxxx,
	7xxx, 8xxx, 9xxx
	DECstation Zxxx, bxxx
		Atvērt VMS, OSF/1,




	SPARC 1,2, 10, LX,	SunOS/Solaris 1, Solaris

Hewlett Packard	HP9000/4xx, 7xx, 8xx


Silikona grafika
	Intel 486/Pentium	Windows NT, Windows 95

9. LEKCIJA RADĪŠANAWEBPIUM DARBA LAPAS

Vienkāršākais veids, kā izmantot PivotTable List komponentu, ir saglabāt rakurstabulu Microsoft Excel kā tīmekļa lapa. Lai to izdarītu, atlasiet izvēlnes vienumu Fails | Parādītajā dialoglodziņā Saglabāt kā tīmekļa lapu nospiediet pogu Publicēt, dialoglodziņā atlasiet opciju Items on Sheet1 no nolaižamā saraksta Izvēlēties, pēc tam rakurstabulu, atzīmējiet opciju Pievienot interaktivitāti ar un atlasiet Rakurstabulas funkcionalitāti. sarakstu.

Pēc tam, ja nepieciešams, mainiet virsrakstu, kas parādīsies nākamajā Web lapā, un saglabājiet to. Ja mēs atveram šo lapu programmā Microsoft Internet Explorer, mēs varam redzēt, ka tajā ir rakurstabulu saraksts, ActiveX vadīkla OLAP datu un rakurstabulu skatīšanai Web lapās vai Windows lietojumprogrammās (2. attēls).

Uzreiz atzīmējam, ka šo vadīklu var izmantot tikai lokālajos tīklos datoros, kuriem ir iegādāta Microsoft Office licence; Licences līgums aizliedz citus lietojumus, piemēram, tīmekļa lapās, kas pieejamas internetā.

Rakurstabulas saraksta komponenta līdzekļi

Lekcijā īsumā apskatīsim PivotTable List komponentes sniegtās iespējas.

Lietotājs, kurš pārlūkprogrammā vai Windows lietojumprogrammā manipulē ar šo komponentu, tāpat kā Excel rakurstabulā var pārvietot datus uz rindu apgabalu, kolonnu apgabalu un lapas apgabalu (Microsoft Office tīmekļa komponenti izmanto terminus rindas apgabals, kolonnas apgabals un filtra apgabals). ar dialoglodziņu paneli, kas atgādina rakurstabulas lauku saraksta paneli no programmas Excel 2013. Dialoga panelis ar dimensiju un mērījumu sarakstu tiek parādīts, noklikšķinot uz pogas Lauku saraksts komponenta PivotTable List rīkjoslā.

Lietotājs var arī veikt urbšanas darbību, noklikšķinot uz ikonām "+" (4. attēls).

Rakurstabulas saraksta komponents ļauj kārtot un filtrēt datus. Pirmkārt, datu filtrēšanu var veikt, parādot tikai atlasītos dimensiju elementus, kurus var pārbaudīt nolaižamajā sarakstā, kas ir līdzīgs attiecīgajam Excel sarakstam.

Otrkārt, izmantojot dialoga paneli Komandas un opcijas (to var parādīt, izmantojot atbilstošo pogu rakurstabulas saraksta komponenta rīkjoslā), varat izvēlēties, kā filtrēt un grupēt datus (piemēram, parādīt noteiktu skaitu augstāko vai mazāko vērtību - Top 5, Top 10, Apakšējie 25 utt.

Turklāt lietotājs var mainīt datu attēlojuma atribūtus – teksta krāsu un fontu, fona krāsu, teksta izlīdzinājumu, displeju u.c. Lai to izdarītu, vienkārši novietojiet kursoru uz viena no datu elementiem, kuru atribūti ir jāmaina (piemēram, uz dimensijas elementa nosaukuma, uz šūnas ar kopsavilkuma datiem vai ar kopējām vērtībām) un atlasiet jaunus atribūtus parādīšanai. šāda veida datus tajā pašā komandu un opciju dialoglodziņā. .

Turklāt PivotTable List komponents ļauj, pamatojoties uz apkopotajiem datiem, aprēķināt daļas vai procentus no kopsummas vai summas, kas atbilst dimensijas mātes dalībniekam (piemēram, procentuālā daļa no gada peļņas, kas saņemta noteiktā ceturksnī) - atbilstošās opcijas var atrast datu elementu konteksta izvēlnēs.

Lietotājam ir pieejams arī īpaši izveidots palīdzības fails (krievu valodā, ja Web komponenti no krievu valodas Microsoft versijas Office XP). Tomēr lietotājs nevar mainīt datu avotu un Web lapā attēlot citu OLAP kubu, jo tikai Web lapas izstrādātājam ir tiesības to darīt (un viņam ir atsevišķs palīdzības fails, kas būtiski atšķiras no paredzēts lietotājam - tajā jo īpaši ir informācija par šī komponenta objekta modeli).

Ņemiet vērā, ka līdzīgu Web lapu var izveidot arī, izmantojot Microsoft FrontPage. Lai ievietotu PivotTable sarakstu Web lapā, kas izveidota programmā FrontPage, atlasiet izvēlnes vienumu Ievietot | Web komponents un parādītajā dialoglodziņā atlasiet Office rakurstabulu sadaļā Izklājlapas un diagrammas.

Pēc rakurstabulas saraksta komponenta parādīšanās Web lapā noklikšķiniet uz hiperteksta saites, kas aicina definēt datu avotu, un pēc tam atlasiet ODBC avotu piedāvātajā sarakstā (vai aprakstiet to, ja tas vēl nav sarakstā; kā tas tika aprakstīts iepriekšējā šīs sērijas rakstā). Kā datu avotu varat izmantot gan servera puses OLAP kubu, gan lokālo, kas izveidots, izmantojot Excel (kā arī vaicājuma rezultātu jebkuram ODBC avotam, kas atgriež parastu "plakanu" datu kopu). Visbeidzot, ja nepieciešams, varat parādīt dialoglodziņu PivotTable lauku saraksts un pārvietot dimensiju un mēru nosaukumus uz atbilstošajiem šī komponenta apgabaliem.

Ņemiet vērā, ka dialoglodziņa Komandu un opciju lapa Datu avots ir pieejama tikai izstrādes laikā (tas ir, FrontPage vai, ja rakurstabulas saraksta komponents tiek izmantots Windows lietojumprogrammā, nevis Web lapā, tad izstrādes rīkā ar kuru tas ir izveidots).Pielikums). Citiem vārdiem sakot, gala lietotājam nav iespēju mainīt datu avotu, to var izdarīt tikai izstrādātājs.

Web lapu izveide, izmantojot rakurdiagrammas

Microsoft Office Web Components arī ļauj izveidot rakurstabulu, pamatojoties uz datiem, kas tiek parādīti komponentā PivotTable List. Šim nolūkam izmantojiet ChartSpace vadīklu, kas ir iekļauta arī Microsoft Office Web komponentos. Lai to ievietotu Web lapā, FrontPage izvēlnē atlasiet izvēlnes vienumu Ievietot | Web komponents un parādītajā dialoglodziņā atlasiet Office diagramma sadaļā Izklājlapas un diagrammas.

Nākamais diagrammas izveides solis ir datu avota atlase tās attēlošanai. Mūsu gadījumā tas būs esošais rakurstabulas saraksta komponents.

Jāņem vērā, ka iegūtajai rakurdiagrammai ir aptuveni tāda pati funkcionalitāte kā iepriekšējā šī cikla rakstā aplūkotajai Excel rakurdiagrammai (piemēram, šis komponents ļauj arī vilkt dimensiju un mēru nosaukumus ar peli uz dažādiem apgabaliem diagrammas un atlasiet rādītos dimensiju dalībniekus), un izmaiņas diagrammā un rakurstabulā ir sinhronas, tāpat kā OLAP kuba datu parādīšanai programmā Excel.

Rakursdiagrammu, kuras pamatā ir OLAP kubs, var izveidot arī tieši, izmantojot ChartSpace komponentu. Lai to izdarītu, veidojot Web lapu, dialoglodziņā Komandas un opcijas lapā Datu informācija ir jāapraksta datu avots.

Un visbeidzot, vēl viens veids, kā izveidot Web lapu ar šarnīra diagrammu. Tas sastāv no Excel rakurdiagrammas kā Web lapas saglabāšanas. Tomēr šajā gadījumā ar izveidojamo diagrammu saistītais rakurstabulas saraksta komponents tiks automātiski pievienots tai pašai lapai.

Kā minēts iepriekš, lietojumprogrammās var izmantot arī PivotTable List un ChartSpace komponentus. Tam nepieciešams izstrādes rīks, kas atbalsta ActiveX vadīklu izmantošanu veidlapās (piemēram, Microsoft Visual Basic, Microsoft Visual C++, Borland Delphi, Borland C++Builder). Izstrādātāji, kurus interesē šādu lietojumprogrammu izveide, var atsaukties uz mūsu iepriekš publicētajiem rakstiem par šo tēmu (piemēram, Microsoft Office komponentu izmantošana lietojumprogrammās.

REZULTĀTI

8.3.a tabula. Regresijas statistika

Regresijas statistika
Vairāki R	0,998364
R-kvadrāts	0,99673
Normalizēts R kvadrāts	0,996321
standarta kļūda	0,42405
Novērojumi	10

Vispirms apskatīsim 8.3a tabulā sniegto aprēķinu augšējo daļu, regresijas statistiku.

Vērtība R-kvadrāts, ko sauc arī par noteiktības mēru, raksturo iegūtās regresijas līnijas kvalitāti. Šo kvalitāti izsaka sākotnējo datu un regresijas modeļa (aprēķināto datu) atbilstības pakāpe. Noteiktības mērs vienmēr ir intervālā .

Vairumā gadījumu R kvadrāta vērtība ir starp šīm vērtībām, ko sauc par galējībām, t.i. starp nulli un vienu.

Ja R kvadrāta vērtība ir tuvu vienam, tas nozīmē, ka konstruētais modelis izskaidro gandrīz visu atbilstošo mainīgo mainīgumu. Un otrādi, R kvadrāta vērtība tuvu nullei nozīmē sliktu izveidotā modeļa kvalitāti.

Mūsu piemērā noteiktības mērs ir 0,99673, kas norāda uz ļoti labu regresijas līnijas atbilstību sākotnējiem datiem.

Vairāki R- daudzkārtējās korelācijas koeficients R - izsaka neatkarīgo mainīgo (X) un atkarīgo mainīgo (Y) atkarības pakāpi.

Vairāki R ir vienādi ar determinācijas koeficienta kvadrātsakni, šī vērtība ņem vērtības diapazonā no nulles līdz vienam.

Vienkāršā lineārās regresijas analīzē daudzkārtējais R ir vienāds ar Pīrsona korelācijas koeficientu. Patiešām, daudzkārtējais R mūsu gadījumā ir vienāds ar Pīrsona korelācijas koeficientu no iepriekšējā piemēra (0, 998364).

8.3b tabula. Regresijas koeficienti

	Likmes	standarta kļūda	t-statistika
Y-krustojums	2,694545455	0,33176878	8,121757129
Mainīgais X 1	2,305454545	0,04668634	49,38177965
* Tiek dota aprēķinu saīsināta versija

Tagad apsveriet 8.3b tabulā sniegto aprēķinu vidējo daļu. Šeit ir dots regresijas koeficients b (2,305454545) un nobīde pa y asi, t.i. konstante a (2,694545455).

Pamatojoties uz aprēķiniem, mēs varam uzrakstīt regresijas vienādojumu šādi:

Y= x*2,305454545+2,694545455

Attiecību virziens starp mainīgajiem tiek noteikts, pamatojoties uz pazīmēm (negatīvas vai pozitīvas) regresijas koeficienti(koeficients b).

Ja zīme plkst regresijas koeficients- pozitīvs, atkarīgā mainīgā saistība ar neatkarīgo būs pozitīva. Mūsu gadījumā regresijas koeficienta zīme ir pozitīva, līdz ar to arī sakarība ir pozitīva.

Ja zīme plkst regresijas koeficients- negatīvs, attiecības starp atkarīgo mainīgo un neatkarīgo mainīgo ir negatīvas (apgrieztas).

Tabulā 8.3c. tiek parādīti atlikumu izvades rezultāti. Lai šie rezultāti tiktu parādīti pārskatā, palaižot rīku "Regresija", ir jāaktivizē izvēles rūtiņa "Atlikumi".

ATLIKUŠA IZSTĀŠANA

8.3c tabula. Paliek

Novērošana	Paredzēts Y	Paliek	Standarta atlikumi
1	9,610909091	-0,610909091	-1,528044662
2	7,305454545	-0,305454545	-0,764022331
3	11,91636364	0,083636364	0,209196591
4	14,22181818	0,778181818	1,946437843
5	16,52727273	0,472727273	1,182415512
6	18,83272727	0,167272727	0,418393181
7	21,13818182	-0,138181818	-0,34562915
8	23,44363636	-0,043636364	-0,109146047
9	25,74909091	-0,149090909	-0,372915662
10	28,05454545	-0,254545455	-0,636685276

Izmantojot šo atskaites daļu, mēs varam redzēt katra punkta novirzes no konstruētās regresijas taisnes. Lielākā absolūtā vērtība

Saistīts ar inerci.

Inerces mēr.1

Kosinuss**2 mēr.1

augstākie vadītāji

jaunākie vadītāji

vecākais personāls

jaunākie darbinieki