Методи графічного розвідувального аналізу даних. Засоби Statistica щодо графічного розвідувального аналізу даних. Описові статистики, угруповання, розвідувальний аналіз

Глава 1. ЯК ЗАПИСАТИ ЧИСЛА («СТЕБЕЛЬ З ЛИСТЯМИ»)

Глава 2. ПРОСТІ ЗВЕДЕННЯ ДАНИХ – ЧИСЛОВІ І ГРАФІЧНІ

Глава 10. ВИКОРИСТАННЯ ДВОФАКТОРНОГО АНАЛІЗУ

Глава 1. ЯК ЗАПИСАТИ ЧИСЛА («СТЕБЕЛЬ З ЛИСТЯМИ»)

Глава 2. ПРОСТІ ЗВЕДЕННЯ ДАНИХ – ЧИСЛОВІ І ГРАФІЧНІ

Глава 10. ВИКОРИСТАННЯ ДВОФАКТОРНОГО АНАЛІЗУ

Найкращі статті на тему

30.05.2020 Оформлення

Цей розділ продовжує тему розділу Побудова та аналіз таблиць. Ми рекомендуємо переглянути її, а потім приступити до читання даного тексту та вправ на STATISTICA.

Аналіз відповідностей (англійською coirespondence analysis) - це розвідувальний метод аналізу, що дозволяє візуально і чисельно досліджувати структуру таблиць сполученості великої розмірності.

В даний час аналіз відповідностей інтенсивно застосовується в різноманітних галузях, зокрема, в соціології, економіці, маркетингу, медицині, управлінні містами (див. наприклад, Thomas Werani, Correspondence in Retailing and Services Science, pp. 22-25, Juni 1996, Telfs-Buchen (Osterreich) Werani, Thomas).

Відомі застосування методу в археології, аналіз текстів, де важливо дослідити структури даних (див. Greenacre, MJ, 1993, Correspondence Analysis in Practice, London: Academic Press).

Як додаткові приклади наведемо:

Дослідження соціальних групнаселення у різних регіонах із статтями витрати за кожною групою.
Дослідження результатів голосування в ООН з принципових питань (1 – за, 0 – проти, 0,5 – утримався, наприклад, у 1967 році досліджувалося 127 країн з 13 важливих питань) показують, що за першим фактором країни чітко поділяються на дві групи: одна із центром США, інша з центром СРСР (двополюсна модель світу). Інші чинники можуть інтерпретуватися як ізоляціонізм, неучасть у голосуванні тощо.
Дослідження імпорту автомобілів (марка машини – рядок таблиці, країна виробник – стовпець).
Дослідження таблиць, які у палеонтології, коли з вибірці розрізнених частин скелетів тварин робляться спроби їх класифікувати (віднести до однієї з можливих типів: зебра, кінь тощо. буд.).
Вивчення текстів. Відомий такий екзотичний приклад: журнал New-Yorker попросив лінгвістів встановити анонімного автора скандальної книги про одну президентську кампанію. Експертам було запропоновано тексти 15 можливих авторів та текст анонімного видання. Тексти представлялися рядками таблиці. У рядку i зазначалося частота цього слова j. Таким чином виходила таблиця сполученості. Методом аналізу відповідностей було визначено найімовірніший автор скандального тексту.

Застосування аналізу відповідності в медицині пов'язане з дослідженням структури складних таблиць, що містять індикаторні змінні, що показують наявність або відсутність у пацієнта цього симптому. Подібного роду таблиці мають більшу розмірність, і дослідження їх структури є нетривіальним завданням.

Завдання візуалізації складних об'єктів можуть бути також досліджені, принаймні до них можна знайти підхід за допомогою аналізу відповідностей. Зображення – це багатовимірна таблиця, і завдання полягає в тому, щоб знайти площину, що дозволяє максимально точно відтворити вихідне зображення.

Математичне підґрунтя методу.Аналіз відповідності спирається на статистику хі-квадрат. Можна сміливо сказати, що це нова інтерпретація статистики хі-квадрат Пірсона.

Метод багато в чому схожий факторний аналізОднак, на відміну від нього, тут досліджуються таблиці сполученості, а критерієм якості відтворення багатовимірної таблиці у просторі меншої розмірності є значення статистики хі-квадрат. Неформально можна говорити про аналіз відповідностей як про факторний аналіз категоріальних даних та розглядати його також як метод скорочення розмірності.

Отже, рядки або стовпці вихідної таблиці представляються точками простору, між якими обчислюється відстань хі-квадрат (аналогічно тому, як обчислюється статистика хі-квадрат для порівняння частот і очікуваних).

Далі потрібно знайти простір невеликої розмірності, як правило, двомірне, в якому обчислені відстані мінімально спотворюються, і в цьому сенсі максимально точно відтворити структуру вихідної таблиці зі збереженням зв'язків між ознаками (якщо ви маєте уявлення про методи багатовимірного шкалювання, то відчуєте знайому мелодію).

Отже, ми виходимо зі звичайної таблиці спряженості, тобто таблиці, в якій пов'язані кілька ознак (докладніше про таблиці спряженості див. розділ Побудова та аналіз таблиць).

Припустимо, що є дані про пристрасть до куріння співробітників певної компанії. Подібні дані є у файлі Smoking.sta, що входить до стандартного комплекту прикладів системи STATISTICA.

У цій таблиці ознака куріння пов'язана з ознакою посади:

Група співробітників	(1) Некурці	(2) Слабо палять	(3) Середньокурці	(4) Сильно палять	Усього по рядку
(1) Старші менеджери
(2) Молодші менеджери
(3) Старші співробітники
(4) Молодші співробітники
(5) Секретарі
Всього по стовпцю

Це проста двовхідна таблиця сполученості. Спочатку розглянемо рядки.

Можна вважати, що 4 перші числа кожного рядка таблиці (маргінальні частоти, тобто останній стовпець не враховується) є координатами рядка в 4-мірному просторі, а значить, формально можна обчислити відстані хі-квадрат між цими точками (рядками таблиці).

За даних маргінальних частот можна відобразити ці точки в просторі розмірності 3 (число ступенів свободи дорівнює 3).

Вочевидь, що менше відстань, то більше вписувалося схожість між групами, і навпаки - що більше відстані, то більше вписувалося відмінність.

Тепер припустимо, що можна знайти простір меншої розмірності, наприклад, розмірності 2, для представлення точок-рядків, що зберігає всю або, точніше, майже всю інформацію про відмінності між рядками.

Можливо, такий підхід неефективний для таблиць невеликої розмірності, як наведена вище, проте корисний для великих таблиць, що виникають, наприклад, у маркетингових дослідженнях.

Наприклад, якщо записані переваги 100 респондентів при виборі 15 сортів пива, то в результаті застосування аналізу відповідності можна представити 15 сортів (крапок) на площині (див. далі аналіз продажу). Аналізуючи розташування точок, ви побачите закономірності під час виборів пива, які будуть корисні під час проведення маркетингової кампанії.

У аналізі відповідностей використовується певний сленг.

Маса. Спостереження в таблиці нормуються: обчислюються відносні частоти для таблиці, сума всіх елементів таблиці стає рівною 1 (кожен елемент ділиться на загальну кількість спостережень, даному прикладіна 193). Створюється аналог двомірної густини розподілу. Отримана стандартизована таблиця показує, як розподілена маса по осередках таблиці або за точками простору. На сленгу аналізу відповідностей суми по рядках і стовпцям у матриці відносних частот називаються масою рядка та стовпця відповідно.

Інерція.Інерція визначається як значення хі-квадрат Пірсона для двох-вхідної таблиці, поділений на загальну кількість спостережень. У цьому прикладі: загальна інерція = 2/193 - 16,442.

Інерція та профілі рядків та стовпців.Якщо рядки та стовпці таблиці повністю незалежні (між ними немає зв'язку - наприклад, куріння не залежить від посади), то елементи таблиці можуть бути відтворені за допомогою сум по рядках та стовпцях або, у термінології аналізу відповідностей, за допомогою профілів рядків та стовпців (з використанням маргінальних частот, див. розділ Побудова та аналіз таблиць з описом критерію хі-квадрат Пірсона та точний критерій Фішера).

Відповідно до відомої формули обчислення хі-квадрат для двовходових таблиць очікувані частоти таблиці, в якій стовпці та рядки незалежні, обчислюються перемноженням відповідних профілів стовпців і рядків з поділом отриманого результату на загальну суму.

Будь-яке відхилення від очікуваних величин (при гіпотезі про повну незалежність змінних рядків і стовпців) даватиме внесок у статистику хі-квадрат.

Аналіз відповідностей можна розглядати як розкладання статистики хі-квадрат на компоненти з метою визначення простору найменшої розмірності, що дозволяє уявити відхилення від очікуваних величин (див. таблицю нижче).

Тут показані таблиці з очікуваними частотами, розрахованими при гіпотезі незалежності ознак, і частотами, що спостерігаються, а також таблиця вкладів осередків в хі-квадрат:

Наприклад, з таблиці видно, що кількість молодших співробітників, що не палять, приблизно на 10 менше, ніж можна було б очікувати при гіпотезі незалежності. Число старших співробітників, що не палять, навпаки, на 9 більше, ніж можна було б очікувати при гіпотезі незалежності, і т. д. Однак хотілося б мати загальну картину.

Мета аналізу відповідностей у тому, щоб підсумовувати ці відхилення від очікуваних частот над абсолютних, а відносних одиницях.

Аналіз рядків та стовпців.Замість рядків таблиці можна розглядати також стовпці та уявити їх точками у просторі меншої розмірності, що максимально точно відтворює схожість (і відстані) між відносними частотами для стовпців таблиці. Можна одночасно відобразити на одному графіку стовпці та рядки, які представляють всю інформацію, що міститься у двовходовій таблиці. І цей варіант - найцікавіший, оскільки дозволяє провести змістовний аналіз результатів.

Результати.Результати аналізу відповідностей зазвичай подаються у вигляді графіків, як було показано вище, а також у вигляді таблиць типу:

Число вимірів	Відсоток інерції	Кумулятивний відсоток	Хі-квадрат

Подивіться цю таблицю. Як ви пам'ятаєте, мета аналізу - знайти простір меншої розмірності, що відновлює таблицю, при цьому критерієм якості є нормований хі-квадрат або інерція. Можна зауважити, що якщо в прикладі використовувати одномірний простір, тобто одну вісь, можна пояснити 87,76% інерції таблиці.

Дві розмірності дозволяють пояснити 99,51% інерції.

Координати рядків та стовпців.Розглянемо координати, що вийшли, у двомірному просторі.

Ім'я рядка	Зміна 1	Зміна 2
Старші менеджери
Молодші менеджери
Старші співробітники
Молодші співробітники
Секретарі

Можна зобразити це двомірної діаграмі.

Очевидною перевагою двомірного простору є те, що рядки, що відображаються у вигляді близьких точок, близькі один до одного і за відносними частотами.

Розглядаючи положення точок по першій осі, можна побачити, що Ст. співробітники та Секретарі відносно близькі за координатами. Якщо ж звернути увагу на рядки таблиці відносних частот (частоти стандартизовані так, що їх сума за кожним рядком дорівнює 100%), то подібність цих двох груп за категоріями інтенсивності куріння стає очевидною.

Відсотки за рядком:

	Категорії курців
Група співробітників	(1) Некурці	(2) Слабо палять	(3) Середньокурці	(4) Сильно палять	Усього по рядку
(1) Старші менеджери
(2) Молодші менеджери
(3) Старші співробітники
(4) Молодші співробітники
(5) Секретарі

Остаточною метою аналізу відповідності є інтерпретація векторів в отриманому просторі нижчої розмірності. Одним із способів, який може допомогти в інтерпретації одержаних результатів, є представлення на діаграмі стовпців. У наступній таблиці показані координати стовпців:

	Вимірювання 1	Вимірювання 2
Некурці
Слабо палять
Середньокурці
Ті, що сильно палять

Можна сміливо сказати, що перша вісь дає градацію інтенсивності куріння. Отже, більший ступінь подібності між старшими менеджерами і секретарями можна пояснити наявністю в цих групах великої кількості некурців.

Метрика координатної системи.У ряді випадків термін відстань використовувався для позначення відмінностей між рядками та стовпцями матриці відносних частот, які, у свою чергу, представлялися у просторі меншої розмірності внаслідок використання методів аналізу відповідностей.

Насправді відстані, представлені у вигляді координат у просторі відповідної розмірності, - це не просто евклідові відстані, обчислені за відносними частотами стовпців та рядків, а деякі зважені відстані.

Процедура підбору ваг влаштована таким чином, щоб у просторі нижчої розмірності метрикою була метрика хі-квадрат, враховуючи, що порівнюються точки-рядки і вибирається стандартизація профілів рядків або стандартизація профілів рядків і стовпців або порівнюються точки-стовпці і вибирається стандартизація профілів стовпців або стандартизація профілів рядків та стовпців.

Оцінка якості рішення.Існують спеціальні статистики, що допомагають оцінити якість отриманого рішення. Всі або більшість точок повинні бути правильно представлені, тобто відстані між ними в результаті застосування процедури аналізу відповідності не повинні спотворюватися. У наступній таблиці показані результати обчислення статистик за наявними координатами рядків, засновані лише на одновимірному рішенні в попередньому прикладі (тобто тільки один вимір використовувався для відновлення профілів рядків матриці відносних частот).

Координати та внесок в інерцію рядка:

Координати.Перший стовпець таблиці результатів містить координати, інтерпретація яких, як зазначалося, залежить від стандартизації. Розмірність вибирається користувачем (у даному прикладі ми вибрали одновимірний простір), і координати відображаються для кожного виміру (тобто відображається по одному стовпцю координат на кожну вісь).

Маса.Маса містить суми всіх елементів для кожного рядка матриці відносних частот (тобто для матриці, де кожен елемент містить відповідну масу, як згадувалося вище).

Якщо в якості методу стандартизації вибрано опцію Профілі рядківабо опція Профілі рядків та стовпців, яка встановлена за замовчуванням, координати рядків обчислюються за матрицею профілів рядків. Іншими словами, координати обчислюються на основі матриці умовних ймовірностей, представленої в стовпці Маса.

Якість.Стовпець Якістьмістить інформацію про якість подання відповідної точки-рядка в координатній системі, що визначається обраною розмірністю. У таблиці було обрано лише один вимір, тому числа в стовпці Якістьє якістю уявлення результатів в одновимірному просторі. Видно, що якість для старших менеджерів дуже низька, але висока для старших та молодших співробітників та секретарів.

Зазначимо ще раз, що у обчислювальному плані метою аналізу відповідностей є уявлення відстаней між точками у просторі нижчої розмірності.

Якщо використовується максимальна розмірність (рівна мінімуму рядків і стовпців мінус один), можна відтворити всі відстані в точності.

Якість точки визначається як відношення квадрата відстані від цієї точки до початку координат, у просторі вибраної розмірності, до квадрату відстані до початку координат, визначеному у просторі максимальної розмірності (як метрика у цьому випадку обрана метрика хі-квадрат, як уже згадувалося раніше). У факторному аналізі є аналогічне поняття «спільність».

Якість, що обчислюється системою STATISTICA, не залежить від обраного методу стандартизації і завжди використовує стандартизацію, встановлену за умовчанням (тобто метрикою відстані є хі-квадрат, і міра якості може інтерпретуватися як частка хі-квадрат, що визначається відповідним рядком у просторі відповідним).

Низька якість означає, що число вимірювань недостатньо добре представляє відповідний рядок (стовпець).

Відносна інерція.Якість точки (див. вище) представляє відношення вкладу цієї точки до загальної інерції (Хі-квадрат), що може пояснювати обрану розмірність.

Якість не відповідає на питання, наскільки насправді та в яких розмірах відповідна точка робить внесок в інерцію (величину хі-квадрат).

Відносна інерція представляє частку загальної інерції, що належить даній точці, і залежить від обраної користувачем розмірності. Зазначимо, що будь-яке приватне рішення може досить добре представляти точку (високу якість), але та ж точка може робити дуже малий внесок у загальну інерцію (тобто точка-рядок, елементами якої є відносні частоти, має схожість з деяким рядком, елементи якої є середнє по всіх рядках).

Відносна інерція кожної розмірності.Цей стовпець містить відносний внесок відповідної точки-рядка у величину інерції, зумовлений відповідною розмірністю. У звіті дана величина наводиться для кожної точки (рядки або стовпця) та кожного вимірювання.

Косинус**2 (якість або квадратичні кореляції з кожною розмірністю).Цей стовпець містить якість кожної точки, обумовлене відповідною розмірністю. Якщо підсумувати рядково елементи стовпців косинус**2 для кожної розмірності, то в результаті отримаємо стовпець величин Якість, про які вже згадувалося вище (оскільки в прикладі була обрана розмірність 1, то стовпець Косинус 2 збігається зі стовпцем Якість). Ця величина може інтерпретуватися як "кореляція" між відповідною точкою та відповідною розмірністю. Термін Косинус**2 виник через те, що дана величина є квадратом косинуса кута, утвореного даною точкою та відповідною віссю.

Додаткові точки. Допомога в інтерпретації результатів може надати включення додаткових точок-рядків або стовпців, які на початковому етапі не брали участь у аналізі. Є можливість для включення як додаткових точок-рядків, так і додаткових точок-стовпців. Також можна відображати додаткові точки разом з вихідними на одній діаграмі. Наприклад, розглянемо такі результати:

Група співробітників	Вимірювання 1	Вимірювання 2
Старші менеджери
Молодші менеджери
Старші співробітники
Молодші співробітники
Секретарі
Національне середнє

Ця таблиця відображає координати (для двох розмірностей), обчислені для частотної таблиці, що складається з класифікації ступеня пристрасті до куріння серед різних посад.

Рядок Національне середнє містить координати додаткової точки, яка є середнім рівнем (у відсотках), підрахованим за різними національностями курців. У цьому прикладі це суто модельні дані.

Якщо ви побудуєте двовимірну діаграму груп співробітників та Національного середнього, то одразу переконайтеся в тому, що ця додаткова точка та група Секретарі дуже близькі один до одного і розташовані по один бік горизонтальної осі координат з категорією "Некурці" (точкою-стовпцем). Іншими словами, вибірка, представлена у вихідній частотній таблиці, містить більше курців, ніж Національна середня.

Хоча такий самий висновок можна зробити, поглянувши на вихідну таблицю сполученості, у таблицях великих розмірів подібні висновки, звісно, менш очевидні.

Якість представлення додаткових точок.Ще одним цікавим результатом, що стосується додаткових точок, є інтерпретація якості, подання при заданій розмірності.

Ще раз зазначимо, що метою аналізу відповідностей є уявлення відстаней між координатами рядків чи стовпців у просторі нижчої розмірності. Знаючи, як вирішується дана задача, необхідно відповісти на питання, чи є адекватним (у сенсі відстаней до точок у вихідному просторі) подання додаткової точки у просторі обраної розмірності. Нижче представлені статистики для вихідних точок і для додаткової точки Національне середнє стосовно завдання у двовимірному просторі.

Молодші менеджери0,9998100,630578

Нагадаємо, що якість точок-рядків або стовпців визначено як відношення квадрата відстані від точки до початку координат у просторі зниженої розмірності до квадрату відстані від точки до початку координат у вихідному просторі (як метрика, як уже зазначалося, вибирається відстань хі-квадрат).

У певному сенсі якість є величиною, що пояснює частку квадрата відстані до центру тяжкості вихідної хмари точок.

Додаткова точка-рядок Національна середня має якість 0,76. Це означає, що дана точка досить добре представлена у двовимірному просторі. Статистика Косинус**2 - це якість уявлення відповідної точки-рядка, обумовлене вибором простору заданої розмірності (якщо підсумувати рядково елементи стовпців Косинус 2 для кожного виміру, то в результаті ми прийдемо до величини Якість, отриманої раніше).

Графічний аналіз результатів.Це найважливіша частина аналізу. По суті, ви можете забути про формальні критерії якості, проте керуватися деякими простими правилами, що дозволяє розуміти графіки.

Отже, на графіку видаються точки-рядки та точки, стовпці. Хорошим тоном є уявлення і тих і інших точок (адже ми аналізуємо зв'язки рядків і стовпців таблиці!).

Зазвичай горизонтальна вісь відповідає максимальній інерції. Біля стрілки показаний відсоток загальної інерції, що пояснюється цим своїм значенням. Часто вказують відповідні власні значення, взяті з таблиці результатів. Перетин двох осей - це центр ваги точок, що спостерігаються, відповідний середнім профілям. Якщо точки належать одному й тому типу, тобто є або рядками, або стовпцями, то чим менше відстань між ними, тим тісніше зв'язок. Щоб встановити зв'язок між точками різного типу (між рядками і стовпцями), слід розглянути кутиміж ними з вершиною у центрі тяжкості.

Загальне правило візуальної оцінки ступеня залежності полягає у наступному.

Розглянемо 2 довільні точки різного типу (рядки та стовпці таблиці).
З'єднаємо їх відрізками прямих із центром ваги (точка з координатами 0,0).
Якщо кут, що утворився, гострий, то рядок і стовпець позитивно кореловані.
Якщо кут, що утворився, тупий, то кореляція між змінними негативна.
Якщо кут прямий, кореляція відсутня.

Розглянемо аналіз конкретних даних у системі STATISTICA.

Приклад 1 (аналіз курців)

Крок 1. Запустіть модуль Аналіз відповідності.

У стартовій панелі модуля є 2 види аналізу: аналіз відповідностей та багатовимірний аналіз відповідностей.

Виберіть Аналіз відповідності.Багатомірний аналіз відповідностей буде розглянуто у наступному прикладі.

Крок 2Відкрийте файл даних smoking.sta папки Examples.

Файл вже є таблицею спряженості, тому табуляція не потрібна. Виберіть вид аналізу - Частоти без змінної, що групує.

Крок 3. Натисніть кнопку Змінні із частотамита виберіть змінні для аналізу.

У цьому прикладі виберіть усі змінні.

Крок 4.Натисніть OKта запустіть обчислювальну процедуру. На екрані з'явиться вікно із результатами.

Крок 5.Розглянемо результати з допомогою опцій даного вікна.

Зазвичай спочатку розглядаються графіки, навіщо є група кнопок Графік координат.

Графіки доступні для рядків та стовпців, а також для рядків та стовпців одночасно.

Розмірність максимального простору задається в опції Розмірність.

Найбільш цікава розмірність 2. Зауважте, що на графіці, особливо якщо є безліч даних, мітки можуть накладатися одна на одну, тому може бути корисною опція Скоротити мітки.

Натисніть третю кнопку 2М у діалоговому вікні. На екрані з'явиться графік:

Зауважте, що на графіку представлені обидва фактори: група співробітників – рядки та інтенсивність куріння – стовпці.

З'єднайте відрізком пряму категорію СТАРШІ СПІВРОБІТНИКИ, а також категорію НІ з центром тяжіння.

Кут, що утворився, буде гострим, що мовою аналізу відповідностей говорять про наявність позитивної кореляції між цими ознаками (перегляньте вихідну таблицю, щоб переконатися в цьому).

Координати рядків та стовпців можна подивитися і у чисельному вигляді за допомогою кнопки Координати рядків та стовпців.

Використовуючи кнопку Власні значення, можна побачити розкладання статистики хі-квадрат за власними значеннями

Опція Графіктільки вибраних вимірів дозволяє переглянути координати точок вибраних осях.

Група опцій Перегляд таблицьу правій частині вікна дозволяє переглянути вихідну та очікувану таблицю спряженості, різниці між частотами та інші параметри, обчислені при гіпотезі незалежності табульованих ознак (див. розділ Побудова та аналіз таблиць, критерій хі-квадрат).

Таблиці великої розмірності краще всього досліджувати поступово, вводячи при необхідності додаткові змінні. Для цього передбачені опції: Додати точки-рядки, Додати точки-стовпці.

Приклад 2 (аналіз продажу)

У розділі Аналіз та побудова таблиць було розглянуто приклад, пов'язані з аналізом продажів. Застосуємо до даних аналіз відповідностей.

Раніше наголошувалося, що питання, які саме покупки зробив покупець за умови, що куплено 3 товари, є складним.

Справді, ми маємо 21 продукт. Щоб переглянути всі таблиці поєднання, потрібно виконати 21×20×19 = 7980 дій. Число дій катастрофічно зростає зі збільшенням товарів та кількості ознак. Застосуємо аналіз відповідностей. Відкриємо файл даних із індикаторними змінними, що відзначають куплений продукт.

У стартовій панелі модуля виберемо Багатовимірний аналіз відповідностей.

Задамо умову вибору спостережень.

Ця умова дозволяє вибрати покупців, які зробили рівно 3 покупки.

Оскільки ми маємо справу з нетабульованими даними, виберемо вид аналізу Початкові дані(Потрібна табуляція).

Для зручності подальшого графічного уявлення оберемо невелику кількість змінних. Виберемо також додаткові змінні (див. вікно нижче).

Запустимо обчислювальну процедуру.

У вікні, що з'явилося Результати багатовимірного аналізу відповідностейпереглянемо результати.

За допомогою кнопки 2М виводиться двовимірний графік змінних.

На цьому графіку додаткові змінні позначені червоними точками, що є зручним для візуального аналізу.

Зауважте, що кожна змінна має ознаку 1, якщо товар куплено, і ознаку 0, якщо товар не куплено.

Розглянемо графік. Виберемо, наприклад, близькі пари ознак.

У результаті отримаємо таке:

Аналогічні дослідження можна провести і для інших даних, коли відсутні будь-які апріорні гіпотези про залежність даних.

У книзі, написаної 1977 р. відомим американським фахівцем з математичної статистики, викладено основи розвідувального аналізу даних, тобто. первинної обробки результатів спостережень, що здійснюється за допомогою найпростіших засобів - олівця, паперу та логарифмічної лінійки. На численних прикладах автор показує, як уявлення спостережень у наочній формі з допомогою схем, таблиць і графіків полегшує виявлення закономірностей і вибір методів глибшої статистичної обробки. Виклад супроводжується численними вправами із залученням багатого матеріалу з практики. Жива, образна мова полегшує розуміння матеріалу, що викладається.

Джон Тьюкі. Аналіз результатів спостережень. Розвідувальний аналіз. - М.: Світ, 1981. - 696 с.

Завантажити конспект ( короткий зміст) у форматі або , приклади у форматі

На момент публікації нотатки книгу можна знайти лише у букіністичних магазинах.

Автор поділяє статистичний аналіз на два етапи: розвідувальний та підтверджуючий. Перший етап включає перетворення даних спостережень та способи їхнього наочного уявлення, що дозволяють виявити внутрішні закономірності, що виявляються в даних. На другому етапі застосовуються традиційні статистичні методи оцінки параметрів та перевірки гіпотез. Ця книга присвячена розвідувальному аналізу даних (про підтверджує аналіз див.). Для читання книги не потрібно попередніх знань з теорії ймовірностей та математичної статистики.

Прим. Багузіна.Враховуючи рік написання книги, автор зосереджується на наочному поданні даних за допомогою олівця, лінійки та паперу (іноді міліметрового). На мою думку, сьогодні наочне подання даних пов'язане з ПК. Тому я спробував поєднати оригінальні ідеїавтора та обробку в Excel. Мої коментарі набрано з відступом.

Графік має найбільшу цінність тоді, коли він змушує нас помітити, що ми зовсім не очікували побачити. Подання чисел у вигляді стебла та листя дозволяє виявити закономірності. Наприклад, прийнявши основою стебла десятки, число 35 можна віднести до стебла 3. Аркуш дорівнюватиме 5. Для числа 108 стебло – 10, лист – 8.

Як приклад я взяв 100 випадкових чисел, розподілених за нормальним законом із середнім 10 і стандартним відхиленням 3. Щоб отримати такі числа я скористався формулою =НОРМ.ОБР(СЛЧИС();10;3) (рис. 1). Відкрийте файл Excel. Натискаючи F9, ви генеруватимете новий ряд випадкових чисел.

Рис. 1. 100 випадкових чисел

Очевидно, що числа в основному розподілені в діапазоні від 5 до 16. Однак помітити якусь цікаву закономірність складно. Графік «стебло та листя» (рис. 2) виявляє нормальний розподіл. Як стовбур були взяті пари сусідніх чисел, наприклад, 4-5. Листя відображає кількість значень у цьому діапазоні. У прикладі таких значень 3.

Рис. 2. Графік «стебло та листя»

У Excel є дві можливості, що дозволяють швидко вивчити частотні закономірності: функція ЧАСТОТА (рис. 3; докладніше див.) і зведені таблиці (рис. 4; докладніше див. розділ Угруповання числових полів).

Рис. 3. Аналіз за допомогою функції масиву ЧАСТОТА

Рис. 4. Аналіз за допомогою зведених таблиць

Подання у вигляді стебла з листям (частотне уявлення) дозволяє виявити такі особливості даних:

поділ на групи;
несиметричне спадання до кінців - один «хвіст» довший за інший;
несподівано «популярні» та «непопулярні» значення;
щодо якого значення «центровані» спостереження;
як великий розкид даних.

Подання чисел як стебла з листям дозволяє сприйняти загальну картину вибірки. Перед нами стоїть завдання навчитися висловлювати в стислому вигляді найпоширеніші загальні особливостівибірок. Для цього використовуються зведення даних. Однак, незважаючи на те, що зведення можуть бути дуже корисними, але вони не дають усіх подробиць вибірки. Якщо цих подробиць не так багато, щоб у них заплутатися, краще мати перед очима повні дані, розміщені чітко зручним для нас способом. Для великих масивів даних зведення необхідні. Ми не припускаємо і не очікуємо, що вони замінять повні дані. Зрозуміло, нерідко буває, що додавання подробиць мало що дає, але важливо усвідомити, що подробиці іноді дають багато.

Якщо для характеристики вибірки як цілого нам потрібно вибрати кілька чисел, які легко знайти, то нам, напевно, знадобляться:

крайні значення – найбільше та найменше, які ми позначимо символом «1» (відповідно до їх рангу чи глибини);
якесь серединне значення.

Медіана= Середнє значення.

Для ряду, представленого у вигляді стебла з листям, серединне значення легко знайти підрахунком углиб від будь-якого кінців, приписуючи крайньому значенню ранг «1». Таким чином, кожне значення у вибірці отримує свій ранг. Рахунок можна починати з будь-якого кінця. Найменший із двох одержуваних таким чином рангів, які можна приписати тому самому значенню, ми назвемо глибиною(Рис. 5). Глибина останнього значення завжди 1.

Рис. 5. Визначення глибини з урахуванням двох напрямів ранжирования

глибина (або ранг) медіани = (1 + число значень)/2

Якщо ми хочемо додати ще два числа, щоб утворити 5-числове зведення, то природно визначати їх підрахунком до половини відстані від кожного з кінців до медіани. Процес знаходження медіани, а потім цих нових значень можна уявити, як складання аркуша паперу. Тому ці нові значення природно назвати згинами(зараз частіше використовується термін квартиль).

У згорнутому вигляді ряд із 13 значень може виглядати, наприклад, так:

П'ять чисел для характеристики ряду в порядку зростання будуть: -3,2; 0,1; 1,5; 3,0; 9,8 - по одному в кожній точці перегину ряду. П'ять чисел (крайні значення, згини, медіана), з яких складається 5-числове зведення, ми зображатимемо у вигляді наступної простої схеми:

де ліворуч ми показали кількість чисел (позначено знаком #), глибину медіани (літерою М), глибину згинів (літерою С) та глибину крайніх значень (завжди 1, більше нічим відзначати не треба).

На рис. 8 показано, як зобразити 5-числове зведення графічно. Такий тип графік називається «ящик з вусами».

Рис. 8. Схематична діаграма або ящик з вусами

На жаль, Excel стандартно будує біржові діаграми, засновані лише на трьох або чотирьох значеннях (рис. 9; як обійти це обмеження див.). Для побудови 5-числового зведення можна скористатися статистичним пакетом R (рис. 10; докладніше див. Базові графічні можливості R: діаграми розмахів; якщо ви не знайомі з пакетом R, можна почати з). Функція boxplot() R крім 5 чисел відображає також викиди (про них трохи пізніше).

Рис. 9. Можливі типи біржових діаграм в Excel

Рис. 10. Ящикова діаграма R; для побудови такого графіка достатньо виконати команду boxplot(count ~ spray, data = InsectSprays), будуть завантажені дані, що зберігаються в програмі, та побудований представлений графік

При побудові діаграми «ящик з вусами» ми дотримуватимемося наступної простої схеми:

"С-ширина" = різниця між значеннями двох згинів;
«крок» - величина, у півтора рази більша, ніж С-ширина;
"внутрішні бар'єри" знаходяться зовні згинів на відстані одного кроку;
«зовнішні бар'єри» - зовні на один крок далі за внутрішні;
значення між внутрішнім та сусіднім зовнішнім бар'єрами будуть «зовнішніми»;
значення за зовнішніми бар'єрами називатимемо «відскакувальними» (або викиди);
"Розмах" = різниця між крайніми значеннями.

Рис. 19. Обчислення ковзної медіани: (a) докладно для частини даних; (б) для всієї вибірки

Рис. 20. Згладжена крива

Настав час розглянути двофакторний аналіз - як унаслідок його важливості, і тому, що він є введенням у різноманітні методи дослідження. В основі двофакторної таблиці (таблиці відгуків) лежать:

один вид відгуків;
два фактори - і кожен з них проявляється у кожному спостереженні.

Двофакторна таблиця залишків. Аналіз «рядок-плюс-стовпець».На рис. 21 наведено середньомісячні значення температури для трьох місць в Арізоні.

Рис. 21. Середньомісячні температури у трьох містах Арізони, °F

Визначимо медіану за кожним місцем, і віднімемо її з окремих значень (рис. 22).

Рис. 22. Значення апроксимації (медіани) для кожного міста та залишки

Тепер визначимо апроксимацію (медіану) по кожному рядку, і віднімемо її від значень рядка (рис. 23).

Рис. 23. Значення апроксимації (медіани) для кожного місяця та залишки

Для рис. 23 ми запроваджуємо поняття «ефект». Число -24,7 є ефект стовпця, а число 19,1 - ефект рядка. Ефект показує, як проявляється фактор чи безліч факторів у кожній із спостеріганих величин. Якщо частина чинника, що проявляється, більше, ніж те, що залишається, то легше розглянути і зрозуміти, що відбувається з даними. Число, яке було віднято від усіх без винятку даних (тут 70,8), називається «загальне». Воно є проявом всіх чинників, загальних всім даних. Отже, для величин на рис. 23 справедлива формула:

Це і є схема конкретного аналізу «рядок-ПЛЮС-стовпець». Ми повертаємося до нашої старої хитрощі - спробувати знайти простий частковий опис - частковий опис, який легше сприймається - частковий опис, віднімання якого дасть нам можливість глибше поглянути на те, що ще не було описано.

Що нового ми зможемо дізнатись завдяки повному двофакторному аналізу? Найбільший залишок, що дорівнює 1,9, малий порівняно з величиною зміни ефекту від пункту до пункту та від місяця до місяця. У Флагстаффі приблизно на 25°F прохолодніше, ніж у Фініксі, тоді як у Юмі на 5–6°F тепліше, ніж у Фініксі. Послідовність місяців ефектів монотонно зменшується від місяця до місяця, спочатку повільно, потім швидко, потім знову повільно. Це схоже на симетрію щодо жовтня (таку закономірність я раніше спостерігав на прикладі тривалості дня; див. – Прим. Багузіна); Ми зняли обидві завіси – ефект сезону та ефект місця. Після цього ми змогли побачити чимало того, що раніше залишалося непоміченим.

На рис. 24 наведено двофакторна діаграма. Хоча основне на цьому малюнку – це апроксимація, ми не повинні нехтувати залишками. У чотирьох точках ми намалювали короткі вертикальні рисочки. Довжини цих рисок дорівнюють величинам відповідних залишків, так що координати других кінців становлять значення апроксимації, а

Дані = апроксимація ПЛЮС залишок.

Рис. 24. Двофакторна діаграма

Зауважимо також, що властивість цієї чи будь-якої іншої двофакторної діаграми - "шкала лише в одному напрямку", що задають вертикальний розмір, тобто. пунктирними горизонтальними лініями, проведеними з боків картинки, і відсутністю будь-якого розміру горизонтальному напрямку.

Про можливості Excel див. Цікаво, що деякі формули, використані в цій нотатці, носять ім'я Тьюкі

Подальший виклад, мій погляд, став дуже складним…

Data Mining Фролов Тимофій. БІ-1102 Видобуток даних це процес аналітичного дослідження великих масивів інформації (зазвичай економічного характеру) з метою виявлення певних закономірностей та систематичних взаємозв'язків між змінними, які потім можна застосувати до нових сукупностей даних. Цей процес включає три основні етапи: дослідження, побудова моделі чи структури та її перевірку. В ідеальному випадку, за достатньої кількості даних можна організувати ітеративну процедуру для побудови стійкої моделі. У той же час, у реальній ситуації практично неможливо перевірити економічну модель на стадії аналізу і тому початкові результати мають характер евристик, які можна використовувати в процесі прийняття рішення (наприклад, "Наявні дані свідчать про те, що у жінок частота прийому снодійних засобів збільшується з віком швидше, ніж у чоловіків."). Методи Data Mining набувають все більшої популярності як інструмент для аналізу економічної інформації, особливо в тих випадках, коли передбачається, що з даних можна буде отримати знання для прийняття рішень в умовах невизначеності. Хоча останнім часом зріс інтерес до розробки нових методів аналізу даних, спеціально призначених для сфери бізнесу (наприклад, Дерева класифікації), в цілому системи Data Mining, як і раніше, ґрунтуються на класичних принципах розвідувального аналізу даних (РАД) та побудови моделей і використовують ті ж самі підходи та методи. Є, однак, важлива відмінність процедури Data Mining від класичного розвідувального аналізу даних (РАД): системи Data Mining більшою мірою орієнтовані на практичне застосування отриманих результатів, ніж на з'ясування природи явища. Інакше кажучи, при Data Mining нас дуже цікавить конкретний вид залежностей між змінними завдання. З'ясування природи функцій, що беруть участь тут, або конкретної форми інтерактивних багатовимірних залежностей між змінними не є головною метою цієї процедури. Основна увага приділяється пошуку рішень, з яких можна було б будувати достовірні прогнози. Таким чином, в області Data Mining прийнятий такий підхід до аналізу даних та отримання знань, який іноді характеризують словами "чорна скринька". У цьому використовуються як класичні прийоми розвідувального аналізу даних, а й такі методи, як нейронні мережі, які дозволяють будувати достовірні прогнози, не уточнюючи конкретний вид тих залежностей, у яких такий прогноз основан. Дуже часто Data Mining трактується як "суміш статистики, методів штучного інтелекту (ІІ) та аналізу баз даних" (Pregibon, 1997, p. 8), і до останнього часу вона не визнавалася повноцінною сферою інтересу для фахівців зі статистики, а часом її навіть називали "задвірками статистики" (Pregibon, 1997, p. 8). Однак, завдяки своїй великій практичній значущості, ця проблематика нині інтенсивно розробляється і привертає великий інтерес (у тому числі і в її статистичних аспектах), і в ній досягнуто важливих теоретичних результатів (див. наприклад, матеріали Міжнародної конференції з пошуку знань та Data, що щорічно проводиться). Mining (International Conferences on Knowledge Discovery and Data Mining), одним із організаторів якої 1997 року стала Американська статистична асоціація - American Statistical Association). сховище даних є місцем зберігання великих багатовимірних масивів даних, яке дозволяє легко витягувати і використовувати інформацію в процедурах аналізу. Ефективна архітектура сховища даних має бути організована таким чином, щоб бути складовою інформаційної системи управління підприємством (або, принаймні, мати зв'язок з усіма доступними даними). При цьому необхідно використовувати спеціальні технології роботи з корпоративними базами даних (наприклад, Oracle, Sybase, MS SQL Server). Високопродуктивна технологія сховищ даних, що дозволяє користувачам організувати та ефективно використовувати базу даних підприємства практично необмеженої складності, розроблена компанією StatSoft enterprise systems і називається SENS та SEWSS). Термін OLAP (або FASMI - швидкий аналіз розподіленої багатовимірної інформації) означає методи, які дають можливість користувачам багатовимірних баз даних у реальному часі генерувати описові та порівняльні зведення ("views") даних та отримувати відповіді на різні інші аналітичні запити. Зверніть увагу, що незважаючи на свою назву цей метод не передбачає інтерактивну обробку даних (в режимі реального часу); він означає процес аналізу багатовимірних баз даних (які, зокрема, можуть містити і динамічно оновлювану інформацію) шляхом складання ефективних "багатомірних" запитів до різних типів даних. Кошти OLAP можуть бути вбудовані в корпоративні (масштабу підприємства) системи баз даних і дозволяють аналітикам та менеджерам стежити за ходом та результативністю свого бізнесу чи ринку в цілому (наприклад, за різними сторонами виробничого процесу чи кількістю та категоріями скоєних угод у різних регіонах). Аналіз, проведений методами OLAP може бути як простим (наприклад, таблиці частот, описові статистики, прості таблиці), і досить складним (наприклад, може включати сезонні поправки, видалення викидів та інші способи очищення даних). Хоча методи Data Mining можна застосовувати до будь-якої, попередньо не обробленої і навіть неструктурованої інформації, їх можна використовувати для аналізу даних і звітів, отриманих засобами OLAP, з метою більш поглибленого дослідження, як правило, у більш високих розмірностях. У цьому сенсі методи Data Mining можна як альтернативний аналітичний підхід (службовець іншим цілям, ніж OLAP) чи як аналітичне розширення систем OLAP. РАД і перевірка гіпотез На відміну від традиційної перевірки гіпотез, призначеної для перевірки апріорних припущень, що стосуються зв'язків між змінними (наприклад, "Є позитивна кореляція між віком людини та її небажанням ризикувати"), розвідувальний аналіз даних (РАД) застосовується для знаходження зв'язків між змінними ситуаціях, коли відсутні (чи недостатні) апріорні ставлення до природі цих зв'язків. Як правило, при розвідувальному аналізі враховується і порівнюється велика кількість змінних, а для пошуку закономірностей використовуються різні методи. Обчислювальні методи РАД Обчислювальні методи розвідувального аналізу даних включають основні статистичні методи, а також складніші, спеціально розроблені методи багатовимірного аналізу, призначені для пошуку закономірностей у багатовимірних даних. Основні методи розвідувального статистичного аналізу. До основних методів розвідувального статистичного аналізу відноситься процедура аналізу розподілів змінних (наприклад, щоб виявити змінні з несиметричним або негаусовим розподілом, у тому числі бімодальні), перегляд кореляційних матриць з метою пошуку коефіцієнтів, що перевершують за величиною певні граничні значення (див. попередній приклад) , або аналіз багатовхідних таблиць частот (наприклад, "пошаровий" послідовний перегляд комбінацій рівнів змінних, що управляють). Методи багатовимірного розвідувального аналізу. Методи багатовимірного розвідувального аналізу спеціально розроблені для пошуку закономірностей у багатовимірних даних (або послідовностях одновимірних даних). До них відносяться: кластерний аналіз, факторний аналіз, аналіз ліскримінантних функцій, багатовимірне шкалювання, логлінійний аналіз, канонічні кореляції, покрокова лінійна та нелінійна (наприклад, логіт) регресія, аналіз відповідностей, аналіз часових рядів. Нейронні сіті. Цей клас аналітичних методів ґрунтується на ідеї відтворення процесів навчання мислячих істот (як вони видаються дослідникам) та функцій нервових клітин. Нейронні мережі можуть прогнозувати майбутні значення змінних за вже наявними значеннями цих або інших змінних, попередньо здійснивши процес так званого навчання на основі наявних даних. Попереднє дослідження даних може бути лише першим етапом у процесі їх аналізу, і поки результати не підтверджені (методами крос-перевірки) на інших фрагментах бази даних або на незалежній множині даних, їх можна сприймати найбільше як гіпотезу. Якщо результати розвідувального аналізу говорять на користь деякої моделі, то її правильність можна перевірити, застосувавши її до нових даних і визначивши ступінь її узгодженості з даними (перевірка "здатності до прогнозування"). Для швидкого виділення різних підмножин даних (наприклад, для очищення, перевірки тощо) та оцінки надійності результатів зручно користуватися умовами вибору спостережень.

Поняття "видобуток даних" визначається як процес аналітичного дослідження великих масивів інформації (зазвичай економічного характеру) з метою виявлення певних закономірностей та систематичних взаємозв'язків між змінними, які потім можна застосувати до нових сукупностей даних. Цей процес включає три основні етапи: дослідження, побудова моделі чи структури та її перевірку. В ідеальному випадку, за достатньої кількості даних можна організувати ітеративну процедуру для побудови стійкої (робастної) моделі. У той же час, в реальній ситуації практично неможливо перевірити економічну модель на стадії аналізу і тому початкові результати мають характер евристик, які можна використовувати в процесі прийняття рішення (наприклад, "Наявні дані свідчать про те, що у жінок частота прийому снодійних засобів збільшується з віком швидше, ніж у чоловіків.").

Методи видобутку даних набувають все більшої популярності як інструмент для аналізу економічної інформації, особливо в тих випадках, коли передбачається, що з даних можна буде отримати знання для прийняття рішень в умовах невизначеності. Хоча останнім часом зріс інтерес до розробки нових методів аналізу даних, спеціально призначених для сфери бізнесу (наприклад, Дерева класифікації), в цілому системи видобутку даних, як і раніше, ґрунтуються на класичних принципах розвідувального аналізу даних(РАД) та побудови моделей і використовують ті ж підходи та методи.

Є, однак, важлива відмінність процедури видобутку даних від класичного розвідувального аналізу даних (РАД): системи видобутку даних більшою мірою орієнтовані на практичне застосування отриманих результатів, ніж на з'ясування природи явища. Інакше кажучи, при видобутку даних нас дуже цікавить конкретний вид залежностей між змінними завдання. З'ясування природи функцій, що беруть участь тут, або конкретної форми інтерактивних багатовимірних залежностей між змінними не є головною метою цієї процедури. Основна увага приділяється пошуку рішень, з яких можна було б будувати достовірні прогнози. Таким чином, у галузі видобутку даних прийнято такий підхід до аналізу даних та вилучення знань, який іноді характеризують словами "чорна скринька". У цьому використовуються як класичні прийоми розвідувального аналізу даних, а й такі методи, як нейронні мережі, які дозволяють будувати достовірні прогнози, не уточнюючи конкретний вид тих залежностей, у яких такий прогноз основан.

Дуже часто видобуток даних трактується як "суміш статистики, методів штучного інтелекту (ІІ) та аналізу баз даних" (Pregibon, 1997, p. 8), і до останнього часу вона не визнавалася повноцінною сферою інтересу для фахівців зі статистики, а часом її навіть називали "задвірками статистики" (Pregibon, 1997, p. 8). Однак, завдяки своїй великій практичній значущості, ця проблематика нині інтенсивно розробляється і привертає великий інтерес (у тому числі і в її статистичних аспектах), і в ній досягнуто важливих теоретичних результатів.

Розвідувальний аналіз даних (РАД)

На відміну від традиційної перевірки гіпотез, призначеної для перевірки апріорних припущень, що стосуються зв'язків між змінними (наприклад, "Є позитивна кореляція між віком людини та її небажанням ризикувати"), розвідувальний аналіз даних (РАД) застосовується для знаходження зв'язків між змінними в ситуаціях коли відсутні (або недостатні) апріорні уявлення про природу цих зв'язків. Як правило, при розвідувальному аналізі враховується і порівнюється велика кількість змінних, а для пошуку закономірностей використовуються різні методи.

Методи багатовимірного розвідувального аналізу спеціально розроблені для пошуку закономірностей у багатовимірних даних (або послідовностях одновимірних даних). До них відносяться: кластерний аналіз, факторний аналіз, аналіз дискримінантних функцій, багатовимірне шкалювання, логлінійний аналіз, канонічні кореляції, покрокова лінійна та нелінійна (наприклад, логіт) регресія, аналіз відповідностей, аналіз часових рядів та дерева класифікації.

Кластерний аналіз

Термін кластерний аналіз (вперше ввів Tryon, 1939) насправді включає набір різних алгоритмів класифікації. Загальне питання, що задається дослідниками у багатьох галузях, у тому, як організувати спостережувані дані у наочні структури, тобто. розгорнути таксономії. Наприклад, біологи ставлять за мету розбити тварин на різні види, щоб змістовно описати різницю між ними. Відповідно до сучасної системи, прийнятої в біології, людина належить до приматів, ссавців, амніотів, хребетних та тварин. Зауважте, що в цій класифікації чим вище рівень агрегації, тим менше подібності між членами у відповідному класі. Людина має більше подібності з іншими приматами (тобто з мавпами), ніж із "віддаленими" членами сімейства ссавців (наприклад, собаками) тощо.

Техніка кластеризації застосовується у найрізноманітніших областях. Хартіган (Hartigan, 1975) дав чудовий огляд багатьох опублікованих досліджень, що містять результати, отримані методами кластерного аналізу. Наприклад, в галузі медицини кластеризація захворювань, лікування захворювань або симптомів захворювань призводить до таксономій, що широко використовуються. В області психіатрії правильна діагностика кластерів симптомів, таких як параноя, шизофренія і т.д. є вирішальною для успішної терапії. В археології за допомогою кластерного аналізу дослідники намагаються встановити таксономію кам'яних знарядь, похоронних об'єктів тощо. Відомі широкі застосування кластерного аналізу у маркетингових дослідженнях. Загалом, кожного разу, коли необхідно класифікувати "гори" інформації до придатних для подальшої обробки груп, кластерний аналіз виявляється дуже корисним та ефективним.

Загальні методи кластерного аналізу:

Об'єднання (деревоподібна кластеризація),

Двовходове об'єднання

Метод K середніх.

Головні компоненти та факторний аналіз

Головними цілями факторного аналізу є:

скорочення кількості змінних (редукція даних)

визначення структури взаємозв'язків між змінними, тобто. класифікація змінних.

Тому факторний аналіз використовується як метод скорочення даних або як метод класифікації.

Факторний аналіз як метод редукції даних

Припустимо, що ви проводите (до певної міри "дурне") дослідження, в якому вимірюєте зростання ста людей у дюймах та сантиметрах. Таким чином, у вас є дві змінні. Якщо далі ви захочете дослідити, наприклад, вплив різних харчових добавок на зріст, чи продовжуватимете ви використовувати обидві змінні? Мабуть, ні, т.к. зростання є однією характеристикою людини, незалежно від того, в яких одиницях він вимірюється.

Тепер припустимо, ви хочете виміряти задоволеність людей життям, для чого складаєте опитувальник з різними пунктами; серед інших питань задаєте такі: чи задоволені люди своїм хобі (пункт 1) і як інтенсивно вони займаються (пункт 2). Результати перетворюються так, що середні відповіді (наприклад, для задоволеності) відповідають значенню 100, в той час як нижче та вище середніх відповідей розташовані менші великі значеннявідповідно. Дві змінні (відповіді на два різних пункти) кореловані між собою. З високої корелюваності двох цих змінних можна зробити висновок про надмірність двох пунктів опитувальника.

Аналіз часових рядів

Спочатку дамо короткий оглядметодів аналізу даних, поданих як тимчасових рядів, тобто. у вигляді послідовностей вимірів, упорядкованих у невипадкові моменти часу. На відміну від аналізу випадкових вибірок, аналіз часових рядів ґрунтується на припущенні, що послідовні значення у файлі даних спостерігаються через рівні проміжки часу (тоді як в інших методах нам не важлива і часто не цікава прив'язка спостережень до часу).

Існують дві основні цілі аналізу часових рядів:

визначення природи ряду

прогнозування (передбачення майбутніх значень тимчасового ряду за справжніми та минулими значеннями).

Обидві ці цілі вимагають, щоб модель ряду була ідентифікована і більш-менш формально описана. Як тільки модель визначена, ви можете з її допомогою інтерпретувати дані (наприклад, використовувати у вашій теорії для розуміння сезонної зміни цін на товари, якщо займаєтеся економікою). Незважаючи на глибину розуміння і справедливість теорії, ви можете екстраполювати потім ряд на основі знайденої моделі, тобто. передбачити його майбутні значення.

Як і більшість інших видів аналізу, аналіз часових рядів передбачає, що дані містять систематичну складову (зазвичай включає кілька компонентів) і випадковий шум (помилку), який ускладнює виявлення регулярних компонентів. Більшість методів дослідження часових рядів включає різні способи фільтрації шуму, що дозволяють побачити регулярну складову більш чітко.

Більшість регулярних складових часових рядів належить до двох класів: вони є трендом, або сезонною складовою. Тренд є загальною систематичною лінійною або нелінійною компонентою, яка може змінюватися в часі. Сезонна складова - це компонент, що періодично повторюється. Обидва ці види регулярних компонентів часто присутні в ряді одночасно. Наприклад, продажі компанії можуть зростати рік у рік, але вони також містять сезонну складову (як правило, 25% річних продажів припадає на грудень і лише 4% на серпень).

лекція 8СИСТЕМИ ЗНАНЬ. ЕКСПЕРТНІ СИСТЕМИ.

Призначення експертних систем

На початку вісімдесятих років у дослідженнях з штучного інтелекту сформувався самостійний напрямок, який отримав назву "експертні системи" (ЕС). Мета досліджень з ЕС полягає в розробці програм, які при вирішенні завдань, важких для експерта-людини, отримують результати, що не поступаються за якістю та ефективності рішенням, які отримують експерт. Дослідники в галузі ЕС для назви своєї дисципліни часто використовують також термін "інженерія знань", запроваджений Е.Фейгенбаумом як "привнесення принципів та інструментарію досліджень в галузі штучного інтелекту у вирішення важких прикладних проблем, що вимагають знань експертів".

Програмні засоби (ПС), що базуються на технології експертних систем, або інженерії знань (надалі використовуватимемо їх як синоніми), набули значного поширення у світі. Важливість експертних систем полягає в наступному:

технологія експертних систем істотно розширює коло практично значущих завдань, які вирішуються на комп'ютерах, вирішення яких дає значний економічний ефект;

технологія ЕС є найважливішим засобом у вирішенні глобальних проблем традиційного програмування: тривалість і, отже, висока вартість розробки складних програм;

висока вартість супроводу складних систем, яка часто у кілька разів перевищує вартість їхньої розробки; низький рівень повторної використання програм тощо;

поєднання технології ЕС із технологією традиційного програмування додає нові якості до програмних продуктів за рахунок: забезпечення динамічної модифікації додатків користувачем, а не програмістом; більшої "прозорості" програми (наприклад, знання зберігаються на обмеженому ЕЯ, що не вимагає коментарів до знань, спрощує навчання та супровід); кращої графіки; інтерфейсу та взаємодії.

На думку провідних фахівців, у недалекій перспективі ЕС знайдуть таке застосування:

ЕС відіграватимуть провідну роль у всіх фазах проектування, розробки, виробництва, розподілу, продажу, підтримки та надання послуг;

технологія ЕС, що набула комерційного поширення, забезпечить революційний прорив в інтеграції додатків із готових інтелектуально-взаємодіючих модулів.

ЕС призначені для про неформалізованих завдань, тобто. ЕС не відкидають і замінюють традиційного підходи до розробки програм, орієнтованого рішення формалізованих завдань.

Неформалізовані завдання зазвичай мають такі особливості:

помилковістю, неоднозначністю, неповнотою та суперечливістю вихідних даних;

помилковістю, неоднозначністю, неповнотою і суперечливістю знань про проблемну галузь і завдання, що розв'язується;

великий розмірністю простору рішення, тобто. перебір під час пошуку рішення дуже великий;

динамічними даними та знаннями.

Слід наголосити, що неформалізовані завдання становлять великий і дуже важливий клас завдань. Багато фахівців вважають, що це завдання є найбільш масовим класом завдань, розв'язуваних ЕОМ.

Експертні системи та системи штучного інтелекту відрізняються від систем обробки даних тим, що в них в основному використовуються символьний (а не числовий) спосіб подання, символьний висновок та евристичний пошук рішення (а не виконання відомого алгоритму).

Експертні системи застосовуються на вирішення лише важких практичних (не іграшкових) завдань. За якістю та ефективності рішення експертні системи не поступаються рішенням експерта-людини. Рішення експертних систем мають "прозорість", тобто. можуть бути пояснені користувачеві на якісному рівні. Ця якість експертних систем забезпечується їхньою здатністю розмірковувати про свої знання та умовиводи. Експертні системи здатні поповнювати свої знання під час взаємодії з експертом. Необхідно відзначити, що в даний час технологія експертних систем використовується для вирішення різних типів завдань (інтерпретація, передбачення, діагностика, планування, конструювання, контроль, налагодження, інструктаж, управління) у найрізноманітніших проблемних галузях, таких як фінанси, нафтова та газова промисловість , енергетика, транспорт, фармацевтичне виробництво, космос, металургія, гірнича справа, хімія, освіта, целюлозно-паперова промисловість, телекомунікації та зв'язок та ін.

Комерційні успіхи до фірм-розробників систем штучного інтелекту (СІІ) прийшли не одразу. Протягом 1960 – 1985 рр. успіхи ІІ стосувалися переважно дослідницьких розробок, які демонстрували придатність СІІ для практичного використання. Починаючи приблизно з 1985 р. (у масовому масштабі з 1988 - 1990 рр.), насамперед ЕС, а останні роки системи, що сприймають природну мову (ЕЯ-системи), та нейронні мережі (НС) стали активно використовуватися в комерційних додатках .

Слід звернути увагу на те, що деякі фахівці (як правило, фахівці в програмуванні, а не в ІІ) продовжують стверджувати, що ЕС і СІІ не виправдали очікувань, що покладалися на них, і померли. Причини таких помилок у тому, що це автори розглядали ЕС як альтернативу традиційному програмуванню, тобто. вони виходили з того, що ЕС на самоті (в ізоляції від інших програмних засобів) повністю вирішують завдання, що стоять перед замовником. Треба відзначити, що на зорі появи ЕС специфіка мов, технології розробки додатків і використовуваного обладнання (наприклад, Lisp-машини) давала підстави припускати, що інтеграція ЕС з традиційними, програмними системами є складним і, можливо, нездійсненним завданням при обмеженнях, що накладаються реальними додатками. Проте в даний час комерційні інструментальні засоби (ІВ) для створення ЕС розробляються у повній відповідності до сучасних технологічних тенденцій традиційного програмування, що знімає проблеми, що виникають при створенні інтегрованих додатків.

Причини, що призвели СІІ до комерційного успіху, є такими.

Інтегрованість. Розроблені інструментальні засоби штучного інтелекту (ІС ІІ), що легко інтегруються з іншими інформаційними технологіями та засобами (з CASE, СУБД, контролерами, концентраторами даних тощо).

Відкритість та переносимість. ІС ІІ розробляються з дотриманням стандартів, що забезпечують відкритість та переносимість.

Використання мов традиційного програмування та робочих станцій. Перехід від ІС ІІ, реалізованих мовами ІІ (Lisp, Prolog тощо), до ІВ ІІ, реалізованих мовами традиційного програмування (С, C++ тощо), спростив забезпечення інтегрованості, знизив вимоги додатків ІІ до швидкодії ЕОМ та обсягів оперативної пам'яті. Використання робочих станцій (замість ПК) різко збільшило коло додатків, які можуть бути виконані на ЕОМ з використанням ІВ ІІ.

Архітектура клієнт-сервер. Розроблено ІС ІІ, що підтримують розподілені обчислення по архітектурі клієнт-сервер, що дозволило: знизити вартість обладнання, що використовується в додатках, децентралізувати додатки, підвищити надійність та загальну продуктивність (оскільки скорочується кількість інформації, що пересилається між ЕОМ, і кожен модуль додатку виконується на адекватному йому обладнання).

Перехід від розробок ІС ІІ загального призначення (хоча вони не втратили своє значення як засіб для створення орієнтованих ІВ ІІ) до проблемно/предметно-орієнтованих ІВ ІІ забезпечує: скорочення термінів розробки додатків; збільшення ефективності використання ІВ; спрощення та прискорення роботи експерта; повторну використання інформаційного та програмного забезпечення (об'єкти, класи, правила, процедури).

Структура експертних систем

Типова статична ЕС складається з таких основних компонентів:

вирішувача (інтерпретатора);

робочої пам'яті (РП), що називається також базою даних (БД);

бази знань (БЗ);

компонентів набуття знань;

пояснювального компонента;

діалогового компонента.

База даних (робоча пам'ять) призначена для зберігання вихідних і проміжних даних задачі, що вирішується в даний момент. Цей термін збігається за назвою, але не за змістом з терміном, який використовується в інформаційно-пошукових системах (ІПС) та системах управління базами даних (СУБД) для позначення всіх даних (насамперед довгострокових), що зберігаються в системі.

База знань (БЗ) в ЕС призначена для зберігання довгострокових даних, що описують область, що розглядається (а не поточних даних), і правил, що описують доцільні перетворення даних цієї області.

Вирішувач, використовуючи вихідні дані з робочої пам'яті та знання з БЗ, формує таку послідовність правил, які, будучи застосованими до вихідних даних, призводять до вирішення задачі.

Компонент набуття знань автоматизує процес наповнення ЕС знаннями, який здійснюється користувачем-експертом.

Пояснювальний компонент пояснює, як система отримала рішення задачі (або чому вона не отримала рішення) і які знання вона при цьому використовувала, що полегшує експерту тестування системи та підвищує довіру користувача до отриманого результату.

Діалоговий компоненторієнтований на організацію дружнього спілкування з користувачем як у ході вирішення завдань, так і в процесі набуття знань та пояснення результатів роботи.

У розробці ЕС беруть участь представники таких спеціальностей:

експерт у проблемній галузі, завдання якої вирішуватиме ЕС;

інженер зі знань - фахівець із розробки ЕС (використовувані ним технологію, методи називають технологією (методами) інженерії знань);

програміст з розробки інструментальних засобів, призначених для прискорення розробки ЕС.

Слід зазначити, що відсутність серед учасників розробки інженерів зі знань (тобто їх заміна програмістами) або призводить до невдачі процес створення ЕС, або значно подовжує його.

Експерт визначає знання (дані та правила), що характеризують проблемну область, забезпечує повноту і правильність введених в ЕС знань.

Інженер зі знаньдопомагає експерту виявити та структурувати знання, необхідні для роботи ЕС; здійснює вибір того ІВ, яке найбільше підходить для даної проблемної області, і визначає спосіб представлення знань у цьому ІВ; виділяє та програмує (традиційними засобами) стандартні функції (типові для даної проблемної галузі), які будуть використовуватись у правилах, що вводяться експертом.

Програміст розробляє ІВ (якщо ІВ розробляється наново), що містить у межі всі основні компоненти ЕС, і здійснює його поєднання з тим середовищем, в якому воно буде використане.

Експертна система працює у двох режимах: режимі придбання знань та у режимі вирішення задачі (називається також режимом консультації або режимом використання ЕС).

У режимі набуття знань спілкування з ЕС здійснює (через посередництво інженера зі знань) експерт. У цьому режимі експерт, використовуючи компонент набуття знань, наповнює систему знаннями, які дозволяють ЕС у режимі вирішення самостійно (без експерта) вирішувати завдання із проблемної галузі. Експерт описує проблемну область у вигляді сукупності даних та правил. Дані визначають об'єкти, їх характеристики та значення, що існують в галузі експертизи. Правила визначають способи маніпулювання з даними, характерні для цієї області.

Зазначимо, що режиму набуття знань у традиційний підхіддо розробки програм відповідають етапи алгоритмізації, програмування та налагодження, що виконуються програмістом. Таким чином, на відміну від традиційного підходу у випадку ЕС, розробку програм здійснює не програміст, а експерт (за допомогою ЕС), який не володіє програмуванням.

У режимі консультації спілкування з ЕС здійснює кінцевий користувач, якого цікавить результат та (або) спосіб його отримання. Необхідно відзначити, що в залежності від призначення ЕС користувач може не бути фахівцем у даній проблемній галузі (у цьому випадку він звертається до ЕС за результатом, не вміючи отримати його сам), або бути фахівцем (у цьому випадку користувач може сам отримати результат, але він звертається до ЕС з метою прискорити процес отримання результату, або покласти на ЕС рутинну роботу). У режимі консультації дані завдання користувача після обробки їх діалоговим компонентом надходять у робочу пам'ять. Вирішувач на основі вхідних даних з робочої пам'яті, загальних даних про проблемну область та правила з БЗ формує рішення задачі. ЕС під час вирішення завдання як виконує запропоновану послідовність операції, а й попередньо формує її. Якщо реакція системи не зрозуміла користувачеві, він може вимагати пояснення:

"Чому система ставить те чи інше питання?", "як відповідь, яку збирає система, отримано?".

Структура статичної ЕС.ЕС даного типу використовують у тих додатках, де можна враховувати зміни навколишнього світу, які відбуваються під час вирішення завдання. Перші ЕС, які отримали практичне використання, були статичними.

В архітектуру динамічної ЕС порівняно зі статичною ЕС вводяться два компоненти: підсистема моделювання зовнішнього світу та підсистема зв'язку із зовнішнім оточенням. Остання здійснює зв'язки із зовнішнім світом через систему датчиків та контролерів. Крім того, традиційні компоненти статичної ЕС (база знань і машина виведення) зазнають суттєвих змін, щоб відобразити тимчасову логіку подій, що відбуваються в реальному світі.

Підкреслимо, що структура ЕС відображає лише компоненти (функції), і багато залишається "за кадром". На рис. 1.3 наведено узагальнену структуру сучасного ІС для створення динамічних ЕС, що містить крім основних компонентів ті можливості, які дозволяють створювати інтегровані програми відповідно до сучасної технології програмування.

Етапи розробки експертних систем

Розробка ЕС має суттєві відмінності від розробки стандартного програмного продукту. Досвід створення ЕС показав, що використання при розробці методології, прийнятої в традиційному програмуванні, або надмірно затягує процес створення ЕС, або взагалі призводить до негативного результату.

Використовувати ЕС слід лише тоді, коли розробка ЕС можлива, виправдана і методи інженерії знань відповідають задачі, що вирішується. Щоб розробка ЕС була можлива для цього додатка, необхідне одночасне виконання принаймні наступних вимог:

1) існують експерти в даній галузі, які вирішують завдання значно краще, ніж початківці;

2) експерти сходяться в оцінці запропонованого рішення, інакше не можна буде оцінити якість розробленої ЕС;

3) експерти здатні вербалізувати (виразити природною мовою) і пояснити використовувані ними методи, інакше важко розраховувати на те, що знання експертів будуть "витягнуті" і вкладені в ЕС;

4) розв'язання задачі вимагає лише міркувань, а не дій;

5) завдання не повинно бути надто важким (тобто його рішення має займати в експерта кілька годин або днів, а не тижнів);

6) завдання хоч і має бути виражена у формальному вигляді, проте має ставитися до досить " зрозумілої " і структурованої області, тобто. мають бути виділені основні поняття, відносини та відомі (хоча б експерту) способи отримання розв'язання задачі;

7) розв'язання задачі не повинно значною мірою використовувати "здоровий глузд" (тобто широкий спектр загальних відомостейпро світ і про спосіб його функціонування, які знає та вміє використовувати будь-яка нормальна людина), оскільки подібні знання поки що не вдається (у достатній кількості) вкласти в системи штучного інтелекту.

Використання ЕС у цьому додатку може бути можливим, але не виправданим. Застосування ЕС може бути виправданим одним з наступних факторів:

розв'язання задачі принесе значний ефект, наприклад, економічний;

використання людини-експерта неможливо або через недостатню кількість експертів, або через необхідність виконувати експертизу одночасно в різних місцях;

використання ЕС доцільно у випадках, коли під час передачі інформації експерту відбувається неприпустима втрата часу чи інформації;

використання ЕС доцільно за необхідності вирішувати завдання оточенні, ворожому в людини.

Додаток відповідає методам ЕС, якщо вирішуване завдання має сукупність наступних характеристик:

1) завдання може бути природним чином вирішена за допомогою маніпуляції із символами (тобто за допомогою символічних міркувань), а не маніпуляцій із числами, як прийнято у математичних методах та у традиційному програмуванні;

2) завдання має мати евристичну, а чи не алгоритмічну природу, тобто. її рішення має вимагати застосування евристичних правил. Завдання, які можуть бути гарантовано вирішені (з дотриманням заданих обмежень) за допомогою деяких формальних процедур, не підходять до застосування ЕС;

3) завдання має бути досить складним, щоб виправдати витрати на розробку ЕС. Однак вона не повинна бути надмірно складною (рішення займає в експерта години, а не тижні), щоб ЕС могла її вирішувати;

4) завдання має бути досить вузьким, щоб вирішуватися методами ЕС, і практично значущою.

Під час розробки ЕС, зазвичай, використовується концепція " швидкого прототипу " . Суть цієї концепції у тому, що розробники намагаються відразу побудувати кінцевий продукт. На початковому етапі вони виробляють прототип (прототипи) ЕС. Прототипи повинні задовольняти двом суперечливим вимогам: з одного боку, вони повинні вирішувати типові завдання конкретного додатка, а з іншого - час і трудомісткість їх розробки повинні бути незначними, щоб можна було максимально запаралелити процес накопичення і налагодження знань (здійснюваний експертом) з процесом вибору (розробки) програмних засобів (здійснюваним інженером зі знань та програмістом). Для задоволення зазначених вимог, як правило, під час створення прототипу використовуються різноманітні засоби, що прискорюють процес проектування.

Прототип повинен продемонструвати придатність методів інженерії знань для цієї програми. У разі успіху експерт за допомогою інженера знань розширює знання прототипу про проблемну область. При невдачі може знадобитися розробка нового прототипу або розробники можуть дійти висновку про непридатність методів ЕС даного докладання. У міру збільшення знань прототип може досягти такого стану, коли він успішно вирішує всі завдання цієї програми. Перетворення прототипу ЕС на кінцевий продукт зазвичай призводить до перепрограмування ЕС мовами низького рівня, що забезпечують як збільшення швидкодії ЕС, так і зменшення пам'яті. Трудомісткість і час створення ЕС значною мірою залежить від типу використовуваного інструментарію.

У ході робіт зі створення ЕС склалася певна технологія їхньої розробки, що включає шість наступних етапів:

ідентифікацію, концептуалізацію, формалізацію, виконання, тестування, дослідну експлуатацію. На етапі ідентифікації визначаються завдання, які підлягають вирішенню, виявляються цілі розробки, визначаються експерти та типи користувачів.

На етапі концептуалізації проводиться змістовний аналіз проблемної галузі, виявляються поняття, що використовуються, і їх взаємозв'язки, визначаються методи вирішення завдань.

На етапі формалізації вибираються ІВ і визначаються способи подання всіх видів знань, формалізуються основні поняття, визначаються способи інтерпретації знань, моделюється робота системи, оцінюється адекватність цілям системи зафіксованих понять, методів рішень, засобів подання та маніпулювання знаннями.

На етапі виконання здійснюється наповнення експертом бази знань. У зв'язку з тим, що основою ЕС є знання, даний етапє найважливішим і трудомістким етапом розробки ЕС. Процес придбання знань поділяють на отримання знань з експерта, організацію знань, що забезпечує ефективну роботу системи, та подання знань у вигляді, зрозумілому ЕС. Процес набуття знань здійснюється інженером зі знань на основі аналізу діяльності експерта з вирішення реальних завдань.

Інтерфейс із кінцевим користувачем

Система G2 надає розробнику багаті можливості формування простого, ясного і виразного графічного інтерфейсу з користувачем з елементами мультиплікації. Пропонований інструментарій дозволяє наочно відображати технологічні процеси практично необмеженої складності на різних рівнях абстракції та деталізації. Крім того, графічне відображення взаємозв'язків між об'єктами програми може безпосередньо використовуватись у декларативних конструкціях мови опису знань.

RTworks не має власних засобів для відображення поточного стану керованого процесу. Розробник програми змушений використовувати систему Dataview фірми VI Corporation, що значною мірою обмежує його можливості.

Інтерфейс із користувачем TDC Expert обмежений можливостями системи TDC 3000, тобто. взаємодія з кінцевим користувачем

обмежується текстовим режимом роботи.

Подання знань у експертних системах

Перше й основне питання, яке треба вирішити при представленні знань, - це питання визначення складу знань, тобто. визначення того, "ЩО ПРЕДСТАВЛЯТИ" в експертній системі. Друге питання стосується того, "ЯК ПРЕДСТАВЛЯТИ" знання. Слід зазначити, що ці дві проблеми є незалежними. Справді, обраний спосіб уявлення може виявитися непридатним у принципі чи неефективним висловлювання деяких знань.

На нашу думку, питання "ЯК ПРЕДСТАВЛЯТИ" можна розділити на два значною мірою незалежні завдання: як організувати (структурувати) знання і як уявити знання у вибраному формалізмі.

Прагнення виділити організацію знань у самостійну завдання викликано, зокрема, тим, що це виникає для будь-якої мови уявлення та способи вирішення цього завдання є однаковими (або подібними) незалежно від використовуваного формалізму.

Отже, до кола питань, які вирішуються при поданні знань, включатимемо наступні:

визначення складу представлених знань;

організацію знань;

уявлення знань, тобто. визначення моделі уявлення. Склад знань ЕС визначається такими факторами:

проблемним середовищем;

архітектурою експертної системи;

потребами та цілями користувачів;

мовою спілкування.

Відповідно до загальної схеми статичної експертної системи для її функціонування потрібні такі знання:

знання про процес вирішення задачі (тобто керуючі знання), які використовуються інтерпретатором (рішителем);

знання про мову спілкування та способи організації діалогу, які використовуються лінгвістичним процесором (діалоговим компонентом);

знання про способи подання та модифікації знань, що використовуються компонентом набуття знань;

підтримують структурні та керуючі знання, що використовуються пояснювальним компонентом.

Для динамічної ЕС, крім того, необхідні такі знання:

1) знання про методи взаємодії із зовнішнім оточенням;

2) знання моделі зовнішнього світу.

Залежність складу знань від вимог користувача проявляється у наступному:

які завдання (із загального набору завдань) та з якими даними хоче вирішувати користувач;

які кращі способи та методи рішення;

при яких обмеженнях на кількість результатів та способи їх отримання має бути вирішене завдання;

які вимоги до мови спілкування та організації діалогу;

який ступінь спільності (конкретності) знань про проблемну область, доступна користувачеві;

які цілі користувачів.

Склад знань про мову спілкування залежить як мови спілкування, і від необхідного рівня розуміння.

З урахуванням архітектури експертної системи знання доцільно ділити на інтерпретовані і не інтерпретовані. До першого типу належать ті знання, які здатний інтерпретувати вирішувач (інтерпретатор). Всі інші знання належать до другого типу. Вирішувач не знає їх структури та змісту. Якщо ці знання використовуються будь-яким компонентом системи, він не " усвідомлює " цих знань. Неінтерпретовані знання поділяються на допоміжні знання, що зберігають інформацію про лексику та граматику мови спілкування, інформацію про структуру діалогу, і підтримують знання. Допоміжні знання обробляються природно-мовною компонентою, але перебіг цієї обробки вирішувач не усвідомлює, оскільки цей етап обробки вхідних повідомлень є допоміжним щодо експертизи. Підтримуючі знання використовуються при створенні системи та при виконанні пояснень. Підтримуючі знання виконують роль описів (обґрунтувань) як знань, що інтерпретуються, так і дій системи. Підтримуючі знання поділяються на технологічні ісемантичні. Технологічні знання, що підтримують, містять відомості про час створення описуваних ними знань, про автора знань і т.п. Семантичні підтримуючі знання містять смисловий опис цих знань. Вони містять інформацію про причини введення знань, про призначення знань, описують спосіб використання знань та отримуваний ефект. Підтримуючі знання мають описовий характер.

Знання про подання містять інформацію про те, яким чином (в яких структурах) в системі представлені інтерпретовані знання.

Предметні знання містять дані про предметної області та способи перетворення цих даних при вирішенні поставлених завдань. Зазначимо, що стосовно предметних знань знання про подання та знання про управління є метазнаннями. У предметних знаннях можна виділити описувачі та власне предметні знання. Описувачі містять певну інформацію про предметні знання, таку як коефіцієнт визначеності правил і даних, заходи важливості і складності. Власне предметні знання розбиваються на факти виконувані твердження. Факти визначають можливі значення сутностей та характеристик предметної області. Затвердження, що виконуються, містять інформацію про те, як можна змінювати опис предметної області в ході вирішення завдань. Говорячи іншими словами, виконуванітвердження - це знання, що задають процедури обробки. Однак ми уникаємо використовувати термін "процедурні знання", тому що хочемо підкреслити, що ці знання можуть бути задані не лише у процедурній, а й у декларативній формі.

Керуючі знання можна розділити на фокусуючі та вирішальні. Фокусуючі знання описують, які знання слід використовувати у тій чи іншій ситуації. Зазвичай знання, що фокусують, містять відомості про найбільш перспективні об'єкти або правила, які доцільно використовувати при перевірці відповідних гіпотез. У першому випадку увага фокусується на елементах робочої пам'яті, у другому - правила бази знань. Вирішальні знання містять інформацію, що використовується для вибору способу інтерпретації знань, що підходить до поточної ситуації. Ці знання застосовуються для вибору стратегій або евристик, найефективніших для вирішення цього завдання.

Якісні та кількісні показники експертної системи можуть бути значно покращені за рахунок використання метазнання, тобто. знань про знання. Метазнання не є деякою єдиною сутністю, вони можуть застосовуватися для досягнення різних цілей. Перерахуємо можливі призначення метазнань:

1) метазнання як стратегічних метаправил використовуються для вибору релевантних правил;

2) метазнання використовуються для обґрунтування доцільності застосування правил в галузі експертизи;

3) метаправила використовуються для виявлення синтаксичних та семантичних помилок у предметних правилах;

4) метаправила дозволяють системі адаптуватися до оточення шляхом перебудови предметних правил та функцій;

5) метаправила дозволяють явно вказати можливості та обмеження системи, тобто. визначити, що знає, а що знає.

Питання організації знань необхідно розглядати у будь-якому уявленні, та його вирішення значною мірою залежить від обраного способу (моделі) представлення. Виділимо такі аспекти проблеми організації знань:

організація знань за рівнями подання та за рівнями детальності;

організація знань у робочій пам'яті;

організація знань на основі знань.

Рівні уявлення та рівні детальності

Для того щоб експертна система могла керувати процесом пошуку рішення, була здатна набувати нових знань і пояснювати свої дії, вона повинна вміти не тільки використовувати свої знання, а й мати здатність розуміти і досліджувати їх, тобто. експертна система повинна мати знання про те, як представлені її знання про проблемне середовище. Якщо знання проблемному середовищі назвати знаннями нульового рівня уявлення, перший рівень уявлення містить метазнання, тобто. знання про те, як представлені у внутрішньому світі системи знання нульового рівня. Перший рівень містить знання у тому, які кошти використовуються уявлення знань нульового рівня. Знання першого рівня відіграють істотну роль при управлінні процесом рішення, при придбанні та поясненні дій системи. У зв'язку з тим, що знання першого рівня містять посилання на знання нульового рівня, знання першого рівня незалежні від проблемного середовища.

Число рівнів подання може бути більше двох. Другий Рівень уявлення містить інформацію про знаннях першого рівня, тобто. знання подання базових понять першого рівня. Поділ знань за рівнями уявлення забезпечує розширення області застосування системи.

Виділення рівнів детальності дозволяє розглядати знання з різним ступенем подробиці. Кількість рівнів детальності багато в чому визначається специфікою розв'язуваних завдань, обсягом знань та способом їх подання. Як правило, виділяється не менше трьох рівнів детальності, що відображають відповідно загальну, логічну та фізичну організацію знань. Введення кількох рівнів детальності забезпечує додатковий ступінь гнучкості системи, оскільки дозволяє проводити зміни на одному рівні, не торкаючись інших. Зміни на одному рівні детальності можуть призводити до додаткових змін на цьому рівні, що виявляється необхідним для забезпечення узгодженості структур даних і програм. Однак наявність різних рівнів перешкоджає поширенню змін із одного рівня на інші.

Організація знань у робочій системі

Робоча пам'ять (РП) експертних систем варта зберігання даних. Дані робочої пам'яті можуть бути однорідні або поділяються на рівні за типами даних. У разі кожному рівні робочої пам'яті зберігаються дані відповідного типу. Виділення рівнів ускладнює структуру експертної системи, але робить систему ефективнішою. Наприклад, можна виділити рівень планів, рівень агенди (упорядкованого списку правил, готових до виконання) та рівень даних предметної галузі (рівень рішень).

У сучасних експертних системах дані в робочій пам'яті розглядаються як ізольовані чи пов'язані. У першому випадку робоча пам'ять складається з безлічі простих елементів, а в другому - з одного або кількох (за кількох рівнів у РП) складних елементів (наприклад, об'єктів). При цьому складний елемент відповідає множині простих, об'єднаних в єдину сутність. Теоретично обидва підходи забезпечують повноту, але використання ізольованих елементів у складних предметних галузях призводить до втрати ефективності.

Дані в РП у найпростішому випадку є константамії (або) змінними. При цьому змінні можуть трактуватися як характеристики деякого об'єкта, а константи як значення відповідних характеристик. Якщо РП потрібно аналізувати одночасно кілька різних об'єктів, що описують поточну проблемну ситуацію, необхідно вказувати, яких об'єктів ставляться аналізовані характеристики. Одним із способів вирішення цього завдання є явна вказівка того, до якого об'єкта відноситься характеристика.

Якщо РП складається із складних елементів, то зв'язок між окремими об'єктами вказується явно, наприклад, завданням семантичних відносин. У цьому кожен об'єкт може мати внутрішню структуру. Слід зазначити, що з прискорення пошуку та зіставлення дані у РП може бути пов'язані як логічно, а й асоціативно.

Організація знань у базі даних

Показником інтелектуальності системи з погляду уявлення знань вважається здатність системи використовувати у потрібний момент необхідні (релевантні) знання. Системи, які мають коштів визначення релевантних знань, неминуче стикаються з проблемою " комбінаторного вибуху " . Можна стверджувати, що проблема є однією з основних причин, що обмежують сферу застосування експертних систем. У проблемі доступу до знань можна виділити три аспекти: зв'язність знань та даних, механізм доступу до знань і спосіб зіставлення.

Зв'язковість (агрегація) знань є основним способом, що забезпечує прискорення пошуку релевантних знань. Більшість фахівців дійшли переконання, що знання слід організовувати навколо найважливіших об'єктів (сутностей) предметної галузі. Усі знання, що характеризують деяку сутність, пов'язуються і представляються як окремого об'єкта. При подібної організації знань, якщо системі знадобилася інформація про деяку сутність, вона шукає об'єкт, що описує цю сутність, та був вже всередині об'єкта відшукує інформацію про даної сутності. В об'єктах доцільно виділяти два типи зв'язок між елементами: зовнішні та внутрішні. Внутрішні зв'язки об'єднують елементи в єдиний об'єкт і призначені для вираження структури об'єкта. Зовнішні зв'язки відбивають взаємозалежності, існуючі між об'єктами у сфері експертизи. Багато дослідників класифікують зовнішні зв'язки податкові та асоціативні. Логічні зв'язки виражають семантичні відносини між елементами знань. Асоціативні зв'язки призначені забезпечення взаємозв'язків, сприяють прискоренню процесу пошуку релевантних знань.

Основною проблемою при роботі з великою базою знань є проблема пошуку знань, релевантних розв'язуваній задачі. У зв'язку з тим, що в даних може не міститися явних вказівок на значення, необхідні для їх обробки, необхідний більш загальний механізм доступу, ніж метод прямого доступу (метод явних посилань). Завдання цього механізму полягає в тому, щоб за деяким описом сутності, що є в робочій пам'яті, знайти базі знань об'єкти, що задовольняють цьому опису. Очевидно, що впорядкування та структурування знань можуть значно прискорити процес пошуку.

Знаходження бажаних об'єктів у випадку доречно розглядати як двухэтапный процес. У першому етапі, відповідному процесу вибору з асоціативним зв'язкам, відбувається попередній вибір у основі знань потенційних кандидатів роль бажаних об'єктів. На другому етапі шляхом виконання операції зіставлення потенційних кандидатів з описами кандидатів здійснюється остаточний вибір об'єктів, що шукаються. При організації такого механізму доступу виникають певні проблеми: Як вибрати критерій придатності кандидата? Як організувати роботу у конфліктних ситуаціях? і т.п.

Операція зіставлення може використовуватися як засіб вибору необхідного об'єкта з безлічі кандидатів; вона може бути використана для класифікації, підтвердження, декомпозиції та корекції. Для ідентифікації невідомого об'єкта може бути зіставлений з деякими відомими зразками. Це дозволить класифікувати невідомий об'єкт як такий відомий зразок, в порівнянні з яким були отримані кращі результати. При пошуку зіставлення використовується підтвердження деяких кандидатів з безлічі можливих. Якщо здійснювати зіставлення деякого відомого об'єкта з невідомим описом, у разі успішного зіставлення буде здійснено часткову декомпозицію опису.

Операції зіставлення дуже різноманітні. Зазвичай виділяють такі їх форми: синтаксичне, параметричне, семантичне і вимушене зіставлення. У разі синтаксичного зіставлення співвідносять форми (зразки), а не зміст об'єктів. Успішним є зіставлення, у результаті зразки виявляються ідентичними. Зазвичай вважається, що змінна одного зразка може бути ідентична будь-якій константі (або виразу) іншого зразка. Іноді змінні, що входять у зразок, накладають вимоги, що визначають тип констант, з якими вони можуть зіставлятися. Результат синтаксичного зіставлення є бінарним: зразки зіставляються чи зіставляються. У параметричному зіставленні вводиться параметр, що визначає ступінь зіставлення. У разі семантичного зіставлення співвідносяться не зразки об'єктів, а їх функції. У разі примушеного зіставлення один зіставлюваний зразок розглядається з погляду іншого. На відміну з інших типів зіставлення тут може бути отримано позитивний результат. Питання полягає у силі примусу. Примус можуть виконувати спеціальні процедури, пов'язані з об'єктами. Якщо ці процедури не в змозі здійснити зіставлення, то система повідомляє, що успіх може бути досягнутий тільки в тому випадку, якщо певні частини сутностей, що розглядаються, можна вважати зіставляються.

Методи пошуку рішень в експертних системах

Методи вирішення завдань, засновані на їх зведенні до пошуку, залежать від

психодіагностика у психосоматиці, а також інші системи. особливостей предметної області, в якій вирішується завдання, та від вимог, які пред'являються користувачем до вирішення. Особливості предметної області з погляду методів розв'язання можна характеризувати такими параметрами:

розмір, що визначає обсяг простору, в якому потрібно шукати рішення;

змінність області, характеризує ступінь змінності області у часі та просторі (тут виділятимемо статичні та динамічні області);

повнота моделі, що описує область, характеризує адекватність моделі, яка використовується для опису даної галузі. Зазвичай, якщо модель не повна, то для опису області використовують кілька моделей, що доповнюють одна одну за рахунок відображення різних властивостей предметної області;

визначеність даних про задачі, що вирішується, характеризує ступінь точності (помилковості) і повноти (неповноти) даних. Точність (помилковість) є показником того, що предметна область з точки зору розв'язуваних задач описана точними або неточними даними; під повнотою (неповнотою) даних розуміється достатність (недостатність) вхідних даних для однозначного розв'язання задачі.

Вимоги користувача до результату завдання, яке вирішується за допомогою пошуку, можна характеризувати кількістю рішень та властивостями результату та (або) способом його отримання. Параметр " кількість рішень " може приймати такі основні значення: одне рішення, кілька рішень, все рішення. Параметр "властивості" визначає обмеження, яким повинен задовольняти отриманий результат або спосіб його отримання. Так, наприклад, для системи, що видає рекомендації з лікування хворих, користувач може вказати вимогу не використовувати деякі ліки (у зв'язку з відсутністю або у зв'язку з тим, що вони протипоказані даному пацієнту). Параметр "властивості" може визначати і такі особливості, як час вирішення ("не більше ніж", "діапазон часу" тощо), обсяг пам'яті, що використовується для отримання результату, вказівку про обов'язковість (неможливість) використання будь-яких знань (даних) тощо.

Отже, складність завдання, що визначається вищенаведеним набором параметрів, варіюється від простих завдань малої розмірності з незмінними певними даними та відсутністю обмежень на результат і спосіб його отримання до складних завдань великої розмірності зі змінними, помилковими та неповними даними та довільними обмеженнями на результат та спосіб його отримання . Із загальних міркувань ясно, що будь-яким одним методом не можна вирішити всі завдання. Зазвичай одні методи перевершують інші лише з деяких із перелічених параметрів.

Розглянуті нижче методи можуть працювати у статичних та динамічних проблемних середовищах. Щоб вони працювали в умовах динаміки, необхідно враховувати час життя значень змінних, джерело даних для змінних, а також забезпечувати можливість зберігання історії значень змінних, моделювання зовнішнього оточення та оперування тимчасовими категоріями в правилах.

Існуючі методи вирішення завдань, що використовуються в експертних системах, можна класифікувати так:

методи пошуку в одному просторі - методи, призначені для використання в таких умовах: області невеликої розмірності, повнота моделі, точні та повні дані;

методи пошуку в ієрархічних просторах - методи, призначені для роботи в областях великої розмірності;

методи пошуку при неточних та неповних даних;

методи пошуку, що використовують декілька моделей, призначені для роботи з областями, для адекватного опису яких однієї моделі недостатньо.

Передбачається, що перелічені методи при необхідності повинні об'єднуватися для того, щоб дозволити вирішувати завдання, складність яких зростає одночасно за декількома параметрами.

Інструментальний Комплекс Для Створення Статичних Експертних Систем (На Прикладі Інтегрованого Комплексу Еко)

Розглянемо особливості інструментальних засобів для створення статичних ЕС на прикладі комплексу ЕКЗ, розробленого в РосНДІ ІТ та АП. Найбільш успішно комплекс застосовується для створення ЕС, що вирішують завдання діагностики (технічної та медичної), евристичного оцінювання (ризику, надійності тощо), якісного прогнозування, а також навчання.

Комплекс ЕКО використовується: для створення комерційних та промислових експертних систем на персональних ЕОМ, а також для швидкого створення прототипів експертних систем з метою визначення застосування методів інженерії знань у певній конкретній проблемній галузі.

На основі комплексу ЕКО було розроблено понад 100 прикладних експертних систем. Серед них відзначимо такі:

пошук поодиноких несправностей у персональному комп'ютері;

оцінка стану гідротехнічної споруди (Чарвацька ГЕС);

підготовка ділових листівпід час листування із зарубіжними партнерами;

проведення скринінгової оцінки імунологічного статусу;

оцінка показань мікробіологічного обстеження пацієнта, який страждає на неспецифічні хронічні захворювання легень;

Засоби представлення знань та стратегії управління

Комплекс ЕКО включає три компоненти.

Ядром комплексу є інтегрована оболонка експертних систем ЕКЗ, яка забезпечує швидке створення ефективних додатків для вирішення завдань аналізу у статичних проблемних середовищах типу 1 та 2.

При створенні засобів представлення знань оболонки переслідувалися дві основні мети: ефективне рішення досить широкого і практично значущого класу завдань засобами персональних комп'ютерів; гнучкі можливості з опису інтерфейсу користувача і проведення консультації в конкретних додатках. При поданні знань в оболонці використовуються спеціалізовані (приватні) -затвердження типу "атрибут - значення" і приватні правила, що дозволяє виключити ресурсомістку операцію зіставлення за зразком і домогтися ефективності програм, що розробляються. Виразні можливості оболонки вдалося суттєво розширити за рахунок інтегрованості, що забезпечується шляхом виклику зовнішніх програм через сценарій консультації та стикування з базами даних (ПІРС та dBase IV) та зовнішніми програмами. В оболонці ЕКЗ забезпечується слабка структуризація БЗ за рахунок її поділу на окремі компоненти - для вирішення окремих підзадач у проблемному середовищі - моделі (поняття "модель" ЕКЗ відповідає поняття "модуль" бази знань системи G2).

З точки зору технології розробки ЕС оболонка підтримує підходи, що базуються на поверхневих знаннях та структуруванні процесу розв'язання.

Оболонка функціонує у двох режимах: у режимі набуття знань та у режимі консультації (вирішення завдань). У першому режимі розробник ЕС засобами діалогового редактора вводить у БЗ опис конкретної програми у термінах мови уявлення знань оболонки. Цей опис компілюється в мережу виведення з прямими адресними посиланнями на конкретні твердження та правила. У другому режимі оболонка вирішує конкретні завдання користувача діалоговому чи пакетному режимі. При цьому рішення виводяться від цілей до даних (зворотній міркування).

Для розширення можливостей оболонки по роботі з глибинними знаннями комплекс ЕКО може бути доповнений компонентом К-ЕКО (конкретизатором знань), який дозволяє описувати закономірності у проблемних середовищах у термінах загальних (абстрактних) об'єктів та правил. К-ЕКО використовується на етапі придбання знань замість діалогового редактора оболонки для перетворення загальних описів у конкретні мережі виведення, що допускають ефективне виведення рішень засобами оболонки ЕКО. Таким чином, використання конкретизатора забезпечує можливість роботи із проблемними середовищами типу 2 (див. гл.З).

Третій компонент комплексу - система ІЛІС, що дозволяє створювати ЕС у статичних проблемних середовищах за рахунок індуктивного узагальнення даних (прикладів) і призначена для використання в додатках, де відсутність правил, що відображають закономірності в проблемному середовищі, відшкодовується великим експериментальним матеріалом. Система ІЛІС забезпечує автоматичне формування найпростіших конкретних правил та автономне вирішення завдань на їх основі; при цьому використовується жорстка схема діалогу з користувачем. Оскільки при створенні реальних додатків експерти репрезентують, як правило, і знання про закономірності в проблемному середовищі, і експериментальний матеріал (для вирішення приватних підзавдань), виникає необхідність у використанні правил, сформованих системою ІЛІС, в рамках складніших засобів подання знань. Комплекс ЕКО забезпечує автоматичне переведення таких правил у формат оболонки ЕКО. В результаті вдається отримати повне (адекватне) уявлення реального проблемного середовища, крім того, задати гнучке опис організації взаємодії ЕС із кінцевим користувачем.

Інструментальний комплекс для створення експертних систем реального часу (на прикладі інтегрованого середовища g2-gensym corp., США)

Історія розвитку ІВ до створення ЕС реального часу почалася 1985 р., коли фірма Lisp Machine Inc. випустила систему Picon для символьних ЕОМ Symbolics Успіх цього ІВ призвів до того, що група провідних розробників Picon у 1986 р. утворила приватну фірму Gensym, яка, значно розвинувши ідеї, закладені в Picon, у 1988 р. вийшла на ринок з ІВ під назвою G2, версія 1.0. В даний час функціонує версія 4.2 та готується до випуску версія 5.0.

Основне призначення програмних продуктів фірми Gensym (США) – допомогти підприємствам зберігати та використовувати знання та досвід їх найбільш талановитих та кваліфікованих співробітників в інтелектуальних системах реального часу, що підвищують якість продукції, надійність та безпеку виробництва та знижують виробничі витрати. Про те, як фірмі Gensym вдається впоратися з цим завданням, говорить хоча б те, що сьогодні їй належать 50% світового ринку експертних систем, що використовуються в системах управління.

З відставанням від Gensym на 2 - 3 роки інші фірми почали створювати свої ІВ для ЕС РВ. З погляду незалежних експертів NASA, які проводили комплексне дослідження характеристик та можливостей деяких із перелічених систем, в даний час найбільш просунутим ІС, безумовно, залишається G2 (Gensym, США); Наступні місця зі значним відставанням (реалізовано менше 50% можливостей G2) займають RTWorks – фірма Talarian (США), COMDALE/C (Comdale Techn. – Канада), COGSYS (SC – США), ILOG Rules (ILOG – Франція).

Класи завдань, для яких призначена G2 та подібні до неї системи:

моніторинг у реальному масштабі часу;

системи керування верхнього рівня;

системи виявлення несправностей;

діагностика;

складання розкладів;

планування;

оптимізація;

системи – порадники оператора;

Системи проектування.

Інструментальні засоби фірми Gensym є еволюційним кроком у розвитку традиційних експертних систем від статичних предметних галузей до динамічних. Чималу частку успіху фірмі Gensym забезпечують основні принципи, яких вона дотримується у нових розробках:

проблемно/предметна орієнтація;

дотримання стандартів;

незалежність від обчислювальної платформи;

сумісність знизу вгору з попередніми версіями;

універсальні можливості, незалежні від розв'язуваного завдання;

забезпечення технологічної основи прикладних систем;

комфортне середовище розробки;

пошук нових шляхів розвитку технології;

розподілена архітектура клієнт-сервер;

висока продуктивність.

Основною перевагою оболонки експертних систем G2 для російських користувачів є можливість застосовувати її як інтегруючий компонент, що дозволяє за рахунок відкритості інтерфейсів та підтримки широкого спектру обчислювальних платформ легко поєднати вже існуючі, розрізнені засоби автоматизації в єдину комплексну системууправління, що охоплює всі аспекти виробничої діяльності - від формування портфеля замовлень до управління технологічним процесом та відвантаження готової продукції. Це особливо важливо для вітчизняних підприємств, парк технічних та програмних засобів яких формувався здебільшого безсистемно, під впливом різких коливань економіки.

Крім системи G2, як базового засобу розробки, фірма Gensym пропонує комплекс проблемно/предметно-орієнтованих розширень для швидкої реалізації складних динамічних систем на основі спеціалізованих графічних мов, що включають операторні блоки для представлення елементів технологічного процесу і типових завдань обробки інформації. Набір інструментальних середовищ фірми Gensym, згрупований за проблемною орієнтацією, охоплює всі стадії виробничого процесу і виглядає так:

інтелектуальне управління виробництвом – G2, G2 Diagnostic Assistant (GDA), NeurOn-Line (NOL), Statistical Process Control (SPC), BatchDesign_Kit;

оперативне планування – G2, G2 Scheduling Toolkit (GST), Dynamic Scheduling Packadge (DSP);

розробка та моделювання виробничих процесів - G2, ReThink, BatchDesign_Kit;

управління операціями та корпоративними мережами - G2, Fault Expert.

Незважаючи на те, що перша версія системи G2 з'явилася нещодавно - в 1988 р., її навіть у багатій Америці ніхто не назве дешевою. G2 можна назвати бестселером над ринком програмних продуктів - початку 1996 р. у світі було встановлено понад 5000 її копій. Фірма Gensym обслуговує понад 30 галузей – від аерокосмічних досліджень до виробництва харчових продуктів. Список користувачів G2 виглядає як довідник Who-Is-Who у світовій промисловості. 25 найбільших індустріальних світових корпорацій використовують G2. На базі G2 написано понад 500 діючих програм.

Чим пояснюється успіх інструментального комплексу G2? Насамперед G2 - динамічна система у сенсі цього терміну. G2 - це об'єктно-орієнтоване інтегроване середовище для розробки та супроводу додатків реального часу, що використовують бази знань. G2 функціонує більшості існуючих платформ (табл.9.1). База знань G2 зберігається у звичайному

Таблиця 9.1 Платформи, на яких функціонує G2

Фірма виробник	Обчислювальна система	Операційне середовище
	VAX Зххх,4ххх,бххх,
	7ххх, 8ххх, 9ххх
	DECstation ЗХХХ, БХХХ
		Open VMS, OSF/1,




	SPARC 1,2, 10, LX,	Sun OS/Solaris 1, Solaris

Hewlett Packard	НР9000/4хх, 7хх, 8хх


Silicon Graphics
	Intel 486/Pentium	Windows NT, Windows-95

ЛЕКЦІЯ 9 СТВОРЕННЯWEBСТОРІНОК З ЗВІДНИМИ ДІАГРАМАМИ

Найпростіший спосіб скористатися компонентом PivotTable List – зберегти зведену таблицю Microsoft Excelяк Web-сторінку. І тому виберемо у Microsoft Excel пункт меню File | Save As Web Page, в діалоговій панелі, що з'явилася, натиснемо кнопку Publish, в діалоговій панелі виберемо з випадаючого списку Choose опцію Items on Sheet1, потім - PivotTable, відзначимо опцію Add interactivity with і виберемо зі списку PivotTable functionality.

Далі при необхідності змінимо заголовок, який з'явиться на майбутній Web-сторінці, та збережемо її. Якщо відкрити цю сторінку в Microsoft Internet Explorer, ми побачимо, що вона містить PivotTable List - елемент керування ActiveX, призначений для перегляду OLAP-даних та зведених таблиць на Web-сторінках або Windows-додатках (рис. 2).

Відразу ж зауважимо, що цей елемент керування можна застосовувати лише у локальних мережах на комп'ютерах, для яких придбано ліцензію на Microsoft Office; інші способи його застосування, наприклад, на Web-сторінках, доступних в Інтернеті, заборонені ліцензійною угодою.

Можливості компонента PivotTable List

На лекції ми коротко розглянемо можливості, які надає компонент PivotTable List.

Користувач, який маніпулює цим компонентом у браузері або в додатку Windows, може, як і в зведеній таблиці Excel, переміщувати дані в область рядків, стовпців і сторінок (в Microsoft Office Web Components прийняті терміни Row Area, Column Area і Filter Area) з діалогової панелі, що нагадує панель PivotTable Field List із Excel 2013. Діалогова панель зі списком вимірювань та заходів виводиться на екран після натискання кнопки Field List на інструментальній панелі компонента PivotTable List.

Користувач може виконувати операцію drill-down, клацаючи мишею на значках «+» (рис. 4).

Компонент PivotTable List дозволяє сортувати та фільтрувати дані. По-перше, фільтрація даних може бути здійснена за допомогою відображення тільки вибраних членів вимірювань, які можуть бути позначені у списку, що випадає, подібному з відповідним списком Excel.

По-друге, за допомогою діалогової панелі Commands and Options (її можна вивести на екран за допомогою відповідної кнопки інструментальної панелі компонента PivotTable List) можна вибрати способи фільтрації та групування даних (наприклад, виводити певну кількість найбільших чи найменших значень – Top 5, Top 10 , Bottom 25 і т.п.

Крім цього, користувач може змінювати атрибути відображення даних - колір і шрифт тексту, колір фону, вирівнювання тексту, відображення і т.д. Для цього достатньо помістити курсор на один із елементів даних, атрибути яких потрібно змінити (наприклад, на найменування члена вимірювання, на комірку з сумарними даними або з підсумковими значеннями), і вибрати нові атрибути відображення даних цього типу у тій же діалоговій панелі Commands and Options .

Крім цього компонент PivotTable List дозволяє на основі агрегатних даних обчислювати частки або відсотки загальної суми або суми, що відповідає батьківському члену виміру (наприклад, відсоток від річного прибутку, отриманий у цьому кварталі), - відповідні опції можна знайти в контекстному меню елементів даних.

Користувачеві також доступний спеціально призначений для нього файл довідки (російською мовою, якщо використовуються Web-компоненти з комплекту поставки російської версії Microsoft Office XP). Однак користувач не може змінити джерело даних і відобразити на Web-сторінці інший OLAP-куб, оскільки право зробити це є тільки у розробника Web-сторінки (і для нього є окремий файл довідки, що істотно відрізняється від того, що призначений для користувача, - він містить, зокрема, відомості про об'єктну модель цього компонента).

Зазначимо, що подібну Web-сторінку можна створити за допомогою Microsoft FrontPage. Для вставки PivotTable List у Web-сторінку, що створюється у FrontPag, слід вибрати пункт меню Insert | Web component і в діалоговій панелі, що з'явилася, вибрати Office PivotTable з розділу Spreadsheets and Charts.

Після появи компонента PivotTable List на Web-сторінці слід клацнути мишею на гіпертекстовому посиланні, що пропонує визначити джерело даних, а потім вибрати джерело ODBC з запропонованого списку (або описати його, якщо він ще відсутній у списку; як це зробити, було розказано в попередній статті цього циклу). Як джерело даних можна використовувати як серверний OLAP-куб, так і локальний, створений за допомогою Excel (а також результат запиту до будь-якого джерела ODBC, що повертає звичайний «плоский» набір даних). І нарешті, у разі потреби можна вивести на екран діалогову панель PivotTable Field List та перенести імена вимірювань та заходів у відповідні області цього компонента.

Зазначимо, що сторінка Data Source діалогової панелі Commands and Options доступна тільки на етапі розробки (тобто у FrontPage або, якщо компонент PivotTable List використовується не на Web-сторінці, а в Windows-додатку, то в засобі розробки, за допомогою якого створюється це додаток). Іншими словами, кінцевий користувач не може змінити джерело даних, це може зробити тільки розробник.

Створення Web-сторінок зі зведеними діаграмами

Microsoft Office Web Components дозволяють побудувати зведену діаграму на основі даних, відображених у компоненті PivotTable List. Для цієї мети застосовується елемент керування ChartSpace, який також входить до комплекту постачання Microsoft Office Web Components. Щоб помістити його на Web-сторінку, потрібно з меню FrontPage вибрати пункт меню Insert | Web component і в діалоговій панелі, що з'явилася, вибрати Office Chart з розділу Spreadsheets and Charts.

Наступний етап створення діаграми полягає у виборі джерела даних для її побудови. У нашому випадку це буде вже наявний компонент PivotTable List.

Слід зазначити, що отримана зведена діаграма має приблизно ту ж функціональність, що і розглянута в попередній статті даного циклу зведена діаграма Excel (наприклад, цей компонент також дозволяє перетягувати за допомогою миші найменування вимірювань і заходів у різні області діаграми і вибирати члени вимірювань, що відображаються), а зміни в діаграмі та зведеній таблиці синхронні, як і при відображенні даних OLAP-кубів в Excel.

Зведену діаграму на основі OLAP-куба можна побудувати безпосередньо за допомогою компонента ChartSpace. Для цього в процесі створення Web-сторінки слід описати джерело даних на сторінці Data Details у діалоговій панелі Commands and Options.

І нарешті, ще один спосіб створення Web-сторінки зі зведеною діаграмою. Він полягає у збереженні у вигляді Web-сторінки зведеної діаграми Excel. Однак у цьому випадку на цю сторінку буде автоматично доданий компонент PivotTable List, пов'язаний із створюваною діаграмою.

Як було зазначено вище, компоненти PivotTable List і ChartSpace можна використовувати й у додатках. Для цього знадобиться засіб розробки, який підтримує застосування елементів керування ActiveX на формах (наприклад, Microsoft Visual Basic, Microsoft Visual C++, Borland Delphi, Borland C++Builder). Розробники, які цікавляться створенням таких програм, можуть звернутися до раніше опублікованих нами статей, присвячених цьому питанню (наприклад, «Використання компонентів Microsoft Office у програмах»).

ВИСНОВОК ПІДСУМКІВ

Таблиця 8.3. Регресійна статистика

Регресійна статистика
Множинний R	0,998364
R-квадрат	0,99673
Нормований R-квадрат	0,996321
Стандартна помилка	0,42405
Спостереження	10

Спочатку розглянемо верхню частину розрахунків, подану в таблиці 8.3а - регресійну статистику.

Величина R-квадрат, звана також мірою визначеності, характеризує якість отриманої регресійної прямої. Ця якість виражається ступенем відповідності між вихідними даними та регресійною моделлю (розрахунковими даними). Міра визначеності завжди знаходиться в межах інтервалу.

Найчастіше значення R-квадрат перебуває між цими значеннями, званими екстремальними, тобто. між нулем та одиницею.

Якщо значення R-квадрату близьке до одиниці, це означає, що побудована модель пояснює майже всю мінливість відповідних змінних. І навпаки, значення R-квадрату, близьке до нуля, означає погану якість побудованої моделі.

У нашому прикладі міра визначеності дорівнює 0,99673, що говорить про дуже хороше припасування регресійної прямої до вихідних даних.

Множинний R- Коефіцієнт множинної кореляції R - виражає ступінь залежності незалежних змінних (X) і залежної змінної (Y).

Множинний R дорівнює квадратному кореню з коефіцієнта детермінації, ця величина набуває значення в інтервалі від нуля до одиниці.

У простому лінійному регресійному аналізі множинний R дорівнює коефіцієнту кореляції Пірсона. Справді, множинний R у нашому випадку дорівнює коефіцієнту кореляції Пірсона з попереднього прикладу (0,998364).

Таблиця 8.3б. Коефіцієнти регресії

	Коефіцієнти	Стандартна помилка	t-статистика
Y-перетин	2,694545455	0,33176878	8,121757129
Змінна X 1	2,305454545	0,04668634	49,38177965
* Наведено усічений варіант розрахунків

Тепер розглянемо середню частину розрахунків, подану у таблиці 8.3б. Тут дано коефіцієнт регресії b (2,305454545) і усунення осі ординат, тобто. константа a (2,694545455).

Виходячи з розрахунків, можемо записати рівняння регресії таким чином:

Y = x * 2,305454545 +2,694545455

Напрямок зв'язку між змінними визначається на підставі знаків (негативний або позитивний) коефіцієнтів регресії(Коефіцієнта b).

Якщо знак при коефіцієнт регресії- Позитивний, зв'язок залежної змінної з незалежною буде позитивним. У нашому випадку знак коефіцієнта регресії позитивний, отже, зв'язок також є позитивним.

Якщо знак при коефіцієнт регресії- негативний, зв'язок залежної змінної з незалежною є негативним (зворотним).

У таблиці 8.3в. представлені результати виведення залишків. Для того, щоб ці результати з'явилися у звіті, необхідно при запуску інструменту "Регресія" активувати чекбокс "Залишки".

ВИСНОВОК ЗАЛИШКУ

Таблиця 8.3 ст. Залишки

Спостереження	Передбачене Y	Залишки	Стандартні залишки
1	9,610909091	-0,610909091	-1,528044662
2	7,305454545	-0,305454545	-0,764022331
3	11,91636364	0,083636364	0,209196591
4	14,22181818	0,778181818	1,946437843
5	16,52727273	0,472727273	1,182415512
6	18,83272727	0,167272727	0,418393181
7	21,13818182	-0,138181818	-0,34562915
8	23,44363636	-0,043636364	-0,109146047
9	25,74909091	-0,149090909	-0,372915662
10	28,05454545	-0,254545455	-0,636685276

За допомогою цієї частини звіту ми можемо бачити відхилення кожної точки від збудованої лінії регресії. Найбільше абсолютне значення

Відносить інерцію.

Інерція вимір.1

Косинус**2 вимір.1

Старші менеджери

Молодші менеджери

Старші співробітники

Молодші співробітники