Методы графического разведочного анализа данных. Средства Statistica для проведения графического разведочного анализа данных. Описательные статистики, группировки, разведочный анализ Правила связи разведочный анализ пример в статистике

Глава 1. КАК ЗАПИСЫВАТЬ ЧИСЛА («СТЕБЕЛЬ С ЛИСТЬЯМИ»)

Глава 2. ПРОСТЫЕ СВОДКИ ДАННЫХ – ЧИСЛОВЫЕ И ГРАФИЧЕСКИЕ

Глава 10. ИСПОЛЬЗОВАНИЕ ДВУХФАКТОРНОГО АНАЛИЗА

Глава 1. КАК ЗАПИСЫВАТЬ ЧИСЛА («СТЕБЕЛЬ С ЛИСТЬЯМИ»)

Глава 2. ПРОСТЫЕ СВОДКИ ДАННЫХ – ЧИСЛОВЫЕ И ГРАФИЧЕСКИЕ

Глава 10. ИСПОЛЬЗОВАНИЕ ДВУХФАКТОРНОГО АНАЛИЗА

Лучшие статьи по теме

30.05.2020 Оформление

Данная глава продолжает тему главы Построение и анализ таблиц. Мы рекомендуем просмотреть ее, а затем приступить к чтению данного текста и упражнениям на STATISTICA.

Анализ соответствий (по-английски coirespondence analysis) - это разведочный метод анализа, позволяющий визуально и численно исследовать структуру таблиц сопряженности большой размерности.

В настоящее время анализ соответствий интенсивно применяется в разнообразных областях, в частности, в социологии, экономике, маркетинге, медицине, управлении городами (см. например, Thomas Werani, Correspondence Analysis as a Means for Developing City Marketing Strategies, 3rd International Conference on Recent Advances in Retailing and Services Science, p. 22-25, Juni 1996, Telfs-Buchen (Osterreich) Werani, Thomas).

Известны применения метода в археологии, анализе текстов, где важно исследовать структуры данных (см. Greenacre, M. J., 1993, Correspondence Analysis in Practice, London: Academic Press).

В качестве дополнительных примеров приведем:

Исследование социальных групп населения в различных регионах со статьями расхода по каждой группе.
Исследования результатов голосования в ООН по принципиальным вопросам (1 - за, 0 - против, 0,5 - воздержался, например, в 1967 году исследовалось 127 стран по 13 важным вопросам) показывают, что по первому фактору страны отчетливо разделяются на две группы: одна с центром США, другая с центром СССР (двухполюсная модель мира). Другие факторы могут интерпретироваться как изоляционизм, неучастие в голосовании и т. д.
Исследование импорта автомобилей (марка машины - строка таблицы, страна производитель - столбец).
Исследование таблиц, используемых в палеонтологии, когда по выборке разрозненных частей скелетов животных делаются попытки их классифицировать (отнести к одному из возможных типов: зебра, лошадь и т. д.).
Исследование текстов. Известен следующий экзотический пример: журнал New-Yorker попросил лингвистов установить анонимного автора скандальной книги об одной президентской кампании. Экспертам были предложены тексты 15 возможных авторов и текст анонимного издания. Тексты представлялись строками таблицы. В строке i отмечалось частота данного слова j. Таким образом получалась таблица сопряженности. Методом анализа соответствий был определен наиболее вероятный автор скандального текста.

Применение анализа соответствий в медицине связано с исследованием структуры сложных таблиц, содержащих индикаторные переменные, показывающие наличие или отсутствие у пациента данного симптома. Подобного рода таблицы имеют большую размерность, и исследование их структуры представляет нетривиальную задачу.

Задачи визуализации сложных объектов могут быть также исследованы, по крайней мере, к ним можно найти подход, с помощью анализа соответствий. Изображение - это многомерная таблица, и задача состоит в том, чтобы найти плоскость, позволяющую максимально точно воспроизвести исходное изображение.

Математическое основание метода. Анализ соответствия опирается на статистику хи-квадрат. Можно сказать, что это новая интерпретация статистики хи-квадрат Пирсона.

Метод во многом похож на факторный анализ, однако, в отличие от него, здесь исследуются таблицы сопряженности, а критерием качества воспроизведения многомерной таблицы в пространстве меньшей размерности является значение статистики хи-квадрат. Неформально можно говорить об анализе соответствий как о факторном анализе категориальных данных и рассматривать его также как метод сокращения размерности.

Итак, строки или столбцы исходной таблицы представляются точками пространства, между которыми вычисляется расстояние хи-квадрат (аналогично тому, как вычисляется статистика хи-квадрат для сравнения наблюдаемых и ожидаемых частот).

Далее требуется найти пространство небольшой размерности, как правило, двухмерное, в котором вычисленные расстояния минимально искажаются, и в этом смысле максимально точно воспроизвести структуру исходной таблицы с сохранением связей между признаками (если вы имеете представление о методах многомерного шкалирования, то почувствуете знакомую мелодию).

Итак, мы исходим из обычной таблицы сопряженности, то есть таблицы, в которой сопряжены несколько признаков (подробнее о таблицах сопряженности см. главу Построение и анализ таблиц).

Допустим, что имеются данные о пристрастии к курению сотрудников некоторой компании. Подобные данные имеются в файле Smoking.sta, входящем в стандартный комплект примеров системы STATISTICA.

В этой таблице признак курение сопряжен с признаком должность:

Группа сотрудников	(1) Некурящие	(2) Слабо курящие	(3) Средне курящие	(4) Сильно курящие	Всего по строке
(1) Старшие менеджеры
(2) Младшие менеджеры
(3) Старшие сотрудники
(4) Младшие сотрудники
(5) Секретари
Всего по столбцу

Это простая двухвходовая таблица сопряженности. Вначале рассмотрим строки.

Можно считать, что 4 первых числа каждой строки таблицы (маргинальные частоты, то есть последний столбец не учитывается) являются координатами строки в 4-мерном пространстве, а значит, формально можно вычислить расстояния хи-квадрат между этими точками (строками таблицы).

При данных маргинальных частотах можно отобразить эти точки в пространстве размерности 3 (число степеней свободы равно 3).

Очевидно, что чем меньше расстояние, тем больше сходство между группами, и наоборот - чем больше расстояния, тем больше различие.

Теперь предположим, что можно найти пространство меньшей размерности, например, размерности 2, для представления точек-строк, которое сохраняет всю или, точнее, почти всю информацию о различиях между строками.

Возможно, такой подход неэффективен для таблиц небольшой размерности, как приведенная выше, однако полезен для больших таблиц, возникающих, например, в маркетинговых исследованиях.

Например, если записаны предпочтения 100 респондентов при выборе 15 сортов пива, то в результате применения анализа соответствий можно представить 15 сортов (точек) на плоскости (см. далее анализ продаж). Анализируя расположение точек, вы увидите закономерности при выборе пива, которые будут полезны при проведении маркетинговой кампании.

В анализе соответствий используется определенный сленг.

Масса . Наблюдения в таблице нормируются: вычисляются относительные частоты для таблицы, сумма всех элементов таблицы становится равной 1 (каждый элемент делится на общее число наблюдений, в данном примере на 193). Создается аналог двухмерной плотности распределения. Полученная стандартизованная таблица показывает, как распределена масса по ячейкам таблицы или по точкам пространства. На сленге анализа соответствий суммы по строкам и столбцам в матрице относительных частот называются массой строки и столбца соответственно.

Инерция. Инерция определяется как значение хи-квадрат Пирсона для двух-входовой таблицы, деленный на общее количество наблюдений. В данном примере: общая инерция = 2 /193 - 16,442.

Инерция и профили строк и столбцов. Если строки и столбцы таблицы полностью независимы (между ними нет связи - например, курение не зависит от должности), то элементы таблицы могут быть воспроизведены при помощи сумм по строкам и столбцам или, в терминологии анализа соответствий, при помощи профилей строк и столбцов (с использованием маргинальных частот; см. главу Построение и анализ таблиц с описанием критерия хи-квадрат Пирсона и точный критерий Фишера).

В соответствии с известной формулой вычисления хи-квадрат для двухвходовых таблиц ожидаемые частоты таблицы, в которой столбцы и строки независимы, вычисляются перемножением соответствующих профилей столбцов и строк с делением полученного результата на общую сумму.

Любое отклонение от ожидаемых величин (при гипотезе о полной независимости переменных по строкам и столбцам) будет давать вклад в статистику хи-квадрат.

Анализ соответствий можно рассматривать как разложение статистики хи-квадрат на компоненты с целью определения пространства наименьшей размерности, позволяющего представить отклонения от ожидаемых величин (см. таблицу ниже).

Здесь показаны таблицы с ожидаемыми частотами, рассчитанными при гипотезе независимости признаков, и наблюдаемыми частотами, а также таблица вкладов ячеек в хи-квадрат:

Например, из таблицы видно, что число некурящих младших сотрудников примерно на 10 меньше, чем можно было бы ожидать при гипотезе независимости. Число некурящих старших сотрудников, наоборот, на 9 больше, чем молено было бы ожидать при гипотезе независимости, и т. д. Однако хотелось бы иметь общую картину.

Цель анализа соответствий состоит в том, чтобы суммировать эти отклонения от ожидаемых частот не в абсолютных, а в относительных единицах.

Анализ строк и столбцов. Вместо строк таблицы можно рассматривать также столбцы и представить их точками в пространстве меньшей размерности, которое максимально точно воспроизводит сходство (и расстояния) между относительными частотами для столбцов таблицы. Можно одновременно отобразить на одном графике столбцы и строки, представляющие всю информацию, содержащуюся в двухвходовой таблице. И этот вариант - самый интересный, так как позволяет провести содержательный анализ результатов.

Результаты. Результаты анализа соответствий обычно представляются в виде графиков, как было показано выше, а также в виде таблиц типа:

Число измерений	Процент инерции	Кумулятивный процент	Хи-квадрат

Посмотрите на эту таблицу. Как вы помните, цель анализа - найти пространство меньшей размерности, восстанавливающее таблицу, при этом критерием качества является нормированный хи-квадрат, или инерция. Можно заметить, что если в рассматриваемом примере использовать одномерное пространство, то есть одну ось, можно объяснить 87,76% инерции таблицы.

Две размерности позволяют объяснить 99,51% инерции.

Координаты строк и столбцов. Рассмотрим получившиеся координаты в двухмерном пространстве.

Имя строки	Изменение 1	Изменение 2
Старшие менеджеры
Младшие менеджеры
Старшие сотрудники
Младшие сотрудники
Секретари

Можно изобразить это на двухмерной диаграмме.

Очевидным преимуществом двухмерного пространства является то, что строки, отображаемые в виде близких точек, близки друг к другу и по относительным частотам.

Рассматривая положение точек по первой оси, можно заметить, что Ст. сотрудники и Секретари относительно близки по координатам. Если же обратить внимание на строки таблицы относительных частот (частоты стандартизованы так, что их сумма по каждой строке равна 100%), то сходство данных двух групп по категориям интенсивности курения становится очевидным.

Проценты по строке:

	Категории курящих
Группа сотрудников	(1) Некурящие	(2) Слабо курящие	(3) Средне курящие	(4) Сильно курящие	Всего по строке
(1) Старшие менеджеры
(2) Младшие менеджеры
(3) Старшие сотрудники
(4) Младшие сотрудники
(5} Секретари

Окончательной целью анализа соответствий является интерпретация векторов в полученном пространстве более низкой размерности. Одним из способов, который может помочь в интерпретации полученных результатов, является представление на диаграмме столбцов. В следующей таблице показаны координаты столбцов:

	Измерение 1	Измерение 2
Некурящие
Слабо курящие
Средне курящие
Сильно курящие

Можно сказать, что первая ось дает градацию интенсивности курения. Следовательно, большую степень сходства между Старшими менеджерами и Секретарями можно объяснить наличием в данных группах большого количества Некурящих.

Метрика координатной системы. В ряде случаев термин расстояние использовался для обозначения различий между строками и столбцами матрицы относительных частот, которые, в свою очередь, представлялись в пространстве меньшей размерности в результате использования методов анализа соответствий.

В действительности расстояния, представленные в виде координат в пространстве соответствующей размерности, - это не просто евклидовы расстояния, вычисленные по относительным частотам столбцов и строк, а некоторые взвешенные расстояния.

Процедура подбора весов устроена таким образом, чтобы в пространстве более низкой размерности метрикой являлась метрика хи-квадрат, учитывая, что сравниваются точки-строки и выбирается стандартизация профилей строк или стандартизация профилей строк и столбцов или же сравниваются точки-столбцы и выбирается стандартизация профилей столбцов или стандартизация профилей строк и столбцов.

Оценка качества решения. Имеются специальные статистики, помогающие оценить качество полученного решения. Все или большинство точек должны быть правильно представлены, то есть расстояния между ними в результате применения процедуры анализа соответствий не должны искажаться. В следующей таблице показаны результаты вычисления статистик по имеющимся координатам строк, основанные только на одномерном решении в предыдущем примере (то есть только одно измерение использовалось для восстановления профилей строк матрицы относительных частот).

Координаты и вклад в инерцию строки:

Координаты. Первый столбец таблицы результатов содержит координаты, интерпретация которых, как уже отмечалось, зависит от стандартизации. Размерность выбирается пользователем (в данном примере мы выбрали одномерное пространство), и координаты отображаются для каждого измерения (то есть отображается по одному столбцу координат на каждую ось).

Масса. Масса содержит суммы всех элементов для каждой строки матрицы относительных частот (то есть для матрицы, где каждый элемент содержит соответствующую массу, как уже упоминалось выше).

Если в качестве метода стандартизации выбрана опция Профили строк или опция Профили строк и столбцов , которая установлена по умолчанию, то координаты строк вычисляются по матрице профилей строк. Другими словами, координаты вычисляются на основе матрицы условных вероятностей, представленной в столбце Масса .

Качество. Столбец Качество содержит информацию о качестве представления соответствующей точки-строки в координатной системе, определяемой выбранной размерностью. В рассматриваемой таблице было выбрано только одно измерение, поэтому числа в столбце Качество являются качеством представления результатов в одномерном пространстве. Видно, что качество для старших менеджеров очень низкое, но высокое для старших и младших сотрудников и секретарей.

Отметим еще раз, что в вычислительном плане целью анализа соответствий является представление расстояний между точками в пространстве более низкой размерности.

Если используется максимальная размерность (равная минимуму числа строк и столбцов минус один), можно воспроизвести все расстояния в точности.

Качество точки определяется как отношение квадрата расстояния от данной точки до начала координат, в пространстве выбранной размерности, к квадрату расстояния до начала координат, определенному в пространстве максимальной размерности (в качестве метрики в этом случае выбрана метрика хи-квадрат, как уже упоминалось ранее). В факторном анализе имеется аналогичное понятие общность.

Качество, вычисляемое системой STATISTICA, не зависит от выбранного метода стандартизации и всегда использует стандартизацию, установленную по умолчанию (то есть метрикой расстояния является хи-квадрат, и мера качества может интерпретироваться как доля хи-квадрат, определяемая соответствующей строкой в пространстве соответствующей размерности).

Низкое качество означает, что имеющееся число измерений недостаточно хорошо представляет соответствующую строку (столбец).

Относительная инерция. Качество точки (смотри выше) представляет отношение вклада данной точки в общую инерцию (Хи-квадрат), что может объяснять выбранную размерность.

Качество не отвечает на вопрос, насколько в действительности и в каких размерах соответствующая точка вносит вклад в инерцию (величину хи-квадрат).

Относительная инерция представляет долю общей инерции, принадлежащую данной точке, и не зависит от выбранной пользователем размерности. Отметим, что какое-либо частное решение может достаточно хорошо представлять точку (высокое качество), но та же точка может вносить очень малый вклад в общую инерцию (то есть точка-строка, элементами которой являются относительные частоты, имеет сходство с некоторой строкой, элементы которой представляют собой среднее по всем строкам).

Относительная инерция для каждой размерности. Данный столбец содержит относительный вклад соответствующей точки-строки в величину инерции, обусловленный соответствующей размерностью. В отчете данная величина приводится для каждой точки (строки или столбца) и для каждого измерения.

Косинус**2 (качество, или квадратичные корреляции с каждой размерностью). Данный столбец содержит качество для каждой точки, обусловленное соответствующей размерностью. Если просуммировать построчно элементы столбцов косинус**2 для каждой размерности, то в результате получим столбец величин Качество, о которых уже упоминалось выше (так как в рассматриваемом примере была выбрана размерность 1, то столбец Косинус 2 совпадает со столбцом Качество). Эта величина может интерпретироваться как «корреляция» между соответствующей точкой и соответствующей размерностью. Термин Косинус**2 возник по причине того, что данная величина является квадратом косинуса угла, образованного данной точкой и соответствующей осью.

Дополнительные точки. Помощь в интерпретации результатов может оказать включение дополнительных точек-строк или столбцов, которые на первоначальном этапе не участвовали в анализе. Имеется возможность для включения как дополнительных точек-строк, так и дополнительных точек-столбцов. Можно также отображать дополнительные точки вместе с исходными на одной диаграмме. Например, рассмотрим следующие результаты:

Группа сотрудников	Измерение 1	Измерение 2
Старшие менеджеры
Младшие менеджеры
Старшие сотрудники
Младшие сотрудники
Секретари
Национальное среднее

Данная таблица отображает координаты (для двух размерностей), вычисленные для частотной таблицы, состоящей из классификации степени пристрастия к курению среди сотрудников различных должностей.

Строка Национальное среднее содержит координаты дополнительной точки, которая является средним уровнем (в процентах), подсчитанным по различным национальностям курящих. В данном примере это чисто модельные данные.

Если вы построите двухмерную диаграмму групп сотрудников и Национального среднего, то сразу убедитесь в том, что данная дополнительная точка и группа Секретари очень близки друг к другу и расположены по одну сторону горизонтальной оси координат с категорией Некурящие (точкой-столбцом). Другими словами, выборка, представленная в исходной частотной таблице, содержит больше курящих, чем Национальное среднее.

Хотя такое же заключение можно сделать, взглянув на исходную таблицу сопряженности, в таблицах больших размеров подобные выводы, конечно, не столь очевидны.

Качество представления дополнительных точек. Еще одним интересным результатом, касающимся дополнительных точек, является интерпретация качества, представления при заданной размерности.

Еще раз отметим, что целью анализа соответствий является представление расстояний между координатами строк или столбцов в пространстве более низкой размерности. Зная, как решается данная задача, необходимо ответить на вопрос, является ли адекватным (в смысле расстояний до точек в исходном пространстве) представление дополнительной точки в пространстве выбранной размерности. Ниже представлены статистики для исходных точек и для дополнительной точки Национальное среднее применительно к задаче в двухмерном пространстве.

Младшие менеджеры0,9998100,630578

Напомним, что качество точек-строк или столбцов определено как отношение квадрата расстояния от точки до начала координат в пространстве сниженной размерности к квадрату расстояния от точки до начала координат в исходном пространстве (в качестве метрики, как уже отмечалось, выбирается расстояние хи-квадрат).

В определенном смысле качество является величиной, объясняющей долю квадрата расстояния до центра тяжести исходного облака точек.

Дополнительная точка-строка Национальное среднее имеет качество, равное 0,76. Это означает, что данная точка достаточно хорошо представлена в двухмерном пространстве. Статистика Косинус**2 - это качество представления соответствующей точки-строки, обусловленное выбором пространства заданной размерности (если просуммировать построчно элементы столбцов Косинус 2 для каждого измерения, то в результате мы придем к величине Качество, полученной ранее).

Графический анализ результатов. Это самая важная часть анализа. По существу вы можете забыть о формальных критериях качества, однако руководствоваться некоторыми простыми правилами, позволяющими понимать графики.

Итак, на графике представляются точки-строки и точки, столбцы. Хорошим тоном является представление и тех и других точек (мы ведь анализируем связи строк и столбцов таблицы!).

Обычно горизонтальная ось соответствует максимальной инерции. Около стрелки показан процент общей инерции, объясняемый данным собственным значением. Часто указывают также соответствующие собственные значения, взятые из таблицы результатов. Пересечение двух осей - это центр тяжести наблюдаемых точек, соответствующий средним профилям. Если точки принадлежат одному и тому же типу, то есть являются либо строками, либо столбцами, то чем меньше расстояние между ними, тем теснее связь. Для того чтобы установить связь между точками разного типа (между строками и столбцами), следует рассмотреть углы между ними с вершиной в центре тяжести.

Общее правило визуальной оценки степени зависимости заключается в следующем.

Рассмотрим 2 произвольные точки разного типа (строки и столбцы таблицы).
Соединим их отрезками прямых с центром тяжести (точка с координатами 0,0).
Если образовавшийся угол острый, то строка и столбец положительно коррелированы.
Если образовавшийся угол тупой, то корреляция между переменными отрицательная.
Если угол прямой, корреляция отсутствует.

Рассмотрим анализ конкретных данных в системе STATISTICA.

Пример 1 (анализ курильщиков)

Шаг 1 . Запустите модуль Анализ соответствий.

В стартовой панели модуля имеются 2 вида анализа: анализ соответствий и многомерный анализ соответствий.

Выберите Анализ соответствий. Многомерный анализ соответствий будет рассмотрен в следующем примере.

Шаг 2. Откройте файл данных smoking.sta папки Examples.

Файл уже представляет собой таблицу сопряженности, поэтому табуляция не требуется. Выберите вид анализа - Частоты без группирующей переменной.

Шаг 3 . Нажмите кнопку Переменные с частотами и выберите переменные для анализа.

В данном примере выберите все переменные.

Шаг 4. Нажмите OK и запустите вычислительную процедуру. На экране появится окно с результатами.

Шаг 5. Рассмотрим результаты с помощью опций данного окна.

Обычно сначала рассматриваются графики, для чего имеется группа кнопок График координат.

Графики доступны для строк и столбцов, а также для строк и столбцов одновременно.

Размерность максимального простарнства задается в опции Размерность .

Наиболее интересна размерность 2. Заметьте, что на графике, особенно если имеется множество данных, метки могут накладываться друг на друга, поэтому может быть полезной опция Сократить метки.

Нажмите третью кнопку 2М в диалоговом окне. На экране появится график:

Заметьте, что на графике представлены оба фактора: группа сотрудников - строки и интенсивность курения - столбцы.

Соедините отрезком прямой категорию СТАРШИЕ СОТРУДНИКИ, а также категорию НЕТ с центром тяжести.

Образовавшийся угол будет острым, что на языке анализа соответствий говорят о наличии положительной корреляции между этими признаками (просмотрите исходную таблицу, чтобы убедиться в этом).

Координаты строк и столбцов можно посмотреть и в численном виде с помощью кнопки Координаты строк и столбцов .

Используя кнопку Собственные значения , можно увидеть разложение статистики хи-квадрат по собственным значениям.

Опция График только выбранных измерений позволяет просмотреть координаты точек по выбранным осям.

Группа опцийПросмотр таблиц в правой части окна позволяет просмотреть исходную и ожидаемую таблицу сопряженности, разности между частотами и другие параметры, вычисленные при гипотезе независимости табулированных признаков (см главу Построение и анализ таблиц, критерий хи-квадрат).

Таблицы большой размерности лучше всего исследовать постепенно, вводя по мере надобности дополнительные переменные. Для этого предусмотрены опции: Добавить точки-строки, Добавить точки-столбцы.

Пример 2 (анализ продаж)

В главе Анализ и построение таблиц был рассмотрен пример, связанный с анализом продаж. Применим к данным анализ соответствий.

Ранее отмечалось, что вопрос, какие именно покупки произвел покупатель при условии, что куплено 3 товара, является сложным.

Действительно, всего мы имеем 21 продукт. Чтобы просмотреть все таблицы сопряженности, требуется выполнить 21×20×19 = 7980 действий. Число действий катастрофически возрастает при увеличении товаров и количества признаков. Применим анализ соответствий. Откроем файл данных с индикаторными переменными, отмечающими купленный продукт.

В стартовой панели модуля выберем Многомерный анализ соответствий.

Зададим условие выбора наблюдений.

Это условие позволяет выбрать покупателей, сделавших ровно 3 покупки.

Поскольку мы имеем дело с нетабулированными данными, выберем вид анализа Исходные данные (требуется табуляция).

Для удобства дальнейшего графического представления выберем небольшое количество переменных. Выберем также дополнительные переменные (см; окно ниже).

Запустим вычислительную процедуру.

В появившемся окнеРезультаты многомерного анализа соответствий просмотрим результаты.

С помощью кнопки 2М выводится двухмерный график переменных.

На этом графике дополнительные переменные отмечены красными точками, что удобно для визуального анализа.

Заметьте, что каждая переменная имеет признак 1, если товар куплен, и признак 0, если товар не куплен.

Рассмотрим график. Выберем, например, близкие пары признаков.

В итоге получим следующее:

Аналогичные исследования можно провести и для других данных, когда отсутствуют какие-либо априорные гипотезы о зависимостях в данных.

В книге, написанной в 1977 г. известным американским специалистом по математической статистике, изложены основы разведочного анализа данных, т.е. первичной обработки результатов наблюдений, осуществляемой посредством простейших средств - карандаша, бумаги и логарифмической линейки. На многочисленных примерах автор показывает, как представление наблюдений в наглядной форме с помощью схем, таблиц и графиков облегчает выявление закономерностей и подбор способов более глубокой статистической обработки. Изложение сопровождается многочисленными упражнениями с привлечением богатого материала из практики. Живой, образный язык облегчает понимание излагаемого материала.

Джон Тьюки. Анализ результатов наблюдений. Разведочный анализ. – М.: Мир, 1981. – 696 с.

Скачать конспект (краткое содержание) в формате или , примеры в формате

На момент публикации заметки книгу можно найти только в букинистических магазинах.

Автор подразделяет статистический анализ на два этапа: разведочный и подтверждающий. Первый этап включает преобразование данных наблюдений и способы их наглядного представления, позволяющие выявить внутренние закономерности, проявляющиеся в данных. На втором этапе применяются традиционные статистические методы оценки параметров и проверки гипотез. Настоящая книга посвящена разведочному анализу данных (о подтверждающем анализе см. ). Для чтения книги не требуется предварительных знаний по теории вероятностей и математической статистике.

Прим. Багузина. Учитывая год написания книги, автор сосредотачивается на наглядном представлении данных с помощью карандаша, линейки и бумаги (иногда миллиметровой). На мой взгляд, сегодня наглядное представление данных связано с ПК. Поэтому я попытался совместить оригинальные идеи автора и обработку в Excel. Мои комментарии набраны с отступом.

График имеет наибольшую ценность тогда, когда он вынуждает нас заметить то, что мы совсем не ожидали увидеть. Представление чисел в виде стебля и листьев позволяет выявить закономерности. Например, приняв основанием стебля десятки, число 35 можно отнести к стеблю 3. Лист будет равен 5. Для числа 108 стебель – 10, лист – 8.

В качестве примера я взял 100 случайных чисел, распределенных по нормальному закону со средним 10 и стандартным отклонением 3. Чтобы получить такие числа я воспользовался формулой =НОРМ.ОБР(СЛЧИС();10;3) (рис. 1). Откройте приложенный файл Excel. Нажимая F9, вы будете генерировать новый ряд случайных чисел.

Рис. 1. 100 случайных чисел

Видно, что числа в основном распределены в диапазоне от 5 до 16. Однако заметить какую-либо интересную закономерность сложно. График «стебель и листья» (рис. 2) выявляет нормальное распределение. В качестве ствола были взяты пары соседних чисел, например, 4-5. Листья отражают число значений в этом диапазоне. В нашем примере таких значений 3.

Рис. 2. График «стебель и листья»

В Excel есть две возможности, позволяющие быстро изучить частотные закономерности: функция ЧАСТОТА (рис. 3; подробнее см. ) и сводные таблицы (рис. 4; подробнее см. , раздел Группировка числовых полей ).

Рис. 3. Анализ с помощью функции массива ЧАСТОТА

Рис. 4. Анализ с помощью сводных таблиц

Представление в виде стебля с листьями (частотное представление) позволяет выявить следующие особенности данных:

разделение на группы;
несимметричное спадание к концам - один «хвост» длиннее другого;
неожиданно «популярные» и «непопулярные» значения;
относительно какого значения «центрированы» наблюдения;
как велик разброс данных.

Представление чисел в виде стебля с листьями позволяет воспринять общую картину выборки. Перед нами стоит задача научиться выражать в сжатом виде наиболее часто встречающиеся общие особенности выборок. Для этого используются сводки данных. Однако, несмотря на то, что сводки могут быть очень полезными, но они не дают всех подробностей выборки. Если этих подробностей не так много, чтобы в них запутаться, лучше всего иметь перед глазами полные данные, размещенные отчетливо удобным для нас способом. Для больших массивов данных сводки необходимы. Мы не предполагаем и не ожидаем, что они заменят полные данные. Разумеется, нередко бывает, что добавление подробностей мало что дает, но важно осознать, что иногда подробности дают многое.

Если для характеристики выборки как целого нам нужно выбрать несколько чисел, которые легко найти, то нам наверняка понадобятся:

крайние значения - наибольшее и наименьшее, которые мы пометим символом «1» (в соответствии с их рангом или глубиной);
какое-то срединное значение.

Медиана = срединное значение.

Для ряда, представленного в виде стебля с листьями, срединное значение легко найти подсчетом вглубь от любого из концов, приписывая крайнему значению ранг «1». Таким образом, каждое значение в выборке получает свой ранг . Счет можно начинать с любого конца. Наименьший из двух получаемых таким образом рангов, которые можно приписать одному и тому же значению, мы назовем глубиной (рис. 5). Глубина крайнего значения всегда 1.

Рис. 5. Определение глубины на основе двух направлений ранжирования

глубина (или ранг) медианы = (1 + число значений)/2

Если мы хотим добавить еще два числа, чтобы образовать 5-числовую сводку, то естественно определять их подсчетом до половины расстояния от каждого из концов к медиане. Процесс нахождения медианы, а затем и этих новых значений можно представить себе, как складывание листа бумаги. Поэтому эти новые значения естественно назвать сгибами (сейчас чаще используется термин квартиль ).

В свернутом виде ряд из 13 значений может выглядеть, например, так:

Пять чисел для характеристики ряда в порядке возрастания будут: –3,2; 0,1; 1,5; 3,0; 9,8 - по одному в каждой точке перегиба ряда. Пять чисел (крайние значения, сгибы, медиана), из которых состоит 5-числовая сводка, мы будем изображать в виде следующей простой схемы:

где слева мы показали количество чисел (отмечено знаком #), глубину медианы (буквой М), глубину сгибов (буквой С) и глубину крайних значений (всегда 1, больше ничем отмечать не надо).

На рис. 8 показано, как изобразить 5-числовую сводку графически. Такого типа график называется «ящик с усами».

Рис. 8. Схематическая диаграмма или ящик с усами

К сожалению, Excel стандартно строит биржевые диаграммы, основанные только на трех или четырех значениях (рис. 9; как обойти это ограничение см. ). Для построения 5-числовой сводки можно воспользоваться статистическим пакетом R (рис. 10; подробнее см. Базовые графические возможности R: диаграммы размахов ; если вы не знакомы с пакетом R, можно начать с ). Функция boxplot() в R помимо 5 чисел отражает также выбросы (о них чуть позже).

Рис. 9. Возможные типы биржевых диаграмм в Excel

Рис. 10. Ящичная диаграмма в R; для построения такого графика достаточно выполнить команду boxplot(count ~ spray, data = InsectSprays), будут загружены данные, хранящиеся в программе, и построен представленный график

При построении диаграммы «ящик с усами» мы будем придерживаться следующей простой схемы:

«С-ширина» = разность между значениями двух сгибов;
«шаг» - величина, в полтора раза большая, чем С-ширина;
«внутренние барьеры» находятся снаружи сгибов на расстоянии одного шага;
«наружные барьеры» - снаружи на один шаг дальше внутренних;
значения между внутренним и соседним наружным барьерами будут «внешними»;
значения за наружными барьерами будем называть «отскакивающими» (или выбросы);
«размах» = разность между крайними значениями.

Рис. 19. Вычисление скользящей медианы: (а) подробно для части данных; (б) для всей выборки

Рис. 20. Сглаженная кривая

Наступило время рассмотреть двухфакторный анализ - как вследствие его важности, так и потому, что он является введением в разнообразные методы исследования. В основе двухфакторной таблицы (таблицы «откликов») лежат:

один вид откликов;
два фактора - и каждый из них проявляется в каждом наблюдении.

Двухфакторная таблица остатков. Анализ «строка-плюс-столбец». На рис. 21 приведены среднемесячные значения температуры для трех мест в Аризоне.

Рис. 21. Среднемесячные температуры в трех городах Аризоны, °F

Определим медиану по каждому месту, и вычтем ее из отдельных значений (рис. 22).

Рис. 22. Значения аппроксимации (медианы) для каждого города и остатки

Теперь определим аппроксимацию (медиану) по каждой строке, и вычтем ее из значений строки (рис. 23).

Рис. 23. Значения аппроксимации (медианы) для каждого месяца и остатки

Для рис. 23 мы вводим понятие «эффект». Число –24,7 представляет собой эффект столбца, а число 19,1 - эффект строки. Эффект показывает, как проявляется фактор или множество факторов в каждой из наблюденных величин. Если проявляющаяся часть фактора больше, чем то, что остается, то легче разглядеть и понять, что происходит с данными. Число, которое было вычтено из всех без исключения данных (здесь 70,8), называем «общее». Оно есть проявление всех факторов, общих для всех данных. Таким образом, для величин на рис. 23 справедлива формула:

Это и есть схема конкретного анализа «строка-ПЛЮС-столбец». Мы возвращаемся к нашей старой уловке - попытаться найти простое частичное описание - частичное описание, которое легче воспринимается - частичное описание, вычитание которого даст нам возможность глубже взглянуть на то, что еще не было описано.

Что нового мы сможем узнать благодаря полному двухфакторному анализу? Самый большой остаток, равный 1,9, мал по сравнению с величиной изменения эффекта от пункта к пункту и от месяца к месяцу. Во Флагстаффе приблизительно на 25°F прохладнее, чем в Финиксе, в то время как в Юме на 5–6°F теплее, чем в Финиксе. Последовательность эффектов месяцев монотонно убывает от месяца к месяцу, сначала медленно, затем быстро, затем снова медленно. Это похоже на симметрию относительно октября (такую закономерность я ранее наблюдал на примере продолжительности дня; см. . – Прим. Багузина ); Мы сняли обе завесы - эффект сезона и эффект места. После этого мы смогли увидеть довольно многое из того, что ранее оставалось незамеченным.

На рис. 24 приведена двухфакторная диаграмма . Хотя основное на этом рисунке - это аппроксимация, мы не должны пренебрегать остатками. В четырех точках мы нарисовали короткие вертикальные черточки. Длины этих черточек равны величинам соответствующих остатков, так что координаты вторых концов представляют не значения аппроксимации, а

Данные = аппроксимация ПЛЮС остаток.

Рис. 24. Двухфакторная диаграмма

Заметим также, что свойство этой или любой другой двухфакторной диаграммы - «шкала лишь в одном направлении», задающими вертикальный размер, т.е. пунктирными горизонтальными линиями, проведенными по бокам картинки, и отсутствием какого-либо размера в горизонтальном направлении.

О возможностях Excel см. . Любопытно, что некоторые формулы, использованные в этой заметке, носят имя Тьюки

Дальнейшее изложение, на мой взгляд, стало совсем сложным…

Data Mining Фролов Тимофей. БИ-1102 Добыча данных это процесс аналитического исследования больших массивов информации (обычно экономического характера) с целью выявления определенных закономерностей и систематических взаимосвязей между переменными, которые затем можно применить к новым совокупностям данных. Этот процесс включает три основных этапа: исследование, построение модели или структуры и ее проверку. В идеальном случае, при достаточном количестве данных можно организовать итеративную процедуру для построения устойчивой модели. В то же время, в реальной ситуации практически невозможно проверить экономическую модель на стадии анализа и поэтому начальные результаты имеют характер эвристик, которые можно использовать в процессе принятия решения (например, "Имеющиеся данные свиделельствуют о том, что у женщин частота приема снотворных средств увеличивается с возрастом быстрее, чем у мужчин."). Методы Data Mining приобретают все большую популярность в качестве инструмента для анализа экономической информации, особенно в тех случаях, когда предполагается, что из имеющихся данных можно будет извлечь знания для принятия решений в условиях неопределенности. Хотя в последнее время возрос интерес к разработке новых методов анализа данных, специально предназначенных для сферы бизнеса (например, Деревья классификации), в целом системы Data Mining по-прежнему основываются на классических принципах разведочного анализа данных(РАД) и построения моделей и используют те же подходы и методы. Имеется, однако, важное отличие процедуры Data Mining от классического разведочного анализа данных (РАД) : системы Data Mining в большей степени ориентированы на практическое приложение полученных результатов, чем на выяснение природы явления. Иными словами, при Data Mining нас не очень интересует конкретный вид зависимостей между переменными задачи. Выяснение природы участвующих здесь функций или конкретной формы интерактивных многомерных зависимостей между переменными не является главной целью этой процедуры. Основное внимание уделяется поиску решений, на основе которых можно было бы строить достоверные прогнозы. Таким образом, в области Data Mining принят такой подход к анализу данных и извлечению знаний, который иногда характеризуют словами "черный ящик". При этом используются не только классические приемы разведочного анализа данных, но и такие методы, как нейронные сети, которые позволяют строить достоверные прогнозы, не уточняя конкретный вид тех зависимостей, на которых такой прогноз основан. Очень часто Data Mining трактуется как "смесь статистики, методов искуственного интеллекта (ИИ) и анализа баз данных" (Pregibon, 1997, p. 8), и до последнего времени она не признавалась полноценной областью интереса для специалистов по статистике, а порой ее даже называли "задворками статистики" (Pregibon, 1997, p. 8). Однако, благодаря своей большой практической значимости, эта проблематика ныне интенсивно разрабатывается и привлекает большой интерес (в том числе и в ее статистических аспектах), и в ней достигнуты важные теоретические результаты (см. например, материалы ежегодно проводимой Международной конференции по поиску знаний и Data Mining (International Conferences on Knowledge Discovery and Data Mining), одним из организаторов которой в 1997 году стала Американская статистическая ассоциация - American Statistical Association). хранилище данных это место хранения больших многомерных массивов данных, которое позволяет легко извлекать и использовать информацию в процедурах анализа. Эффективная архитектура хранилища данных должна быть организована таким образом, чтобы быть составной частью информационной системы управления предприятием (или по крайней мере иметь связь со всеми доступными данными). При этом необходимо использовать специальные технологии работы с корпоративными базами данных (например, Oracle, Sybase, MS SQL Server). Высокопроизводительная технология хранилищ данных, позволяющая пользователям организовать и эффективно использовать базу данных предприятия практически неограниченной сложности, разработана компанией StatSoft enterprise systems и называется SENS и SEWSS ). Термин OLAP (или FASMI - быстрый анализ распределенной многомерной информации) обозначает методы, которые дают возможность пользователям многомерных баз данных в реальном времени генерировать описательные и сравнительные сводки ("views") данных и получать ответы на различные другие аналитические запросы. Обратите внимание, что несмотря на свое название, этот метод не подразумевает интерактивную обработку данных (в режиме реального времени); он означает процесс анализа многомерных баз данных (которые, в частности, могут содержать и динамически обновляемую информацию) путем составления эффективных "многомерных" запросов к данным различных типов. Средства OLAP могут быть встроены в корпоративные (масштаба предприятия) системы баз данных и позволяют аналитикам и менеджерам следить за ходом и результативностью своего бизнеса или рынка в целом (например, за различными сторонами производственного процесса или количеством и категориями совершенных сделок по разным регионам). Анализ, проводимый методами OLAP может быть как простым (например, таблицы частот, описательные статистики, простые таблицы), так и достаточно сложным (например, он может включать сезонные поправки, удаление выбросов и другие способы очистки данных). Хотя методы Data Mining можно применять к любой, предварительно не обработанной и даже неструктурированной информации, их можно также использовать для анализа данных и отчетов, полученных средствами OLAP, с целью более углубленного исследования, как правило, в более высоких размерностях. В этом смысле методы Data Mining можно рассматривать как альтернативный аналитический подход (служащий иным целям, нежели OLAP) или как аналитическое расширение систем OLAP. РАД и проверка гипотез В отличие от традиционной проверки гипотез, предназначенной для проверки априорных предположений, касающихся связей между переменными (например, "Имеется положительная корреляция между возрастом человека и его/ее нежеланием рисковать"), разведочный анализ данных (РАД) применяется для нахождения связей между переменными в ситуациях, когда отсутствуют (или недостаточны) априорные представления о природе этих связей. Как правило, при разведочном анализе учитывается и сравнивается большое число переменных, а для поиска закономерностей используются самые разные методы. Вычислительные методы РАД Вычислительные методы разведочного анализа данных включают основные статистические методы, а также более сложные, специально разработанные методы многомерного анализа, предназначенные для отыскания закономерностей в многомерных данных. Основные методы разведочного статистического анализа. К основным методам разведочного статистического анализа относится процедура анализа распределений переменных (например, чтобы выявить переменные с несимметричным или негауссовым распределением, в том числе и бимодальные), просмотр корреляционных матриц с целью поиска коэффициентов, превосходящих по величине определенные пороговые значения (см. предыдущий пример), или анализ многовходовых таблиц частот (например, "послойный" последовательный просмотр комбинаций уровней управляющих переменных). Методы многомерного разведочного анализа. Методы многомерного разведочного анализа специально разработаны для поиска закономерностей в многомерных данных (или последовательностях одномерных данных). К ним относятся: кластерный анализ, факторный анализ, анализ лискриминантных функций, многомерное шкалирование, логлинейный анализ,канонические корреляции, пошаговая линейная и нелинейная (например, логит) регрессия, анализ соответствий, анализ временных рядов. Нейронные сети. Этот класс аналитических методов основан на идее воспроизведения процессов обучения мыслящих существ (как они представляются исследователям) и функций нервных клеток. Нейронные сети могут прогнозировать будущие значения переменных по уже имеющимся значениям этих же или других переменных, предварительно осуществив процесс так называемого обучения на основе имеющихся данных. Предварительное исследование данных может служить лишь первым этапом в процессе их анализа, и пока результаты не подтверждены (методами кросс-проверки) на других фрагментах базы данных или на независимом множестве данных, их можно воспринимать самое большее как гипотезу. Если результаты разведочного анализа говорят в пользу некоторой модели, то ее правильность можно затем проверить, применив ее к новым данных и определив степень ее согласованности с данными (проверка "способности к прогнозированию"). Для быстрого выделения различных подмножеств данных (например, для очистки, проверки и пр.) и оценки надежности результатов удобно пользоваться условиями выбора наблюдений.

Понятие "добыча данных" определяется как процесс аналитического исследования больших массивов информации (обычно экономического характера) с целью выявления определенных закономерностей и систематических взаимосвязей между переменными, которые затем можно применить к новым совокупностям данных. Этот процесс включает три основных этапа: исследование, построение модели или структуры и ее проверку. В идеальном случае, при достаточном количестве данных можно организовать итеративную процедуру для построения устойчивой (робастной) модели. В то же время, в реальной ситуации практически невозможно проверить экономическую модель на стадии анализа и поэтому начальные результаты имеют характер эвристик, которые можно использовать в процессе принятия решения (например, "Имеющиеся данные свидетельствуют о том, что у женщин частота приема снотворных средств увеличивается с возрастом быстрее, чем у мужчин.").

Методы добычи данных приобретают все большую популярность в качестве инструмента для анализа экономической информации, особенно в тех случаях, когда предполагается, что из имеющихся данных можно будет извлечь знания для принятия решений в условиях неопределенности. Хотя в последнее время возрос интерес к разработке новых методов анализа данных, специально предназначенных для сферы бизнеса (например, Деревья классификации ), в целом системы добычи данных по-прежнему основываются на классических принципахразведочного анализа данных (РАД) и построения моделей и используют те же подходы и методы.

Имеется, однако, важное отличие процедуры добычи данных от классического разведочного анализа данных (РАД): системы добычи данных в большей степени ориентированы на практическое приложение полученных результатов, чем на выяснение природы явления. Иными словами, при добыче данных нас не очень интересует конкретный вид зависимостей между переменными задачи. Выяснение природы участвующих здесь функций или конкретной формы интерактивных многомерных зависимостей между переменными не является главной целью этой процедуры. Основное внимание уделяется поиску решений, на основе которых можно было бы строить достоверные прогнозы. Таким образом, в области добычи данных принят такой подход к анализу данных и извлечению знаний, который иногда характеризуют словами "черный ящик". При этом используются не только классические приемы разведочного анализа данных, но и такие методы, как нейронные сети, которые позволяют строить достоверные прогнозы, не уточняя конкретный вид тех зависимостей, на которых такой прогноз основан.

Очень часто добыча данных трактуется как "смесь статистики, методов искусственного интеллекта (ИИ) и анализа баз данных" (Pregibon, 1997, p. 8), и до последнего времени она не признавалась полноценной областью интереса для специалистов по статистике, а порой ее даже называли "задворками статистики" (Pregibon, 1997, p. 8). Однако, благодаря своей большой практической значимости, эта проблематика ныне интенсивно разрабатывается и привлекает большой интерес (в том числе и в ее статистических аспектах), и в ней достигнуты важные теоретические результаты.

Разведочный анализ данных (РАД)

В отличие от традиционной проверки гипотез, предназначенной для проверки априорных предположений, касающихся связей между переменными (например, "Имеется положительная корреляция между возрастом человека и его/ее нежеланием рисковать"), разведочный анализ данных (РАД) применяется для нахождения связей между переменными в ситуациях, когда отсутствуют (или недостаточны) априорные представления о природе этих связей. Как правило, при разведочном анализе учитывается и сравнивается большое число переменных, а для поиска закономерностей используются самые разные методы.

Методы многомерного разведочного анализа специально разработаны для поиска закономерностей в многомерных данных (или последовательностях одномерных данных). К ним относятся: кластерный анализ, факторный анализ, анализ дискриминантных функций, многомерное шкалирование, логлинейный анализ, канонические корреляции, пошаговая линейная и нелинейная (например, логит) регрессия, анализ соответствий, анализ временных рядов и деревья классификации.

Кластерный анализ

Термин кластерный анализ (впервые ввел Tryon, 1939) в действительности включает в себя набор различных алгоритмов классификации. Общий вопрос, задаваемый исследователями во многих областях, состоит в том, как организовать наблюдаемые данные в наглядные структуры, т.е. развернуть таксономии. Например, биологи ставят цель разбить животных на различные виды, чтобы содержательно описать различия между ними. В соответствии с современной системой, принятой в биологии, человек принадлежит к приматам, млекопитающим, амниотам, позвоночным и животным. Заметьте, что в этой классификации, чем выше уровень агрегации, тем меньше сходства между членами в соответствующем классе. Человек имеет больше сходства с другими приматами (т.е. с обезьянами), чем с "отдаленными" членами семейства млекопитающих (например, собаками) и т.д.

Техника кластеризации применяется в самых разнообразных областях. Хартиган (Hartigan, 1975) дал прекрасный обзор многих опубликованных исследований, содержащих результаты, полученные методами кластерного анализа. Например, в области медицины кластеризация заболеваний, лечения заболеваний или симптомов заболеваний приводит к широко используемым таксономиям. В области психиатрии правильная диагностика кластеров симптомов, таких как паранойя, шизофрения и т.д., является решающей для успешной терапии. В археологии с помощью кластерного анализа исследователи пытаются установить таксономии каменных орудий, похоронных объектов и т.д. Известны широкие применения кластерного анализа в маркетинговых исследованиях. В общем, всякий раз, когда необходимо классифицировать "горы" информации к пригодным для дальнейшей обработки группам, кластерный анализ оказывается весьма полезным и эффективным.

Общие методы кластерного анализа:

Объединение (древовидная кластеризация),

Двувходовое объединение

Метод K средних.

Главные компоненты и факторный анализ

Главными целями факторного анализа являются:

сокращение числа переменных (редукция данных)

определение структуры взаимосвязей между переменными, т.е. классификация переменных.

Поэтому факторный анализ используется или как метод сокращения данных или как метод классификации.

Факторный анализ как метод редукции данных

Предположим, что вы проводите (до некоторой степени "глупое") исследование, в котором измеряете рост ста людей в дюймах и сантиметрах. Таким образом, у вас имеются две переменные. Если далее вы захотите исследовать, например, влияние различных пищевых добавок на рост, будете ли вы продолжать использовать обе переменные? Вероятно, нет, т.к. рост является одной характеристикой человека, независимо от того, в каких единицах он измеряется.

Теперь предположим, вы хотите измерить удовлетворенность людей жизнью, для чего составляете вопросник с различными пунктами; среди других вопросов задаете следующие: удовлетворены ли люди своим хобби (пункт 1) и как интенсивно они им занимаются (пункт 2). Результаты преобразуются так, что средние ответы (например, для удовлетворенности) соответствуют значению 100, в то время как ниже и выше средних ответов расположены меньшие и большие значения, соответственно. Две переменные (ответы на два разных пункта) коррелированы между собой.. Из высокой коррелированности двух этих переменных можно сделать вывод об избыточности двух пунктов опросника.

Анализ временных рядов

Вначале дадим краткий обзор методов анализа данных, представленных в виде временных рядов, т.е. в виде последовательностей измерений, упорядоченных в неслучайные моменты времени. В отличие от анализа случайных выборок, анализ временных рядов основывается на предположении, что последовательные значения в файле данных наблюдаются через равные промежутки времени (тогда как в других методах нам не важна и часто не интересна привязка наблюдений ко времени).

Существуют две основные цели анализа временных рядов:

определение природы ряда

прогнозирование (предсказание будущих значений временного ряда по настоящим и прошлым значениям).

Обе эти цели требуют, чтобы модель ряда была идентифицирована и, более или менее, формально описана. Как только модель определена, вы можете с ее помощью интерпретировать рассматриваемые данные (например, использовать в вашей теории для понимания сезонного изменения цен на товары, если занимаетесь экономикой). Не обращая внимания на глубину понимания и справедливость теории, вы можете экстраполировать затем ряд на основе найденной модели, т.е. предсказать его будущие значения.

Как и большинство других видов анализа, анализ временных рядов предполагает, что данные содержат систематическую составляющую (обычно включающую несколько компонент) и случайный шум (ошибку), который затрудняет обнаружение регулярных компонент. Большинство методов исследования временных рядов включает различные способы фильтрации шума, позволяющие увидеть регулярную составляющую более отчетливо.

Большинство регулярных составляющих временных рядов принадлежит к двум классам: они являются либо трендом, либо сезонной составляющей. Тренд представляет собой общую систематическую линейную или нелинейную компоненту, которая может изменяться во времени. Сезонная составляющая - это периодически повторяющаяся компонента. Оба эти вида регулярных компонент часто присутствуют в ряде одновременно. Например, продажи компании могут возрастать из года в год, но они также содержат сезонную составляющую (как правило, 25% годовых продаж приходится на декабрь и только 4% на август).

ЛЕКЦИЯ 8 СИСТЕМЫ ЗНАНИЙ. ЭКСПЕРТНЫЕ СИСТЕМЫ.

Назначение экспертных систем

В начале восьмидесятых годов в исследованиях по искусственному интеллекту сформировалось самостоятельное направление, получившее название "экспертные системы" (ЭС). Цель исследований по ЭС состоит в разработке программ, которые при решении задач, трудных для эксперта-человека, получают результаты, не уступающие по качеству и эффективности решениям, получаемым экспертом. Исследователи в области ЭС для названия своей дисциплины часто используют также термин "инженерия знаний", введенный Е.Фейгенбаумом как "привнесение принципов и инструментария исследований из области искусственного интеллекта в решение трудных прикладных проблем, требующих знаний экспертов".

Программные средства (ПС), базирующиеся на технологии экспертных систем, или инженерии знаний (в дальнейшем будем использовать их как синонимы), получили значительное распространение в мире. Важность экспертных систем состоит в следующем:

технология экспертных систем существенно расширяет круг практически значимых задач, решаемых на компьютерах, решение которых приносит значительный экономический эффект;

технология ЭС является важнейшим средством в решении глобальных проблем традиционного программирования: длительность и, следовательно, высокая стоимость разработки сложных приложений;

высокая стоимость сопровождения сложных систем, которая часто в несколько раз превосходит стоимость их разработки; низкий уровень повторной используемости программ и т.п.;

объединение технологии ЭС с технологией традиционного программирования добавляет новые качества к программным продуктам за счет: обеспечения динамичной модификации приложений пользователем, а не программистом; большей "прозрачности" приложения (например, знания хранятся на ограниченном ЕЯ, что не требует комментариев к знаниям, упрощает обучение и сопровождение); лучшей графики; интерфейса и взаимодействия.

По мнению ведущих специалистов, в недалекой перспективе ЭС найдут следующее применение:

ЭС будут играть ведущую роль во всех фазах проектирования, разработки, производства, распределения, продажи, поддержки и оказания услуг;

технология ЭС, получившая коммерческое распространение, обеспечит революционный прорыв в интеграции приложений из готовых интеллектуально-взаимодействующих модулей.

ЭС предназначены для так называемых неформализованных задач, т.е. ЭС не отвергают и не заменяют традиционного подхода к разработке программ, ориентированного на решение формализованных задач.

Неформализованные задачи обычно обладают следующими особенностями:

ошибочностью, неоднозначностью, неполнотой и противоречивостью исходных данных;

ошибочностью, неоднозначностью, неполнотой и противоречивостью знаний о проблемной области и решаемой задаче;

большой размерностью пространства решения, т.е. перебор при поиске решения весьма велик;

динамически изменяющимися данными и знаниями.

Следует подчеркнуть, что неформализованные задачи представляют большой и очень важный класс задач. Многие специалисты считают, что эти задачи являются наиболее массовым классом задач, решаемых ЭВМ.

Экспертные системы и системы искусственного интеллекта отличаются от систем обработки данных тем, что в них в основном используются символьный (а не числовой) способ представления, символьный вывод и эвристический поиск решения (а не исполнение известного алгоритма).

Экспертные системы применяются для решения только трудных практических (не игрушечных) задач. По качеству и эффективности решения экспертные системы не уступают решениям эксперта-человека. Решения экспертных систем обладают "прозрачностью",т.е. могут быть объяснены пользователю на качественном уровне. Это качество экспертных систем обеспечивается их способностью рассуждать о своих знаниях и умозаключениях. Экспертные системы способны пополнять свои знания в ходе взаимодействия с экспертом. Необходимо отметить, что в настоящее время технология экспертных систем используется для решения различных типов задач (интерпретация, предсказание, диагностика, планирование, конструирование, контроль, отладка, инструктаж, управление) в самых разнообразных проблемных областях, таких, как финансы, нефтяная и газовая промышленность, энергетика, транспорт, фармацевтическое производство, космос, металлургия, горное дело, химия, образование, целлюлозно-бумажная промышленность, телекоммуникации и связь и др.

Коммерческие успехи к фирмам-разработчикам систем искусственного интеллекта (СИИ) пришли не сразу. На протяжении 1960 - 1985 гг. успехи ИИ касались в основном исследовательских разработок, которые демонстрировали пригодность СИИ для практического использования. Начиная примерно с 1985 г. (в массовом масштабе с 1988 - 1990 гг.), в первую очередь ЭС, а в последние годы системы, воспринимающие естественный язык (ЕЯ-системы), и нейронные сети (НС) стали активно использоваться в коммерческих приложениях.

Следует обратить внимание на то, что некоторые специалисты (как правило, специалисты в программировании, а не в ИИ) продолжают утверждать, что ЭС и СИИ не оправдали возлагавшихся на них ожиданий и умерли. Причины таких заблуждений состоят в том, что эти авторы рассматривали ЭС как альтернативу традиционному программированию, т.е. они исходили из того, что ЭС в одиночестве (в изоляции от других программных средств) полностью решают задачи, стоящие перед заказчиком. Надо отметить, что на заре появления ЭС специфика используемых в них языков, технологии разработки приложений и используемого оборудования (например, Lisp-машины) давала основания предполагать, что интеграция ЭС с традиционными, программными системами является сложной и, возможно, невыполнимой задачей при ограничениях, накладываемых реальными приложениями. Однако в настоящее время коммерческие инструментальные средства (ИС) для создания ЭС разрабатываются в полном соответствии с современными технологическими тенденциями традиционного программирования, что снимает проблемы, возникающие при создании интегрированных приложений.

Причины, приведшие СИИ к коммерческому успеху, следующие.

Интегрированность.Разработаны инструментальные средства искусственного интеллекта (ИС ИИ), легко интегрирующиеся с другими информационными технологиями и средствами (с CASE, СУБД, контроллерами, концентраторами данных и т.п.).

Открытость и переносимость.ИС ИИ разрабатываются с соблюдением стандартов, обеспечивающих открытость и переносимость.

Использование языков традиционного программирования и рабочих станций.Переход от ИС ИИ, реализованных на языках ИИ (Lisp, Prolog и т.п.), к ИС ИИ, реализованным на языках традиционного программирования (С, C++ и т.п.), упростил обеспечение интегриро-ванности, снизил требования приложений ИИ к быстродействию ЭВМ и объемам оперативной памяти. Использование рабочих станций (вместо ПК) резко увеличило круг приложений, которые могут быть выполнены на ЭВМ с использованием ИС ИИ.

Архитектура клиент-сервер. Разработаны ИС ИИ, поддерживающие распределенные вычисления по архитектуре клиент-сервер, что позволило:снизить стоимость оборудования, используемого в приложениях, децентрализовать приложения, повысить надежность и общую производительность (так как сокращается количество информации, пересылаемой между ЭВМ, и каждый модуль приложения выполняется на адекватном ему оборудовании).

Проблемно/предметно-ориентированные ИС ИИ.Переход от разработок ИС ИИ общего назначения (хотя они не утратили свое значение как средство для создания ориентированных ИС) к проблемно/предметно-ориентированным ИС ИИ обеспечивает: сокращение сроков разработки приложений; увеличение эффективности использования ИС; упрощение и ускорение работы эксперта; повторную используемость информационного и программного обеспечения (объекты,классы,правила,процедуры).

Структура экспертных систем

Типичная статическая ЭС состоит из следующих основных компонентов:

решателя (интерпретатора);

рабочей памяти (РП), называемой также базой данных (БД);

базы знаний (БЗ);

компонентов приобретения знаний;

объяснительного компонента;

диалогового компонента.

База данных (рабочая память)предназначена для хранения исходных и промежуточных данных решаемой в текущий момент задачи. Этот термин совпадает по названию, но не по смыслу с термином, используемым в информационно-поисковых системах (ИПС) и системах управления базами данных (СУБД) для обозначения всех данных (в первую очередь долгосрочных), хранимых в системе.

База знаний(БЗ) в ЭС предназначена для хранения долгосрочных данных, описывающих рассматриваемую область (а не текущих данных), и правил, описывающих целесообразные преобразования данных этой области.

Решатель,используя исходные данные из рабочей памяти и знания из БЗ, формирует такую последовательность правил, которые, будучи примененными к исходным данным, приводят к решению задачи.

Компонентприобретения знаний автоматизирует процесс наполнения ЭС знаниями, осуществляемый пользователем-экспертом.

Объяснительный компонентобъясняет, как система получила решение задачи (или почему она не получила решение) и какие знания она при этом использовала, что облегчает эксперту тестирование системы и повышает доверие пользователя к полученному результату.

Диалоговый компоненториентирован на организацию дружественного общения с пользователем как в ходе решения задач, так и в процессе приобретения знаний и объяснения результатов работы.

В разработке ЭС участвуют представители следующих специальностей:

эксперт в проблемной области, задачи которой будет решать ЭС;

инженер по знаниям - специалист по разработке ЭС (используемые им технологию, методы называют технологией (методами) инженерии знаний);

программист по разработке инструментальных средств (ИС), предназначенных для ускорения разработки ЭС.

Необходимо отметить, что отсутствие среди участников разработки инженеров по знаниям (т. е. их замена программистами) либо приводит к неудаче процесс создания ЭС, либо значительно удлиняет его.

Экспертопределяет знания (данные и правила), характеризующие проблемную область, обеспечивает полноту и правильность введенных в ЭС знаний.

Инженер по знаниямпомогает эксперту выявить и структурировать знания, необходимые для работы ЭС; осуществляет выбор того ИС, которое наиболее подходит для данной проблемной области, и определяет способ представления знаний в этом ИС; выделяет и программирует (традиционными средствами) стандартные функции (типичные для данной проблемной области), которые будут использоваться в правилах, вводимых экспертом.

Программистразрабатывает ИС (если ИС разрабатывается заново), содержащее в пределе все основные компоненты ЭС, и осуществляет его сопряжение с той средой, в которой оно будет использовано.

Экспертная система работает в двух режимах: режиме приобретения знаний и в режиме решения задачи (называемом также режимом консультации или режимом использования ЭС).

В режиме приобретения знанийобщение с ЭС осуществляет (через посредничество инженера по знаниям) эксперт. В этом режиме эксперт, используя компонент приобретения знаний, наполняет систему знаниями, которые позволяют ЭС в режиме решения самостоятельно (без эксперта) решать задачи из проблемной области. Эксперт описывает проблемную область в виде совокупности данных и правил. Данные определяют объекты, их характеристики и значения, существующие в области экспертизы. Правила определяют способы манипулирования с данными, характерные для рассматриваемой области.

Отметим, что режиму приобретения знаний в традиционном подходе к разработке программ соответствуют этапы алгоритмизации, программирования и отладки, выполняемые программистом. Таким образом, в отличие от традиционного подхода в случае ЭС разработку программ осуществляет не программист, а эксперт (с помощью ЭС), не владеющий программированием.

В режиме консультацииобщение с ЭС осуществляет конечный пользователь, которого интересует результат и (или) способ его получения. Необходимо отметить, что в зависимости от назначения ЭС пользователь может не быть специалистом в данной проблемной области (в этом случае он обращается к ЭС за результатом, не умея получить его сам), или быть специалистом (в этом случае пользователь может сам получить результат, но он обращается к ЭС с целью либо ускорить процесс получения результата, либо возложить на ЭС рутинную работу). В режиме консультации данные о задаче пользователя после обработки их диалоговым компонентом поступают в рабочую память. Решатель на основе входных данных из рабочей памяти, общих данных о проблемной области и правил из БЗ формирует решение задачи. ЭС при решении задачи не только исполняет предписанную последовательность операции, но и предварительно формирует ее. Если реакция системы не понятна пользователю, то он может потребовать объяснения:

"Почему система задает тот или иной вопрос?", "как ответ, собираемый системой, получен?".

Структура статической ЭС.ЭС данного типа используются в тех приложениях, где можно не учитывать изменения окружающего мира, происходящие за время решения задачи. Первые ЭС, получившие практическое использование, были статическими.

В архитектуру динамической ЭС по сравнению со статической ЭС вводятся два компонента: подсистема моделирования внешнего мира и подсистема связи с внешним окружением. Последняя осуществляет связи с внешним миром через систему датчиков и контроллеров. Кроме того, традиционные компоненты статической ЭС (база знаний и машина вывода) претерпевают существенные изменения, чтобы отразить временную логику происходящих в реальном мире событий.

Подчеркнем, что структура ЭС, отражает только компоненты (функции), и многое остается "за кадром". На рис. 1.3 приведена обобщенная структура современного ИС для создания динамических ЭС, содержащая кроме основных компонентов те возможности, которые позволяют создавать интегрированные приложение в соответствии с современной технологией программирования.

Этапы разработки экспертных систем

Разработка ЭС имеет существенные отличия от разработки обычного программного продукта. Опыт создания ЭС показал, что использование при их разработке методологии, принятой в традиционном программировании, либо чрезмерно затягивает процесс создания ЭС, либо вообще приводит к отрицательному результату.

Использовать ЭС следует только тогда, когда разработка ЭС возможна, оправдана иметоды инженерии знанийсоответствуютрешаемой задаче. Чтобы разработка ЭС былавозможнойдля данного приложения, необходимо одновременное выполнение по крайней мере следующих требований:

1) существуют эксперты в данной области, которые решают задачу значительно лучше, чем начинающие специалисты;

2) эксперты сходятся в оценке предлагаемого решения, иначе нельзя будет оценить качество разработанной ЭС;

3) эксперты способны вербализовать (выразить на естественном языке) и объяснить используемые ими методы, в противном случае трудно рассчитывать на то, что знания экспертов будут "извлечены" и вложены в ЭС;

4) решение задачи требует только рассуждений, а не действий;

5) задача не должна быть слишком трудной (т.е. ее решение должно занимать у эксперта несколько часов или дней, а не недель);

6) задача хотя и не должна быть выражена в формальном виде, но все же должна относиться к достаточно "понятной" и структурированной области, т.е. должны быть выделены основные понятия, отношения и известные (хотя бы эксперту) способы получения решения задачи;

7) решение задачи не должно в значительной степени использовать "здравый смысл" (т.е. широкий спектр общих сведений о мире и о способе его функционирования, которые знает и умеет использовать любой нормальный человек), так как подобные знания пока не удается (в достаточном количестве) вложить в системы искусственного интеллекта.

Использование ЭС в данном приложении может быть возможно, но не оправдано. Применение ЭС может быть оправданоодним из следующих факторов:

решение задачи принесет значительный эффект, например экономический;

использование человека-эксперта невозможно либо из-за недостаточного количества экспертов, либо из-за необходимости выполнять экспертизу одновременно в различных местах;

использование ЭС целесообразно в тех случаях, когда при передаче информации эксперту происходит недопустимая потеря времени или информации;

использование ЭС целесообразно при необходимости решать задачу в окружении, враждебном для человека.

Приложение соответствуетметодам ЭС, если решаемая задача обладает совокупностью следующих характеристик:

1) задача может быть естественным образом решена посредством манипуляции с символами (т.е. с помощью символических рассуждений), а не манипуляций с числами, как принято в математических методах и в традиционном программировании;

2) задача должна иметь эвристическую, а не алгоритмическую природу, т.е. ее решение должно требовать применения эвристических правил. Задачи, которые могут быть гарантированно решены (с соблюдением заданных ограничений) с помощью некоторых формальных процедур, не подходят для применения ЭС;

3) задача должна быть достаточно сложна, чтобы оправдать затраты на разработку ЭС. Однако она не должна быть чрезмерно сложной (решение занимает у эксперта часы, а не недели), чтобы ЭС могла ее решать;

4) задача должна быть достаточно узкой, чтобы решаться методами ЭС, и практически значимой.

При разработке ЭС, как правило, используется концепция "быстрого прототипа". Суть этой концепции состоит в том, что разработчики не пытаются сразу построить конечный продукт. На начальном этапе они создают прототип (прототипы) ЭС. Прототипы должны удовлетворять двум противоречивым требованиям: с одной стороны, они должны решать типичные задачи конкретного приложения, а с другой - время и трудоемкость их разработки должны быть весьма незначительны, чтобы можно было максимально запараллелить процесс накопления и отладки знаний (осуществляемый экспертом) с процессом выбора (разработки) программных средств (осуществляемым инженером по знаниям и программистом). Для удовлетворения указанным требованиям, как правило, при создании прототипа используются разнообразные средства, ускоряющие процесс проектирования.

Прототип должен продемонстрировать пригодность методов инженерии знаний для данного приложения. В случае успеха эксперт с помощью инженера по знаниям расширяет знания прототипа о проблемной области. При неудаче может потребоваться разработка нового прототипа или разработчики могут прийти к выводу о непригодности методов ЭС для данного приложения. По мере увеличения знаний прототип может достигнуть такого состояния, когда он успешно решает все задачи данного приложения. Преобразование прототипа ЭС в конечный продукт обычно приводит к перепрограммированию ЭС на языках низкого уровня, обеспечивающих как увеличение быстродействия ЭС, так и уменьшение требуемой памяти. Трудоемкость и время создания ЭС в значительной степени зависят от типа используемого инструментария.

В ходе работ по созданию ЭС сложилась определенная технология их разработки, включающая шесть следующих этапов:

идентификацию, концептуализацию, формализацию, выполнение, тестирование, опытную эксплуатацию. На этапе идентификацииопределяются задачи, которые подлежат решению, выявляются цели разработки, определяются эксперты и типы пользователей.

На этапе концептуализациипроводится содержательный анализ проблемной области, выявляются используемые понятия и их взаимосвязи, определяются методы решения задач.

На этапе формализациивыбираются ИС и определяются способы представления всех видов знаний, формализуются основные понятия, определяются способы интерпретации знаний, моделируется работа системы, оценивается адекватность целям системы зафиксированных понятий, методов решений, средств представления и манипулирования знаниями.

На этапе выполненияосуществляется наполнение экспертом базы знаний. В связи с тем, что основой ЭС являются знания, данный этап является наиболее важным и наиболее трудоемким этапом разработки ЭС. Процесс приобретения знаний разделяют на извлечение знаний из эксперта, организацию знаний, обеспечивающую эффективную работу системы, и представление знаний в виде, понятном ЭС. Процесс приобретения знаний осуществляется инженером по знаниям на основе анализа деятельности эксперта по решению реальных задач.

Интерфейс с конечным пользователем

Система G2 предоставляет разработчику богатые возможности для формирования простого, ясного и выразительного графического интерфейса с пользователем с элементами мультипликации. Предлагаемый инструментарий позволяет наглядно отображать технологические процессы практически неограниченной сложности на разных уровнях абстракции и детализации. Кроме того, графическое отображение взаимосвязей между объектами приложения может напрямую использоваться в декларативных конструкциях языка описания знаний.

RTworks не обладает собственными средствами для отображения текущего состояния управляемого процесса. Разработчик приложения вынужден использовать систему Dataview фирмы VI Corporation, что в значительной степени ограничивает его возможности.

Интерфейс с пользователем TDC Expert ограничен возможностями системы TDC 3000, т.е. взаимодействие с конечным пользователем

ограничивается текстовым режимом работы.

Представление знаний в экспертных системах

Первый и основной вопрос, который надо решить при представлении знаний, - это вопрос определения состава знаний, т.е. определение того, "ЧТО ПРЕДСТАВЛЯТЬ" в экспертной системе. Второй вопрос касается того, "КАК ПРЕДСТАВЛЯТЬ" знания. Необходимо отметить, что эти две проблемы не являются независимыми. Действительно, выбранный способ представления может оказаться непригодным в принципе либо неэффективным для выражения некоторых знаний.

По нашему мнению, вопрос "КАК ПРЕДСТАВЛЯТЬ" можно разделить на две в значительной степени независимые задачи: как организовать (структурировать) знания и как представить знания в выбранном формализме.

Стремление выделить организацию знаний в самостоятельную задачу вызвано, в частности, тем, что эта задача возникает для любого языка представления и способы решения этой задачи являются одинаковыми (либо сходными) вне зависимости от используемого формализма.

Итак, в круг вопросов, решаемых при представлении знаний, будем включать следующие:

определение состава представляемых знаний;

организацию знаний;

представление знаний, т.е. определение модели представления. Состав знаний ЭС определяется следующими факторами:

проблемной средой;

архитектурой экспертной системы;

потребностями и целями пользователей;

языком общения.

В соответствии с общей схемой статической экспертной системы для ее функционирования требуются следующие знания:

знания о процессе решения задачи (т.е. управляющие знания), используемые интерпретатором (решателем);

знания о языке общения и способах организации диалога, используемые лингвистическим процессором (диалоговым компонентом);

знания о способах представления и модификации знаний, используемые компонентом приобретения знаний;

поддерживающие структурные и управляющие знания, используемые объяснительным компонентом.

Для динамической ЭС, кроме того, необходимы следующие знания:

1) знания о методах взаимодействия с внешним окружением;

2) знания о модели внешнего мира.

Зависимость состава знаний от требований пользователя проявляется в следующем:

какие задачи (из общего набора задач) и с какими данными хочет решать пользователь;

каковы предпочтительные способы и методы решения;

при каких ограничениях на количество результатов и способы их получения должна быть решена задача;

каковы требования к языку общения и организации диалога;

какова степень общности (конкретности) знаний о проблемной области, доступная пользователю;

каковы цели пользователей.

Состав знаний о языке общения зависит как от языка общения, так и от требуемого уровня понимания.

С учетом архитектуры экспертной системы знания целесообразно делить на интерпретируемыеинеинтерпретируемые. К первому типу относятся те знания, которые способен интерпретировать решатель (интерпретатор). Все остальные знания относятся ко второму типу. Решатель не знает их структуры и содержания. Если эти знания используются каким-либо компонентом системы, то он не "осознает" этих знаний. Неинтерпретируемые знания подразделяются навспомогательныезнания, хранящие информацию о лексике и грамматике языка общения, информацию о структуре диалога, иподдерживающиезнания. Вспомогательные знания обрабатываются естественно-языковой компонентой, но ход этой обработки решатель не осознает, так как этот этап обработки входных сообщений является вспомогательным для проведения экспертизы. Поддерживающие знания используются при создании системы и при выполнении объяснений. Поддерживающие знания выполняют роль описаний (обоснований) как интерпретируемых знаний, так и действий системы. Поддерживающие знания подразделяются натехнологическиеисемантические. Технологические поддерживающие знания содержат сведения о времени создания описываемых ими знаний, об авторе знаний и т.п. Семантические поддерживающие знания содержат смысловое описание этих знаний. Они содержат информацию о причинах ввода знаний, о назначении знаний, описывают способ использования знаний и получаемый эффект. Поддерживающие знания имеют описательный характер.

Интерпретируемые знания можно разделить на предметные знания, управляющие знанияизнания о представлении.Знания о представлении содержат информацию о том, каким образом (в каких структурах) в системе представлены интерпретируемые знания.

Предметные знания содержат данные о предметной области и способах преобразования этих данных при решении поставленных задач. Отметим, что по отношению к предметным знаниям знания о представлении и знания об управлении являются метазнаниями.В предметных знаниях можно выделить описатели и собственно предметные знания. Описатели содержат определенную информацию о предметных знаниях, такую, как коэффициент определенности правил и данных, меры важности и сложности. Собственно предметные знания разбиваются нафактыиисполняемые утверждения. Факты определяют возможные значения сущностей и характеристик предметной области. Исполняемые утверждения содержат информацию о том, как можно изменять описание предметной области в ходе решения задач. Говоря другими словами, исполняемыеутверждения -это знания, задающие процедуры обработки. Однако мы избегаем использовать термин "процедурные знания", так как хотим подчеркнуть, что эти знания могут быть заданы не только в процедурной, но и в декларативной форме.

Управляющие знания можно разделить на фокусирующиеирешающие. Фокусирующие знания описывают, какие знания следует использовать в той или иной ситуации. Обычно фокусирующие знания содержат сведения о наиболее перспективных объектах или правилах, которые целесообразно использовать при проверке соответствующих гипотез. В первом случае внимание фокусируется на элементах рабочей памяти, во втором - на правилах базы знаний. Решающие знания содержат информацию, используемую для выбора способа интерпретации знаний, подходящего к текущей ситуации. Эти знания применяются для выбора стратегий или эвристик, наиболее эффективных для решения данной задачи.

Качественные и количественные показатели экспертной системы могут быть значительно улучшены за счет использования метазнании,т.е. знаний о знаниях. Метазнания не представляют некоторую единую сущность, они могут применяться для достижения различных целей. Перечислим возможные назначения метазнаний:

1) метазнания в виде стратегических метаправил используются для выбора релевантных правил;

2) метазнания используются для обоснования целесообразности применения правил из области экспертизы;

3) метаправила используются для обнаружения синтаксических и семантических ошибок в предметных правилах;

4) метаправила позволяют системе адаптироваться к окружению путем перестройки предметных правил и функций;

5) метаправила позволяют явно указать возможности и ограничения системы, т.е. определить, что система знает, а что не знает.

Вопросы организации знаний необходимо рассматривать в любом представлении, и их решение в значительной степени не зависит от выбранного способа (модели) представления. Выделим следующие аспекты проблемы организации знаний:

организация знаний по уровням представления и по уровням детальности;

организация знаний в рабочей памяти;

организация знаний в базе знаний.

Уравни представления и уровни детальности

Для того чтобы экспертная система могла управлять процессом поиска решения, была способна приобретать новые знания и объяснять свои действия, она должна уметь не только использовать свои знания, но и обладать способностью понимать и исследовать их, т.е. экспертная система должна иметь знания о том, как представлены ее знания о проблемной среде. Если знания о проблемной среде назвать знаниями нулевого уровня представления, то первый уровень представления содержит метазнания, т.е. знания о том, как представлены во внутреннем мире системы знания нулевого уровня. Первый уровень содержит знания о том, какие средства используются для представления знаний нулевого уровня. Знания первого уровня играют существенную роль при управлении процессом решения, при приобретении и объяснении действий системы. В связи с тем, что знания первого уровня не содержат ссылок на знания нулевого уровня, знания первого уровня независимы от проблемной среды.

Число уровней представления может быть больше двух. Второй Уровень представления содержит сведения о знаниях первого уровня, т.е. знания о представлении базовых понятий первого уровня. Разделение знаний по уровням представления обеспечивает расширение области применимости системы.

Выделение уровней детальности позволяет рассматривать знания с различной степенью подробности. Количество уровней детальности во многом определяется спецификой решаемых задач, объемом знаний и способом их представления. Как правило, выделяется не менее трех уровней детальности, отражающих соответственно общую, логическую и физическую организацию знаний. Введение нескольких уровней детальности обеспечивает дополнительную степень гибкости системы, так как позволяет производить изменения на одном уровне, не затрагивая другие. Изменения на одном уровне детальности могут приводить к дополнительным изменениям на этом же уровне, что оказывается необходимым для обеспечения согласованности структур данных и программ. Однако наличие различных уровней препятствует распространению изменений с одного уровня на другие.

Организация знаний в рабочей системе

Рабочая память (РП) экспертных систем предназначена для хранения данных. Данные в рабочей памяти могут быть однородны или разделяются на уровни по типам данных. В последнем случае на каждом уровне рабочей памяти хранятся данные соответствующего типа. Выделение уровней усложняет структуру экспертной системы, но делает систему более эффективной. Например, можно выделить уровень планов, уровень агенды (упорядоченного списка правил, готовых к выполнению) и уровень данных предметной области (уровень решений).

В современных экспертных системах данные в рабочей памяти рассматриваются как изолированные или как связанные. В первом случае рабочая память состоит из множества простых элементов, а во втором - из одного или нескольких (при нескольких уровнях в РП) сложных элементов (например, объектов). При этом сложный элемент соответствует множеству простых, объединенных в единую сущность. Теоретически оба подхода обеспечивают полноту, но использование изолированных элементов в сложных предметных областях приводит к потере эффективности.

Данные в РП в простейшем случае являются константамии (или)переменными.При этом переменные могут трактоваться как характеристики некоторого объекта, а константы - как значения соответствующих характеристик. Если в РП требуется анализировать одновременно несколько различных объектов, описывающих текущую проблемную ситуацию, то необходимо указывать, к каким объектам относятся рассматриваемые характеристики. Одним из способов решения этой задачи является явное указание того, к какому объекту относится характеристика.

Если РП состоит из сложных элементов, то связь между отдельными объектами указывается явно, например заданием семантических отношений. При этом каждый объект может иметь свою внутреннюю структуру. Необходимо отметить, что для ускорения поиска и сопоставления данные в РП могут быть связаны не только логически, но и ассоциативно.

Организация знаний в базе данных

Показателем интеллектуальности системы с точки зрения представления знаний считается способность системы использовать в нужный момент необходимые (релевантные)знания. Системы, не имеющие средств для определения релевантных знаний, неизбежно сталкиваются с проблемой "комбинаторного взрыва". Можно утверждать, что эта проблема является одной из основных причин, ограничивающих сферу применения экспертных систем. В проблеме доступа к знаниям можно выделить три аспекта:связность знаний и данных, механизм доступа к знаниямиспособ сопоставления.

Связность {агрегация)знаний является основным способом, обеспечивающим ускорение поиска релевантных знаний. Большинство специалистов пришли к убеждению, что знания следует организовывать вокруг наиболее важных объектов (сущностей) предметной области. Все знания, характеризующие некоторую сущность, связываются и представляются в виде отдельного объекта. При подобной организации знаний, если системе потребовалась информация о некоторой сущности, то она ищет объект, описывающий эту сущность, а затем уже внутри объекта отыскивает информацию о данной сущности. В объектах целесообразно выделять два типа связок между элементами:внешниеивнутренние.Внутренние связки объединяют элементы в единый объект и предназначены для выражения структуры объекта. Внешние связки отражают взаимозависимости, существующие между объектами в области экспертизы. Многие исследователи классифицируют внешние связки налогическиеиассоциативные.Логические связки выражают семантические отношения между элементами знаний. Ассоциативные связки предназначены для обеспечения взаимосвязей, способствующих ускорению процесса поиска релевантных знаний.

Основной проблемой при работе с большой базой знаний является проблема поиска знаний, релевантных решаемой задаче. В связи с тем, что в обрабатываемых данных может не содержаться явных указаний на значения, требуемые для их обработки, необходим более общий механизм доступа, чем метод прямого доступа (метод явных ссылок). Задача этого механизма состоит в том, чтобы по некоторому описанию сущности, имеющемуся в рабочей памяти, найти, базе знаний объекты, удовлетворяющие этому описанию. Очевидно, что упорядочение и структурирование знаний могут значительно ускорить процесс поиска.

Нахождение желаемых объектов в общем случае уместно рассматривать как двухэтапный процесс. На первом этапе, соответствующем процессу выбора по ассоциативным связкам, совершается предварительный выбор в базе знаний потенциальных кандидатов на роль желаемых объектов. На втором этапе путем выполнения операции сопоставления потенциальных кандидатов с описаниями кандидатов осуществляется окончательный выбор искомых объектов. При организации подобного механизма доступа возникают определенные трудности: Как выбрать критерий пригодности кандидата? Как организовать работу в конфликтных ситуациях? и т.п.

Операция сопоставления может использоваться не только как средство выбора нужного объекта из множества кандидатов; она может быть использована для классификации, подтверждения, декомпозиции и коррекции. Для идентификации неизвестного объекта он может быть сопоставлен с некоторыми известными образцами. Это позволит классифицировать неизвестный объект как такой известный образец, при сопоставлении с которым были получены лучшие результаты. При поиске сопоставление используется для подтверждения некоторых кандидатов из множества возможных. Если осуществлять сопоставление некоторого известного объекта с неизвестным описанием, то в случае успешного сопоставления будет осуществлена частичная декомпозиция описания.

Операции сопоставления весьма разнообразны. Обычно выделяют следующие их формы: синтаксическое, параметрическое, семантическоеипринуждаемое сопоставления.В случаесинтаксического сопоставлениясоотносят формы (образцы), а не содержание объектов. Успешным является сопоставление, в результате которого образцы оказываются идентичными. Обычно считается, что переменная одного образца может быть идентична любой константе (или выражению) другого образца. Иногда на переменные, входящие в образец, накладывают требования, определяющие тип констант, с которыми они могут сопоставляться. Результат синтаксического сопоставления является бинарным: образцы сопоставляются или не сопоставляются. Впараметрическом сопоставлениивводится параметр, определяющий степень сопоставления. В случаесемантического сопоставлениясоотносятся не образцы объектов, а их функции. В случаепринуждаемого сопоставленияодин сопоставляемый образец рассматривается с точки зрения другого. В отличие от других типов сопоставления здесь всегда может быть получен положительный результат. Вопрос состоит в силе принуждения. Принуждение могут выполнять специальные процедуры, связываемые с объектами. Если эти процедуры не в состоянии осуществить сопоставление, то система сообщает, что успех может быть достигнут только в том случае, если определенные части рассматриваемых сущностей можно считать сопоставляющимися.

Методы поиска решений в экспертных системах

Методы решения задач, основанные на сведении их к поиску, зависят от

психодиагностика в психосоматике, а также другие системы. особенностей предметной области, в которой решается задача, и от требований, предъявляемых пользователем к решению. Особенности предметной области с точки зрения методов решения можно характеризовать следующими параметрами:

размер, определяющий объем пространства, в котором предстоит искать решение;

изменяемость области, характеризует степень изменяемости области во времени и пространстве (здесь будем выделять статические и динамические области);

полнота модели, описывающей область, характеризует адекватность модели, используемой для описания данной области. Обычно если модель не полна, то для описания области используют несколько моделей, дополняющих друг друга за счет отражения различных свойств предметной области;

определенность данных о решаемой задаче, характеризует степень точности (ошибочности) и полноты (неполноты) данных. Точность (ошибочность) является показателем того, что предметная область с точки зрения решаемых задач описана точными или неточными данными; под полнотой (неполнотой) данных понимается достаточность (недостаточность) входных данных для однозначного решения задачи.

Требования пользователя к результату задачи, решаемой с помощью поиска, можно характеризовать количеством решений и свойствами результата и (или) способом его получения. Параметр "количество решений" может принимать следующие основные значения: одно решение, несколько решений, все решения. Параметр "свойства" задает ограничения, которым должен удовлетворять полученный результат или способ его получения. Так, например, для системы, выдающей рекомендации по лечению больных, пользователь может указать требование не использовать некоторое лекарство (в связи с его отсутствием или в связи с тем, что оно противопоказано данному пациенту). Параметр "свойства" может определять и такие особенности, как время решения ("не более чем", "диапазон времени" и т.п.), объем памяти, используемой для получения результата, указание об обязательности (невозможности) использования каких-либо знаний (данных) и т.п.

Итак, сложность задачи, определяемая вышеприведенным набором параметров, варьируется от простых задач малой размерности с неизменяемыми определенными данными и отсутствием ограничений на результат и способ его получения до сложных задач большой размерности с изменяемыми, ошибочными и неполными данными и произвольными ограничениями на результат и способ его получения. Из общих соображений ясно, что каким-либо одним методом нельзя решить все задачи. Обычно одни методы превосходят другие только по некоторым из перечисленных параметров.

Рассмотренные ниже методы могут работать в статических и динамических проблемных средах. Для того чтобы они работали в условиях динамики, необходимо учитывать время жизни значений переменных, источник данных для переменных, а также обеспечивать возможность хранения истории значений переменных, моделирования внешнего окружения и оперирования временными категориями в правилах.

Существующие методы решения задач, используемые в экспертных системах, можно классифицировать следующим образом:

методы поиска в одном пространстве - методы, предназначенные для использования в следующих условиях: области небольшой размерности, полнота модели, точные и полные данные;

методы поиска в иерархических пространствах - методы, предназначенные для работы в областях большой размерности;

методы поиска при неточных и неполных данных;

методы поиска, использующие несколько моделей, предназначенные для работы с областями, для адекватного описания которых одной модели недостаточно.

Предполагается, что перечисленные методы при необходимости должны объединяться для того, чтобы позволить решать задачи сложность которых возрастает одновременно по нескольким параметрам.

Инструментальный Комплекс Для Создания Статических Экспертных Систем (На Примере Интегрированного Комплекса Эко)

Рассмотрим особенности инструментальных средств для создания статических ЭС на примере комплекса ЭКО, разработанного в РосНИИ ИТ и АП. Наиболее успешно комплекс применяется для создания ЭС, решающих задачи диагностики (технической и медицинской), эвристического оценивания (риска, надежности и т.д.), качественного прогнозирования, а также обучения.

Комплекс ЭКО используется: для создания коммерческих и промышленных экспертных систем на персональных ЭВМ, а также для быстрого создания прототипов экспертных систем с целью определения применимости методов инженерии знаний в некоторой конкретной проблемной области.

На основе комплекса ЭКО было разработано более 100 прикладных экспертных систем. Среди них отметим следующие:

поиск одиночных неисправностей в персональном компьютере;

оценка состояния гидротехнического сооружения (Чарвакская ГЭС);

подготовка деловых писем при ведении переписки с зарубежными партнерами;

проведение скрининговой оценки иммунологического статуса;

оценка показаний микробиологического обследования пациента, страдающего неспецифическими хроническими заболеваниями легких;

Средства представления знаний и стратегии управления

Комплекс ЭКО включает три компонента.

Ядром комплекса является интегрированная оболочкаэкспертных систем ЭКО, которая обеспечивает быстрое создание эффективных приложений для решения задач анализа в статических проблемных средах типа 1 и 2.

При разработке средств представления знаний оболочки преследовались две основные цели: эффективное решение достаточно широкого и практически значимого класса задач средствами персональных компьютеров; гибкие возможности по описанию пользовательского интерфейса и проведению консультации в конкретных приложениях. При представлении знаний в оболочке используются специализированные (частные) -утверждения типа "атрибут - значение" и частные правила, что позволяет исключить ресурсоемкую операцию сопоставления по образцу и добиться эффективности разрабатываемых приложений. Выразительные возможности оболочки удалось существенно расширить за счет интегрированности, обеспечиваемой путем вызова внешних программ через сценарий консультации и стыковки с базами данных (ПИРС и dBase IV) и внешними программами. В оболочке ЭКО обеспечивается слабая структуризация БЗ за счет ее разделения на отдельные компоненты - для решения отдельных подзадач в проблемной среде - модели (понятию "модель" ЭКО соответствует понятие "модуль" базы знаний системы G2).

С точки зрения технологии разработки ЭС оболочка поддерживает подходы, основанные на поверхностных знаниях и структурировании процесса решения.

Оболочка функционирует в двух режимах: в режиме приобретения знаний и в режиме консультации (решения задач). В первом режиме разработчик ЭС средствами диалогового редактора вводит в БЗ описание конкретного приложения в терминах языка представления знаний оболочки. Это описание компилируется в сеть вывода с прямыми адресными ссылками на конкретные утверждения и правила. Во втором режиме оболочка решает конкретные задачи пользователя в диалоговом или пакетном режиме. При этом решения выводятся от целей к данным (обратное рассуждение).

Для расширения возможностей оболочки по работе с глубинными знаниями комплекс ЭКО может быть дополнен компонентом К-ЭКО (конкретизатором знаний),который позволяет описывать закономерности в проблемных средах в терминах общих (абстрактных) объектов и правил. К-ЭКО используется на этапе приобретения знаний вместо диалогового редактора оболочки для преобразования общих описаний в конкретные сети вывода, допускающие эффективный вывод решений средствами оболочки ЭКО. Таким образом, использование конкретизатора обеспечивает возможность работы с проблемными средами типа 2 (см. гл.З).

Третий компонент комплекса - система ИЛИС,позволяющая создавать ЭС в статических проблемных средах за счет индуктивного обобщения данных (примеров) и предназначенная для использования в тех приложениях, где отсутствие правил, отражающих закономерности в проблемной среде, возмещается обширным экспериментальным материалом. Система ИЛИС обеспечивает автоматическое формирование простейших конкретных правил и автономное решение задач на их основе; при этом используется жесткая схема диалога с пользователем. Поскольку при создании реальных приложений эксперты представляют, как правило, и знания о закономерностях в проблемной среде, и экспериментальный материал (для решения частных подзадач), возникает необходимость в использовании правил, сформированных системой ИЛИС, в рамках более сложных средств представления знаний. Комплекс ЭКО обеспечивает автоматический перевод таких правил в формат оболочки ЭКО. В результате удается получить полное (адекватное) представление реальной проблемной среды, кроме того, задать гибкое описание организации взаимодействия ЭС с конечным пользователем.

Инструментальный комплекс для создания экспертных систем реального времени (на примере интегрированной среды g2-gensym corp., Сша)

История развития ИС для создания ЭС реального времени началась в 1985 г., когда фирма Lisp Machine Inc. выпустила систему Picon для символьных ЭВМ Symbolics. Успех этого ИС привел к тому, что группа ведущих разработчиков Picon в 1986 г. образовала частную фирму Gensym, которая, значительно развив идеи, заложенные в Picon, в 1988 г. вышла на рынок с ИС под названием G2, версия 1.0. В настоящее время функционирует версия 4.2 и готовится к выпуску версия 5.0.

Основное предназначение программных продуктов фирмы Gensym (США) - помочь предприятиям сохранять и использовать знания и опыт их наиболее талантливых и квалифицированных сотрудников в интеллектуальных системах реального времени, повышающих качество продукции, надежность и безопасность производства и снижающих производственные издержки. О том, как фирме Gensym удается справиться с этой задачей, говорит хотя бы то, что сегодня ей принадлежат 50% мирового рынка экспертных систем, используемых в системах управления.

С отставанием от Gensym на 2 - 3 года другие фирмы начали создавать свои ИС для ЭС РВ. С точки зрения независимых экспертов NASA, проводивших комплексное исследование характеристик и возможностей некоторых из перечисленных систем, в настоящее время наиболее продвинутым ИС, безусловно, остается G2 (Gensym, США); следующие места со значительным отставанием (реализовано менее 50% возможностей G2) занимают RTWorks - фирма Talarian (США), COMDALE/C (Comdale Techn. - Канада), COGSYS (SC - США), ILOG Rules (ILOG - Франция).

Классы задач, для которых предназначена G2 и подобные ей системы:

мониторинг в реальном масштабе времени;

системы управления верхнего уровня;

системы обнаружения неисправностей;

диагностика;

составление расписаний;

планирование;

оптимизация;

системы - советчики оператора;

системы проектирования.

Инструментальные средства фирмы Gensym являются эволюционным шагом в развитии традиционных экспертных систем от статических предметных областей к динамическим. Немалую долю успеха фирме Gensym обеспечивают основные принципы, которых она придерживается в своих новых разработках:

проблемно/предметная ориентация;

следование стандартам;

независимость от вычислительной платформы;

совместимость снизу-вверх с предыдущими версиями;

универсальные возможности, не зависимые от решаемой задачи;

обеспечение технологической основы для прикладных систем;

комфортная среда разработки;

поиск новых путей развития технологии;

распределенная архитектура клиент-сервер;

высокая производительность.

Основным достоинством оболочки экспертных систем G2 для российских пользователей является возможность применять ее как интегрирующий компонент, позволяющий за счет открытости интерфейсов и поддержки широкого спектра вычислительных платформ легко объединить уже существующие, разрозненные средства автоматизации в единую комплексную систему управления, охватывающую все аспекты производственной деятельности - от формирования портфеля заказов до управления технологическим процессом и отгрузки готовой продукции. Это особенно важно для отечественных предприятий, парк технических и программных средств которых формировался по большей части бессистемно, под влиянием резких колебаний в экономике.

Кроме системы G2, как базового средства разработки, фирма Gensym предлагает комплекс проблемно/предметно-ориентированных расширений для быстрой реализации сложных динамических систем на основе специализированных графических языков, включающих параметризуемые операторные блоки для представления элементов технологического процесса и типовых задач обработки информации. Набор инструментальных сред фирмы Gensym, сгруппированный по проблемной ориентации, охватывает все стадии производственного процесса и выглядит следующим образом:

интеллектуальное управление производством - G2, G2 Diagnostic Assistant (GDA), NeurOn-Line (NOL), Statistical Process Control (SPC), BatchDesign_Kit;

оперативное планирование - G2, G2 Scheduling Toolkit (GST), Dynamic Scheduling Packadge (DSP);

разработка и моделирование производственных процессов - G2, ReThink, BatchDesign_Kit;

управление операциями и корпоративными сетями - G2, Fault Expert.

Несмотря на то, что первая версия системы G2 появилась не так давно - в 1988 г., ее даже в богатой Америке никто не назовет дешевой. G2 можно назвать бестселлером на рынке программных продуктов - на начало 1996 г. в мире было установлено более 5000 ее копий. Фирма Gensym обслуживает более 30 отраслей - от аэрокосмических исследований до производства пищевых продуктов. Список пользователей G2 выглядит как справочник Who-Is-Who в мировой промышленности. 25 самых крупных индустриальных мировых корпораций используют G2. На базе G2 написано более 500 действующих приложений.

Чем же объясняется успех инструментального комплекса G2? Прежде всего G2 - динамическая система в полном смысле этого слова. G2 - это объектно-ориентированная интегрированная среда для разработки и сопровождения приложений реального времени, использующих базы знаний. G2 функционирует на большинстве существующих платформ (табл.9.1). База знаний G2 сохраняется в обычном

Таблица 9.1 Платформы, на которых функционирует G2

Фирма-производитель	Вычислительная система	Операционная среда
	VAX Зххх,4ххх,бххх,
	7ххх, 8ххх,9ххх
	DECstation Зххх, бххх
		Open VMS, OSF/1,




	SPARC 1,2, 10, LX,	Sun OS/Solaris 1, Solaris

Hewlett Packard	НР9000/4хх, 7хх, 8хх


Silicon Graphics
	Intel 486/Pentium	Windows NT, Windows-95

ЛЕКЦИЯ 9 СОЗДАНИЕ WEB СТРАНИЦ СО СВОДНЫМИ ДИАГРАММАМИ

Самый простой способ воспользоваться компонентом PivotTable List - сохранить сводную таблицу Microsoft Excel как Web-страницу. Для этого выберем в Microsoft Excel пункт меню File | Save As Web Page, в появившейся диалоговой панели нажмем кнопку Publish, в диалоговой панели выберем из выпадающего списка Choose опцию Items on Sheet1, затем - PivotTable, отметим опцию Add interactivity with и выберем из списка PivotTable functionality.

Далее при необходимости изменим заголовок, который появится на будущей Web-странице, и сохраним ее. Если открыть эту страницу в Microsoft Internet Explorer, мы увидим, что она содержит PivotTable List - элемент управления ActiveX, предназначенный для просмотра OLAP-данных и сводных таблиц на Web-страницах или в Windows-приложениях (рис. 2).

Сразу же заметим, что этот элемент управления можно применять только в локальных сетях на компьютерах, для которых приобретена лицензия на Microsoft Office; другие способы его применения, например на Web-страницах, доступных в Интернете, запрещены лицензионным соглашением.

Возможности компонента PivotTable List

На лекции мы кратко рассмотрим возможности, предоставляемые компонентом PivotTable List.

Пользователь, манипулирующий этим компонентом в браузере или в Windows-приложении, может, как и в сводной таблице Excel, перемещать данные в область строк, столбцов и страниц (в Microsoft Office Web Components приняты термины Row Area, Column Area и Filter Area) c диалоговой панели, напоминающей панель PivotTable Field List из Excel 2013. Диалоговая панель со списком измерений и мер выводится на экран по нажатии кнопки Field List на инструментальной панели компонента PivotTable List.

Пользователь может также выполнять операцию drill-down, щелкая мышью на значках «+» (рис. 4).

Компонент PivotTable List позволяет сортировать и фильтровать данные. Во-первых, фильтрация данных может быть осуществлена с помощью отображения только выбранных членов измерений, которые могут быть отмечены в выпадающем списке, сходном с соответствующим списком Excel.

Во-вторых, с помощью диалоговой панели Commands and Options (ее можно вывести на экран с помощью соответствующей кнопки инструментальной панели компонента PivotTable List) можно выбрать способы фильтрации и группировки данных (например, выводить определенное количество наибольших или наименьших значений - Top 5, Top 10, Bottom 25 и т.п..

Помимо этого пользователь может изменять атрибуты отображения данных - цвет и шрифт текста, цвет фона, выравнивание текста, отображение и т.д. Для этого достаточно поместить курсор на один из элементов данных, атрибуты которых нужно изменить (например, на наименование члена измерения, на ячейку с суммарными данными или с итоговыми значениями), и выбрать новые атрибуты отображения данных этого типа в той же диалоговой панели Commands and Options.

Помимо этого компонент PivotTable List позволяет на основе агрегатных данных вычислять доли или проценты общей суммы или суммы, соответствующей родительскому члену измерения (например, процент от годовой прибыли, полученный в данном квартале), - соответствующие опции можно найти в контекстных меню элементов данных.

Пользователю также доступен специально предназначенный для него файл справки (на русском языке, если используются Web-компоненты из комплекта поставки русской версии Microsoft Office XP). Однако пользователь не может изменить источник данных и отобразить на Web-странице другой OLAP-куб, поскольку право сделать это есть только у разработчика Web-страницы (и для него имеется отдельный файл справки, существенно отличающийся от того, что предназначен для пользователя, - он содержит, в частности, сведения об объектной модели этого компонента).

Отметим, что подобную Web-страницу можно создать и с помощью Microsoft FrontPage. Для вставки PivotTable List в Web-страницу, создаваемую в FrontPagе, следует выбрать пункт меню Insert | Web component и в появившейся диалоговой панели выбрать Office PivotTable из раздела Spreadsheets and Charts.

После появления компонента PivotTable List на Web-странице следует щелкнуть мышью на гипертекстовой ссылке, предлагающей определить источник данных, а затем выбрать ODBC-источник из предлагаемого списка (либо описать его, если он еще отсутствует в списке; как это сделать, было рассказано в предыдущей статье данного цикла). В качестве источника данных можно использовать как серверный OLAP-куб, так и локальный, созданный с помощью Excel (а также результат запроса к любому ODBC-источнику, возвращающего обычный «плоский» набор данных). И наконец, в случае необходимости можно вывести на экран диалоговую панель PivotTable Field List и перенести имена измерений и мер в соответствующие области этого компонента.

Отметим, что страница Data Source диалоговой панели Commands and Options доступна только на этапе разработки (то есть в FrontPage или, если компонент PivotTable List используется не на Web-странице, а в Windows-приложении, то в средстве разработки, с помощью которого создается это приложение). Иными словами, конечный пользователь не имеет возможности изменить источник данных, это может сделать только разработчик.

Создание Web-страниц со сводными диаграммами

Microsoft Office Web Components позволяют построить и сводную диаграмму на основе данных, отображенных в компоненте PivotTable List. Для этой цели применяется элемент управления ChartSpace, также входящий в комплект поставки Microsoft Office Web Components. Чтобы поместить его на Web-страницу, следует из меню FrontPage выбрать пункт меню Insert | Web component и в появившейся диалоговой панели выбрать Office Chart из раздела Spreadsheets and Charts.

Следующий этап создания диаграммы заключается в выборе источника данных для ее построения. В нашем случае это будет уже имеющийся компонент PivotTable List.

Следует отметить, что полученная сводная диаграмма обладает примерно той же функциональностью, что и рассмотренная в предыдущей статье данного цикла сводная диаграмма Excel (например, этот компонент также позволяет перетаскивать с помощью мыши наименования измерений и мер в различные области диаграммы и выбирать отображаемые члены измерений), а изменения в диаграмме и сводной таблице синхронны, как и при отображении данных OLAP-кубов в Excel.

Сводную диаграмму на основе OLAP-куба можно построить и непосредственно с помощью компонента ChartSpace. Для этого в процессе создания Web-страницы следует описать источник данных на странице Data Details в диалоговой панели Commands and Options.

И наконец, еще один способ создания Web-страницы со сводной диаграммой. Он заключается в сохранении в виде Web-страницы сводной диаграммы Excel. Однако в этом случае на эту же страницу будет автоматически добавлен компонент PivotTable List, связанный с создаваемой диаграммой.

Как уже было сказано выше, компоненты PivotTable List и ChartSpace можно применять и в приложениях. Для этого потребуется средство разработки, поддерживающее применение элементов управления ActiveX на формах (например, Microsoft Visual Basic, Microsoft Visual C++, Borland Delphi, Borland C++Builder). Разработчики, интересующиеся созданием таких приложений, могут обратиться к ранее опубликованным нами статьям, посвященным этому вопросу (например, «Использование компонентов Microsoft Office в приложениях.

ВЫВОД ИТОГОВ

Таблица 8.3а. Регрессионная статистика

Регрессионная статистика
Множественный R	0,998364
R-квадрат	0,99673
Нормированный R-квадрат	0,996321
Стандартная ошибка	0,42405
Наблюдения	10

Сначала рассмотрим верхнюю часть расчетов, представленную в таблице 8.3а , - регрессионную статистику.

Величина R-квадрат , называемая также мерой определенности, характеризует качество полученной регрессионной прямой. Это качество выражается степенью соответствия между исходными данными и регрессионной моделью (расчетными данными). Мера определенности всегда находится в пределах интервала .

В большинстве случаев значение R-квадрат находится между этими значениями, называемыми экстремальными, т.е. между нулем и единицей.

Если значение R-квадрата близко к единице, это означает, что построенная модель объясняет почти всю изменчивость соответствующих переменных. И наоборот, значение R-квадрата , близкое к нулю, означает плохое качество построенной модели.

В нашем примере мера определенности равна 0,99673, что говорит об очень хорошей подгонке регрессионной прямой к исходным данным.

Множественный R - коэффициент множественной корреляции R - выражает степень зависимости независимых переменных (X) и зависимой переменной (Y).

Множественный R равен квадратному корню из коэффициента детерминации, эта величина принимает значения в интервале от нуля до единицы.

В простом линейном регрессионном анализе множественный R равен коэффициенту корреляции Пирсона. Действительно, множественный R в нашем случае равен коэффициенту корреляции Пирсона из предыдущего примера (0,998364).

Таблица 8.3б. Коэффициенты регрессии

	Коэффициенты	Стандартная ошибка	t-статистика
Y-пересечение	2,694545455	0,33176878	8,121757129
Переменная X 1	2,305454545	0,04668634	49,38177965
* Приведен усеченный вариант расчетов

Теперь рассмотрим среднюю часть расчетов, представленную в таблице 8.3б . Здесь даны коэффициент регрессии b (2,305454545) и смещение по оси ординат, т.е. константа a (2,694545455).

Исходя из расчетов, можем записать уравнение регрессии таким образом:

Y= x*2,305454545+2,694545455

Направление связи между переменными определяется на основании знаков (отрицательный или положительный) коэффициентов регрессии (коэффициента b).

Если знак при коэффициенте регрессии - положительный, связь зависимой переменной с независимой будет положительной. В нашем случае знак коэффициента регрессии положительный, следовательно, связь также является положительной.

Если знак при коэффициенте регрессии - отрицательный, связь зависимой переменной с независимой является отрицательной (обратной).

В таблице 8.3в . представлены результаты вывода остатков . Для того чтобы эти результаты появились в отчете, необходимо при запуске инструмента "Регрессия" активировать чекбокс "Остатки".

ВЫВОД ОСТАТКА

Таблица 8.3в. Остатки

Наблюдение	Предсказанное Y	Остатки	Стандартные остатки
1	9,610909091	-0,610909091	-1,528044662
2	7,305454545	-0,305454545	-0,764022331
3	11,91636364	0,083636364	0,209196591
4	14,22181818	0,778181818	1,946437843
5	16,52727273	0,472727273	1,182415512
6	18,83272727	0,167272727	0,418393181
7	21,13818182	-0,138181818	-0,34562915
8	23,44363636	-0,043636364	-0,109146047
9	25,74909091	-0,149090909	-0,372915662
10	28,05454545	-0,254545455	-0,636685276

При помощи этой части отчета мы можем видеть отклонения каждой точки от построенной линии регрессии. Наибольшее абсолютное значение

Относит инерция.

Инерция измер.1

Косинус**2 измер.1

Старшие менеджеры

Младшие менеджеры

Старшие сотрудники

Младшие сотрудники