2012-04-01

Содержимое моделей интеллектуального анализа данных для моделей кластеризации (службы Analysis Services — интеллектуальный анализ данных)

В этом разделе приведено описание содержимого модели интеллектуального анализа данных, характерного для моделей, в которых используется алгоритм кластеризации (Майкрософт). Общее описание содержимого модели интеллектуального анализа данных для всех типов модели см. в разделе Содержимое модели интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных).

Основные сведения о структуре модели кластеризации

Модель кластеризации имеет простую структуру. Каждая модель имеет единственный родительский узел, который представляет модель и ее метаданные, а каждый родительский узел содержит плоский список кластеров (NODE_TYPE = 5). Эта организация показана на следующем рисунке.

структура содержимого для моделей кластеризации

Каждый дочерний узел представляет отдельный кластер и содержит подробные статистические данные об атрибутах вариантов в этом кластере. К ним относятся количество вариантов в кластере и распределение значений, по которым данный кластер отличается от других кластеров.

Примечание
Необходимость в выполнении итерации по узлам для получения данных о количестве или описаний кластеров отсутствует; родительский узел модели обеспечивает также подсчет и составление списков кластеров.

Родительский узел содержит полезные статистические данные, которые описывают фактическое распределение всех обучающих вариантов. Эти статистические данные находятся в столбце вложенной таблицы, NODE_DISTRIBUTION. Например, в следующей таблице показано несколько строк из таблицы NODE_DISTRIBUTION, которая описывает распределение демографических данных о заказчиках для модели кластеризации, TM_Clustering, создаваемой в Учебник по основам интеллектуального анализа данных.

ATTRIBUTE_NAME	ATRIBUTE_VALUE	SUPPORT	PROBABILITY	VARIANCE	VALUE_TYPE
Age	Отсутствует	0	0	0	1 (Missing)
Age	44.9016152716593	12939	1	125.663453102554	3 (непрерывный)
Gender	Отсутствует	0	0	0	1 (отсутствует)
Gender	F	6350	0.490764355823479	0	4 (дискретный)
Gender	M	6589	0.509235644176521	0	4 (дискретный)

На основании этих результатов можно определить, что для формирования модели использовалось 12 939 вариантов, что отношение количества мужчин и женщин составляло приблизительно 50 на 50, а средний возраст был равен 44. Описательные статистические данные изменяются в зависимости от того, относится ли значение атрибута, включаемое в отчет, к непрерывному числовому типу данных, как в случае возраста, или представляет собой значение дискретного типа, такое как пол. Статистические меры среднее и дисперсия вычисляются для данных непрерывного типа, а вероятность и несущее множество — для данных дискретного типа.

Примечание
В качестве дисперсии представлена общая дисперсия для кластера. Если значение дисперсии является небольшим, это указывает на то, что большинство значений в столбце довольно близки к среднему. Чтобы получить стандартное отклонение, вычислите квадратный корень дисперсии.

В качестве дисперсии представлена общая дисперсия для кластера. Если значение дисперсии является небольшим, это указывает на то, что большинство значений в столбце довольно близки к среднему. Чтобы получить стандартное отклонение, вычислите квадратный корень дисперсии.

Следует отметить, что для каждого из атрибутов имеется значение Missing, которое указывает, в каком количестве вариантов отсутствуют данные, относящиеся к этому атрибуту. Недостающие данные могут оказаться значительными и по-разному повлиять на вычисления, в зависимости от типа данных. Дополнительные сведения см. в разделе Отсутствующие значения (службы Analysis Services — интеллектуальный анализ данных).

Содержимое модели для модели кластеризации

В этом разделе предоставлены подробные сведения и примеры, относящиеся только к тем столбцам в содержимом модели интеллектуального анализа данных, которые являются значимыми для моделей кластеризации.

Сведения о столбцах общего назначения MODEL_CATALOG, MODEL_NAME и других в наборе строк схемы см. в разделе Содержимое модели интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных).

MODEL_CATALOG
Имя базы данных, в которой хранится модель.
MODEL_NAME
Имя модели.
ATTRIBUTE_NAME
Всегда является пустым в моделях кластеризации, поскольку в этом режиме отсутствуют прогнозируемые атрибуты.
NODE_NAME
Всегда совпадает с NODE_UNIQUE_NAME.
NODE_UNIQUE_NAME
Уникальный идентификатор узла в модели. Это значение невозможно изменить.

NODE_TYPE
Выходными данными модели кластеризации являются узлы следующих типов.

Идентификатор и имя узла	Описание
1 (модель)	Корневой узел для модели.
5 (кластер)	Содержит количество вариантов в кластере, характеристики вариантов в кластере и статистические данные, которые описывают значения в кластере.

NODE_CAPTION
Понятное имя, применяемое для отображения. При создании модели в качестве заголовка автоматически используется значение NODE_UNIQUE_NAME. Но предусмотрена возможность изменить значение NODE_CAPTION для обновления отображаемого имени кластера либо программным путем, либо с использованием средства просмотра.

Примечание
При повторной обработке модели все изменившиеся имена записываются с учетом новых значений. Возможность сохранять одни и те же имена в модели или отслеживать изменения в принадлежности к кластеру при переходе от одной версии модели к другой отсутствует.

При повторной обработке модели все изменившиеся имена записываются с учетом новых значений. Возможность сохранять одни и те же имена в модели или отслеживать изменения в принадлежности к кластеру при переходе от одной версии модели к другой отсутствует.

CHILDREN_CARDINALITY
Оценка количества дочерних узлов, которые имеет данный узел.

Родительский узел Указывает количество кластеров в модели.

Узлы кластера Всегда 0.
PARENT_UNIQUE_NAME
Уникальное имя родителя узла.

Родительский узел Всегда имеет значение NULL

Узлы кластера Обычно имеют значение 000.
NODE_DESCRIPTION
Описание узла.

Родительский узел Всегда имеет значение (All).

Узлы кластера Список с разделителями-запятыми основных атрибутов, которыми данный кластер отличается от других кластеров.
NODE_RULE
Не используется для моделей кластеризации.
MARGINAL_RULE
Не используется для моделей кластеризации.
NODE_PROBABILITY
Вероятность, связанная с этим узлом. Родительский узел Всегда 1.

Узлы кластера Эта вероятность представляет составную вероятность атрибутов с некоторыми корректировками, зависящими от алгоритма, который использовался для создания модели кластеризации.
MARGINAL_PROBABILITY
Вероятность доступа к узлу от родительского узла. В модели кластеризации граничная вероятность всегда совпадает с вероятностью узла.
NODE_DISTRIBUTION
Таблица, содержащая гистограмму вероятностей узла.

Родительский узел См. введение к этому разделу.

Узлы кластера Представляет распределение атрибутов и значений для вариантов, которые включены в этот кластер.
NODE_SUPPORT
Число вариантов, поддерживаемое этим узлом. Родительский узел   Указывает количество обучающих вариантов для всей модели.

Узлы кластера   Указывает размер кластера как количество вариантов.

Примечание.   Если в модели используется кластеризация K-средних, то каждый вариант может принадлежать только к одному кластеру. Но если в модели используется кластеризация по методу EM, то каждый вариант может принадлежать к различным кластерам и варианту присваивается значение взвешенного расстояния для каждого кластера, к которому он принадлежит. Поэтому для моделей EM сумма несущих множеств отдельных кластеров больше несущего множества всей модели.
MSOLAP_MODEL_COLUMN
Не используется для моделей кластеризации.
MSOLAP_NODE_SCORE
Отображает оценку, связанную с узлом.

Родительский узел Оценка байесовского информационного критерия (BIC) для модели кластеризации.

Узлы кластера Всегда 0.
MSOLAP_NODE_SHORT_CAPTION
Метка, используемая для отображения. Этот заголовок нельзя изменить.

Родительский узел Тип модели: кластерная модель

Узлы кластера Имя кластера. Пример: Кластер 1.

Замечания

В службах Службы Analysis Services предоставляется несколько методов создания модели кластеризации. Если неизвестно, какие методы использовались для создания модели, с которой происходит работа, метаданные модели можно получить программным путем, с помощью клиента ADOMD или объектов AMO, либо с помощью запроса к набору строк схемы интеллектуального анализа данных. Дополнительные сведения см. в разделе Как запросить параметры, используемые для создания модели интеллектуального анализа данных.

Примечание
Структура и содержимое модели остаются теми же, независимо от используемой модели кластеризации или параметров.

См. также

Основные понятия

Содержимое модели интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных)

Алгоритм кластеризации (Майкрософт)

Запрос моделей интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных)

Другие ресурсы

Просмотр модели интеллектуального анализа данных