Содержимое моделей интеллектуального анализа данных для моделей кластеризации (службы Analysis Services — интеллектуальный анализ данных)
В этом разделе приведено описание содержимого модели интеллектуального анализа данных, характерного для моделей, в которых используется алгоритм кластеризации (Майкрософт). Общее описание содержимого модели интеллектуального анализа данных для всех типов модели см. в разделе Содержимое модели интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных).
Основные сведения о структуре модели кластеризации
Модель кластеризации имеет простую структуру. Каждая модель имеет единственный родительский узел, который представляет модель и ее метаданные, а каждый родительский узел содержит плоский список кластеров (NODE_TYPE = 5). Эта организация показана на следующем рисунке.
Каждый дочерний узел представляет отдельный кластер и содержит подробные статистические данные об атрибутах вариантов в этом кластере. К ним относятся количество вариантов в кластере и распределение значений, по которым данный кластер отличается от других кластеров.
Примечание |
---|
Необходимость в выполнении итерации по узлам для получения данных о количестве или описаний кластеров отсутствует; родительский узел модели обеспечивает также подсчет и составление списков кластеров. |
Родительский узел содержит полезные статистические данные, которые описывают фактическое распределение всех обучающих вариантов. Эти статистические данные находятся в столбце вложенной таблицы, NODE_DISTRIBUTION. Например, в следующей таблице показано несколько строк из таблицы NODE_DISTRIBUTION, которая описывает распределение демографических данных о заказчиках для модели кластеризации, TM_Clustering, создаваемой в Учебник по основам интеллектуального анализа данных.
ATTRIBUTE_NAME |
ATRIBUTE_VALUE |
SUPPORT |
PROBABILITY |
VARIANCE |
VALUE_TYPE |
---|---|---|---|---|---|
Age |
Отсутствует |
0 |
0 |
0 |
1 (Missing) |
Age |
44.9016152716593 |
12939 |
1 |
125.663453102554 |
3 (непрерывный) |
Gender |
Отсутствует |
0 |
0 |
0 |
1 (отсутствует) |
Gender |
F |
6350 |
0.490764355823479 |
0 |
4 (дискретный) |
Gender |
M |
6589 |
0.509235644176521 |
0 |
4 (дискретный) |
На основании этих результатов можно определить, что для формирования модели использовалось 12 939 вариантов, что отношение количества мужчин и женщин составляло приблизительно 50 на 50, а средний возраст был равен 44. Описательные статистические данные изменяются в зависимости от того, относится ли значение атрибута, включаемое в отчет, к непрерывному числовому типу данных, как в случае возраста, или представляет собой значение дискретного типа, такое как пол. Статистические меры среднее и дисперсия вычисляются для данных непрерывного типа, а вероятность и несущее множество — для данных дискретного типа.
Примечание |
---|
В качестве дисперсии представлена общая дисперсия для кластера. Если значение дисперсии является небольшим, это указывает на то, что большинство значений в столбце довольно близки к среднему. Чтобы получить стандартное отклонение, вычислите квадратный корень дисперсии. |
Следует отметить, что для каждого из атрибутов имеется значение Missing, которое указывает, в каком количестве вариантов отсутствуют данные, относящиеся к этому атрибуту. Недостающие данные могут оказаться значительными и по-разному повлиять на вычисления, в зависимости от типа данных. Дополнительные сведения см. в разделе Отсутствующие значения (службы Analysis Services — интеллектуальный анализ данных).
Содержимое модели для модели кластеризации
В этом разделе предоставлены подробные сведения и примеры, относящиеся только к тем столбцам в содержимом модели интеллектуального анализа данных, которые являются значимыми для моделей кластеризации.
Сведения о столбцах общего назначения MODEL_CATALOG, MODEL_NAME и других в наборе строк схемы см. в разделе Содержимое модели интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных).
MODEL_CATALOG
Имя базы данных, в которой хранится модель.MODEL_NAME
Имя модели.ATTRIBUTE_NAME
Всегда является пустым в моделях кластеризации, поскольку в этом режиме отсутствуют прогнозируемые атрибуты.NODE_NAME
Всегда совпадает с NODE_UNIQUE_NAME.NODE_UNIQUE_NAME
Уникальный идентификатор узла в модели. Это значение невозможно изменить.NODE_TYPE
Выходными данными модели кластеризации являются узлы следующих типов.Идентификатор и имя узла
Описание
1 (модель)
Корневой узел для модели.
5 (кластер)
Содержит количество вариантов в кластере, характеристики вариантов в кластере и статистические данные, которые описывают значения в кластере.
NODE_CAPTION
Понятное имя, применяемое для отображения. При создании модели в качестве заголовка автоматически используется значение NODE_UNIQUE_NAME. Но предусмотрена возможность изменить значение NODE_CAPTION для обновления отображаемого имени кластера либо программным путем, либо с использованием средства просмотра.Примечание При повторной обработке модели все изменившиеся имена записываются с учетом новых значений. Возможность сохранять одни и те же имена в модели или отслеживать изменения в принадлежности к кластеру при переходе от одной версии модели к другой отсутствует.
CHILDREN_CARDINALITY
Оценка количества дочерних узлов, которые имеет данный узел.Родительский узел Указывает количество кластеров в модели.
Узлы кластера Всегда 0.
PARENT_UNIQUE_NAME
Уникальное имя родителя узла.Родительский узел Всегда имеет значение NULL
Узлы кластера Обычно имеют значение 000.
NODE_DESCRIPTION
Описание узла.Родительский узел Всегда имеет значение (All).
Узлы кластера Список с разделителями-запятыми основных атрибутов, которыми данный кластер отличается от других кластеров.
NODE_RULE
Не используется для моделей кластеризации.MARGINAL_RULE
Не используется для моделей кластеризации.NODE_PROBABILITY
Вероятность, связанная с этим узлом. Родительский узел Всегда 1.Узлы кластера Эта вероятность представляет составную вероятность атрибутов с некоторыми корректировками, зависящими от алгоритма, который использовался для создания модели кластеризации.
MARGINAL_PROBABILITY
Вероятность доступа к узлу от родительского узла. В модели кластеризации граничная вероятность всегда совпадает с вероятностью узла.NODE_DISTRIBUTION
Таблица, содержащая гистограмму вероятностей узла.Родительский узел См. введение к этому разделу.
Узлы кластера Представляет распределение атрибутов и значений для вариантов, которые включены в этот кластер.
NODE_SUPPORT
Число вариантов, поддерживаемое этим узлом. Родительский узел Указывает количество обучающих вариантов для всей модели.Узлы кластера Указывает размер кластера как количество вариантов.
Примечание. Если в модели используется кластеризация K-средних, то каждый вариант может принадлежать только к одному кластеру. Но если в модели используется кластеризация по методу EM, то каждый вариант может принадлежать к различным кластерам и варианту присваивается значение взвешенного расстояния для каждого кластера, к которому он принадлежит. Поэтому для моделей EM сумма несущих множеств отдельных кластеров больше несущего множества всей модели.
MSOLAP_MODEL_COLUMN
Не используется для моделей кластеризации.MSOLAP_NODE_SCORE
Отображает оценку, связанную с узлом.Родительский узел Оценка байесовского информационного критерия (BIC) для модели кластеризации.
Узлы кластера Всегда 0.
MSOLAP_NODE_SHORT_CAPTION
Метка, используемая для отображения. Этот заголовок нельзя изменить.Родительский узел Тип модели: кластерная модель
Узлы кластера Имя кластера. Пример: Кластер 1.
Замечания
В службах Службы Analysis Services предоставляется несколько методов создания модели кластеризации. Если неизвестно, какие методы использовались для создания модели, с которой происходит работа, метаданные модели можно получить программным путем, с помощью клиента ADOMD или объектов AMO, либо с помощью запроса к набору строк схемы интеллектуального анализа данных. Дополнительные сведения см. в разделе Как запросить параметры, используемые для создания модели интеллектуального анализа данных.
Примечание |
---|
Структура и содержимое модели остаются теми же, независимо от используемой модели кластеризации или параметров. |
См. также