Поделиться через


Содержимое моделей интеллектуального анализа данных для моделей кластеризации (службы Analysis Services — интеллектуальный анализ данных)

В этом разделе приведено описание содержимого модели интеллектуального анализа данных, характерного для моделей, в которых используется алгоритм кластеризации (Майкрософт). Общее описание содержимого модели интеллектуального анализа данных для всех типов модели см. в разделе Содержимое модели интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных).

Основные сведения о структуре модели кластеризации

Модель кластеризации имеет простую структуру. Каждая модель имеет единственный родительский узел, который представляет модель и ее метаданные, а каждый родительский узел содержит плоский список кластеров (NODE_TYPE = 5). Эта организация показана на следующем рисунке.

структура содержимого для моделей кластеризации

Каждый дочерний узел представляет отдельный кластер и содержит подробные статистические данные об атрибутах вариантов в этом кластере. К ним относятся количество вариантов в кластере и распределение значений, по которым данный кластер отличается от других кластеров.

ПримечаниеПримечание

Необходимость в выполнении итерации по узлам для получения данных о количестве или описаний кластеров отсутствует; родительский узел модели обеспечивает также подсчет и составление списков кластеров.

Родительский узел содержит полезные статистические данные, которые описывают фактическое распределение всех обучающих вариантов. Эти статистические данные находятся в столбце вложенной таблицы, NODE_DISTRIBUTION. Например, в следующей таблице показано несколько строк из таблицы NODE_DISTRIBUTION, которая описывает распределение демографических данных о заказчиках для модели кластеризации, TM_Clustering, создаваемой в Учебник по основам интеллектуального анализа данных.

ATTRIBUTE_NAME

ATRIBUTE_VALUE

SUPPORT

PROBABILITY

VARIANCE

VALUE_TYPE

Age

Отсутствует

0

0

0

1 (Missing)

Age

44.9016152716593

12939

1

125.663453102554

3 (непрерывный)

Gender

Отсутствует

0

0

0

1 (отсутствует)

Gender

F

6350

0.490764355823479

0

4 (дискретный)

Gender

M

6589

0.509235644176521

0

4 (дискретный)

На основании этих результатов можно определить, что для формирования модели использовалось 12 939 вариантов, что отношение количества мужчин и женщин составляло приблизительно 50 на 50, а средний возраст был равен 44. Описательные статистические данные изменяются в зависимости от того, относится ли значение атрибута, включаемое в отчет, к непрерывному числовому типу данных, как в случае возраста, или представляет собой значение дискретного типа, такое как пол. Статистические меры среднее и дисперсия вычисляются для данных непрерывного типа, а вероятность и несущее множество — для данных дискретного типа.

ПримечаниеПримечание

В качестве дисперсии представлена общая дисперсия для кластера. Если значение дисперсии является небольшим, это указывает на то, что большинство значений в столбце довольно близки к среднему. Чтобы получить стандартное отклонение, вычислите квадратный корень дисперсии.

Следует отметить, что для каждого из атрибутов имеется значение Missing, которое указывает, в каком количестве вариантов отсутствуют данные, относящиеся к этому атрибуту. Недостающие данные могут оказаться значительными и по-разному повлиять на вычисления, в зависимости от типа данных. Дополнительные сведения см. в разделе Отсутствующие значения (службы Analysis Services — интеллектуальный анализ данных).

Содержимое модели для модели кластеризации

В этом разделе предоставлены подробные сведения и примеры, относящиеся только к тем столбцам в содержимом модели интеллектуального анализа данных, которые являются значимыми для моделей кластеризации.

Сведения о столбцах общего назначения MODEL_CATALOG, MODEL_NAME и других в наборе строк схемы см. в разделе Содержимое модели интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных).

  • MODEL_CATALOG
    Имя базы данных, в которой хранится модель.

  • MODEL_NAME
    Имя модели.

  • ATTRIBUTE_NAME
    Всегда является пустым в моделях кластеризации, поскольку в этом режиме отсутствуют прогнозируемые атрибуты.

  • NODE_NAME
    Всегда совпадает с NODE_UNIQUE_NAME.

  • NODE_UNIQUE_NAME
    Уникальный идентификатор узла в модели. Это значение невозможно изменить.

  • NODE_TYPE
    Выходными данными модели кластеризации являются узлы следующих типов.

    Идентификатор и имя узла

    Описание

    1 (модель)

    Корневой узел для модели.

    5 (кластер)

    Содержит количество вариантов в кластере, характеристики вариантов в кластере и статистические данные, которые описывают значения в кластере.

  • NODE_CAPTION
    Понятное имя, применяемое для отображения. При создании модели в качестве заголовка автоматически используется значение NODE_UNIQUE_NAME. Но предусмотрена возможность изменить значение NODE_CAPTION для обновления отображаемого имени кластера либо программным путем, либо с использованием средства просмотра.

    ПримечаниеПримечание

    При повторной обработке модели все изменившиеся имена записываются с учетом новых значений. Возможность сохранять одни и те же имена в модели или отслеживать изменения в принадлежности к кластеру при переходе от одной версии модели к другой отсутствует.

  • CHILDREN_CARDINALITY
    Оценка количества дочерних узлов, которые имеет данный узел.

    Родительский узел   Указывает количество кластеров в модели.

    Узлы кластера   Всегда 0.

  • PARENT_UNIQUE_NAME
    Уникальное имя родителя узла.

    Родительский узел   Всегда имеет значение NULL

    Узлы кластера   Обычно имеют значение 000.

  • NODE_DESCRIPTION
    Описание узла.

    Родительский узел   Всегда имеет значение (All).

    Узлы кластера   Список с разделителями-запятыми основных атрибутов, которыми данный кластер отличается от других кластеров.

  • NODE_RULE
    Не используется для моделей кластеризации.

  • MARGINAL_RULE
    Не используется для моделей кластеризации.

  • NODE_PROBABILITY
    Вероятность, связанная с этим узлом. Родительский узел   Всегда 1.

    Узлы кластера   Эта вероятность представляет составную вероятность атрибутов с некоторыми корректировками, зависящими от алгоритма, который использовался для создания модели кластеризации.

  • MARGINAL_PROBABILITY
    Вероятность доступа к узлу от родительского узла. В модели кластеризации граничная вероятность всегда совпадает с вероятностью узла.

  • NODE_DISTRIBUTION
    Таблица, содержащая гистограмму вероятностей узла.

    Родительский узел   См. введение к этому разделу.

    Узлы кластера   Представляет распределение атрибутов и значений для вариантов, которые включены в этот кластер.

  • NODE_SUPPORT
    Число вариантов, поддерживаемое этим узлом. Родительский узел   Указывает количество обучающих вариантов для всей модели.

    Узлы кластера   Указывает размер кластера как количество вариантов.

    Примечание.   Если в модели используется кластеризация K-средних, то каждый вариант может принадлежать только к одному кластеру. Но если в модели используется кластеризация по методу EM, то каждый вариант может принадлежать к различным кластерам и варианту присваивается значение взвешенного расстояния для каждого кластера, к которому он принадлежит. Поэтому для моделей EM сумма несущих множеств отдельных кластеров больше несущего множества всей модели.

  • MSOLAP_MODEL_COLUMN
    Не используется для моделей кластеризации.

  • MSOLAP_NODE_SCORE
    Отображает оценку, связанную с узлом.

    Родительский узел   Оценка байесовского информационного критерия (BIC) для модели кластеризации.

    Узлы кластера   Всегда 0.

  • MSOLAP_NODE_SHORT_CAPTION
    Метка, используемая для отображения. Этот заголовок нельзя изменить.

    Родительский узел   Тип модели: кластерная модель

    Узлы кластера   Имя кластера. Пример: Кластер 1.

Замечания

В службах Службы Analysis Services предоставляется несколько методов создания модели кластеризации. Если неизвестно, какие методы использовались для создания модели, с которой происходит работа, метаданные модели можно получить программным путем, с помощью клиента ADOMD или объектов AMO, либо с помощью запроса к набору строк схемы интеллектуального анализа данных. Дополнительные сведения см. в разделе Как запросить параметры, используемые для создания модели интеллектуального анализа данных.

ПримечаниеПримечание

Структура и содержимое модели остаются теми же, независимо от используемой модели кластеризации или параметров.