Поделиться через


ClusterDistance (расширения интеллектуального анализа данных)

Функция ClusterDistance возвращает расстояние входного варианта от указанного кластера, а если кластер не указан — расстояние входного варианта от наиболее вероятного кластера.

Синтаксис

ClusterDistance([<ClusterID expression>])

Область применения

Эту функцию можно использовать только в случае, если базовая модель интеллектуального анализа данных поддерживает кластеризацию. Эту функцию можно использовать с любой моделью кластеризации (максимизация ожиданий, K-среднее и т. д.), но полученные результаты будут зависеть от алгоритма.

Тип возвращаемых данных

Скалярное значение.

Замечания

Функция ClusterDistance возвращает расстояние между входным вариантом и кластером, имеющим для данного входного варианта наибольшую вероятность.

В случае кластеризации методом К-средних любой вариант может принадлежать только к одному кластеру с весом членства, равным 1,0, и расстоянием от кластера, всегда равным 0. Однако при использовании метода К-средних предполагается, что каждый кластер имеет центроид. Значение центроида можно получить, выполнив запрос или просмотрев вложенную таблицу NODE_DISTRIBUTION в содержимом модели интеллектуального анализа данных. Дополнительные сведения см. в разделе Содержимое моделей интеллектуального анализа данных для моделей кластеризации (службы Analysis Services — интеллектуальный анализ данных).

Но если используется применяемый по умолчанию метод кластеризации, называемый методом максимизации ожидания (EM), все точки внутри кластера рассматриваются как равновероятные, так что центроид в кластере отсутствует. Значение расстояния ClusterDistance между конкретным вариантом и конкретным кластером N рассчитывается следующим образом:

ClusterDistance(N) = 1–(membershipWeight(N))

или:

ClusterDistance(N) = 1–ClusterProbability (N))

Связанные прогнозирующие функции

Службы Службы Analysis Services имеют следующие дополнительные функции для запросов к моделям кластеризации.

Пример 1. Вычисление расстояния до наиболее вероятного кластера

В следующем примере возвращается расстояние от указанного варианта до кластера, к которому вариант принадлежит с наибольшей вероятностью.

SELECT
    ClusterDistance()
FROM
    [TM Clustering]
NATURAL PREDICTION JOIN
(SELECT 28 AS [Age],
    '2-5 Miles' AS [Commute Distance],
    'Graduate Degree' AS [Education],
    0 AS [Number Cars Owned],
    0 AS [Number Children At Home]) AS t

Образец результатов:

Expression

0.0477390930705145

Чтобы выяснить, какой это кластер, можно заменить в предыдущем образце функцию ClusterDistance на Cluster.

Образец результатов:

$CLUSTER

Cluster 6

Пример 2. Получение расстояния до указанного кластера

Следующий синтаксис использует набор строк схемы содержимого модели интеллектуального анализа данных для возврата списка идентификаторов узла и заголовков узла для кластеров в модели интеллектуального анализа. Далее заголовок узла можно использовать в качестве аргумента идентификатора кластера в функции ClusterDistance.

SELECT NODE_UNIQUE_NAME, NODE_CAPTION 
FROM <model>.CONTENT 
WHERE NODE_TYPE = 5

Примеры результатов:

NODE_UNIQUE_NAME

NODE_CAPTION

001

Кластер 1

002

Кластер 2

Следующая синтаксическая конструкция возвращает расстояние до указанного варианта от кластера, обозначенного как Cluster 2.

SELECT
    ClusterDistance('Cluster 2')
AS [Cluster 2 Distance]
FROM [TM Clustering]
NATURAL PREDICTION JOIN
(SELECT 28 AS [Age],
    '2-5 Miles' AS [Commute Distance],
    'Graduate Degree' AS [Education],
    0 AS [Number Cars Owned],
    0 AS [Number Children At Home]) AS t

Образец результатов:

Cluster 2 Distance

0.97008209236394

См. также

Справочник

Cluster (расширения интеллектуального анализа данных)

Справочник по функциям расширений интеллектуального анализа данных

Функции (расширения интеллектуального анализа данных)

Содержимое моделей интеллектуального анализа данных для моделей кластеризации (службы Analysis Services — интеллектуальный анализ данных)