ClusterDistance (расширения интеллектуального анализа данных)
Функция ClusterDistance возвращает расстояние входного варианта от указанного кластера, а если кластер не указан — расстояние входного варианта от наиболее вероятного кластера.
Синтаксис
ClusterDistance([<ClusterID expression>])
Область применения
Эту функцию можно использовать только в случае, если базовая модель интеллектуального анализа данных поддерживает кластеризацию. Эту функцию можно использовать с любой моделью кластеризации (максимизация ожиданий, K-среднее и т. д.), но полученные результаты будут зависеть от алгоритма.
Тип возвращаемых данных
Скалярное значение.
Замечания
Функция ClusterDistance возвращает расстояние между входным вариантом и кластером, имеющим для данного входного варианта наибольшую вероятность.
В случае кластеризации методом К-средних любой вариант может принадлежать только к одному кластеру с весом членства, равным 1,0, и расстоянием от кластера, всегда равным 0. Однако при использовании метода К-средних предполагается, что каждый кластер имеет центроид. Значение центроида можно получить, выполнив запрос или просмотрев вложенную таблицу NODE_DISTRIBUTION в содержимом модели интеллектуального анализа данных. Дополнительные сведения см. в разделе Содержимое моделей интеллектуального анализа данных для моделей кластеризации (службы Analysis Services — интеллектуальный анализ данных).
Но если используется применяемый по умолчанию метод кластеризации, называемый методом максимизации ожидания (EM), все точки внутри кластера рассматриваются как равновероятные, так что центроид в кластере отсутствует. Значение расстояния ClusterDistance между конкретным вариантом и конкретным кластером N рассчитывается следующим образом:
ClusterDistance(N) = 1–(membershipWeight(N))
или:
ClusterDistance(N) = 1–ClusterProbability (N))
Связанные прогнозирующие функции
Службы Службы Analysis Services имеют следующие дополнительные функции для запросов к моделям кластеризации.
Для возврата наиболее подходящего кластера используется функция Cluster (расширения интеллектуального анализа данных).
Для определения вероятности того, что тот или иной вариант принадлежит к данному кластеру, используется функция ClusterProbability (расширения интеллектуального анализа данных). Это значение является обратным для расстояния от кластера.
Функция PredictHistogram (расширения интеллектуального анализа данных) используется для возврата гистограммы вероятности того, что в каждом кластере модели существует входной вариант.
Функция PredictCaseLikelihood (расширения интеллектуального анализа данных) используется для возврата меры в диапазоне от 0 до 1, указывающей на вероятность того, что входной вариант существует, учитывая модель, обученную этим алгоритмом.
Пример 1. Вычисление расстояния до наиболее вероятного кластера
В следующем примере возвращается расстояние от указанного варианта до кластера, к которому вариант принадлежит с наибольшей вероятностью.
SELECT
ClusterDistance()
FROM
[TM Clustering]
NATURAL PREDICTION JOIN
(SELECT 28 AS [Age],
'2-5 Miles' AS [Commute Distance],
'Graduate Degree' AS [Education],
0 AS [Number Cars Owned],
0 AS [Number Children At Home]) AS t
Образец результатов:
Expression |
---|
0.0477390930705145 |
Чтобы выяснить, какой это кластер, можно заменить в предыдущем образце функцию ClusterDistance на Cluster.
Образец результатов:
$CLUSTER |
---|
Cluster 6 |
Пример 2. Получение расстояния до указанного кластера
Следующий синтаксис использует набор строк схемы содержимого модели интеллектуального анализа данных для возврата списка идентификаторов узла и заголовков узла для кластеров в модели интеллектуального анализа. Далее заголовок узла можно использовать в качестве аргумента идентификатора кластера в функции ClusterDistance.
SELECT NODE_UNIQUE_NAME, NODE_CAPTION
FROM <model>.CONTENT
WHERE NODE_TYPE = 5
Примеры результатов:
NODE_UNIQUE_NAME |
NODE_CAPTION |
---|---|
001 |
Кластер 1 |
002 |
Кластер 2 |
Следующая синтаксическая конструкция возвращает расстояние до указанного варианта от кластера, обозначенного как Cluster 2.
SELECT
ClusterDistance('Cluster 2')
AS [Cluster 2 Distance]
FROM [TM Clustering]
NATURAL PREDICTION JOIN
(SELECT 28 AS [Age],
'2-5 Miles' AS [Commute Distance],
'Graduate Degree' AS [Education],
0 AS [Number Cars Owned],
0 AS [Number Children At Home]) AS t
Образец результатов:
Cluster 2 Distance |
---|
0.97008209236394 |
См. также
Справочник
Cluster (расширения интеллектуального анализа данных)
Справочник по функциям расширений интеллектуального анализа данных