Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Алгоритм кластеризации Майкрософт — это алгоритм сегментации, предоставляемый службами Analysis Services. Алгоритм использует итеративные методы для группировки вариантов в наборе данных в кластеры, содержащие аналогичные характеристики. Эти группировки полезны для изучения данных, выявления аномалий в данных и создания прогнозов.
Модели кластеризации выявляют взаимосвязи в наборе данных, которые вы могли бы не распознать логически при поверхностном наблюдении. Например, вы можете логически определить, что люди, которые ездят на работу на велосипеде, обычно не живут на большом расстоянии от места работы. Однако алгоритм может найти другие характеристики велосипедистов, которые не так очевидны. На следующей схеме кластер A представляет данные о людях, которые, как правило, работают, в то время как кластер B представляет данные о людях, которые, как правило, ездят на велосипедах для работы.
Алгоритм кластеризации отличается от других алгоритмов интеллектуального анализа данных, таких как алгоритм дерева принятия решений Майкрософт, в том случае, что не нужно назначать прогнозируемый столбец, чтобы иметь возможность создавать модель кластеризации. Алгоритм кластеризации обучает модель строго от связей, существующих в данных и из кластеров, которые идентифицирует алгоритм.
Пример
Рассмотрим группу людей, которые делятся аналогичной демографическими сведениями и которые покупают аналогичные продукты из компании Adventure Works. Эта группа людей представляет кластер данных. В базе данных может существовать несколько таких кластеров. Наблюдая за столбцами, составляющими кластер, можно более четко увидеть, как записи в наборе данных связаны друг с другом.
Принцип работы алгоритма
Алгоритм кластеризации Майкрософт сначала определяет связи в наборе данных и создает ряд кластеров на основе этих связей. Точечная диаграмма — это удобный способ визуально представить, как алгоритм группирует данные, как показано на следующей схеме. Точечная диаграмма представляет все случаи в наборе данных, и каждый случай является точкой на графе. Кластеры группируют точки на графе и иллюстрируют связи, которые идентифицирует алгоритм.
Сначала определив кластеры, алгоритм вычисляет, насколько хорошо кластеры представляют группировки точек, а затем пытается переопределить группы для создания кластеров, которые лучше представляют данные. Алгоритм выполняет итерацию этого процесса, пока он не сможет улучшить результаты, переопределяя кластеры.
Вы можете настроить способ работы алгоритма, выбрав метод кластеризации, ограничив максимальное количество кластеров или изменив объем поддержки, необходимый для создания кластера. Дополнительные сведения см. в техническом справочнике по алгоритму кластеризации Майкрософт.
Данные, необходимые для моделей кластеризации
При подготовке данных для обучения модели кластеризации необходимо понимать требования для конкретного алгоритма, включая количество необходимых данных и способ использования данных.
Ниже приведены требования к модели кластеризации.
Один ключевой столбец Каждая модель должна содержать один числовый или текстовый столбец, который однозначно идентифицирует каждую запись. Составные ключи не допускаются.
Входные столбцы Каждая модель должна содержать по крайней мере один входной столбец, содержащий значения, используемые для создания кластеров. Можно иметь столько входных столбцов, сколько нужно, но в зависимости от количества значений в каждом столбце добавление дополнительных столбцов может увеличить время обучения модели.
Необязательный прогнозируемый столбец Алгоритму не требуется прогнозируемый столбец для построения модели, но вы можете добавить прогнозируемый столбец почти любого типа данных. Значения прогнозируемого столбца можно рассматривать как входные данные в модель кластеризации или указать, что он используется только для прогнозирования. Например, если вы хотите прогнозировать доход клиентов путем кластеризации по демографическим данным, таким как регион или возраст, необходимо указать доход как
PredictOnlyи добавить все остальные столбцы, например регион или возраст, в качестве входных данных.
Дополнительные сведения о типах контента и типах данных, поддерживаемых для моделей кластеризации, см. в разделе "Требования" технического справочника по алгоритму кластеризации Майкрософт.
Просмотр модели кластеризации
Для изучения модели можно использовать средство просмотра кластеров Майкрософт. При просмотре модели кластеризации службы Analysis Services отображают кластеры на схеме, которая показывает связи между кластерами, а также предоставляет подробный профиль каждого кластера, список атрибутов, которые отличают каждый кластер от других, и характеристики всего набора обучающих данных. Дополнительные сведения см. в статье "Обзор модели с помощью средства просмотра кластеров Майкрософт".
Если вы хотите узнать больше сведений, вы можете просмотреть модель в средстве просмотра дерева содержимого Майкрософт. Содержимое, хранящееся для модели, включает распределение всех значений в каждом узле, вероятность каждого кластера и другую информацию. Дополнительные сведения см. в разделе «Содержимое модели анализа данных» для кластерных моделей (Службы Analysis Services — анализ данных).
Создание прогнозов
После обучения модели результаты хранятся в виде набора шаблонов, которые можно изучить или использовать для прогнозирования.
Вы можете создавать запросы для возврата прогнозов о том, соответствуют ли новые данные обнаруженным кластерам или получить описательную статистику о кластерах.
Сведения о создании запросов к модели интеллектуального анализа данных см. в разделе "Запросы интеллектуального анализа данных". Примеры использования запросов с моделью кластеризации см. в примерах запросов к модели кластеризации.
Замечания
Поддерживает использование языка разметки прогнозных моделей (PMML) для создания моделей интеллектуального анализа данных.
Поддерживает детализацию.
Поддерживает использование моделей OLAP для интеллектуального анализа данных и создание измерений для интеллектуального анализа данных.
См. также
Алгоритмы интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных)Техническая ссылка на алгоритм кластеризацииСодержимое модели интеллектуального анализа для кластерных моделей (службы Analysis Services — интеллектуальный анализ данных)Примеры запросов к кластерной модели