Назначение данных в кластеры

Важно!

Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.

Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.

Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.

Назначает данные кластерам с помощью существующей обученной модели кластеризации.

Категория: Оценка

Примечание

применимо к: только Машинное обучение Studio (классическая модель)

Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.

Обзор модуля

в этой статье описывается использование модуля " назначение данных в кластерах " в Машинное обучение Studio (классическая модель) для создания прогнозов с помощью модели кластеризации, обученной с помощью алгоритма кластеризации "K-средних".

Модуль возвращает набор данных, который содержит вероятные назначения для каждой новой точки данных. Он также создает диаграмму PCA (анализ основных компонентов), помогающую визуализировать размерность кластеров.

Предупреждение

Этот модуль заменяет модуль Assign To Clusters (не рекомендуется), который доступен только для поддержки старых экспериментов.

Как использовать присвоение данных кластерам

  1. в Машинное обучение Studio (классическая модель) нахождение ранее обученной модели кластеризации. Создать и обучить модель кластеризации можно одним из следующих способов.

    Вы также можете добавить существующую обученную модель кластеризации из группы Сохраненные модели в своей рабочей области.

  2. Присоедините обученную модель к левому порту ввода для Назначения данных кластерам.

  3. Прикрепите новый набор данных в качестве входных данных. В этом наборе данных метки необязательны. Как правило, кластеризация — это неконтролируемый метод обучения, поэтому не ожидается, что вы будете заранее узнавать категории.

    Однако входные столбцы должны быть такими же, как столбцы, которые использовались при обучении модели кластеризации, в противном случае произойдет ошибка.

    Совет

    Чтобы уменьшить число столбцов, выводимых прогнозами кластера, используйте Выбор столбцов в наборе данныхи выберите подмножество столбцов.

  4. Если требуется, чтобы результаты содержали полный входной набор данных, а также столбец, указывающий на результаты (назначения кластера), оставьте параметр флажок для параметра Добавить или снять только для результата .

    Если отменить выбор этого параметра, будут возвращены только результаты. Это может быть полезно при создании прогнозов как части веб-службы.

  5. Запустите эксперимент.

Результаты

Модуль назначение данных в кластеры возвращает два типа результатов для выходных данных результатов .

  • Чтобы увидеть разделение кластеров в модели, щелкните выходные данные модуля и выберите визуализировать .

    Эта команда отображает граф анализа основных компонентов (PCA), который сопоставляет коллекцию значений в каждом кластере с двумя осями компонентов.

    • Первая ось компонентов — это объединенный набор функций, которые захватывают наибольшую дисперсию в модели. Он строится на оси x (основной компонент 1).
    • Следующая ось компонентов представляет собой ряд Объединенных функций, которые являются ортогональными к первому компоненту и добавляют к диаграмме следующую основную информацию. Он строится на оси y (основной компонент 2).

    На диаграмме можно увидеть разделение между кластерами и распределение кластеров по осям, представляющим основные компоненты.

  • Чтобы просмотреть таблицу результатов для каждого варианта во входных данных, присоедините модуль Convert to DataSet и визуализируйте результаты в студии (классическая модель).

    Этот набор данных содержит назначения кластеров для каждого варианта, а также метрику расстояния, которая позволяет определить, как закрыть этот конкретный случай в центре кластера.

    Имя выходного столбца Описание
    Назначения Отсчитываемый от нуля индекс, указывающий, к какому кластеру назначена точка данных.
    Дистанцестоклустерцентер No n Для каждой точки данных это значение указывает расстояние от точки данных до центра назначенного кластера, а также расстояние до других кластеров.

    Метрика, используемая для вычисления расстояния, определяется при настройке модели кластеризации «K-средние».

Ожидаемые входные данные

Имя Тип Описание
Обученная модель Интерфейс ICluster Обученная модель кластеризации
Dataset Таблица данных Источник входных данных

Параметры модуля

Имя Type Диапазон Необязательно Значение по умолчанию Описание
Только добавление или результат Обязательно true Укажите, должен ли выходной набор данных содержать входной набор данных, а также результаты или только результаты
Укажите режим очистки параметров Методы очистки Список: вся сетка | Случайная очистка Обязательно Случайная очистка Очистка всей сетки в пространстве параметров или очистка с помощью ограниченного числа запусков образца

Выходные данные

Имя Тип Описание
Набор данных результатов Таблица данных Входной набор данных с добавлением столбца назначений или только столбец назначений

Исключения

Исключение Описание
Ошибка 0003 Исключение возникает, если один или несколько входных аргументов имеют значение NULL или пусты.

См. также раздел

Кластеризация методом K-средних
Оценка