Assign Data to Clusters (Atribuir Dados a Clusters)

Importante

O suporte para o Estúdio de ML (clássico) terminará a 31 de agosto de 2024. Recomendamos a transição para o Azure Machine Learning até essa data.

A partir de 1 de dezembro de 2021, não poderá criar novos recursos do Estúdio de ML (clássico). Até 31 de agosto de 2024, pode continuar a utilizar os recursos existentes do Estúdio de ML (clássico).

Consulte informações sobre projetos de machine learning em movimento de ML Studio (clássico) para Azure Machine Learning.
Saiba mais sobre Azure Machine Learning.

A documentação do Estúdio de ML (clássico) está a ser descontinuada e poderá não ser atualizada no futuro.

Atribui dados a clusters utilizando um modelo de agrupamento treinado existente

Categoria: Pontuação

Nota

Aplica-se a: Machine Learning Studio (clássico) apenas

Módulos semelhantes de arrasto e queda estão disponíveis em Azure Machine Learning designer.

Visão geral do módulo

Este artigo descreve como usar o módulo De Assign Data to Clusters em Machine Learning Studio (clássico), para gerar previsões usando um modelo de clustering que foi treinado usando o algoritmo de clustering K-Means.

O módulo devolve um conjunto de dados que contém as atribuições prováveis para cada novo ponto de dados. Também cria um gráfico de PCA (Principal Component Analysis) para ajudá-lo a visualizar a dimensionalidade dos clusters.

Aviso

Este módulo substitui o módulo Atribua a Clusters (precotado), que está disponível apenas para suporte a experiências mais antigas.

Como utilizar a atribuição de dados a clusters

Em Machine Learning Studio (clássico), localize um modelo de clustering previamente treinado. Pode criar e formar um modelo de agrupamento utilizando qualquer um destes métodos:
- Configure o algoritmo K-significa usando o módulo de Clustering K-Means e, em seguida, treine o modelo usando um conjunto de dados e o módulo modelo de clustering de comboios .
- Configure uma gama de opções para o algoritmo K-significa usando o Clustering K-Means e, em seguida, treine o modelo usando o módulo de Clustering de Varredura .
Também pode adicionar um modelo de agrupamento treinado existente do grupo Modelos Guardados no seu espaço de trabalho.
Fixe o modelo treinado à porta de entrada esquerda de Atribuir Dados aos Clusters.
Anexar um novo conjunto de dados como entrada. Neste conjunto de dados, as etiquetas são opcionais. Geralmente, o agrupamento é um método de aprendizagem não supervisionado, pelo que não se espera que conheça as categorias com antecedência.

No entanto, as colunas de entrada devem ser as mesmas que as colunas utilizadas no treino do modelo de agrupamento, ou ocorrer um erro.

Dica

Para reduzir a saída de colunas a partir das previsões do cluster, utilize Colunas Selecionadas no Conjunto de Dados e selecione um subconjunto das colunas.
Deixar a opção Verificar o apêndice ou desmarcar o resultado apenas selecionado se pretender que os resultados contenham o conjunto completo de dados de entrada, juntamente com uma coluna que indique os resultados (atribuições de cluster).

Se desmarcar esta opção, receberá apenas os resultados. Isto pode ser útil ao criar previsões como parte de um serviço web.
Execute a experimentação.

Resultados

O módulo Desatribuição de Dados a Clusters retorna dois tipos de resultados na saída do conjunto de dados de resultados :

Para ver a separação dos clusters no modelo, clique na saída do módulo e selecione Visualize

Este comando apresenta um gráfico principal de Análise de Componentes (PCA) que mapeia a coleção de valores em cada cluster para dois eixos componentes.
- O primeiro eixo componente é o conjunto combinado de funcionalidades que captura a maior variação do modelo. Está traçado no eixo x (Componente Principal 1).
- O próximo eixo componente representa um conjunto combinado de funcionalidades que é orogonal ao primeiro componente e que adiciona a próxima maior informação ao gráfico. Está traçado no eixo y (Componente Principal 2).
A partir do gráfico, você pode ver a separação entre os clusters, e como os clusters são distribuídos ao longo dos eixos que representam os principais componentes.

Para visualizar a tabela de resultados de cada caso nos dados de entrada, anexe o módulo Converte ao Dataset e visualiza os resultados em Studio (clássico).

Este conjunto de dados contém as atribuições de cluster para cada caso, e uma métrica de distância que lhe dá alguma indicação de quão perto este caso em particular está para o centro do cluster.

Nome da coluna de saída	Description
Atribuições	Um índice baseado em 0 que indica a que agrupamento o ponto de dados foi atribuído.
DistânciasToClusterCenter n. n.	Para cada ponto de dados, este valor indica a distância entre o ponto de dados e o centro do cluster atribuído e a distância a outros clusters. A métrica utilizada para calcular a distância é determinada quando configura o modelo de agrupamento K-significa.

Entradas esperadas

Nome	Tipo	Description
Modelo treinado	Interface ICluster	Modelo de agrupamento treinado
Conjunto de dados	Tabela de Dados	Fonte de dados de entrada

Parâmetros do módulo

Nome	Tipo	Intervalo	Opcional	Predefinição	Description
Apenas apêndice ou resultado			Necessário	TRUE	Indicar se o conjunto de dados de saída deve conter o conjunto de dados de entrada, bem como os resultados, ou apenas os resultados
Especifique o modo de varrimento do parâmetro	Métodos de varrimento	Lista:Rede inteira\| Varredura aleatória	Necessário	Varredura aleatória	Varra toda a grelha no espaço dos parâmetros, ou varra com um número limitado de amostras

Saídas

Nome	Tipo	Description
Conjunto de dados de resultados	Tabela de Dados	Conjunto de dados de entrada anexado por coluna de dados de atribuições ou coluna de atribuições

Exceções

Exceção	Description
Erro 0003	A exceção ocorre se uma ou mais entradas forem nulas ou vazias.

Ver também

Clustering K-Means
Pontuação

Last updated on 2019-05-06