Share via


Clustering de varredura

Importante

O suporte para o Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. É recomendável fazer a transição para o Azure Machine Learning até essa data.

A partir de 1º de dezembro de 2021, você não poderá criar recursos do Machine Learning Studio (clássico). Até 31 de agosto de 2024, você pode continuar usando os recursos existentes do Machine Learning Studio (clássico).

A documentação do ML Studio (clássico) está sendo desativada e pode não ser atualizada no futuro.

Executa uma varredura de parâmetro para determinar as configurações ideais para um modelo de clustering

Categoria: Machine Learning/Treinar

Observação

Aplica-se a: Machine Learning Studio (clássico) somente

Módulos semelhantes do tipo "arrastar e soltar" estão disponíveis no designer do Azure Machine Learning.

Visão geral do módulo

Este artigo descreve como usar o módulo Clustering de Varredura no Machine Learning Studio (clássico) para treinar um modelo usando uma varredura de parâmetro. Uma varredura de parâmetro é uma maneira de encontrar os melhores hiperparérmetros para um modelo, considerando um conjunto de dados.

O módulo Clustering de Varredura foi projetado especificamente para modelos de clustering. Você fornece um modelo de clustering como entrada, junto com um conjunto de dados. O módulo itera em um conjunto de parâmetros que você especifica, criando e testando modelos com parâmetros diferentes, até encontrar o modelo com o melhor conjunto de clusters. Ele calcula automaticamente a melhor configuração e treina um modelo usando essa configuração.

Ele também retorna um conjunto de métricas que descrevem os modelos que foram testados e um conjunto de atribuições de cluster com base no melhor modelo.

Como configurar o Clustering de Varredura

  1. Adicione o módulo Clustering de Varredura ao seu experimento no Studio (clássico). Você pode encontrar este módulo em Machine Learning, na categoria Treinar.

  2. Adicione o módulo Clustering K-Means e seu conjunto de dados de treinamento ao experimento e conecte-os ao módulo Clustering de Varredura.

  3. Configure o módulo Clustering K-Means para usar uma varredura de parâmetro da seguinte maneira:

    1. De definir Criar modo de treinador como Intervalo de Parâmetros.

    2. Use o Construtor de Intervalos (ou digite manualmente vários valores) para cada parâmetro para definir o intervalo de valores a iterar.

    3. Inicialização para limpeza: especifique como o algoritmo K-means deve encontrar os centroides de cluster iniciais. Vários algoritmos são fornecidos para inicializar aleatoriamente e, em seguida, testar centroides.

      Se o seu conjuntos de dados de treinamento contiver uma coluna de rótulo, mesmo com valores parciais, você poderá usar esses valores para centroides. Use a opção Atribuir Modo de Rótulo para indicar como os valores de rótulo são usados.

      Dica

      Sua coluna de rótulo deve ser marcada como tal com antecedência. Se você receber um erro, tente usar Editar Metadados para identificar a coluna que contém rótulos.

    4. Número de sementes a limpar: indique quantas sementes iniciais aleatórias diferentes tentar ao fazer a varredura de parâmetro.

    5. Escolha a métrica a ser usada ao medir a similaridade do cluster. Para obter mais informações, consulte o tópico Clustering K-Means .

    6. Ierções: especifique o número total de ierações que o algoritmo K-means deve executar. Essas ierações são usadas para otimizar a seleção dos centroides de cluster.

    7. Se você estiver usando uma coluna de rótulo para inicializar a varredura, use a opção Atribuir Modo de Rótulo para especificar como os valores na coluna de rótulo devem ser tratados.

      • Preencher valores ausentes: se a coluna de rótulo contiver alguns valores ausentes, use essa opção para imputar categorias com base no cluster ao qual o ponto de dados é atribuído.

      • Substituir do mais próximo ao centro: gera valores de rótulo para todos os pontos de dados atribuídos a um cluster, usando o rótulo do ponto mais próximo ao centro do cluster.

      • Ignorar coluna de rótulo: selecione essa opção se você não quiser executar nenhuma das operações acima.

  4. No módulo Clustering de Varredura, use a opção For Metric para medir o resultado do clustering para especificar o método matemático a ser usado ao estimar o ajuste do modelo de clustering treinado:

    • Silhouette simplificada: essa métrica captura a proximidade dos pontos de dados em cada cluster. Ele é calculado como uma combinação da similaridade de cada linha com seu cluster e sua similaridade com o cluster mais próximo. Se o cluster tiver apenas 1 linha, a distância rateada para o próximo centroide mais próximo será calculada, para evitar obter 0 como resultado. "Simplificado" refere-se ao fato de que a distância para o centroide do cluster é usada como uma medida de similaridade simples. Em geral, uma pontuação mais alta é melhor. O valor médio sobre o conjunto de dados indica o nível de cluster dos dados. Se houver muitos ou poucos clusters, alguns clusters terão valores de paleta menores do que o restante. Para obter mais informações, consulte este artigo da Wikipédia.

    • Ela tem como objetivo identificar o menor conjunto de clusters com a menor dispersão. Como a métrica é definida como uma taxa de dispersão em cada cluster em vez da separação de clusters, um valor inferior significa que o clustering é melhor. O melhor modelo de clustering minimiza essa métrica. Para calcular a métrica Davies-Bouldin, a distância média de linha para centroide é calculada por cluster. Para cada par de clusters, a soma dessas médias é dividida pela distância entre centroides. O valor máximo em todos os outros clusters é selecionado para cada cluster e é médio em todos os clusters. Para obter mais informações, consulte este artigo da Wikipédia.

    • : essa métrica tem como objetivo identificar o menor conjunto da maioria dos clusters compactos. Em geral, um valor mais alto para essa métrica indica melhor clustering. Para calcular a métrica Dem, a distância mínima centroide a centroide é dividida pela distância máxima de cada ponto de dados até seu centro de cluster. Para obter mais informações, consulte este artigo da Wikipédia.

    • Desvio médio: essa métrica é calculada pela distância média de cada ponto de dados até seu centro de cluster. O valor diminui conforme o número de centroides aumenta; portanto, não é útil ao limpar para encontrar o número de centroides. Essa métrica é recomendada para uso quando você está escolhendo a melhor semente de inicialização de centroide.

  5. Especificar o modo de limpeza de parâmetro: selecione uma opção que define as combinações de valores usados durante o treinamento e como eles são escolhidos:

    • Grade inteira: todos os valores dentro do intervalo determinado são tentados e avaliados. Essa opção geralmente é mais cara computacionalmente.

    • Limpeza aleatória: use essa opção para limitar o número de executações. O modelo de clustering é criado e avaliado usando uma combinação de valores escolhidos aleatoriamente do intervalo permitido de valores de parâmetro.

  6. Número máximo de executados na varredura aleatória: de definir essa opção se você escolher a opção Limpeza aleatória. Digite um valor para limitar o número máximo de ierações ao testar conjuntos de parâmetros escolhidos aleatoriamente.

    Aviso

    Os parâmetros de Ierções do módulo Clustering K-Means têm uma finalidade diferente e não são afetados por essa configuração: ele limita o número de passagens sobre os dados feitos para melhorar os clusters, minimizando a distância média de cada ponto de dados para seus centroides de cluster. Por outro lado, as ierações definidas pelo parâmetro do módulo Clustering de Varredura são executadas para tentar inicializações de centroide aleatórias diferentes. Esse problema de minimização é conhecido como np-hard; portanto, tentar várias sementes aleatórias pode produzir resultados melhores.

    Se você selecionar uma varredura aleatória, use a opção Semente aleatória para especificar os valores de semente aleatórios iniciais, nos quais começar a criar os centroides. Uma vantagem de usar uma varredura de parâmetro para criar um modelo de clustering é que você pode testar facilmente vários valores de semente para atenuar a sensibilidade conhecida dos modelos de clustering para o valor inicial da semente.

  7. Clique em Conjunto de Colunas e escolha as colunas a usar ao criar os clusters. Por padrão, todas as colunas de recurso são usadas ao criar e testar o modelo de clustering.

    Você pode incluir uma coluna de rótulo, se estiver presente no seu conjuntos de dados. Se um rótulo estiver presente, você poderá usá-lo para orientar a seleção de centroides, usar o rótulo como um recurso ou ignorar o rótulo. De definir essas opções para o tratamento de rótulos do módulo Clustering Kmeans , conforme descrito na Etapa 3 acima.

  8. Verifique Append ou Uncheck for Result Only: use esta opção para controlar quais colunas são retornadas nos resultados.

    Por padrão, o módulo retorna as colunas originais do conjunto de dados de treinamento junto com os resultados. Se você desmarcar essa opção. somente as atribuições de cluster são retornadas.

  9. Adicione o módulo Atribuir Dados a Clusters ao seu experimento.

  10. Conexão saída rotulada Melhor Modelo Treinado para a entrada Modelo Treinado de Atribuir Dados a Clusters.

  11. Adicione o conjunto de dados destinado à avaliação e conecte-o à porta conjunto de dados do módulo Atribuir Dados a Clusters .

  12. Adicione o módulo Avaliar Modelo e conecte-o a Atribuir Dados a Clusters. Opcionalmente, você pode conectar um conjuntos de dados de avaliação.

  13. Execute o experimento.

Resultados

O módulo Clustering de Varredura resulta em três resultados diferentes:

  • Melhor modelo treinado. Um modelo treinado que você pode usar para pontuação e avaliação. Clique com o botão direito do mouse e selecione salvar como modelo treinado para capturar o modelo de clustering otimizado e usá-lo para pontuação.

  • DataSet de resultados. Um conjunto de atribuições de cluster, com base no modelo otimizado.

    Nome da coluna Descrição
    Atribuições Esse valor indica o cluster ao qual cada ponto de dados foi atribuído. Os clusters no modelo treinado são rotulados com índices baseados em 0.
    DistancesToClusterCenter n º 1

    N º de DistancesToClusterCenter
    Esse valor indica como fechar o ponto de dados é para o centro de cada cluster.

    Uma coluna é criada para cada cluster criado no modelo otimizado.

    Você pode restringir o número de clusters usando a opção número de centróides .

    Por padrão, você pode retornar as colunas do conjunto de acordo com os resultados, para facilitar a revisão e a interpretação das atribuições de cluster.

  • Resultados da varredura. Um DataSet que contém as seguintes métricas de avaliação para os clusters:

    Nome da coluna Descrição
    Métrica de cluster Um valor que indica a qualidade média do cluster para essa execução. As execuções são ordenadas pela melhor pontuação.
    Número de centróides O número de clusters que foram criados nesta iteração específica da varredura
    Índice de execução Um identificador para cada iteração

    Dica

    Os valores retornados para a métrica do cluster devem ser interpretados de forma diferente, dependendo da métrica que você escolheu ao configurar a varredura. Para a métrica padrão, a silhueta simplificada, uma pontuação mais alta é melhor. Para Davies-Bouldin, uma pontuação mais baixa é melhor.

Exemplos

Para ver exemplos de uma varredura de parâmetro com clustering K-means, consulte o Galeria de ia do Azure:

Observações técnicas

Esta seção contém dicas e detalhes de implementação.

Otimizando modelos de clustering

A qualidade e a precisão dos modelos de clustering podem ser altamente afetadas pela escolha dos parâmetros iniciais, como o número de centróides e o valor de semente usado para inicializar o cluster. Para atenuar essa sensibilidade aos parâmetros iniciais, o módulo de clustering de varredura ajuda você a encontrar a melhor combinação de parâmetros. Você especifica um intervalo de parâmetros a serem testados e o módulo cria e testa automaticamente vários modelos e, por fim, seleciona o número ideal de clusters.

Para criar uma varredura de parâmetro, você também deve configurar o módulo de clustering K- means para usar uma varredura de parâmetro. Você pode especificar que a varredura faça a iteração em todas as combinações possíveis de parâmetros ou use uma combinação aleatória de parâmetros. Você também pode escolher uma das várias métricas padrão para medir a precisão das centróides durante o processo de criação e teste de modelo iterativo. Após a conclusão do número especificado de iterações, o módulo seleciona o melhor número de clusters, com base na métrica selecionada, e gera relatórios que você pode usar para avaliar os resultados.

Dicas de uso

  • Em alguns casos, talvez você já saiba quantos clusters você espera encontrar. Por exemplo, seus dados podem ter rótulos de classe que poderiam ser usados na orientação da seleção de centróides. Nesse caso, você pode configurar o módulo de clustering K- means para usar a coluna rótulo para orientar a seleção das centróides iniciais.

  • Se você souber alguns dos clusters esperados, mas não tiver certeza de quantos clusters são ideais, defina o número de centróides para um número maior que o número de valores de rótulo conhecidos. O módulo de clustering de varredura cria clusters para os pontos de dados conhecidos e, em seguida, determina o número ideal de clusters extras para os pontos de dados restantes.

Manipulando valores ausentes na coluna de rótulo

Há várias maneiras de lidar com valores ausentes em sua coluna de rótulo. Por exemplo, suponha que você tenha uma tarefa de classificação de imagem e que apenas algumas das imagens tenham sido rotuladas.

Você pode usar a coluna rótulo para orientar a seleção de centróides, mas especificar que quaisquer rótulos ausentes sejam preenchidos usando as atribuições de cluster. Em outras palavras, os valores de rótulo existentes não são alterados, mas os rótulos ausentes são preenchidos.

Como alternativa, para todos os pontos de dados atribuídos a um cluster, você pode substituir até mesmo os rótulos existentes, usando um único rótulo que melhor represente o cluster. Para entender como essa opção é útil, imagine que você esteja usando dados de imagem com rótulos muito detalhados, como diferentes de cachorro. Usando essa opção, você pode substituir todos os rótulos detalhados por um único rótulo de categoria, "cachorro".

Valores de semente no log

O arquivo de log gerado pelo módulo treinar modelo de clustering é exibido para indicar que a mesma semente é usada para todas as iterações do algoritmo de clustering K-means, independentemente da semente fornecida na propriedade semente aleatória .

Na verdade, a implementação usa a semente fornecida pelo usuário para gerar uma sequência de números aleatórios que são diferentes para cada execução. Portanto, apenas uma semente é necessária para criar todos os números gerados aleatoriamente.

A intenção do log é indicar qual semente o módulo usa quando o usuário não especifica uma semente no painel Propriedades .

Entradas esperadas

Nome Tipo Descrição
Modelo não treinado Interface ICluster Modelo de clustering não treinado
Dataset Tabela de Dados Fonte de dados de entrada

Parâmetros do módulo

Nome Type Valores Opcional Padrão Descrição
Métrica para medir o resultado de clustering Métrica de cluster Silhueta simplificada, Davies-Bouldin, Dunn, desvio médio Obrigatório Silhueta simplificada Selecione a métrica usada para avaliar modelos de regressão
Especifique o modo de varredura de parâmetro Métodos de varredura Toda a grade ou limpeza aleatória Obrigatório Varredura aleatória Varre toda a grade no espaço de parâmetro ou varre usando um número limitado de execuções de exemplo
Conjunto de colunas ColumnSelection Obrigatório Padrão de seleção de coluna
Número máximo de execuções de varredura aleatória Inteiro [1;10000] Disponível somente quando SweepingMode está definido para varredura aleatória 5 Definir o número máximo de execuções a serem executadas ao usar varredura aleatória
Propagação aleatória Inteiro Disponível somente quando SweepingMode está definido para varredura aleatória 0 Forneça um valor para propagar o gerador de números aleatórios para varredura aleatória
Marque para anexar ou desmarque para somente resultado Boolean Obrigatório True Selecione para indicar que o conjunto de dados de saída deve conter o conjunto de informações de entrada com a coluna atribuições anexada. Desmarque para indicar que apenas a coluna atribuições deve ser output.

Saídas

Nome Tipo Descrição
Melhor modelo treinado Interface ICluster Modelo de clustering treinado
Conjunto de dados de resultados Tabela de Dados Conjunto de dados de entrada anexado por coluna de dados de atribuições ou somente coluna de atribuições
Resultados da varredura Tabela de Dados Log de métrica resultante para execuções de limpeza de cluster

Exceções

Exceção Descrição
Erro 0003 Ocorrerá uma exceção se uma ou mais das entradas for nula ou estiver vazia.

para obter uma lista de erros específicos para módulos do Studio (clássicos), consulte Machine Learning códigos de erro.

para obter uma lista de exceções de api, consulte Machine Learning códigos de erro da api REST.

Confira também

Cluster K-Means
Atribuir Dados a Clusters
Machine Learning/treinar
Aprendizado de máquina / Inicializar modelo / Clustering