Interpretar resultados de modelos no Machine Learning Studio (clássico)
APLICA-SE A: Machine Learning Studio (clássico) Azure Machine Learning
Importante
O suporte para o Estúdio de ML (clássico) terminará a 31 de agosto de 2024. Recomendamos a transição para o Azure Machine Learning até essa data.
A partir de 1 de dezembro de 2021, não poderá criar novos recursos do Estúdio de ML (clássico). Até 31 de agosto de 2024, pode continuar a utilizar os recursos existentes do Estúdio de ML (clássico).
- Consulte informações sobre como mover projetos de aprendizado de máquina do ML Studio (clássico) para o Azure Machine Learning.
- Saiba mais sobre o Azure Machine Learning
A documentação do Estúdio de ML (clássico) está a ser descontinuada e poderá não ser atualizada no futuro.
Este tópico explica como visualizar e interpretar resultados de previsão no Machine Learning Studio (clássico). Depois de treinar um modelo e fazer previsões em cima dele ("pontuou o modelo"), você precisa entender e interpretar o resultado da previsão.
Existem quatro tipos principais de modelos de aprendizado de máquina no Machine Learning Studio (clássico):
- Classificação
- Clustering
- Regressão
- Sistemas de recomendação
Os módulos utilizados para a previsão em cima destes modelos são:
- Módulo de Modelo de Pontuação para classificação e regressão
- Atribuir ao módulo Clusters para clustering
- Recomendação Score Matchbox para sistemas de recomendação
Saiba como escolher parâmetros para otimizar seus algoritmos no ML Studio (clássico).
Para saber como avaliar seus modelos, consulte Como avaliar o desempenho do modelo.
Se você é novo no ML Studio (clássico), aprenda a criar um experimento simples.
Classificação
Existem duas subcategorias de problemas de classificação:
- Problemas com apenas duas classes (classificação binária ou de duas classes)
- Problemas com mais de duas classes (classificação multiclasses)
O Machine Learning Studio (clássico) tem módulos diferentes para lidar com cada um desses tipos de classificação, mas os métodos para interpretar seus resultados de previsão são semelhantes.
Classificação de duas classes
Exemplo de experiência
Um exemplo de um problema de classificação de duas classes é a classificação das flores da íris. A tarefa é classificar as flores da íris com base em suas características. O conjunto de dados Iris fornecido no Machine Learning Studio (clássico) é um subconjunto do popular conjunto de dados Iris contendo instâncias de apenas duas espécies de flores (classes 0 e 1). Existem quatro características para cada flor (comprimento da sépala, largura da sépala, comprimento da pétala e largura da pétala).
Figura 1. Experimento de problema de classificação de duas classes Iris
Foi realizada uma experiência para resolver este problema, como mostra a Figura 1. Um modelo de árvore de decisão impulsionada de duas classes foi treinado e pontuado. Agora você pode visualizar os resultados da previsão do módulo Modelo de pontuação clicando na porta de saída do módulo Modelo de pontuação e, em seguida, clicando em Visualizar.
Isso mostra os resultados da pontuação, conforme mostrado na Figura 2.
Figura 2. Visualizar um resultado de modelo de pontuação em classificação de duas classes
Interpretação dos resultados
Há seis colunas na tabela de resultados. As quatro colunas à esquerda são as quatro características. As duas colunas direitas, Rótulos Pontuados e Probabilidades Pontuadas, são os resultados da previsão. A coluna Probabilidades Pontuadas mostra a probabilidade de uma flor pertencer à classe positiva (Classe 1). Por exemplo, o primeiro número na coluna (0,028571) significa que há uma probabilidade de 0,028571 de que a primeira flor pertença à Classe 1. A coluna Rótulos pontuados mostra a classe prevista para cada flor. Isso é baseado na coluna Probabilidades Pontuadas. Se a probabilidade pontuada de uma flor for maior que 0,5, ela é prevista como Classe 1. Caso contrário, é previsto como Classe 0.
Publicação de serviços Web
Depois que os resultados da previsão tiverem sido compreendidos e julgados sólidos, o experimento pode ser publicado como um serviço Web para que você possa implantá-lo em vários aplicativos e chamá-lo para obter previsões de classe em qualquer nova flor da íris. Para saber como transformar um experimento de treinamento em um experimento de pontuação e publicá-lo como um serviço Web, consulte o Tutorial 3: Implantar modelo de risco de crédito. Este procedimento fornece um experimento de pontuação, conforme mostrado na Figura 3.
Figura 3. Pontuando o experimento de problema de classificação de duas classes da íris
Agora você precisa definir a entrada e saída para o serviço Web. A entrada é a porta de entrada correta do Score Model, que é a entrada de recursos da flor de Iris. A escolha do resultado depende se você está interessado na classe prevista (rótulo de pontuação), na probabilidade de pontuação ou em ambos. Neste exemplo, presume-se que você está interessado em ambos. Para selecionar as colunas de saída desejadas, use um módulo Selecionar colunas no conjunto de dados. Clique em Selecionar Colunas no Conjunto de Dados, clique em Iniciar seletor de colunas e selecione Rótulos Pontuados e Probabilidades Pontuadas. Depois de definir a porta de saída de Selecionar Colunas no Conjunto de Dados e executá-la novamente, você deve estar pronto para publicar o experimento de pontuação como um serviço Web clicando em PUBLISH WEB SERVICE. O experimento final se parece com a Figura 4.
Figura 4. Experiência de pontuação final de um problema de classificação de duas classes da íris
Depois de executar o serviço Web e inserir alguns valores de recurso de uma instância de teste, o resultado retorna dois números. O primeiro número é o rótulo pontuado, e o segundo é a probabilidade pontuada. Esta flor é prevista como Classe 1 com probabilidade de 0,9655.
Figura 5. Resultado do serviço Web da classificação de duas classes da íris
Classificação de várias classes
Exemplo de experiência
Neste experimento, você executa uma tarefa de reconhecimento de letras como um exemplo de classificação multiclasse. O classificador tenta prever uma determinada letra %28class%29 com base em alguns valores de atributos manuscritos extraídos das imagens manuscritas.
Nos dados de treinamento, há 16 recursos extraídos de imagens de cartas manuscritas. As 26 letras formam as nossas 26 classes. A Figura 6 mostra um experimento que treinará um modelo de classificação multiclasse para reconhecimento de letras e fará a previsão sobre o mesmo conjunto de recursos em um conjunto de dados de teste.
Figura 6. Experiência de problema de classificação multiclasse de reconhecimento de letras
Visualizando os resultados do módulo Score Model clicando na porta de saída do módulo Score Model e, em seguida, clicando em Visualizar, você verá o conteúdo como mostrado na Figura 7.
Figura 7. Visualize os resultados do modelo de pontuação em uma classificação de várias classes
Interpretação dos resultados
As 16 colunas à esquerda representam os valores de feição do conjunto de testes. As colunas com nomes como Probabilidades Pontuadas para a Classe "XX" são exatamente como a coluna Probabilidades Pontuadas no caso de duas classes. Eles mostram a probabilidade de que a entrada correspondente caia em uma determinada classe. Por exemplo, para a primeira entrada, há 0,003571 probabilidade de ser um "A", 0,000451 probabilidade de ser um "B" e assim por diante. A última coluna (Etiquetas Pontuadas) é a mesma que Etiquetas Pontuadas no caso de duas classes. Ele seleciona a classe com a maior probabilidade pontuada como a classe prevista da entrada correspondente. Por exemplo, para a primeira entrada, o rótulo pontuado é "F", uma vez que tem a maior probabilidade de ser um "F" (0,916995).
Publicação de serviços Web
Você também pode obter o rótulo de pontuação para cada entrada e a probabilidade do rótulo de pontuação. A lógica básica é encontrar a maior probabilidade entre todas as probabilidades pontuadas. Para fazer isso, você precisa usar o módulo Execute R Script . O código R é mostrado na Figura 8 e o resultado do experimento é mostrado na Figura 9.
Figura 8. Código R para extrair etiquetas pontuadas e as probabilidades associadas das etiquetas
Figura 9. Experiência de pontuação final do problema de classificação multiclasse de reconhecimento de letras
Depois de publicar e executar o serviço Web e inserir alguns valores de recurso de entrada, o resultado retornado se parece com a Figura 10. Esta carta manuscrita, com suas 16 características extraídas, está prevista para ser um "T" com probabilidade de 0,9715.
Figura 10. Resultado do serviço Web da classificação multiclasse
Regressão
Os problemas de regressão são diferentes dos problemas de classificação. Em um problema de classificação, você está tentando prever classes discretas, como a qual classe uma flor de íris pertence. Mas, como você pode ver no exemplo a seguir de um problema de regressão, você está tentando prever uma variável contínua, como o preço de um carro.
Exemplo de experiência
Use a previsão de preços de automóveis como seu exemplo para regressão. Você está tentando prever o preço de um carro com base em suas características, incluindo marca, tipo de combustível, tipo de carroceria e roda motriz. O experimento é mostrado na Figura 11.
Figura 11. Experimento de problemas de regressão de preços de automóveis
Visualizando o módulo Modelo de pontuação , o resultado se parece com a Figura 12.
Figura 12. Resultado de pontuação para o problema de previsão de preço do automóvel
Interpretação dos resultados
Rótulos pontuados é a coluna de resultados neste resultado de pontuação. Os números são o preço previsto para cada carro.
Publicação de serviços Web
Você pode publicar o experimento de regressão em um serviço Web e chamá-lo para previsão de preço de automóvel da mesma forma que no caso de uso de classificação de duas classes.
Figura 13. Experiência de pontuação de um problema de regressão de preços de automóveis
Executando o serviço Web, o resultado retornado se parece com a Figura 14. O preço previsto para este carro é $15,085.52.
Figura 14. Serviço Web resultado de um problema de regressão de preços de automóveis
Clustering
Exemplo de experiência
Vamos usar o conjunto de dados Iris novamente para criar um experimento de clustering. Aqui você pode filtrar os rótulos de classe no conjunto de dados para que ele tenha apenas recursos e possa ser usado para clustering. Neste caso de uso da íris, especifique o número de clusters para ser dois durante o processo de treinamento, o que significa que você agruparia as flores em duas classes. O experimento é mostrado na Figura 15.
Figura 15. Experimento de problema de agrupamento de íris
O agrupamento difere da classificação porque o conjunto de dados de treinamento não tem rótulos de verdade-base por si só. O clustering agrupa as instâncias do conjunto de dados de treinamento em clusters distintos. Durante o processo de treinamento, o modelo rotula as entradas aprendendo as diferenças entre suas características. Depois disso, o modelo treinado pode ser usado para classificar ainda mais as entradas futuras. Há duas partes do resultado que nos interessam dentro de um problema de agrupamento. A primeira parte é rotular o conjunto de dados de treinamento e a segunda é classificar um novo conjunto de dados com o modelo treinado.
A primeira parte do resultado pode ser visualizada clicando na porta de saída esquerda do Train Clustering Model e, em seguida, clicando em Visualizar. A visualização é mostrada na Figura 16.
Figura 16. Visualize o resultado do clustering para o conjunto de dados de treinamento
O resultado da segunda parte, agrupando novas entradas com o modelo de agrupamento treinado, é mostrado na Figura 17.
Figura 17. Visualize o resultado do clustering em um novo conjunto de dados
Interpretação dos resultados
Embora os resultados das duas partes provenham de diferentes estágios experimentais, eles parecem iguais e são interpretados da mesma maneira. As quatro primeiras colunas são características. A última coluna, Atribuições, é o resultado da previsão. Prevê-se que as entradas atribuídas ao mesmo número estejam no mesmo cluster, ou seja, compartilham semelhanças de alguma forma (este experimento usa a métrica de distância euclidiana padrão). Como você especificou o número de clusters como 2, as entradas em Atribuições são rotuladas como 0 ou 1.
Publicação de serviços Web
Você pode publicar o experimento de clustering em um serviço Web e chamá-lo para previsões de clustering da mesma forma que no caso de uso de classificação de duas classes.
Figura 18. Experiência de pontuação de um problema de agrupamento da íris
Depois de executar o serviço Web, o resultado retornado se parece com a Figura 19. Prevê-se que esta flor esteja no aglomerado 0.
Figura 19. Resultado do serviço Web da classificação de duas classes da íris
Sistema de recomendação
Exemplo de experiência
Para sistemas de recomendação, você pode usar o problema de recomendação de restaurantes como exemplo: você pode recomendar restaurantes para clientes com base em seu histórico de avaliações. Os dados de entrada consistem em três partes:
- Avaliações de restaurantes dos clientes
- Dados de recursos do cliente
- Restaurant feature data
Há várias coisas que podemos fazer com o módulo Train Matchbox Recommender no Machine Learning Studio (clássico):
- Prever classificações para um determinado usuário e item
- Recomendar itens a um determinado utilizador
- Encontrar utilizadores relacionados com um determinado utilizador
- Localizar itens relacionados a um determinado item
Você pode escolher o que deseja fazer selecionando entre as quatro opções no menu Tipo de previsão de recomendação. Aqui você pode percorrer todos os quatro cenários.
Um experimento típico do Machine Learning Studio (clássico) para um sistema de recomendação se parece com a Figura 20. Para obter informações sobre como usar esses módulos do sistema de recomendação, consulte Train matchbox recommender e Score matchbox recommender.
Figura 20. Experiência do sistema de recomendação
Interpretação dos resultados
Prever classificações para um determinado usuário e item
Ao selecionar Previsão de classificação em Tipo de previsão de recomendação, você está pedindo ao sistema de recomendação para prever a classificação de um determinado usuário e item. A visualização da saída Score Matchbox Recommender se parece com a Figura 21.
Figura 21. Visualize o resultado da pontuação do sistema de recomendação - previsão de classificação
As duas primeiras colunas são os pares usuário-item fornecidos pelos dados de entrada. A terceira coluna é a classificação prevista de um usuário para um determinado item. Por exemplo, na primeira linha, prevê-se que o cliente U1048 classifique os 135026 do restaurante como 2.
Recomendar itens a um determinado utilizador
Ao selecionar Recomendação de item em Tipo de previsão de recomendação, você está solicitando ao sistema de recomendação para recomendar itens a um determinado usuário. O último parâmetro a ser escolhido neste cenário é Seleção de item recomendado. A opção De Itens Avaliados (para avaliação de modelo) é principalmente para avaliação de modelo durante o processo de treinamento. Para esta etapa de previsão, escolhemos De Todos os Itens. A visualização da saída Score Matchbox Recommender se parece com a Figura 22.
Figura 22. Visualize o resultado da pontuação do sistema de recomendação - recomendação de item
A primeira das seis colunas representa os IDs de usuário fornecidos para os quais recomendar itens, conforme fornecido pelos dados de entrada. As outras cinco colunas representam os itens recomendados ao usuário em ordem decrescente de relevância. Por exemplo, na primeira linha, o restaurante mais recomendado para o cliente U1048 é o 134986, seguido por 135018, 134975, 135021 e 132862.
Encontrar utilizadores relacionados com um determinado utilizador
Ao selecionar Usuários Relacionados em Tipo de previsão de recomendação, você está solicitando ao sistema de recomendação para encontrar usuários relacionados a um determinado usuário. Os utilizadores relacionados são os utilizadores que têm preferências semelhantes. O último parâmetro a ser escolhido neste cenário é Seleção de usuário relacionado. A opção De usuários que classificaram itens (para avaliação de modelo) é principalmente para avaliação de modelo durante o processo de treinamento. Escolha Entre Todos os usuários para este estágio de previsão. A visualização da saída Score Matchbox Recommender se parece com a Figura 23.
Figura 23. Visualize os resultados da pontuação dos usuários relacionados ao sistema de recomendação
A primeira das seis colunas mostra os IDs de usuário necessários para encontrar usuários relacionados, conforme fornecido pelos dados de entrada. As outras cinco colunas armazenam os usuários relacionados previstos do usuário em ordem decrescente de relevância. Por exemplo, na primeira linha, o cliente mais relevante para o cliente U1048 é U1051, seguido por U1066, U1044, U1017 e U1072.
Localizar itens relacionados a um determinado item
Ao selecionar Itens relacionados em Tipo de previsão de recomendação, você está solicitando ao sistema de recomendação para encontrar itens relacionados a um determinado item. Itens relacionados são os itens com maior probabilidade de serem curtidos pelo mesmo usuário. O último parâmetro a ser escolhido neste cenário é Seleção de item relacionado. A opção De Itens Avaliados (para avaliação de modelo) é principalmente para avaliação de modelo durante o processo de treinamento. Escolhemos Entre Todos os Itens para esta etapa de previsão. A visualização da saída Score Matchbox Recommender se parece com a Figura 24.
Figura 24. Visualize os resultados da pontuação dos itens relacionados ao sistema de recomendação
A primeira das seis colunas representa os IDs de item necessários para localizar itens relacionados, conforme fornecido pelos dados de entrada. As outras cinco colunas armazenam os itens relacionados previstos do item em ordem decrescente em termos de relevância. Por exemplo, na primeira linha, o item mais relevante para o item 135026 é 135074, seguido por 135035, 132875, 135055 e 134992.
Publicação de serviços Web
O processo de publicação desses experimentos como serviços Web para obter previsões é semelhante para cada um dos quatro cenários. Aqui tomamos o segundo cenário (recomendar itens a um determinado usuário) como exemplo. Você pode seguir o mesmo procedimento com os outros três.
Salvando o sistema de recomendação treinado como um modelo treinado e filtrando os dados de entrada para uma única coluna de ID de usuário, conforme solicitado, você pode conectar o experimento como na Figura 25 e publicá-lo como um serviço Web.
Figura 25. Experiência de pontuação do problema de recomendação de restaurante
Executando o serviço Web, o resultado retornado se parece com a Figura 26. Os cinco restaurantes recomendados para o usuário U1048 são 134986, 135018, 134975, 135021 e 132862.
Figura 26. Resultado do serviço Web do problema de recomendação do restaurante