Monitorar descrições de métricas de avaliação e casos de uso

Artigo
09/14/2023

Neste artigo, você aprenderá sobre as métricas usadas ao monitorar e avaliar modelos de IA generativa no Azure Machine Learning e as melhores práticas para usar o monitoramento de modelo de IA generativa.

Importante

No momento, o monitoramento está em versão prévia pública. Essa versão prévia é fornecida sem um contrato de nível de serviço e não é recomendada para cargas de trabalho de produção. Alguns recursos podem não ter suporte ou podem ter restrição de recursos. Para obter mais informações, consulte Termos de Uso Complementares de Versões Prévias do Microsoft Azure.

O monitoramento de modelos acompanha o desempenho do modelo em produção e se concentra em compreendê-lo do ponto de vista operacional e da ciência de dados. Para implementar o monitoramento, o Azure Machine Learning usa sinais de monitoramento adquiridos por meio da análise de dados em dados transmitidos. Cada sinal de monitoramento tem uma ou mais métricas. Você pode definir limites para essas métricas a fim de receber alertas via Azure Machine Learning ou Azure Monitor sobre anomalias de modelos ou dados.

Fundamentação

A fundamentação avalia o quanto as respostas geradas pelo modelo se alinham com as informações da fonte de entrada. As respostas são verificadas como declarações em relação ao contexto na fonte de verdade fundamentada definida pelo usuário: mesmo que as respostas sejam verdadeiras (factualmente corretas), se não forem verificáveis em relação ao texto de origem, elas serão pontuadas como sem fundamentos. Respostas verificadas como declarações em relação ao "contexto" na fonte de verdade fundamentada (como sua fonte de entrada ou banco de dados).

Use isso quando: você está preocupado com a possibilidade de seu aplicativo gerar informações que não estão incluídas como parte do conhecimento treinado da sua IA generativa (também conhecidas como informações não verificáveis).|
Como ler isso: se as respostas do modelo forem altamente fundamentadas, isso indica que os fatos abordados nas respostas do sistema de IA são verificáveis pela fonte de entrada ou pelo banco de dados interno. Por outro lado, pontuações baixas de fundamentação sugerem que os fatos mencionados nas respostas do sistema de IA possivelmente não são adequadamente comprovados ou verificáveis pela fonte de entrada ou pelo banco de dados interno. Nesses casos, as respostas geradas pelo modelo podem ser basear apenas em seu conhecimento pré-treinado, que pode não estar alinhado com o contexto ou domínio específico da entrada fornecida
Dimensionar:
- 1 = "não fundamentado": sugere que as respostas não podem ser verificadas pela fonte de entrada ou pelo banco de dados interno.
- 5 = "fundamentação perfeita" sugere que os fatos abordados nas respostas do sistema de IA podem ser verificadas pela fonte de entrada ou pelo banco de dados interno.

Relevância

A métrica de relevância mede o grau em que as respostas geradas pelo modelo são pertinentes e diretamente relacionadas às perguntas fornecidas. Quando os usuários interagem com um modelo de IA generativa, eles fazem perguntas ou solicitações de entrada, esperando respostas significativas e contextualmente corretas.

Use isso quando: você deseja obter alta relevância para as respostas do seu aplicativo para aprimorar a experiência do usuário e a utilidade de seus sistemas de IA generativa.
Como ler isso: as respostas são pontuadas de acordo com a capacidade de capturar os pontos principais da pergunta do contexto na fonte de verdade fundamentada. Se as respostas do modelo forem altamente relevantes, isso indica que o sistema de IA compreende os dados de entrada e pode produzir resultados coerentes e contextualmente corretos. Por outro lado, pontuações baixas de relevância sugerem que as respostas geradas podem estar descontextualizadas ou não atender adequadamente às consultas desejadas pelo usuário.  
Dimensionar:
- 1 = "irrelevante" sugere que as respostas geradas podem estar descontextualizadas ou não atender adequadamente às consultas desejadas pelo usuário.  
- 5 = "relevância perfeita" sugere resultados contextualmente adequados.

Coerência

A coerência avalia o quão bem o modelo de linguagem pode produzir resultados que fluem facilmente, são lidos naturalmente e se assemelham à linguagem humana. Até que ponto o bot comunica suas mensagens de forma breve e clara, usando uma linguagem simples e adequada e evitando informações desnecessárias ou confusas? É fácil é para o usuário entender e seguir as respostas do bot e até que ponto elas atendem às necessidades e expectativas do usuário?

Use isso quando: você deseja testar a legibilidade e a facilidade de uso das respostas geradas pelo seu modelo em aplicativos do mundo real.
Como ler isso: se as respostas do modelo forem altamente coerentes, isso indica que o sistema de IA gera um texto contínuo e bem estruturado com transições fluidas. Um contexto coerente em todo o texto aumenta a legibilidade e a compreensão. A baixa coerência significa que a qualidade das frases na resposta prevista de um modelo é ruim e não se encaixa naturalmente. O texto gerado pode não ter um fluxo lógico e as frases podem parecer desconexas, o que dificulta a compreensão do contexto geral ou da mensagem esperada pelos leitores. As respostas são pontuadas de acordo com sua clareza, brevidade, linguagem adequada e capacidade de atender às necessidades e expectativas definidas do usuário
Dimensionar:
- 1 = "incoerente": sugere que a qualidade das frases na resposta prevista de um modelo é ruim e não se encaixa naturalmente. O texto gerado pode não ter um fluxo lógico e as frases podem parecer desconexas, o que dificulta a compreensão do contexto geral ou da mensagem esperada pelos leitores.
- 5 = "perfeitamente coerente": sugere que o sistema de IA gera um texto uniforme e bem estruturado com transições fluidas e contexto consistente em todo o texto, o que melhora a legibilidade e a compreensão.

Fluência

A fluência avalia a proficiência linguística da resposta prevista de uma IA generativa. Ela avalia a adequação do texto gerado às regras gramaticais, às estruturas sintáticas e ao uso adequado do vocabulário, resultando em respostas linguisticamente corretas e naturais. As respostas são medidas pela qualidade das frases individuais e se elas estão bem escritas e gramaticalmente corretas. Essa métrica é essencial para avaliar a capacidade do modelo de linguagem em produzir textos que respeitem o uso adequado da gramática, da sintaxe e do vocabulário.

Use isso quando: você desejar avaliar a precisão gramatical e linguística das respostas previstas da IA generativa.
Como ler isso: se as respostas do modelo forem altamente coerentes, isso indica que o sistema de IA segue regras gramaticais e usa um vocabulário adequado. Um contexto coerente em todo o texto aumenta a legibilidade e a compreensão. Por outro lado, pontuações de fluência baixas indicam problemas com erros gramaticais e frases estranhas, tornando o texto menos adequado para aplicações práticas.  
Dimensionar:
- 1 = "instável" problemas com erros gramaticais e frases estranhas, tornando o texto menos adequado para aplicações práticas.  
- 5 = "fluência perfeita" sugere que o sistema de IA segue as regras gramaticais e usa um vocabulário adequado. Um contexto coerente em todo o texto aumenta a legibilidade e a compreensão.

Similaridade

A similaridade quantifica a similaridade entre uma frase (ou documentos) verdadeira e a frase de previsão gerada por um modelo de IA. Ela é calculada primeiro computando as incorporações no nível da frase tanto para a verdade fundamentada quanto para a previsão do modelo. Essas incorporações são representações vetoriais de alta dimensão das frases, capturando seu significado semântico e contexto.

Use isso quando: você desejar avaliar objetivamente o desempenho de um modelo de IA (para tarefas de geração de texto em que você tem acesso às respostas verdadeiras desejadas). A similaridade Ada permite comparar o texto gerado com o conteúdo desejado.
Como ler isso: as respostas são pontuadas quanto à equivalência com a resposta verdadeira, capturando as mesmas informações e significado que a resposta verdadeira para a pergunta em questão. Uma alta pontuação de similaridade Ada sugere que a previsão do modelo é contextualmente semelhante à verdade fundamentada, indicando resultados precisos e relevantes. Por outro lado, uma baixa pontuação de similaridade Ada sugere uma incompatibilidade ou divergência entre a previsão e a verdade fundamentada, possivelmente sinalizando imprecisões ou deficiências no desempenho do modelo.
Dimensionar:
- 1 = "sem equivalência" sugere uma incompatibilidade ou divergência entre a previsão e a verdade fundamentada, possivelmente sinalizando imprecisões ou deficiências no desempenho do modelo.
- 5 = "equivalência perfeita" sugere que a previsão do modelo é contextualmente semelhante à verdade fundamentada, indicando resultados precisos e relevantes.

Compartilhar via