Compartilhar via


Métricas de avaliação e monitoramento para IA generativa

Importante

Alguns dos recursos descritos nesse artigo podem estar disponíveis apenas na versão prévia. Essa versão prévia é fornecida sem um contrato de nível de serviço e não recomendamos isso para cargas de trabalho de produção. Alguns recursos podem não ter suporte ou podem ter restrição de recursos. Para obter mais informações, consulte Termos de Uso Complementares de Versões Prévias do Microsoft Azure.

O Estúdio de IA do Azure permite avaliar conversas com rodada única ou conversas complexas com várias rodadas, embasando o modelo de IA generativa em seus dados específicos. Esse processo também é conhecido como RAG (Geração Aumentada de Recuperação). Você também pode avaliar cenários gerais de resposta a perguntas de rodada única, em que nenhum contexto é usado para aterrar seu modelo de IA generativa (não RAG). No momento, há suporte a métricas internas para os seguintes tipos de tarefa:

Respostas às perguntas (única rodada)

Nesta configuração, os usuários fazem perguntas ou solicitações individuais e um modelo de IA generativa é empregado para gerar respostas instantaneamente.

O formato do conjunto de testes segue este formato de dados:

{"question":"Which tent is the most waterproof?","context":"From our product list, the Alpine Explorer tent is the most waterproof. The Adventure Dining Table has higher weight.","answer":"The Alpine Explorer Tent is the most waterproof.","ground_truth":"The Alpine Explorer Tent has the highest rainfly waterproof rating at 3000m"} 

Observação

Os campos "contexto" e "verdade básica" são opcionais e as métricas com suporte dependem dos campos fornecidos

Conversa (com rodada única e com várias rodadas)

Nesse contexto, os usuários se envolvem em interações de conversa, por meio de uma série de rodadas ou em uma única troca. O modelo de IA generativa, equipado com mecanismos de recuperação, não só gera respostas, mas também tem a capacidade de acessar e incorporar informações de fontes externas, como documentos. O modelo de RAG (Geração Aumentada de Recuperação) aprimora a qualidade e a relevância das respostas usando documentos e conhecimentos externos.

O formato do conjunto de testes segue este formato de dados:

{"messages":[{"role":"user","content":"How can I check the status of my online order?"},{"content":"Hi Sarah Lee! To check the status of your online order for previous purchases such as the TrailMaster X4 Tent or the CozyNights Sleeping Bag, please refer to your email for order confirmation and tracking information. If you need further assistance, feel free to contact our customer support at support@contosotrek.com or give us a call at 1-800-555-1234.
","role":"assistant","context":{"citations":[{"id":"cHJvZHVjdF9pbmZvXzYubWQz","title":"Information about product item_number: 6","content":"# Information about product item_number: 6\n\nIt's essential to check local regulations before using the EcoFire Camping Stove, as some areas may have restrictions on open fires or require a specific type of stove.\n\n30) How do I clean and maintain the EcoFire Camping Stove?\n   To clean the EcoFire Camping Stove, allow it to cool completely, then wipe away any ash or debris with a brush or cloth. Store the stove in a dry place when not in use."}]}}]}

Métricas com suporte

Conforme descrito nos métodos para avaliar modelos de linguagem grandes, há abordagens manuais e automatizadas para medição. A medida automatizada é útil para medição em escala com cobertura maior a fim de fornecer resultados mais abrangentes. Ela também é útil para medida contínua a fim de monitorar qualquer regressão à medida que o sistema, o uso e as mitigações evoluem.

Há suporte a dois métodos principais para a medida automatizada do aplicativo de IA gerativa:

  • Métricas tradicionais de aprendizado de máquina
  • Métricas assistidas por IA

As métricas assistidas por IA utilizam modelos de linguagem como o GPT-4 para avaliar o conteúdo gerado pela IA, especialmente em situações em que as respostas esperadas não estão disponíveis devido à ausência de uma verdade básica definida. As métricas tradicionais de aprendizado de máquina, como a medida F, medem a precisão e o recall entre as respostas geradas por IA e as respostas previstas.

Nossas métricas assistidas por IA avaliam a segurança e a qualidade do conteúdo gerado por aplicativos de IA generativa. Essas métricas se enquadram em duas categorias distintas:

  • Métricas de risco e de segurança:

    Essas métricas se concentram em identificar possíveis riscos e garantir a segurança do conteúdo gerado.

    Elas incluem:

    • Taxa de defeitos de conteúdo de ódio e injusto
    • Taxa de defeitos de conteúdo sexual
    • Taxa de defeitos de conteúdo violento
    • Taxa de defeitos de conteúdo relacionado à automutilação
    • Taxa de defeitos de jailbreak
  • Métricas de qualidade de geração:

    Essas métricas avaliam a qualidade geral e a coerência do conteúdo gerado.

    Elas incluem:

    • Coerência
    • Fluência
    • Fundamentação
    • Relevância
    • Pontuação de recuperação
    • Similaridade

Há suporte às seguintes métricas assistidas por IA para os tipos de tarefa acima:

Tipo de tarefa Somente perguntas e respostas geradas (não é necessário contexto ou verdade básica) Pergunta e respostas geradas + contexto Pergunta e respostas geradas + contexto + verdade básica
Respostas às perguntas - Métricas de risco e de segurança (todas assistidas por IA): taxa de defeitos de conteúdo de ódio e injusto, de conteúdo sexual, de conteúdo violento, de conteúdo relacionado à automutilação e de jailbreak
- Métricas de qualidade de geração (todas assistidas por IA): coerência e fluência
Métricas de coluna anterior
+
Métricas de qualidade de geração (todas assistidas por IA):
- Fundamentação
- Relevância
Métricas de coluna anterior
+
Métricas de qualidade de geração:
Similaridade (assistida por IA)
Medida F (métrica de ML tradicional)
Conversa - Métricas de risco e de segurança (todas assistidas por IA): taxa de defeitos de conteúdo de ódio e injusto, de conteúdo sexual, de conteúdo violento, de conteúdo relacionado à automutilação e de jailbreak
- Métricas de qualidade de geração (todas assistidas por IA): coerência e fluência
Métricas de coluna anterior
+
Métricas de qualidade de geração (todas assistidas por IA):
- Fundamentação
- Pontuação de recuperação
N/D

Observação

Embora seja fornecido um conjunto abrangente de métricas integradas que tornam mais fácil e eficiente a avaliação da qualidade e da segurança do aplicativo de IA generativa, é uma melhor prática adaptá-las e personalizá-las para seus tipos de tarefas específicos. Além disso, capacitamos você a introduzir métricas totalmente novas, para que meça seus aplicativos de novos ângulos e garanta o alinhamento com seus objetivos exclusivos.

Métricas de risco e de segurança

As métricas de risco e de segurança se baseiam em insights obtidos de nossos projetos anteriores de modelo de linguagem grande, como o GitHub Copilot e o Bing. Isso garante uma abordagem abrangente para avaliar as respostas geradas com relação a pontuações de severidade de risco e de segurança. Essas métricas são geradas por meio do nosso serviço de avaliação de segurança, que emprega um conjunto de LLMs. Cada modelo tem a tarefa de avaliar riscos específicos que podem estar presentes na resposta (por exemplo, conteúdo sexual, conteúdo violento etc.). Esses modelos são fornecidos com definições de risco e escalas de severidade e anotam as conversas geradas de acordo com isso. No momento, calculamos uma “taxa de defeitos” para as métricas de risco e de segurança abaixo. Para cada uma dessas métricas, o serviço mede se esses tipos de conteúdo foram detectados e com que nível de severidade. Cada um dos quatro tipos tem quatro níveis de gravidade (muito baixo, baixo, médio, alto). Os usuários especificam um limite de tolerância e as taxas de defeitos produzidas pelo serviço correspondem ao número de instâncias que foram geradas em cada nível de limite e acima.

Tipos de conteúdo:

  • Conteúdo de ódio e injusto
  • Conteúdo sexual
  • Conteúdo violento
  • Conteúdo relacionado à automutilação

Além dos tipos de conteúdo acima, também há suporte à “taxa de defeitos de jailbreak” em uma exibição comparativa entre avaliações, uma métrica que mede a prevalência de jailbreaks em respostas de modelo. Os jailbreaks ocorrem quando uma resposta de modelo ignora as restrições impostas a ele. Eles também ocorrem quando um LLM se desvia da tarefa ou do tópico pretendido.

Você pode medir essas métricas de risco e de segurança nos seus próprios dados ou conjunto de dados de teste. Em seguida, é possível avaliar esse conjunto de dados de teste simulado para gerar um conjunto de dados de teste anotado com níveis de severidade de risco de conteúdo (muito baixo, baixo, médio ou alto) e exibir os resultados na IA do Azure, a fim de obter uma taxa geral de defeitos em todo o conjunto de dados de teste e uma exibição de instância de cada rótulo de risco de conteúdo e raciocínio.

Ao contrário de outras métricas na tabela, a vulnerabilidade de jailbreak não pode ser medida de modo confiável com a anotação de um LLM. No entanto, a vulnerabilidade de jailbreak pode ser medida pela comparação de dois conjuntos de dados automatizados diferentes: (1) conjunto de dados de risco de conteúdo vs. (2) conjunto de dados de risco de conteúdo, com injeções de jailbreak no primeiro turno. Em seguida, o usuário avalia a vulnerabilidade de jailbreak comparando as duas taxas de defeitos de risco de conteúdo dos dois conjuntos de dados.

Observação

As métricas de segurança e de risco assistidas por IA são hospedadas pelo serviço de back-end de avaliações de segurança do Estúdio de IA do Azure e só estão disponíveis nas seguintes regiões: Leste dos EUA 2, França Central, Sul do Reino Unido, Suécia Central.

As regiões disponíveis têm a seguinte capacidade:

Region TPM
Suécia Central 450 mil
França Central 380 mil
Sul do Reino Unido 280 mil
Leste dos EUA 2 80.000

Definição de conteúdo de ódio e injusto e escala de severidade

Aviso

As definições de risco de conteúdo e as escalas de severidade contêm descrições que podem ser perturbadoras para alguns usuários.

Definição de conteúdo sexual e escala de severidade

Aviso

As definições de risco de conteúdo e as escalas de severidade contêm descrições que podem ser perturbadoras para alguns usuários.

Definição de conteúdo violento e escala de severidade

Aviso

As definições de risco de conteúdo e as escalas de severidade contêm descrições que podem ser perturbadoras para alguns usuários.

Aviso

As definições de risco de conteúdo e as escalas de severidade contêm descrições que podem ser perturbadoras para alguns usuários.

Métricas de qualidade de geração

As métricas de qualidade de geração são usadas para avaliar a qualidade geral do conteúdo produzido por aplicativos de IA generativa. Confira o seguinte detalhamento do que essas métricas implicam:

Assistido por IA: aterramento

Para fundamentação, fornecemos duas versões:

  • Detecção de fundamentação utilizando o serviço de AACS (Segurança de Conteúdo de IA do Azure) por meio da integração com as avaliações de segurança do Estúdio de IA do Azure. O usuário não preciso realizar nenhuma implantação porque um serviço de back-end fornecerá os modelos para a geração de uma pontuação e de um raciocínio. No momento, há suporte nas seguintes regiões: Leste dos EUA 2 e Suécia Central.
  • Fundamentação baseada somente em solicitação usando seus próprios modelos para gerar somente uma pontuação. No momento, há suporte em todas as regiões.

Fundamentação baseada em AACS

Características de pontuação Detalhes da pontuação
Intervalo de pontuação 1 a 5, em que 1 é “sem fundamentação” e 5 é “com fundamentação”
O que é essa métrica? Mede o nível de alinhamento das respostas geradas pelo modelo com as informações dos dados de origem (por exemplo, documentos recuperados em perguntas e respostas de RAG ou documentos para resumo) e gera raciocínios para frases geradas específicas que não são fundamentadas.
Como ele funciona? A Detecção de Fundamentação utiliza um modelo de linguagem personalizada do Serviço de Segurança de Conteúdo de IA do Azure ajustado para uma tarefa de processamento de linguagem natural chamado NLI (Inferência de Linguagem Natural), que avalia as declarações como implicadas ou não implicadas por um documento de origem. 
Quando usá-lo? Use a métrica de aterramento quando precisar verificar se as respostas geradas por IA se alinham e são validadas pelo contexto fornecido. É essencial para aplicativos em que a correção factual e a precisão contextual são fundamentais, como recuperação de informações, resposta a perguntas e resumo de conteúdo. Essa métrica garante que as respostas geradas por IA sejam bem compatíveis com o contexto.
O que ele precisa como entrada? Pergunta, contexto, resposta gerada

Fundamentação baseada somente em solicitação

Características de pontuação Detalhes da pontuação
Intervalo de pontuação 1 a 5, em que 1 é “sem fundamentação” e 5 é “com fundamentação”
O que é essa métrica? Mede o quão bem as respostas geradas pelo modelo se alinham às informações dos dados de origem (contexto definido pelo usuário).
Como funciona A medida de fundamentação avalia a correspondência entre as declarações em uma resposta gerada por IA e o contexto de origem, certificando-se de que essas declarações sejam fundamentadas pelo contexto. Mesmo que as respostas da LLM estejam factualmente corretas, elas serão consideradas sem base se não puderem ser verificadas em relação às fontes fornecidas (como sua fonte de entrada ou seu banco de dados).
Quando usá-lo? Use a métrica de aterramento quando precisar verificar se as respostas geradas por IA se alinham e são validadas pelo contexto fornecido. É essencial para aplicativos em que a correção factual e a precisão contextual são fundamentais, como recuperação de informações, resposta a perguntas e resumo de conteúdo. Essa métrica garante que as respostas geradas por IA sejam bem compatíveis com o contexto.
O que ele precisa como entrada? Pergunta, contexto, resposta gerada

Solicitação interna usada pelo juiz do modelo de linguagem grande para pontuar esta métrica:

You will be presented with a CONTEXT and an ANSWER about that CONTEXT. You need to decide whether the ANSWER is entailed by the CONTEXT by choosing one of the following rating: 

1. 5: The ANSWER follows logically from the information contained in the CONTEXT. 

2. 1: The ANSWER is logically false from the information contained in the CONTEXT. 

3. an integer score between 1 and 5 and if such integer score does not exist,  

use 1: It is not possible to determine whether the ANSWER is true or false without further information. 

Read the passage of information thoroughly and select the correct answer from the three answer labels. 

Read the CONTEXT thoroughly to ensure you know what the CONTEXT entails.  

Note the ANSWER is generated by a computer system, it can contain certain symbols, which should not be a negative factor in the evaluation. 

Assistido por IA: Relevância

Características de pontuação Detalhes da pontuação
Intervalo de pontuação Inteiro [1-5]: onde 1 é ruim e 5 é bom
O que é essa métrica? Avalia até que ponto as respostas geradas pelo modelo são pertinentes e diretamente relacionadas às perguntas fornecidas.
Como funciona A medida de relevância avalia a capacidade das respostas de capturar os pontos-chave do contexto. Pontuações de alta relevância sinalizam a compreensão do sistema de IA sobre a entrada e sua capacidade de produzir saídas coerentes e contextualmente apropriadas. Por outro lado, pontuações de baixa relevância indicam que as respostas geradas podem estar fora do tópico, sem contexto ou com contexto insuficiente para lidar com as consultas pretendidas pelo usuário.
Quando usá-lo? Use a métrica de relevância ao avaliar o desempenho do sistema de IA na compreensão da entrada e na geração de respostas contextualmente apropriadas.
O que ele precisa como entrada? Pergunta, contexto, resposta gerada

Solicitação interna usada pelo juiz do modelo de linguagem grande para pontuar esta métrica (para o formato de dados de respostas às perguntas):

Relevance measures how well the answer addresses the main aspects of the question, based on the context. Consider whether all and only the important aspects are contained in the answer when evaluating relevance. Given the context and question, score the relevance of the answer between one to five stars using the following rating scale: 

One star: the answer completely lacks relevance 

Two stars: the answer mostly lacks relevance 

Three stars: the answer is partially relevant 

Four stars: the answer is mostly relevant 

Five stars: the answer has perfect relevance 

This rating value should always be an integer between 1 and 5. So the rating produced should be 1 or 2 or 3 or 4 or 5. 

Solicitação interna usada pelo juiz do modelo de linguagem grande para pontuar esta métrica (para o formato de dados de conversa) (sem verdade básica disponível):

You will be provided a question, a conversation history, fetched documents related to the question and a response to the question in the {DOMAIN} domain. Your task is to evaluate the quality of the provided response by following the steps below:  
 
- Understand the context of the question based on the conversation history.  
 
- Generate a reference answer that is only based on the conversation history, question, and fetched documents. Don't generate the reference answer based on your own knowledge.  
 
- You need to rate the provided response according to the reference answer if it's available on a scale of 1 (poor) to 5 (excellent), based on the below criteria:  
 
5 - Ideal: The provided response includes all information necessary to answer the question based on the reference answer and conversation history. Please be strict about giving a 5 score.  
 
4 - Mostly Relevant: The provided response is mostly relevant, although it might be a little too narrow or too broad based on the reference answer and conversation history.  
 
3 - Somewhat Relevant: The provided response might be partly helpful but might be hard to read or contain other irrelevant content based on the reference answer and conversation history.  
 
2 - Barely Relevant: The provided response is barely relevant, perhaps shown as a last resort based on the reference answer and conversation history.  
 
1 - Completely Irrelevant: The provided response should never be used for answering this question based on the reference answer and conversation history.  
 
- You need to rate the provided response to be 5, if the reference answer can not be generated since no relevant documents were retrieved.  
 
- You need to first provide a scoring reason for the evaluation according to the above criteria, and then provide a score for the quality of the provided response.  
 
- You need to translate the provided response into English if it's in another language. 

- Your final response must include both the reference answer and the evaluation result. The evaluation result should be written in English.  

Solicitação interna usada pelo juiz do modelo de linguagem grande para pontuar esta métrica (para o formato de dados de conversa) (com verdade básica disponível):


Your task is to score the relevance between a generated answer and the question based on the ground truth answer in the range between 1 and 5, and please also provide the scoring reason.  
 
Your primary focus should be on determining whether the generated answer contains sufficient information to address the given question according to the ground truth answer.   
 
If the generated answer fails to provide enough relevant information or contains excessive extraneous information, then you should reduce the score accordingly.  
 
If the generated answer contradicts the ground truth answer, it will receive a low score of 1-2.   
 
For example, for question "Is the sky blue?", the ground truth answer is "Yes, the sky is blue." and the generated answer is "No, the sky is not blue.".   
 
In this example, the generated answer contradicts the ground truth answer by stating that the sky is not blue, when in fact it is blue.   
 
This inconsistency would result in a low score of 1-2, and the reason for the low score would reflect the contradiction between the generated answer and the ground truth answer.  
 
Please provide a clear reason for the low score, explaining how the generated answer contradicts the ground truth answer.  
 
Labeling standards are as following:  
 
5 - ideal, should include all information to answer the question comparing to the ground truth answer, and the generated answer is consistent with the ground truth answer  
 
4 - mostly relevant, although it might be a little too narrow or too broad comparing to the ground truth answer, and the generated answer is consistent with the ground truth answer  
 
3 - somewhat relevant, might be partly helpful but might be hard to read or contain other irrelevant content comparing to the ground truth answer, and the generated answer is consistent with the ground truth answer  
 
2 - barely relevant, perhaps shown as a last resort comparing to the ground truth answer, and the generated answer contradicts with the ground truth answer  
 
1 - completely irrelevant, should never be used for answering this question comparing to the ground truth answer, and the generated answer contradicts with the ground truth answer  

Assistido por IA: Coerência

Características de pontuação Detalhes da pontuação
Intervalo de pontuação Inteiro [1-5]: onde 1 é ruim e 5 é bom
O que é essa métrica? Avalia o quão bem o modelo de linguagem pode produzir resultados que fluem facilmente, são lidos naturalmente e se assemelham à linguagem humana.
Como funciona A medida de coerência avalia a capacidade do modelo de linguagem de gerar texto que lê naturalmente, flui suavemente e se assemelha à linguagem humana em suas respostas.
Quando usá-lo? Use-a ao testar a legibilidade e a facilidade de uso das respostas geradas pelo seu modelo em aplicativos do mundo real.
O que ele precisa como entrada? Pergunta, resposta gerada

Solicitação interna usada pelo juiz do modelo de linguagem grande para pontuar esta métrica:

Coherence of an answer is measured by how well all the sentences fit together and sound naturally as a whole. Consider the overall quality of the answer when evaluating coherence. Given the question and answer, score the coherence of answer between one to five stars using the following rating scale: 

One star: the answer completely lacks coherence 

Two stars: the answer mostly lacks coherence 

Three stars: the answer is partially coherent 

Four stars: the answer is mostly coherent 

Five stars: the answer has perfect coherency 

This rating value should always be an integer between 1 and 5. So the rating produced should be 1 or 2 or 3 or 4 or 5. 

Assistido por IA: Fluência

Características de pontuação Detalhes da pontuação
Intervalo de pontuação Inteiro [1-5]: onde 1 é ruim e 5 é bom
O que é essa métrica? Mede a proficiência gramatical da resposta prevista de uma IA generativa.
Como funciona A medida de fluência avalia até que ponto o texto gerado está em conformidade com regras gramaticais, estruturas sintáticas e uso adequado de vocabulário, resultando em respostas linguisticamente corretas.
Quando usá-lo? Use-a ao avaliar a qualidade linguística do texto gerado por IA, garantindo que ele adere a regras gramaticais adequadas, estruturas sintáticas e uso de vocabulário nas respostas geradas.
O que ele precisa como entrada? Pergunta, resposta gerada

Solicitação interna usada pelo juiz do modelo de linguagem grande para pontuar esta métrica:

Fluency measures the quality of individual sentences in the answer, and whether they are well-written and grammatically correct. Consider the quality of individual sentences when evaluating fluency. Given the question and answer, score the fluency of the answer between one to five stars using the following rating scale: 

One star: the answer completely lacks fluency 

Two stars: the answer mostly lacks fluency 

Three stars: the answer is partially fluent 

Four stars: the answer is mostly fluent 

Five stars: the answer has perfect fluency 

This rating value should always be an integer between 1 and 5. So the rating produced should be 1 or 2 or 3 or 4 or 5. 

Assistido por IA: Pontuação de recuperação

Características de pontuação Detalhes da pontuação
Intervalo de pontuação Float [1-5]: onde 1 é ruim e 5 é bom
O que é essa métrica? Mede até que ponto os documentos recuperados do modelo são pertinentes e diretamente relacionados às perguntas fornecidas.
Como funciona A pontuação de recuperação mede a qualidade e a relevância do documento recuperado para a pergunta do usuário (resumida em todo o histórico de conversas). Etapas: Etapa 1: Divida a consulta de usuário em intenções, extraia as intenções da consulta do usuário como "Quanto é a VM linux do Azure e a VM do Windows do Azure?" -> A intenção seria ["qual é o preço da VM linux do Azure?", "Qual é o preço da VM do Windows do Azure?"]. Etapa 2: Para cada intenção de consulta de usuário, peça ao modelo para avaliar se a intenção em si ou a resposta para a intenção está presente ou pode ser inferida de documentos recuperados. A resposta pode ser "Não" ou "Sim, documentos [doc1], [doc2]...". "Sim" significa que os documentos recuperados estão relacionados à intenção ou à resposta à intenção e vice-versa. Etapa 3: Calcule a fração das intenções que têm uma resposta começando com "Sim". Nesse caso, todas as intenções têm igual importância. Etapa 4: Por fim, ajuste a pontuação para penalizar os erros.
Quando usá-lo? Use a pontuação de recuperação quando quiser garantir que os documentos recuperados sejam altamente relevantes para responder às perguntas dos usuários. Essa pontuação ajuda a garantir a qualidade e a adequação do conteúdo recuperado.
O que ele precisa como entrada? Pergunta, contexto, resposta gerada

Solicitação interna usada pelo juiz do modelo de linguagem grande para pontuar esta métrica:

A chat history between user and bot is shown below 

A list of documents is shown below in json format, and each document has one unique id.  

These listed documents are used as contex to answer the given question. 

The task is to score the relevance between the documents and the potential answer to the given question in the range of 1 to 5.  

1 means none of the documents is relevant to the question at all. 5 means either one of the document or combination of a few documents is ideal for answering the given question. 

Think through step by step: 

- Summarize each given document first 

- Determine the underlying intent of the given question, when the question is ambiguous, refer to the given chat history  

- Measure how suitable each document to the given question, list the document id and the corresponding relevance score.  

- Summarize the overall relevance of given list of documents to the given question after # Overall Reason, note that the answer to the question can soley from single document or a combination of multiple documents.  

- Finally, output "# Result" followed by a score from 1 to 5.  

  

# Question 

{{ query }} 

# Chat History 

{{ history }} 

# Documents 

---BEGIN RETRIEVED DOCUMENTS--- 

{{ FullBody }} 

---END RETRIEVED DOCUMENTS--- 

Assistido por IA: GPT-Similarity

Características de pontuação Detalhes da pontuação
Intervalo de pontuação Inteiro [1-5]: onde 1 é ruim e 5 é bom
O que é essa métrica? Mede a similaridade entre uma frase de dados de origem (verdade básica) e a resposta gerada por um modelo de IA.
Como funciona A medida GPT-Similarity avalia a semelhança entre uma frase de verdade básica (ou documento) e a previsão gerada do modelo de IA. Esse cálculo envolve a criação de inserções no nível da sentença para a verdade básica e a previsão do modelo, que são representações de vetor de alta dimensão capturando o significado semântico e o contexto das frases.
Quando usá-lo? Use-a quando quiser uma avaliação objetiva do desempenho de um modelo de IA, especialmente em tarefas de geração de texto em que você tenha acesso às respostas de verdade básica. GPT-Similarity permite avaliar o alinhamento semântico do texto gerado com o conteúdo desejado, ajudando a medir a qualidade e a precisão do modelo.
O que ele precisa como entrada? Pergunta, resposta da verdade básica, resposta gerada

Solicitação interna usada pelo juiz do modelo de linguagem grande para pontuar esta métrica:

GPT-Similarity, as a metric, measures the similarity between the predicted answer and the correct answer. If the information and content in the predicted answer is similar or equivalent to the correct answer, then the value of the Equivalence metric should be high, else it should be low. Given the question, correct answer, and predicted answer, determine the value of Equivalence metric using the following rating scale: 

One star: the predicted answer is not at all similar to the correct answer 

Two stars: the predicted answer is mostly not similar to the correct answer 

Three stars: the predicted answer is somewhat similar to the correct answer 

Four stars: the predicted answer is mostly similar to the correct answer 

Five stars: the predicted answer is completely similar to the correct answer 

This rating value should always be an integer between 1 and 5. So the rating produced should be 1 or 2 or 3 or 4 or 5. 

Aprendizado de máquina tradicional: Pontuação F1

Características de pontuação Detalhes da pontuação
Intervalo de pontuação Float [0-1]
O que é essa métrica? Mede a proporção do número de palavras compartilhadas entre a previsão do modelo e a verdade básica.
Como funciona A pontuação F1 calcula a proporção do número de palavras compartilhadas entre a geração do modelo e a verdade básica. A proporção é calculada em relação às palavras individuais na resposta gerada em relação às que estão na resposta da verdade básica. O número de palavras compartilhadas entre a resposta gerada e a verdade é a base da pontuação F1: a precisão é a proporção do número de palavras compartilhadas para o número total de palavras da resposta gerada, e o recall é a proporção do número de palavras compartilhadas para o número total de palavras na verdade básica.
Quando usá-lo? Use a pontuação F1 quando quiser uma única métrica abrangente que combine recall e precisão nas respostas do modelo. Ela fornece uma avaliação equilibrada do desempenho do modelo em termos de captura de informações precisas na resposta.
O que ele precisa como entrada? Pergunta, resposta da verdade básica, resposta gerada

Próximas etapas