Avaliação de aplicações de IA generativa

Artigo
12/23/2024

Importante

Os itens marcados (visualização) neste artigo estão atualmente em visualização pública. Essa visualização é fornecida sem um contrato de nível de serviço e não a recomendamos para cargas de trabalho de produção. Algumas funcionalidades poderão não ser suportadas ou poderão ter capacidades limitadas. Para obter mais informações, veja Termos Suplementares de Utilização para Pré-visualizações do Microsoft Azure.

No cenário em rápida evolução da inteligência artificial, a integração das Operações de IA Generativas (GenAIOps) está transformando a forma como as organizações desenvolvem e implantam aplicativos de IA. À medida que as empresas dependem cada vez mais da IA para melhorar a tomada de decisões, melhorar as experiências dos clientes e impulsionar a inovação, a importância de uma estrutura de avaliação robusta não pode ser exagerada. A avaliação é um componente essencial do ciclo de vida da IA generativa para criar confiança em aplicações centradas em IA. Se não forem projetadas com cuidado, essas aplicações podem produzir resultados que são fabricados e sem fundamento no contexto, irrelevantes ou incoerentes, resultando em experiências ruins para os clientes ou, pior, perpetuam estereótipos sociais, promovem desinformação, expõem as organizações a ataques maliciosos ou uma ampla gama de outros impactos negativos.

Os avaliadores são ferramentas úteis para avaliar a frequência e a gravidade dos riscos de conteúdo ou comportamento indesejável em respostas de IA. A realização de avaliações iterativas e sistemáticas com os avaliadores certos pode ajudar as equipas a medir e abordar potenciais preocupações de qualidade de resposta, segurança ou proteção ao longo do ciclo de vida de desenvolvimento da IA, desde a seleção inicial do modelo até à monitorização pós-produção. Avaliação dentro da produção do GenAI Ops Lifecycle .

Ao compreender e implementar estratégias de avaliação eficazes em cada estágio, as organizações podem garantir que suas soluções de IA não apenas atendam às expectativas iniciais, mas também se adaptem e prosperem em ambientes do mundo real. Vamos mergulhar em como a avaliação se encaixa nos três estágios críticos do ciclo de vida da IA

Seleção do modelo de base

O primeiro estágio do ciclo de vida da IA envolve a seleção de um modelo base apropriado. Os modelos de IA generativa variam amplamente em termos de capacidades, pontos fortes e limitações, por isso é essencial identificar qual modelo melhor se adapta ao seu caso de uso específico. Durante a avaliação do modelo base, você "compra" para comparar diferentes modelos, testando suas saídas em relação a um conjunto de critérios relevantes para sua aplicação.

As principais considerações nesta fase podem incluir:

Precisão/qualidade: Até que ponto o modelo gera respostas relevantes e coerentes?
Desempenho em tarefas específicas: o modelo pode lidar com o tipo de prompts e conteúdo necessários para seu caso de uso? Como é a sua latência e custo?
Preconceitos e considerações éticas: o modelo produz resultados que possam perpetuar ou promover estereótipos prejudiciais?
Risco e segurança: Existem riscos de o modelo gerar conteúdo inseguro ou malicioso?

Você pode explorar os benchmarks doAzure AI Foundry para avaliar e comparar modelos em conjuntos de dados disponíveis publicamente, ao mesmo tempo em que regenera os resultados de benchmark em seus próprios dados. Como alternativa, você pode avaliar um dos muitos modelos de IA generativa de base por meio do SDK de Avaliação de IA do Azure, conforme demonstrado, consulte Exemplo de pontos de extremidade de modelo de avaliação.

Avaliação pré-produção

Depois de selecionar um modelo base, o próximo passo é desenvolver um aplicativo de IA — como um chatbot alimentado por IA, um aplicativo de geração aumentada de recuperação (RAG), um aplicativo de IA agentic ou qualquer outra ferramenta de IA generativa. Após o desenvolvimento, inicia-se a avaliação da pré-produção. Antes de implantar o aplicativo em um ambiente de produção, testes rigorosos são essenciais para garantir que o modelo esteja realmente pronto para uso no mundo real.

A avaliação pré-produção envolve:

Teste com conjuntos de dados de avaliação: esses conjuntos de dados simulam interações realistas do usuário para garantir que o aplicativo de IA tenha o desempenho esperado.
Identificação de casos de borda: Encontrar cenários em que a qualidade de resposta do aplicativo de IA pode degradar ou produzir saídas indesejáveis.
Avaliação da robustez: Garantir que o modelo possa lidar com uma gama de variações de entrada sem quedas significativas na qualidade ou segurança.
Medição de métricas-chave: métricas como fundamentação da resposta, relevância e segurança são avaliadas para confirmar a prontidão para a produção.

A etapa de pré-produção atua como uma verificação final de qualidade, reduzindo o risco de implantação de um aplicativo de IA que não atenda aos padrões de desempenho ou segurança desejados.

Traga seus próprios dados: você pode avaliar seus aplicativos de IA em pré-produção usando seus próprios dados de avaliação com os avaliadores suportados do Azure AI Foundry ou do SDK de Avaliação de IA do Azure, incluindo avaliadores de qualidade de geração, segurança ou personalizados, e exibir resultados por meio do portal do Azure AI Foundry.
Simuladores: Se você não tiver dados de avaliação (dados de teste), os simuladores do SDK de Avaliação do Azure AI podem ajudar gerando consultas relacionadas a tópicos ou adversárias. Esses simuladores testam a resposta do modelo a consultas apropriadas à situação ou semelhantes a ataques (casos de borda).
- O simulador adversarial injeta consultas que imitam potenciais ameaças à segurança ou tentam jailbreaks, ajudando a identificar limitações e preparando o modelo para condições inesperadas.
- Simuladores apropriados ao contexto geram conversas típicas e relevantes que você esperaria dos usuários para testar a qualidade das respostas.

Como alternativa, você também pode usar o widget de avaliação do Azure AI Foundry para testar seus aplicativos de IA generativa.

Uma vez que os resultados satisfatórios são alcançados, o aplicativo de IA pode ser implantado na produção.

Monitorização pós-produção

Após a implantação, o aplicativo de IA entra na fase de avaliação pós-produção, também conhecida como avaliação ou monitoramento on-line. Nesta fase, o modelo é incorporado dentro de um produto do mundo real e responde a consultas reais do usuário. O monitoramento garante que o modelo continue a se comportar conforme o esperado e se adapte a quaisquer alterações no comportamento ou no conteúdo do usuário.

Acompanhamento contínuo do desempenho: Medir regularmente a resposta do aplicativo de IA usando métricas-chave para garantir uma qualidade de saída consistente.
Resposta a incidentes: responder rapidamente a quaisquer saídas prejudiciais, injustas ou inadequadas que possam surgir durante o uso no mundo real.

Ao monitorar continuamente o comportamento do aplicativo de IA na produção, você pode manter experiências de usuário de alta qualidade e resolver rapidamente quaisquer problemas que surjam.

Conclusão

O GenAIOps tem tudo a ver com o estabelecimento de um processo confiável e repetível para gerenciar aplicativos de IA generativa em todo o seu ciclo de vida. A avaliação desempenha um papel vital em cada etapa, desde a seleção do modelo de base, passando pelos testes de pré-produção, até o monitoramento contínuo da pós-produção. Ao medir e abordar sistematicamente os riscos e refinar os sistemas de IA em cada etapa, as equipes podem criar soluções de IA generativas que não são apenas poderosas, mas também confiáveis e seguras para uso no mundo real.

Cheat sheet:

Propósito	Processo	Parâmetros
Para que está a avaliar?	Identificar ou construir avaliadores relevantes	- Qualidade e desempenho ( notebook de amostra de qualidade e desempenho) - Segurança e proteção (caderno de exemplo de segurança e proteção) - Personalizado (bloco de anotações de exemplo personalizado)
Que dados deve utilizar?	Carregar ou gerar conjunto de dados relevante	Simulador genérico para medir Qualidade e Desempenho (Notebook de amostra de simulador genérico) - Simulador adversarial para medição de segurança e proteção (notebook de amostra de simulador adversarial)
Que recursos devem conduzir a avaliação?	Executar avaliação	- Corrida local - Execução remota na nuvem
Qual foi o desempenho do meu modelo/aplicativo?	Analisar os resultados	Ver pontuações agregadas, ver detalhes, detalhes da pontuação, comparar execuções de avaliação
Como posso melhorar?	Fazer alterações no modelo, aplicativo ou avaliadores	- Se os resultados da avaliação não estiverem alinhados com o feedback humano, ajuste o seu avaliador. - Se os resultados da avaliação estiverem alinhados com o feedback humano, mas não atingirem os limites de qualidade/segurança, aplique mitigações direcionadas.

Partilhar via

Avaliação de aplicações de IA generativa

Seleção do modelo de base

Avaliação pré-produção

Monitorização pós-produção

Conclusão

Comentários

Recursos adicionais

Partilhar via

Avaliação de aplicações de IA generativa

Seleção do modelo de base

Avaliação pré-produção

Monitorização pós-produção

Conclusão

Conteúdos relacionados

Comentários

Recursos adicionais