Compartilhar via


Princípios de design de cargas de trabalho de aplicativos inteligentes

A orientação sobre planejamento, desenvolvimento e manutenção de cargas de trabalho de aplicativos inteligentes baseia-se no Power Platform Well-Architected e em seus cinco pilares de excelência arquitetônica.

Pilar do Well-Architected Resumo
Confiabilidade Uma carga de trabalho de aplicativo inteligente requer resiliência na camada de arquitetura para garantir que os fluxos de trabalho e modelos de IA estejam altamente disponíveis e possam se recuperar rapidamente de falhas. Implemente mecanismos robustos de tratamento de erros. Uma arquitetura resiliente também mantém a integridade dos dados usados pelos modelos de IA, assegurando resultados consistentes e precisos.
Segurança Uma carga de trabalho de aplicativo inteligente geralmente trata dados confidenciais. Proteja dados confidenciais usados e gerados por modelos de IA. Implemente criptografia, controles de acesso e auditorias de segurança regulares. Certifique-se de que a carga de trabalho esteja em conformidade com os padrões de regulamentação relevantes, como RGPD (Regulamento Geral sobre a Proteção de Dados) e HIPAA (Health Insurance Portability and Accountability Act), para proteger a privacidade e os dados do usuário.
Eficiência de desempenho Uma carga de trabalho de aplicativo inteligente deve ser projetada para ser dimensionada perfeitamente com o aumento do volume de dados e das demandas do usuário. Identifique as principais métricas de desempenho e implemente o monitoramento para acompanhar o progresso em direção ao alcance das metas de desempenho da carga de trabalho. No contexto de cargas de trabalho de aplicativos inteligentes, o desempenho também considera o número de solicitações e interações que podem ser concluídas por meio do autoatendimento, o que, de outra forma, exigiria intervenção humana.
Excelência operacional Uma carga de trabalho de aplicativo inteligente requer monitoramento e registro abrangentes para rastrear o desempenho e a integridade de fluxos de trabalho, conversas e modelos de IA. O monitoramento ajuda a identificar e resolver problemas rapidamente. O pilar de Excelência Operacional recomenda o uso da automação para agilizar as operações, reduzir a intervenção manual e minimizar o risco de erro humano.
Otimização da experiência Uma carga de trabalho de aplicativo inteligente deve priorizar o design de conversa para garantir uma experiência amigável que permita que os usuários atinjam seus objetivos com o mínimo de esforço. O design deve levar em conta tópicos que a IA generativa não pode tratar e incorporar mecanismos de fallback. Também implemente mecanismos para coletar feedback do usuário e refinar continuamente os modelos de IA e a carga de trabalho com base nesse feedback.

Confiabilidade

Ao projetar uma carga de trabalho de aplicativo inteligente com o Power Platform, concentre-se na resiliência e na disponibilidade.

  • Resiliência é a capacidade de um sistema se recuperar de falhas e continuar a funcionar.
  • A Disponibilidade garante tempo de atividade ininterrupto. A alta disponibilidade minimiza o tempo de inatividade dos aplicativos e melhora a recuperação de incidentes.

A confiabilidade é importante no desenvolvimento de qualquer carga de trabalho, e a IA generativa não é exceção. Na verdade, há fatores exclusivos a serem considerados ao projetar cargas de trabalho de IA generativa. Reconhecer e enfatizar a resiliência é essencial para cargas de trabalho de IA generativa para garantir a disponibilidade organizacional e manter a continuidade dos negócios.

Falhas podem ocorrer na nuvem. Em vez de tentar evitar falhas completamente, seu objetivo deve ser reduzir os efeitos de um único componente com falha. Use as informações a seguir para reduzir o tempo de inatividade e garantir que as melhores práticas para alta disponibilidade sejam incorporadas à carga de trabalho do aplicativo inteligente:

  • Certifique-se de que a carga de trabalho possa tratar as falhas e continuar operando, mesmo que com funcionalidade reduzida. Identificar possíveis falhas e tornar o sistema resiliente, para tolerar e se recuperar dessas falhas.
  • Torne a carga de trabalho observável de forma que as equipes de desenvolvimento aprendam com as falhas. Identifique e resolva problemas rapidamente implementando mecanismos de monitoramento, registro em log e alerta.
  • Certifique-se de que a carga de trabalho possa ser dimensionada para lidar com cargas variadas, especialmente importante para cargas de trabalho de IA que podem ter demandas flutuantes.
  • Implemente mecanismos robustos de tratamento e recuperação de erros. Configure alertas automatizados para falhas no sistema e tenha um plano claro para recuperação rápida.
  • Valide a arquitetura e o dimensionamento de destino compreendendo os volumes de destino de mensagens de chat ou conversas. Os volumes de destino também ajudam a validar os aspectos de licenciamento do aplicativo inteligente e o efeito potencial no armazenamento do Dataverse para transcrições de conversas.

Para aplicativos inteligentes que usam recursos de IA generativa, pense não apenas a resiliência e a disponibilidade, mas também a confiabilidade e a precisão das respostas fornecidas pela carga de trabalho inteligente. Pense nas seguintes recomendações para cada consideração de design:

  • Otimizar para RAG (Geração Aumentada de Recuperação): garanta que seus dados estejam limpos e bem estruturados, crie incorporações e índices eficientes para recuperação rápida e implemente mecanismos avançados de monitoramento e feedback para melhorar continuamente o desempenho da carga de trabalho.
  • Prompts eficazes: crie prompts precisos e contextualmente relevantes para orientar a IA a produzir respostas precisas.
  • Avaliação regular: implemente monitoramento e teste contínuos dos resultados da IA para avaliar a precisão, a relevância e a adesão ética.
  • Loops de feedback: estabeleça mecanismos de comentários onde os usuários possam relatar imprecisões, que podem ser usados para refinar e melhorar os modelos. O Microsoft Copilot Studio fornece análises de satisfação do cliente, que fornecem insights acionáveis sobre fatores de satisfação ou insatisfação com as respostas do agente.
  • Treinamento específico de domínio: ajuste modelos em dados específicos de domínio para aumentar a precisão em contextos específicos.
  • Atualizações regulares: atualize periodicamente os modelos com novos dados para manter sua relevância e precisão.
  • Intenções não reconhecidas: manipule intenções não reconhecidas usando respostas generativas para localizar respostas de fontes de dados disponíveis e usando o Tópico de Fallback para integrar-se a outros sistemas.

Segurança

Em um modelo de responsabilidade compartilhada:

  • As organizações são as principais responsáveis pelo gerenciamento e operação de cargas de trabalho.
  • A Microsoft gerencia a segurança da infraestrutura subjacente, incluindo data centers, segurança de rede e medidas de segurança física e recursos de segurança integrados, como criptografia, gerenciamento de identidade e conformidade com os padrões do setor. Saiba mais em Segurança no Microsoft Power Platform e Segurança e governança do Copilot Studio.

Recomendamos que você avalie regularmente os serviços e as tecnologias para garantir que sua postura de segurança se adapte ao cenário de ameaças em evolução. Estabelecer uma compreensão clara do modelo de responsabilidade compartilhada com os fornecedores é importante ao colaborar para implementar medidas de segurança.

Você pode usar vários métodos para proteger suas cargas de trabalho de aplicativos inteligentes:

  • Autenticação de usuário e controle de acesso: implemente medidas avançadas de autenticação e controle de acesso para garantir que apenas usuários autorizados possam acessar a carga de trabalho do aplicativo inteligente. O acesso não autorizado à carga de trabalho do aplicativo inteligente pode resultar em violações de dados, uso indevido de recursos e exposição potencial de informações confidenciais. Mecanismos de autenticação fracos ou ineficazes também podem resultar em contas de usuário comprometidas.
  • Conformidade: garanta que os dados sejam protegidos e gerenciados em conformidade com os requisitos normativos. Compreenda as regulamentações locais e mantenha-se informado sobre as leis locais de proteção de dados e certifique-se de que sua estratégia de residência de dados esteja em conformidade com essas regulamentações.
  • Integração: proteja todas as integrações com entidades de serviço. Monitore e proteja a integridade da rede de pontos de extremidade internos e externos por meio de recursos e dispositivos de segurança, como firewalls ou firewalls de aplicativos Web.
  • Monitoramento e auditoria contínuos: monitore e audite continuamente as atividades das cargas de trabalho para detectar e responder proativamente.
  • Ferramentas de segurança do Azure: use as ferramentas de segurança internas do Azure, como Microsoft Defender for Cloud e Azure Policy, para monitorar e aplicar políticas de segurança.
  • Treinamento de funcionários: treine os funcionários sobre as melhores práticas de proteção de dados e a importância de aderir aos requisitos de residência de dados.

Eficiência de desempenho

A eficiência de desempenho é a capacidade de sua carga de trabalho de dimensionar com eficiência para atender às demandas impostas pelos usuários.

Aumente a eficiência do desempenho ao:

  • Compreender volumes de destino para validar a arquitetura e a escala de destino. Os volumes de destino também ajudam a validar os aspectos de licenciamento da IA generativa (agente) e o efeito potencial no armazenamento do Dataverse para transcrições de conversas.
  • Noções básicas sobre os limites da plataforma. Ao integrar sua carga de trabalho de aplicativo inteligente com sistemas externos, por exemplo, através de solicitações do Power Automate ou do HTTP, é importante validar se cada componente pode lidar com a carga.
  • Monitoramento de desempenho e detecção de anomalias continuamente usando ferramentas como Azure Monitor, Log Analytics, Application Insights e alertas.
  • Compreendendo os tempos de resposta esperados para:
    • Primeiro carregamento do chat e resposta da primeira mensagem
    • Latência máxima para o agente responder às consultas do usuário
    • Abordagem para lidar com ações de longa execução (por exemplo, aguardar que um sistema externo retorne dados)
  • Otimizar a taxa de deflexão, ou a taxa em que as solicitações são concluídas de forma de autoatendimento devido à automação (reduzindo o número de solicitações que exigem assistência humana). Saiba mais em Otimização de desempenho para cargas de trabalho de aplicativos inteligentes.

Considerar cada um desses aspectos ajuda a criar uma carga de trabalho de aplicativo inteligente com uma experiência de usuário consistente e coesa.

Excelência operacional

A excelência operacional envolve o desenvolvimento de processos eficientes para dar suporte à carga de trabalho de aplicativos inteligentes.

Falhas operacionais podem afetar outras áreas de projeto, bem como o sucesso geral da carga de trabalho do aplicativo inteligente. É importante adaptar seus processos operacionais para oferecer suporte a uma carga de trabalho inteligente de aplicativos em produção. As recomendações a seguir impulsionam a excelência operacional:

  • Automatize os processos de compilação e liberação. Processos de compilação e lançamento totalmente automatizados diminuem o atrito e aumentam a velocidade de implantação de atualizações, trazendo repetibilidade e consistência em todos os ambientes. A automação reduz o ciclo de feedback, desde os desenvolvedores realizando alterações até a obtenção de insights sobre qualidade de código, cobertura de teste, resiliência, segurança e desempenho, o que contribui para a produtividade do desenvolvedor.
  • Manter governança e conformidade.
  • Analise o desempenho e a integridade do seu ambiente na produção.
  • Mantenha a documentação que captura:
    • Procedimentos de solução de problemas
    • Planos de recuperação de desastre
  • Fornecer orientação de correção sobre como acelerar o processo de resolução de problemas.
  • Adote a melhoria operacional contínua. Priorizar a melhoria rotineira do sistema e da experiência do usuário. Use um modelo de integridade para entender e medir a eficiência operacional, juntamente com mecanismos de feedback para permitir que as equipes de aplicativos entendam e resolvam as lacunas de maneira iterativa.

Essas recomendações podem ajudar sua equipe a colaborar de forma eficiente e transparente.

Otimização da experiência

Uma carga de trabalho de aplicativo inteligente deve priorizar o design de conversa para garantir uma experiência amigável que permita que os usuários atinjam seus objetivos com o mínimo de esforço. O design deve abordar tópicos que a IA generativa não pode lidar e incluir mecanismos de contingência. Também implemente mecanismos para coletar feedback do usuário e refinar continuamente os modelos de IA e a carga de trabalho com base nesse feedback.

A otimização da experiência do usuário para uma carga de trabalho de aplicativo inteligente envolve várias considerações principais:

  • Design de conversa: crie conversas intuitivas e fáceis de navegar. Use uma linguagem clara e concisa e garanta que a IA possa lidar com consultas comuns de usuários de forma eficaz. Concentre-se em ajudar os usuários a atingir seus objetivos com o mínimo de esforço. Entenda as intenções do usuário e forneça respostas relevantes rapidamente para assegurar uma experiência de usuário perfeita e eficiente.

  • Limitações de manipulação: implemente mecanismos de fallback para tópicos que a IA generativa não pode lidar, como redirecionar usuários para representantes de atendimento ao cliente ou fornecer recursos alternativos. Projete processos robustos de tratamento de erros para gerenciar entradas inesperadas com elegância. Informe os usuários quando a IA não conseguir processar sua solicitação e ofereça alternativas.

  • Comentário do usuário: integre mecanismos para coletar comentários do usuário continuamente. O Microsoft Copilot Studio fornece análises de satisfação do cliente, que fornecem insights acionáveis sobre fatores de satisfação ou insatisfação com as respostas do agente. Use os comentários coletados para refinar e aperfeiçoar os modelos de IA e a carga de trabalho geral. Atualizações regulares baseadas na entrada do usuário podem melhorar significativamente a experiência do usuário.

  • Customização e personalização: personalize prompts e instruções para se alinhar aos seus casos de uso específicos e às necessidades do usuário, para garantir respostas mais precisas e relevantes. Use o encadeamento dinâmico para automatizar gatilhos e gerenciar fluxos de tópicos de forma eficiente para reduzir a necessidade de tópicos predefinidos manualmente e melhorar a capacidade da IA de reconhecer a intenção do usuário. Learn more in Otimizar prompts e configuração de tópicos.

Próximas etapas

Os princípios de design do Well-Architected Framework são incorporados às áreas de design de carga de trabalho de aplicativos inteligentes. Cada área de design fornece orientação direcionada para ajudá-lo a acessar rapidamente as informações necessárias para melhorar a produtividade de forma eficiente.

Comece revisando as considerações de design necessárias para oferecer suporte a uma carga de trabalho: