Partilhar via


Visão geral: implantar modelos, fluxos e aplicativos Web com o Azure AI Studio

O Azure AI Studio suporta a implementação de modelos de linguagem grandes (LLMs), fluxos e aplicações Web. A implantação de um LLM ou fluxo o torna disponível para uso em um site, aplicativo ou outros ambientes de produção. Isto geralmente envolve alojar o modelo num servidor ou na cloud e criar uma API ou outra interface para os utilizadores interagirem com o modelo.

É frequente ouvir esta interação com um modelo referido como "inferência". A inferência é o processo de aplicação de novos dados de entrada a um modelo para gerar saídas. A inferência pode ser usada em várias aplicações. Por exemplo, um modelo de conclusão de bate-papo pode ser usado para preencher automaticamente palavras ou frases que uma pessoa está digitando em tempo real. Um modelo de bate-papo pode ser usado para gerar uma resposta para "você pode criar um itinerário para uma visita de um único dia em Seattle?". As possibilidades são infinitas.

Implantando modelos

Primeiro você pode perguntar:

  • "Que modelos posso implementar?" O Azure AI Studio dá suporte à implantação de alguns dos modelos de base de linguagem e visão de grande porte mais populares com curadoria da Microsoft, Hugging Face e Meta.
  • "Como escolher o modelo certo?" O Azure AI Studio fornece um catálogo de modelos que permite pesquisar e filtrar modelos com base no seu caso de uso. Você também pode testar um modelo em um playground de exemplo antes de implantá-lo em seu projeto.
  • "De onde no Azure AI Studio posso implantar um modelo?" Você pode implantar um modelo a partir do catálogo de modelos ou da página de implantação do seu projeto.

O Azure AI Studio simplifica as implantações. Uma simples seleção ou uma linha de código implanta um modelo e gera um ponto de extremidade de API para seus aplicativos consumirem.

Modelos do Azure OpenAI

O Azure OpenAI permite que você obtenha acesso aos modelos OpenAI mais recentes com os recursos corporativos do Azure. Saiba mais sobre como implantar modelos OpenAI no AI Studio.

Modelos abertos

O catálogo de modelos oferece acesso a uma grande variedade de modelos em diferentes modalidades. Certos modelos no catálogo de modelos podem ser implantados como um serviço com pagamento conforme o uso, fornecendo uma maneira de consumi-los como uma API sem hospedá-los em sua assinatura, mantendo a segurança corporativa e a conformidade que as organizações precisam.

Implantar modelos com o Model as a Service (Maas)

Essa opção de implantação não exige cota da sua assinatura. Você implanta como uma implantação de API sem servidor e é cobrado por token de forma pré-paga. Saiba como implantar e consumir a família de modelos Llama 2 com o modelo como serviço.

Implante modelos com infraestrutura gerenciada hospedada

Você também pode hospedar modelos abertos em sua própria assinatura com infraestrutura gerenciada, máquinas virtuais e número de instâncias para gerenciamento de capacidade. Atualmente oferece uma ampla gama de modelos do Azure AI, HuggingFace e Nvidia. Saiba mais sobre como implantar modelos abertos em pontos de extremidade em tempo real.

Cobrança pela implantação e inferência de LLMs no Azure AI Studio

A tabela a seguir descreve como você é cobrado pela implantação e inferência de LLMs no Azure AI Studio. Consulte Monitorizar custos para modelos oferecidos em todo o Azure Marketplace para saber mais sobre como controlar custos.

Caso de utilização Modelos do Azure OpenAI Modelos implantados como APIs sem servidor (pagamento conforme o uso) Modelos implantados com computação gerenciada
Implantando um modelo do catálogo de modelos em seu projeto Não, você não é cobrado pela implantação de um modelo OpenAI do Azure em seu projeto. Sim, você é cobrado de acordo com a infraestrutura do ponto de extremidade1 Sim, você é cobrado pela infraestrutura que hospeda o modelo2
Testando o modo de bate-papo no Playground depois de implantar um modelo em seu projeto Sim, você é cobrado com base no uso do token Sim, você é cobrado com base no uso do token Nenhum.
Testando um modelo em um playground de amostra no catálogo de modelos (se aplicável) Não aplicável Nenhum. Nenhum.
Testando um modelo no playground em seu projeto (se aplicável) ou na guia de teste na página de detalhes da implantação em seu projeto. Sim, você é cobrado com base no uso do token Sim, você é cobrado com base no uso do token Nenhum.

1 Uma infraestrutura de endpoint mínima é cobrada por minuto. Você não é cobrado pela infraestrutura que hospeda o modelo em si no pay-as-you-go. Depois que o ponto de extremidade é excluído, nenhuma cobrança adicional é feita.

2 O faturamento é feito minuciosamente, dependendo da SKU e do número de instâncias usadas na implantação desde o momento da criação. Depois que o ponto de extremidade é excluído, nenhuma cobrança adicional é feita.

Implementação de fluxos

O que é um fluxo e por que você gostaria de implantá-lo? Um fluxo é uma sequência de ferramentas que podem ser usadas para construir um aplicativo de IA generativa. A implantação de um fluxo difere da implantação de um modelo, pois você pode personalizar o fluxo com seus próprios dados e outros componentes, como incorporações, pesquisa de banco de dados vetorial. e conexões personalizadas. Para obter um guia de instruções, consulte Implantando fluxos com o Azure AI Studio.

Por exemplo, você pode criar um chatbot que usa seus dados para gerar respostas informadas e fundamentadas às consultas dos usuários. Quando você adiciona seus dados no playground, um fluxo de prompt é gerado automaticamente para você. Você pode implantar o fluxo como está ou personalizá-lo ainda mais com seus próprios dados e outros componentes. No Azure AI Studio, você também pode criar seu próprio fluxo do zero.

Seja qual for a maneira escolhida para criar um fluxo no Azure AI Studio, você pode implantá-lo rapidamente e gerar um ponto de extremidade de API para seus aplicativos consumirem.

Implantando aplicativos Web

O modelo ou fluxo que você implanta pode ser usado em um aplicativo Web hospedado no Azure. O Azure AI Studio fornece uma maneira rápida de implantar um aplicativo Web. Para obter mais informações, consulte o tutorial do Chat Empresarial do Azure AI.

Planejando a segurança da IA para um modelo implantado

Para modelos OpenAI do Azure, como GPT-4, o Azure AI Studio fornece filtro de segurança de IA durante a implantação para garantir o uso responsável da IA. O filtro de segurança de conteúdo de IA permite a moderação de conteúdos nocivos e sensíveis para promover a segurança de aplicações aprimoradas por IA. Além do filtro de segurança de IA, o Azure AI Studio oferece monitoramento de modelo para modelos implantados. O monitoramento de modelos para LLMs usa os modelos de linguagem GPT mais recentes para monitorar e alertar quando as saídas do modelo têm um desempenho ruim em relação aos limites definidos de segurança e qualidade de geração. Por exemplo, você pode configurar um monitor para avaliar o quão bem as respostas geradas pelo modelo se alinham com as informações da fonte de entrada ("fundamentação") e correspondem estreitamente a uma frase ou documento de verdade de base ("semelhança").

Otimizando o desempenho de um modelo implantado

A otimização de LLMs requer uma consideração cuidadosa de vários fatores, incluindo métricas operacionais (por exemplo, latência), métricas de qualidade (por exemplo, precisão) e custo. É importante trabalhar com cientistas de dados e engenheiros experientes para garantir que seu modelo seja otimizado para seu caso de uso específico.

Próximos passos