Compartilhar via


Como implantar a família Phi-3 de modelos de linguagem pequenos com o Estúdio de IA do Azure

Importante

Alguns dos recursos descritos nesse artigo podem estar disponíveis apenas na versão prévia. Essa versão prévia é fornecida sem um contrato de nível de serviço e não recomendamos isso para cargas de trabalho de produção. Alguns recursos podem não ter suporte ou podem ter restrição de recursos. Para obter mais informações, consulte Termos de Uso Complementares de Versões Prévias do Microsoft Azure.

Neste artigo, você aprenderá sobre a família Phi-3 de SLMs (modelos de linguagem pequenos). Você também aprenderá a usar a IA do Azure Studio para implantar modelos dessa família como APIs sem servidor com cobrança baseada em token pré-pago.

A família Phi-3 de SLMs é uma coleção de modelos de texto generativos ajustados por instrução. Os modelos Phi-3 são os SLMs (modelos de linguagem pequenos) com mais capacidade e mais econômicos disponíveis, superando modelos do mesmo tamanho e do próximo tamanho em vários parâmetros de comparação de linguagem, raciocínio, codificação e matemática.

Família de modelos Phi-3

O Phi-3 Mini é um modelo aberto leve e de última geração de 3,8 bilhões de parâmetros, criado com base em conjuntos de dados usados para o Phi-2 (dados sintéticos e sites filtrados), com foco em dados de alta qualidade e raciocínio profundo. O modelo pertence à família de modelos Phi-3, e a versão Mini é fornecida em duas variantes, 4K e 128K, que é o comprimento do contexto (em tokens) a qual o modelo pode dar suporte.

O modelo passou por um rigoroso processo de aprimoramento, incorporando ajustes supervisionados e otimização de preferência direta para garantir a adesão precisa da instrução e medidas de segurança robustas. Quando avaliados em relação a parâmetros de comparação que testam o senso comum, o reconhecimento de linguagem, a matemática, o código, o contexto mais amplo e o raciocínio lógico, o Phi-3 Mini-4K-Instruct e o Phi-3 Mini-128K-Instruct demonstraram um desempenho robusto e de última geração entre os modelos com menos de 13 bilhões de parâmetros.

Implantar modelos Phi-3 como APIs sem servidor

Alguns modelos do catálogo de modelos podem ser implantados como uma API sem servidor com a cobrança paga conforme o uso. Esse tipo de implantação fornece uma maneira de consumir modelos como uma API sem hospedá-los em sua assinatura, ao mesmo tempo que mantém a segurança empresarial e a conformidade que as organizações precisam. Essa opção de implantação não requer cota de sua assinatura.

Pré-requisitos

  • Uma assinatura do Azure com uma forma de pagamento válida. As assinaturas gratuitas ou de avaliação do Azure não funcionarão. Caso você não tenha uma assinatura do Azure, crie uma conta paga do Azure para começar.

  • Um hub do Estúdio de IA do Azure.

    Importante

    Para os modelos da família Phi-3, a oferta de implantação do modelo API sem servidor está disponível apenas com hubs criados nas regiões Leste dos EUA 2 e Suécia Central.

  • Um projeto do Estúdio de IA do Azure.

  • O RBAC do Azure (controle de acesso baseado em função) do Azure é usado para permitir acesso a operações no Estúdio de IA do Azure. Para executar as etapas neste artigo, sua conta de usuário deve receber a função de Desenvolvedor de IA do Azure no grupo de recursos. Para obter mais informações sobre permissões, confira Controle de acesso baseado em função no Estúdio de IA do Azure.

Criar uma nova implantação

Para criar uma implantação:

  1. Entre no Azure AI Studio.

  2. Selecione Catálogo de modelos na barra lateral esquerda.

  3. Procure e selecione o modelo que deseja implantar, por exemplo, Phi-3-mini-4k-Instruct, para abrir a página Detalhes.

  4. Selecione Implantar.

  5. Escolha a opção API sem servidor para abrir uma janela de implantação de API sem servidor para o modelo.

  6. Como alternativa, você pode iniciar a implantação começando pelo seu projeto no Estúdio de IA.

    1. Na barra lateral esquerda do projeto, selecione Componentes>Implantações.
    2. Escolha + Criar implantação.
    3. Procure e selecione Phi-3-mini-4k-Instruct para abrir a página Detalhes do modelo.
    4. Selecione Confirmar e escolha a opção API sem servidor para abrir uma janela de implantação de API sem servidor para o modelo.
  7. Selecione o projeto no qual você deseja implantar seu modelo. Para implantar o modelo Phi-3, seu projeto precisa estar nas regiões Leste dos EUA 2 ou Suécia Central.

  8. Escolha a guia Preços e termos para saber mais sobre os preços do modelo selecionado.

  9. Dê um nome à implantação. Esse nome se torna parte da URL da API de implantação. Essa URL deve ser exclusiva em cada região do Azure.

  10. Selecione Implantar. Quando a implantação estiver pronta, você será redirecionado para a página Implantações. Esta etapa exige que sua conta tenha as permissões de função de Desenvolvedor de IA do Azure no Grupo de Recursos, conforme listado nos pré-requisitos.

  11. Selecione Abrir no playground para começar a interagir com o modelo.

  12. Retorne à página Implantações, selecione a implantação e anote a URL de Destino e a Chave Secreta do ponto de extremidade, que você poderá usar para chamar a implantação e gerar preenchimentos. Para obter mais informações sobre como usar as APIs, confira Referência: Preenchimentos de chat.

  13. A qualquer momento, você pode encontrar os detalhes, a URL e as chaves de acesso do ponto de extremidade acessando a página Visão geral do projeto. Depois, na barra lateral esquerda do projeto, selecione Componentes>Implantações.

Consumir os modelos Phi-3 como um serviço

Os modelos implantados como APIs sem servidor podem ser consumidos usando a API de chat, dependendo do tipo de modelo implantado.

  1. Na página Visão geral do projeto, acesse a barra lateral esquerda e selecione Componentes>Implantações.

  2. Encontre e selecione a implantação criada.

  3. Copie a URL de Destino e o valor de Chave.

  4. Faça uma solicitação de API usando a API /v1/chat/completions e <target_url>/v1/chat/completions. Para obter mais informações sobre como usar as APIs, confira Referência: Preenchimentos de chat.

Custo e cotas

Considerações de custo e cota para modelos Phi-3 implantados como APIs sem servidor

Você pode encontrar as informações sobre preços na guia Preços e termos do assistente de implantação ao implementar o modelo.

A cota é gerenciada por implantação. Cada implantação tem um limite de taxa de 200.000 tokens por minuto e 1.000 solicitações de API por minuto. No entanto, atualmente, limitamos uma implantação por modelo e projeto. Entre em contato com o Suporte do Microsoft Azure se os limites de taxa atuais não forem suficientes para seus cenários.