Share via


Catálogo e Coleções de Modelos

O Catálogo de Modelos no estúdio de Aprendizado de Máquina do Azure é o hub para descobrir e usar uma ampla gama de modelos que permitem criar aplicativos de IA generativa. O catálogo de modelos apresenta centenas de modelos em provedores de modelos, como o serviço Azure OpenAI, Mistral, Meta, Cohere, Nvidia, Hugging Face, incluindo modelos treinados pela Microsoft. Os modelos de fornecedores que não sejam a Microsoft são Produtos que não são da Microsoft, conforme definido nos Termos do Produto da Microsoft, e estão sujeitos aos termos fornecidos com o modelo.

Coleções de modelos

Os modelos são organizados por Coleções no Catálogo de Modelos. Existem três tipos de coleções no Catálogo de Modelos:

  • Modelos selecionados pelo Azure AI: os modelos proprietários e de ponderação aberta de terceiros mais populares e empacotados e otimizados para funcionarem perfeitamente na plataforma do Azure AI. O uso destes modelos está sujeito aos termos de licença do fornecedor do modelo. Quando implementado no Azure Machine Learning, a disponibilidade do modelo está sujeita ao SLA do Azure aplicável e a Microsoft fornece suporte para problemas de implementação. Modelos de parceiros como Meta, NVIDIA, Mistral AI são exemplos de modelos disponíveis na coleção "Curated by Azure AI" no Catálogo. Esses modelos podem ser identificados por uma marca de seleção verde nos blocos de modelo no catálogo ou você pode filtrar pela coleção "Curated by Azure AI".
  • Modelos do Azure OpenAI, disponíveis exclusivamente no Azure: modelos emblemáticos do Azure OpenAI através da coleção 'Azure OpenAI' através de uma integração com o Serviço OpenAI do Azure. Estes modelos são suportados pela Microsoft e o uso dos mesmos está sujeito aos termos do produto e ao SLA do Azure OpenAI Service.
  • Modelos abertos do hub Hugging Face: Centenas de modelos do hub HuggingFace são acessíveis através da coleção 'Hugging Face' para inferência em tempo real com endpoints online. O Hugging Face cria e mantém modelos disponibilizados na coleção Hugging Face. Aceda ao Fórum da HuggingFace ou contacte o Suporte da HuggingFace para obter ajuda. Saiba mais sobre como implementar modelos do Hugging Face.

Sugerir adições ao Catálogo de Modelos: pode enviar um pedido para adicionar um modelo ao Catálogo de Modelos com este formulário.

Visão geral dos recursos do Catálogo de Modelos

Para obter informações sobre os modelos do Azure OpenAI, consulte Azure OpenAI Service.

Para modelos selecionados pela IA do Azure e modelos abertos do hub Hugging Face, alguns deles podem ser implantados como pontos de extremidade em tempo real e alguns deles estão disponíveis para serem implantados usando o faturamento pago conforme o uso (Modelos como Serviço). Esses modelos podem ser descobertos, comparados, avaliados, ajustados (quando suportados) e implantados em escala e integrados em seus aplicativos de IA generativa com segurança de nível empresarial e governança de dados.

  • Descubra: revise cartões de modelo, experimente a inferência de exemplo e procure exemplos de código para avaliar, ajustar ou implantar o modelo.
  • Comparar: compare benchmarks entre modelos e conjuntos de dados disponíveis no setor para avaliar qual deles atende ao seu cenário de negócios.
  • Avaliar: avalie se o modelo é adequado para sua carga de trabalho específica, fornecendo seus próprios dados de teste. As métricas de avaliação facilitam a visualização do desempenho do modelo selecionado no seu cenário.
  • Ajuste fino: personalize modelos ajustáveis usando seus próprios dados de treinamento e escolha o melhor modelo comparando métricas em todos os seus trabalhos de ajuste fino. As otimizações integradas aceleram o ajuste fino e reduzem a memória e a computação necessárias para o ajuste fino.
  • Implantar: implante modelos pré-treinados ou modelos ajustados perfeitamente para inferência. Os modelos que podem ser implantados em pontos de extremidade em tempo real também podem ser baixados.

Implantação de modelos: endpoints em tempo real e modelos como serviço (pagamento conforme o uso)

O Catálogo de Modelos oferece duas maneiras distintas de implantar modelos do catálogo para seu uso: pontos de extremidade em tempo real e inferência de pagamento conforme o uso. As opções de implantação disponíveis para cada modelo variam; Saiba mais sobre os recursos das opções de implantação e as opções disponíveis para modelos específicos nas tabelas abaixo. Saiba mais sobre o processamento de dados com as opções de implantação.

Funcionalidades Inferência em tempo real com endpoints online gerenciados Pagamento conforme o uso com modelos como serviço
Experiência de implantação e faturamento Os pesos de modelo são implantados em máquinas virtuais dedicadas com pontos de extremidade online gerenciados. O ponto de extremidade online gerenciado, que pode ter uma ou mais implantações, disponibiliza uma API REST para inferência. Você é cobrado pelas horas principais da Máquina Virtual usadas pelas implantações. O acesso aos modelos é feito por meio de uma implantação que provisiona uma API para acessar o modelo. A API fornece acesso ao modelo hospedado em um pool de GPU central, gerenciado pela Microsoft, para inferência. Este modo de acesso é referido como "Modelos como Serviço". Você é cobrado pelas entradas e saídas para as APIs, geralmente em tokens; As informações de preços são fornecidas antes da implantação.
Autenticação de API Chaves e autenticação Microsoft Entra ID. Mais informações. Apenas chaves.
Segurança de conteúdos Use as APIs do serviço de Segurança de Conteúdo do Azure. Os filtros de Segurança de Conteúdo do Azure AI estão disponíveis integrados com APIs de inferência. Os filtros de Segurança de Conteúdo do Azure AI podem ser cobrados separadamente.
Isolamento da rede Rede Virtual Gerenciada com Endpoints Online. Mais informações.

Opções de implementação

Modelo Pontos finais em tempo real Pay as you go
Modelos da família Llama Lama 2-7b
Llama-2-7b-bate-papo
Lama-2-13b
Llama-2-13b-bate-papo
Lama-2-70b
Llama-2-70b-bate-papo
Llama-3-8B-Instruir
Llama-3-70B-Instruir
Lama-3-8B
Lama-3-70B
Llama-3-70B-Instruir
Llama-3-8B-Instruir
Lama 2-7b
Llama-2-7b-bate-papo
Lama-2-13b
Llama-2-13b-bate-papo
Lama-2-70b
Llama-2-70b-bate-papo
Modelos da família Mistral mistralai-Mixtral-8x22B-v0-1
mistralai-Mixtral-8x22B-Instruir-v0-1
mistral-comunidade-Mixtral-8x22B-v0-1
mistralai-Mixtral-8x7B-v01
mistralai-Mistral-7B-Instruir-v0-2
mistralai-Mistral-7B-v01
mistralai-Mixtral-8x7B-Instruir-v01
mistralai-Mistral-7B-Instruir-v01
Mistral-grande
Mistral-pequeno
Modelos da família Cohere Não disponível Cohere-command-r-plus
Cohere-command-r
Cohere-embed-v3-inglês
Cohere-embed-v3-multilíngue
Outros modelos Disponível Não disponível

Um diagrama mostrando modelos como um serviço e ciclo de serviço de pontos finais em tempo real.

Pontos finais em tempo real

A capacidade de implantar modelos em pontos de extremidade em tempo real se baseia nos recursos de plataforma do Aprendizado de Máquina do Azure para permitir a integração perfeita, em todo o ciclo de vida do LLMOps, da ampla coleção de modelos no Catálogo de Modelos.

Um diagrama mostrando o ciclo de vida do LLMops.

Como os modelos são disponibilizados para endpoints em tempo real?

Os modelos são disponibilizados por meio de registros do Azure Machine Learning que permitem a primeira abordagem de ML para hospedar e distribuir ativos de Machine Learning, como pesos de modelo, tempos de execução de contêiner para executar os modelos, pipelines para avaliar e ajustar os modelos e conjuntos de dados para benchmarks e amostras. Esses Registros de ML se baseiam em uma infraestrutura altamente escalável e pronta para a empresa que:

Avalie e ajuste modelos implantados como pontos de extremidade em tempo real

Você pode avaliar e ajustar a coleção "Curated by Azure AI" no Azure Machine Learning usando os Pipelines do Azure Machine Learning. Você pode optar por trazer seu próprio código de avaliação e ajuste fino e apenas acessar pesos de modelo ou usar componentes do Azure Machine Learning que oferecem recursos internos de avaliação e ajuste fino. Para saber mais, siga este link.

Implante modelos para inferência como pontos de extremidade em tempo real

Os modelos disponíveis para implantação em pontos de extremidade em tempo real podem ser implantados nos Pontos de extremidade Online do Azure Machine Learning para inferência em tempo real ou podem ser usados para a Inferência em Lote do Azure Machine Learning para processar seus dados em lote. A implantação em pontos de extremidade Online exige que você tenha uma cota de Máquina Virtual em sua Assinatura do Azure para as SKUs específicas necessárias para executar o modelo de forma otimizada. Alguns modelos permitem que você implante uma cota compartilhada temporariamente para testar o modelo. Saiba mais sobre a implantação de modelos:

Crie aplicativos de IA generativa com endpoints em tempo real

O fluxo de prompt oferece recursos para prototipar, experimentar, iterar e implantar seus aplicativos de IA. Você pode usar modelos implantados como pontos de extremidade em tempo real no Prompt Flow com a ferramenta Open Model LLM. Você também pode usar a API REST exposta pelos pontos de extremidade em tempo real em ferramentas LLM populares como LangChain com a extensão Azure Machine Learning.

Segurança de conteúdo para modelos implantados como pontos de extremidade em tempo real

O serviço Azure AI Content Safety (AACS) está disponível para uso com pontos de extremidade em tempo real para rastrear várias categorias de conteúdo prejudicial, como conteúdo sexual, violência, ódio e automutilação, além de ameaças avançadas, como deteção de risco de jailbreak e deteção de texto de material protegido. Você pode consultar este bloco de anotações para integração de referência com o AACS para Llama 2 ou usar a ferramenta Segurança de Conteúdo (Texto) no Prompt Flow para passar respostas do modelo para o AACS para triagem. Você será cobrado separadamente de acordo com os preços da AACS por esse uso.

Trabalhar com modelos que não estão no Catálogo de Modelos

Para modelos não disponíveis no Catálogo de Modelos, o Azure Machine Learning fornece uma plataforma aberta e extensível para trabalhar com modelos de sua escolha. Você pode trazer um modelo com qualquer estrutura ou tempo de execução usando os recursos de plataforma aberta e extensível do Azure Machine Learning, como ambientes do Azure Machine Learning para contêineres que podem empacotar estruturas e tempos de execução e pipelines do Azure Machine Learning para código para avaliar ou ajustar os modelos. Consulte este bloco de anotações para obter uma referência de exemplo para importar modelos e trabalhar com os tempos de execução e pipelines internos.

Modelos como serviço (Pay-as-you-go)

Determinados modelos no Catálogo de Modelos podem ser implantados usando o faturamento pré-pago; esse método de implantação é chamado de Models-as-a Service (MaaS). Os modelos disponíveis por meio do MaaS são hospedados em infraestrutura gerenciada pela Microsoft, o que permite o acesso baseado em API ao modelo do provedor de modelos. O acesso baseado em API pode reduzir drasticamente o custo de acesso a um modelo e simplificar significativamente a experiência de provisionamento. A maioria dos modelos MaaS vem com preços baseados em tokens.

Como os modelos de terceiros são disponibilizados no MaaS?

Um diagrama mostrando o ciclo de serviço do editor de modelo.

Os modelos disponíveis para implantação pré-paga são oferecidos pelo provedor de modelos, mas hospedados na infraestrutura do Azure gerenciada pela Microsoft e acessados via API. Os provedores de modelo definem os termos de licença e definem o preço de uso de seus modelos, enquanto o serviço Azure Machine Learning gerencia a infraestrutura de hospedagem, disponibiliza as APIs de inferência e atua como processador de dados para prompts enviados e saída de conteúdo por modelos implantados via MaaS. Saiba mais sobre o processamento de dados para MaaS no artigo sobre privacidade de dados.

Pague pelo uso do modelo no MaaS

A experiência de descoberta, assinatura e consumo para modelos implantados por meio de MaaS está no Azure AI Studio e no estúdio Azure Machine Learning. Os usuários aceitam os termos de licença para uso dos modelos e as informações de preços para consumo são fornecidas durante a implantação. Os modelos de fornecedores terceiros são faturados através do Azure Marketplace, de acordo com os Termos de Utilização do Mercado Comercial, e os modelos da Microsoft são faturados utilizando os contadores do Azure como Serviços de Consumo de Primeira Parte. Conforme descrito nos Termos do Produto, os Serviços de Consumo de Primeira Parte são adquiridos usando medidores do Azure, mas não estão sujeitos aos termos de serviço do Azure, e o uso desses modelos está sujeito aos termos de licença fornecidos.

Implantar modelos para inferência por meio de MaaS

A implantação de um modelo por meio do MaaS permite que os usuários tenham acesso a APIs de inferência prontas para uso sem a necessidade de configurar a infraestrutura ou provisionar GPUs, economizando tempo e recursos de engenharia. Essas APIs podem ser integradas com várias ferramentas LLM e o uso é cobrado conforme descrito na seção anterior.

Ajuste os modelos através do MaaS com o Pay-as-you-go

Para modelos que estão disponíveis por meio de MaaS e suportam ajuste fino, os usuários podem aproveitar o ajuste fino hospedado com faturamento pré-pago para personalizar os modelos usando os dados que eles fornecem. Para obter mais informações, consulte Ajustar um modelo Llama 2 no Azure AI Studio.

RAG com modelos implantados através de MaaS

O Azure AI Studio permite que os usuários usem índices vetoriais e geração aumentada de recuperação. Os modelos que podem ser implantados via MaaS podem ser usados para gerar incorporações e inferências com base em dados personalizados para gerar respostas específicas para seu caso de uso. Para obter mais informações, consulte Recuperação de geração aumentada e índices.

Disponibilidade regional de ofertas e modelos

A implantação pré-paga está disponível apenas para usuários cuja assinatura do Azure pertence a uma conta de cobrança em um país onde o provedor de modelo disponibilizou a oferta (consulte "região de disponibilidade da oferta" na tabela na próxima seção). Se a oferta estiver disponível na região relevante, o usuário deverá ter um Espaço de Trabalho na região do Azure onde o modelo está disponível para implantação ou ajuste fino, conforme aplicável (consulte as colunas "Região do espaço de trabalho" na tabela abaixo).

Modelo Região de disponibilidade da oferta Região do espaço de trabalho para implantação Região do espaço de trabalho para ajuste fino
Llama-3-70B-Instruir
Llama-3-8B-Instruir
Países geridos pela Microsoft Leste dos EUA 2, Suécia Central Não disponível
Lama 2-7b
Lama-2-13b
Lama-2-70b
Países geridos pela Microsoft Leste dos EUA 2, Oeste dos EUA 3 EUA Oeste 3
Llama-2-7b-bate-papo
Llama-2-13b-bate-papo
Llama-2-70b-bate-papo
Países geridos pela Microsoft Leste dos EUA 2, Oeste dos EUA 3 Não disponível
Mistral-Grande
Mistral Pequeno
Países geridos pela Microsoft Leste dos EUA 2, Suécia Central Não disponível
Cohere-command-r-plus
Cohere-command-r
Cohere-embed-v3-inglês
Cohere-embed-v3-multilíngue
Países geridos pela Microsoft
Japão
Leste dos EUA 2, Suécia Central Não disponível

Segurança de conteúdo para modelos implantados via MaaS

O Azure Machine Learning implementa uma configuração padrão dos filtros de moderação de texto do Azure AI Content Safety para conteúdo prejudicial (ódio, automutilação, sexual e violência) para modelos de linguagem implantados com MaaS. Para saber mais sobre filtragem de conteúdo, consulte Categorias de danos no Azure AI Content Safety. A filtragem de conteúdo ocorre de forma síncrona à medida que os processos de serviço solicitam a geração de conteúdo, e você pode ser cobrado separadamente de acordo com os preços do AACS por esse uso. Você pode desabilitar a filtragem de conteúdo para pontos de extremidade sem servidor individuais quando implantar um modelo de idioma pela primeira vez ou na página de detalhes da implantação, clicando na alternância de filtragem de conteúdo. Poderá estar em maior risco de expor os utilizadores a conteúdos nocivos se desativar os filtros de conteúdo.

Mais informações