Catálogo e coleções de modelos no Estúdio de IA do Azure

Artigo
06/16/2024

Importante

Alguns dos recursos descritos nesse artigo podem estar disponíveis apenas na versão prévia. Essa versão prévia é fornecida sem um contrato de nível de serviço e não recomendamos isso para cargas de trabalho de produção. Alguns recursos podem não ter suporte ou podem ter restrição de recursos. Para obter mais informações, consulte Termos de Uso Complementares de Versões Prévias do Microsoft Azure.

O catálogo de modelos no Estúdio de IA do Azure é o hub para descobrir e usar uma ampla gama de modelos que permitem criar aplicativos de IA generativa. O catálogo de modelos apresenta centenas de modelos de provedores de modelos, como o serviço Azure OpenAI, Mistral, Meta, Cohere, Nvidia, Hugging Face, incluindo modelos treinados pela Microsoft. Modelos de provedores diferentes da Microsoft são produtos que não são da Microsoft, conforme definido nos Termos do Produto da Microsoft e sujeitos aos termos fornecidos com o modelo.

Coleções de modelos

O catálogo de modelos organiza modelos em Coleções. Há três tipos de coleções no catálogo de modelos:

Modelos selecionados pela IA do Azure: os modelos abertos de terceiros mais populares e de propriedade, empacotados e otimizados para funcionar perfeitamente na plataforma IA do Azure. O uso desses modelos está sujeito aos termos de licença do provedor de modelo fornecidos com o modelo. Quando implantado no Estúdio de IA do Azure, a disponibilidade do modelo está sujeita ao SLA do Azure aplicável e a Microsoft fornece suporte para problemas de implantação. Modelos de parceiros como Meta, NVIDIA, Mistral AI são exemplos de modelos disponíveis na coleção "Coletado pela IA do Azure" no catálogo. Esses modelos podem ser identificados por uma marca de seleção verde nos blocos de modelo no catálogo ou você pode filtrar pela coleção "Coletado pela IA do Azure".
Modelos Azure OpenAI, disponíveis exclusivamente no Azure: modelos emblemáticos do Azure OpenAI através da coleção “Azure OpenAI” através de uma integração com o Serviço OpenAI do Azure. A Microsoft dá suporte a esses modelos e ao uso deles sujeitos aos termos do produto e ao SLA para o Serviço OpenAI do Azure.
Modelos abertos do hub Hugging Face: Centenas de modelos do hub HuggingFace são acessíveis através da coleção “Hugging Face” para inferência em tempo real com computação gerenciada. Hugging Face cria e mantém modelos listados na coleção HuggingFace. Use o fórum do HuggingFace ou o suporte do HuggingFace para obter ajuda. Saiba mais em Implantar modelos abertos.

Sugestão de adições ao Catálogo de Modelos: Você pode enviar uma solicitação para adicionar um modelo ao catálogo de modelos usando esse formulário.

Visão geral dos recursos do Catálogo de Modelos

Para obter informações sobre modelos Azure OpenAI, consulte Serviço OpenAI do Azure.

Alguns modelos com Curadoria da IA do Azure e Modelos abertos do hub do Hugging Face podem ser implantados com uma opção de computação gerenciada e alguns modelos estão disponíveis para serem implantados usando APIs sem servidor com cobrança paga conforme o uso. Esses modelos podem ser descobertos, comparados, avaliados, ajustados (quando suportados) e implantados em escala e integrados em seus aplicativos de IA generativa com segurança de nível empresarial e governança de dados.

Descobrir: revise cartões de modelo, experimente inferência de exemplos e procure exemplos de código para avaliar, ajustar ou implantar o modelo.
Comparar: compare benchmarks entre modelos e conjuntos de dados disponíveis no setor para avaliar qual deles atende ao seu cenário de negócios.
Avaliar: avalie se o modelo é adequado para sua carga de trabalho específica fornecendo seus próprios dados de teste. As métricas de avaliação facilitam a visualização do desempenho do modelo selecionado em seu cenário.
Ajuste fino: personalize modelos ajustáveis usando seus próprios dados de treinamento e escolha o melhor modelo comparando métricas em todos os seus trabalhos de ajuste fino. As otimizações internas aceleram o ajuste fino e reduzem a memória e a computação necessárias para ajuste fino.
Implantar: implante modelos pré-treinados ou modelos ajustados perfeitamente para inferência. Modelos que podem ser implantados na computação gerenciada também podem ser baixados.

Implantação de modelo: computação gerenciada e API sem servidor (pagamento conforme o uso)

O Catálogo de Modelos oferece duas maneiras distintas de implantar modelos do catálogo para seu uso: computação gerenciada e APIs sem servidor. As opções de implantação disponíveis para cada modelo variam; saiba mais sobre os recursos das opções de implantação e as opções disponíveis para modelos específicos nas tabelas a seguir. Saiba mais sobre processamento de dados com as opções de implantação.

Recursos	Computação gerenciada	API sem servidor (paga conforme o uso)
Experiência de implantação e faturamento	Os pesos do modelo são implantados em Máquinas Virtuais dedicadas com ponto de extremidade online gerenciados. O ponto de extremidade online gerenciado, que pode ter uma ou mais implantações, disponibiliza uma API REST para inferência. Você será cobrado pelas horas principais da máquina virtual usadas pelas implantações.	O acesso aos modelos é feito por meio de uma implantação que provisiona uma API para acessar o modelo. A API fornece acesso ao modelo hospedado e gerenciado pela Microsoft para inferência. Esse modo de acesso é conhecido como "Modelos como Serviço". Você é cobrado pelas entradas e saídas das APIs, normalmente em tokens; as informações sobre preços são fornecidas antes da implantação.
Autenticação da API	Chaves e autenticação Microsoft Entra ID.	Somente chaves.
Segurança de conteúdo	Utilize APIs do serviço Azure Content Safety.	Os filtros IA do Azure Content Safety estão disponíveis integrados com APIs de inferência. Os filtros do IA do Azure Content Safety podem ser cobrados separadamente.
Isolamento da rede	Configurar a Rede Gerenciada. Saiba mais.

Modelar	Computação gerenciada	API sem servidor (pagamento conforme o uso)
Modelos da família Llama	Llama-2-7b Llama-2-7b-chat Llama-2-13b Llama-2-13b-chat Llama-2-70b Llama-2-70b-chat Llama-3-8B-Instruct Llama-3-70B-Instruct Llama-3-8B Llama-3-70B	Llama-3-70B-Instruct Llama-3-8B-Instruct Llama-2-7b Llama-2-7b-chat Llama-2-13b Llama-2-13b-chat Llama-2-70b Llama-2-70b-chat
Modelos da família Mistral	mistralai-Mixtral-8x22B-v0-1 mistralai-Mixtral-8x22B-Instruct-v0-1 mistral-community-Mixtral-8x22B-v0-1 mistralai-Mixtral-8x7B-v01 mistralai-Mistral-7B-Instruct-v0-2 mistralai-Mistral-7B-v01 mistralai-Mixtral-8x7B-Instruct-v01 mistralai-Mistral-7B-Instruct-v01	Mistral-large Mistral-small
Modelos familiares coerentes	Não disponível	Cohere-command-r-plus Cohere-command-r Cohere-embed-v3-english Cohere-embed-v3-multilingual
JAIS	Não disponível	jais-30b-chat
Modelos da família Phi3	Phi-3-small-128k-Instruct Phi-3-small-8k-Instruct Phi-3-mini-4k-Instruct Phi-3-mini-128k-Instruct Phi3-medium-128k-instruct Phi3-medium-4k-instruct	Phi-3-mini-4k-Instruct Phi-3-mini-128k-Instruct Phi3-medium-128k-instruct Phi3-medium-4k-instruct
Nixtla	Não disponível	TimeGEN-1
Outros modelos	Disponível	Não disponível

Computação gerenciada

A capacidade de implantar modelos como uma computação gerenciada baseia-se nos recursos de plataforma do Azure Machine Learning para permitir a integração perfeita, em todo o ciclo de vida do LLMOps, da ampla coleção de modelos no Catálogo de Modelos.

Como os modelos são disponibilizados para implantação como computação gerenciada?

Os modelos são disponibilizados por meio de registros do Machine Learning do Azure que permitem a primeira abordagem de ML para hospedar e distribuir ativos de Machine Learning, como pesos de modelo, tempos de execução de contêiner para executar os modelos, pipelines para avaliar e ajustar os modelos e conjuntos de dados para parâmetros de comparação e amostras. Esses registros de ML baseiam-se em uma infraestrutura altamente escalável e pronta para empresas que:

Fornece artefatos de modelo de acesso de baixa latência para todas as regiões do Azure com replicação geográfica integrada.
Suporta requisitos de segurança empresarial como limitação do acesso a modelos com Azure Policy e implantação segura com redes virtuais gerenciadas.

Implante modelos para inferência com a computação gerenciada

Os modelos disponíveis para implantação em uma computação gerenciada podem ser implantados nos pontos de extremidade do Azure Machine Learning Online para inferência em tempo real. A implantação na computação gerenciada exige que você tenha a cota de Máquina Virtual em sua Assinatura do Azure para as SKUs específicas necessárias para executar o modelo de maneira ideal. Alguns modelos permitem implantar em cota compartilhada temporariamente para testar o modelo. Saiba mais sobre como implantar modelos:

Crie aplicativos de IA generativa com a computação gerenciada

O prompt flow oferece uma ótima experiência para protótipos. Você pode usar modelos implantados com Computação gerenciada no prompt flow com a ferramenta Open Model LLM. Você também pode usar a API REST exposta pela computação gerenciada em ferramentas LLM populares como LangChain com a extensão Azure Machine Learning.

Segurança de conteúdo para modelos implantados como computação gerenciada

O serviço de Segurança de Conteúdo de IA do Azure (AACS) está disponível para uso com Computação gerenciada para rastrear diversas categorias de conteúdo prejudicial, como conteúdo sexual, violência, ódio e automutilação, além de ameaças avançadas, como detecção de risco de jailbreak e detecção de texto em materiais protegidos. Você pode consultar este notebook para obter a integração de referência com o AACS para Llama 2 ou usar a ferramenta Segurança de Conteúdo (Texto) no Prompt Flow para passar respostas do modelo para o AACS para triagem. Você é cobrado separadamente de acordo com os preços do AACS para esse uso.

APIs sem servidor com cobrança paga conforme o uso

Determinados modelos no Catálogo de Modelos podem ser implantados como APIs sem servidor com cobrança paga conforme o uso; esse método de implantação é chamado de MaaS (Modelos como Serviço), fornecendo uma maneira de consumi-los como uma API sem hospedá-los em sua assinatura. Os modelos disponíveis por meio do MaaS são hospedados na infraestrutura gerenciada pela Microsoft, o que permite o acesso baseado em API ao modelo do provedor de modelos. O acesso baseado em API pode reduzir drasticamente o custo de acesso a um modelo e simplificar significativamente a experiência de provisionamento. A maioria dos modelos MaaS vem com preços baseados em tokens.

Como os modelos de terceiros são disponibilizados no MaaS?

Os modelos disponíveis para implantação como APIs sem servidor com pagamento conforme o uso são oferecidos pelo provedor de modelo, mas hospedados na infraestrutura do Azure gerenciada pela Microsoft e acessados por meio da API. Os fornecedores de modelos definem os termos de licença e definem o preço de utilização dos seus modelos, enquanto o Serviço do Azure Machine Learning gere a infraestrutura de alojamento, disponibiliza as APIs de inferência e atua como processador de dados para pedidos enviados e saída de conteúdo por modelos implantados através de MaaS. Saiba mais sobre processamento de dados para MaaS no artigo privacidade de dados.

Pague pelo uso do modelo em MaaS

A experiência de descoberta, assinatura e consumo para modelos implantados via MaaS está no IA do Azure Studio e no Estúdio do Azure Machine Learning. Os usuários aceitam os termos de licença para uso dos modelos, e as informações sobre preços de consumo são fornecidas durante a implantação. Os modelos de fornecedores terceirizados são cobrados através do Azure Marketplace, de acordo com os Termos de Uso do Mercado Comercial; os modelos da Microsoft são cobrados usando medidores do Azure como serviços de Consumo primário. Conforme descrito nos Termos do Produto, os Serviços de Consumo Primário são adquiridos usando medidores do Azure, mas não estão sujeitos aos termos de serviço do Azure; o uso desses modelos está sujeito aos termos de licença fornecidos.

Implante modelos para inferência por meio de MaaS

A implantação de um modelo por meio de MaaS permite que os usuários tenham acesso a APIs de inferência prontas para uso, sem a necessidade de configurar infraestrutura ou provisionar GPUs, economizando tempo e recursos de engenharia. Essas APIs podem ser integradas a diversas ferramentas LLM e o uso é cobrado conforme descrito na seção anterior.

Ajuste modelos por meio de MaaS com pagamento conforme o uso

Para modelos que estão disponíveis por meio de MaaS e oferecem suporte ao ajuste fino, os usuários podem aproveitar as vantagens do ajuste fino hospedado com faturamento pagamento conforme o uso para personalizar os modelos usando os dados que eles fornecem. Para obter mais informações, consulte a Visão geral de ajuste fino.

RAG com modelos implantados como APIs sem servidor

A IA do Azure Studio permite que os usuários usem índices vetoriais e geração aumentada de recuperação. Os modelos que podem ser implantados via API sem servidor podem ser usados para gerar incorporações e inferências com base em dados personalizados para gerar respostas específicas para seu caso de uso. Para obter mais informações, consulte Como criar um índice de vetor.

Disponibilidade regional de ofertas e modelos

A cobrança de pagamento conforme o uso só está disponível para usuários cuja assinatura do Azure pertence a uma conta de cobrança em um país em que o provedor de modelo disponibilizou a oferta (consulte "região de disponibilidade da oferta" na tabela na próxima seção). Se a oferta estiver disponível na região relevante, o usuário deverá ter um Hub/Projeto na região do Azure em que o modelo esteja disponível para implantação ou ajuste fino, conforme aplicável (consulte as colunas "região do hub/projeto" na tabela abaixo).

Modelar	Região de disponibilidade da oferta	Região do Hub/Projeto para implantação	Região do Hub/Projeto para ajuste fino
Llama-3-70B-Instruct Llama-3-8B-Instruct	Países gerenciados pela Microsoft	Leste dos EUA, Leste dos EUA 2, Centro-Norte dos EUA, Centro-Sul dos EUA, Suécia Central, Oeste dos EUA, Oeste dos EUA 3	Não disponível
Llama-2-7b Llama-2-13b Llama-2-70b	Países gerenciados pela Microsoft	Leste dos EUA, Leste dos EUA 2, Centro-Norte dos EUA, Centro-Sul dos EUA, Oeste dos EUA, Oeste dos EUA 3	Oeste dos EUA 3
Llama-2-7b-chat Llama-2-13b-chat Llama-2-70b-chat	Países gerenciados pela Microsoft	Leste dos EUA, Leste dos EUA 2, Centro-Norte dos EUA, Centro-Sul dos EUA, Oeste dos EUA, Oeste dos EUA 3,	Não disponível
Mistral Small	Países gerenciados pela Microsoft	Leste dos EUA, Leste dos EUA 2, Centro-Norte dos EUA, Centro-Sul dos EUA, Suécia Central, Oeste dos EUA, Oeste dos EUA 3	Não disponível
Mistral-Large	Países gerenciados pela Microsoft Brasil RAE de Hong Kong Israel	Leste dos EUA, Leste dos EUA 2, França Central, Centro Norte dos EUA, Centro-Sul dos EUA, Suécia Central, Oeste dos EUA, Oeste dos EUA 3	Não disponível
Cohere-command-r-plus Cohere-command-r Cohere-embed-v3-english Cohere-embed-v3-multilingual	Países gerenciados pela Microsoft Japão	Leste dos EUA, Leste dos EUA 2, Centro-Norte dos EUA, Centro-Sul dos EUA, Suécia Central, Oeste dos EUA, Oeste dos EUA 3	Não disponível
TimeGEN-1	Países gerenciados pela Microsoft México Israel	Leste dos EUA, Leste dos EUA 2, Centro-Norte dos EUA, Centro-Sul dos EUA, Suécia Central, Oeste dos EUA, Oeste dos EUA 3	Não disponível
jais-30b-chat	Países gerenciados pela Microsoft	Leste dos EUA, Leste dos EUA 2, Centro-Norte dos EUA, Centro-Sul dos EUA, Suécia Central, Oeste dos EUA, Oeste dos EUA 3	Não disponível
Phi-3-mini-4k-instruct	Países gerenciados pela Microsoft	Leste dos EUA 2, Canadá Central, Suécia Central, Oeste dos EUA 3	Não disponível
Phi-3-mini-128k-instruct Phi-3-medium-4k-instruct Phi-3-medium-128k-instruct	Países gerenciados pela Microsoft	Leste dos EUA 2, Suécia Central	Não disponível

Segurança de conteúdo para modelos implantados por meio da API sem servidor

Importante

O Estúdio de IA do Azure implementa uma configuração padrão de filtros de moderação de texto da Segurança de Conteúdo de IA do Azure para conteúdo prejudicial (ódio, automutilação, sexual e violência) em modelos de linguagem implantados com o MaaS. Para saber mais sobre a filtragem de conteúdo(versão prévia), veja categorias de danos na Segurança de conteúdo de IA do Azure. A filtragem de conteúdo(versão prévia) ocorre de forma síncrona à medida que o serviço processa solicitações para gerar conteúdo, e você pode ser cobrado separadamente de acordo com preços do AACS para tal uso. Você pode desabilitar a filtragem de conteúdo para ponto de extremidade sem servidor individuais ao implantar pela primeira vez um modelo de linguagem ou na página de detalhes da implantação clicando no botão de alternância da filtragem de conteúdo. Você pode correr um risco maior de expor os usuários a conteúdo prejudicial se desativar os filtros de conteúdo.

Próximas etapas

Explorar modelos de base da IA do Azure no Estúdio de IA do Azure

Compartilhar via

Catálogo e coleções de modelos no Estúdio de IA do Azure

Coleções de modelos

Visão geral dos recursos do Catálogo de Modelos

Implantação de modelo: computação gerenciada e API sem servidor (pagamento conforme o uso)

Computação gerenciada

Como os modelos são disponibilizados para implantação como computação gerenciada?

Implante modelos para inferência com a computação gerenciada

Crie aplicativos de IA generativa com a computação gerenciada

Segurança de conteúdo para modelos implantados como computação gerenciada

APIs sem servidor com cobrança paga conforme o uso

Como os modelos de terceiros são disponibilizados no MaaS?

Pague pelo uso do modelo em MaaS

Implante modelos para inferência por meio de MaaS

Ajuste modelos por meio de MaaS com pagamento conforme o uso

RAG com modelos implantados como APIs sem servidor

Disponibilidade regional de ofertas e modelos

Segurança de conteúdo para modelos implantados por meio da API sem servidor

Próximas etapas

Comentários

Comentários

Recursos adicionais