Catálogo de modelos e coleções no Azure AI Studio

Artigo
07/03/2024

Importante

Alguns dos recursos descritos neste artigo podem estar disponíveis apenas na visualização. Essa visualização é fornecida sem um contrato de nível de serviço e não a recomendamos para cargas de trabalho de produção. Algumas funcionalidades poderão não ser suportadas ou poderão ter capacidades limitadas. Para obter mais informações, veja Termos Suplementares de Utilização para Pré-visualizações do Microsoft Azure.

O catálogo de modelos no estúdio de IA do Azure é o hub para descobrir e usar uma ampla gama de modelos que permitem criar aplicativos de IA generativa. O catálogo de modelos apresenta centenas de modelos em provedores de modelos, como o serviço Azure OpenAI, Mistral, Meta, Cohere, Nvidia, Hugging Face, incluindo modelos treinados pela Microsoft. Os modelos de fornecedores que não sejam a Microsoft são Produtos que não são da Microsoft, conforme definido nos Termos do Produto da Microsoft, e estão sujeitos aos termos fornecidos com o modelo.

Coleções de modelos

O catálogo de modelos organiza modelos em Coleções. Existem três tipos de coleções no catálogo de modelos:

Modelos selecionados pelo Azure AI: os modelos proprietários e de ponderação aberta de terceiros mais populares e empacotados e otimizados para funcionarem perfeitamente na plataforma do Azure AI. O uso desses modelos está sujeito aos termos de licença do provedor do modelo fornecidos com o modelo. Quando implantado no Azure AI Studio, a disponibilidade do modelo está sujeita ao SLA do Azure aplicável e a Microsoft fornece suporte para problemas de implantação. Modelos de parceiros como Meta, NVIDIA, Mistral AI são exemplos de modelos disponíveis na coleção "Curated by Azure AI" no catálogo. Estes modelos podem ser identificados por uma marca de verificação verde nos mosaicos de modelos no catálogo ou pode filtrar pela coleção "Selecionados pelo Azure AI".
Modelos do Azure OpenAI, disponíveis exclusivamente no Azure: modelos emblemáticos do Azure OpenAI através da coleção 'Azure OpenAI' através de uma integração com o Serviço OpenAI do Azure. A Microsoft dá suporte a esses modelos e seu uso sujeito aos termos do produto e SLA para o Serviço OpenAI do Azure.
Modelos abertos a partir do hub Hugging Face: Centenas de modelos do hub HuggingFace são acessíveis através da coleção 'Hugging Face' para inferência em tempo real com computação gerenciada. O Hugging Face cria e mantém modelos disponibilizados na coleção Hugging Face. Aceda ao Fórum da HuggingFace ou contacte o Suporte da HuggingFace para obter ajuda. Saiba mais em Implantar modelos abertos .

Sugerir adições ao Catálogo de Modelos: pode enviar um pedido para adicionar um modelo ao Catálogo de Modelos com este formulário.

Visão geral dos recursos do Catálogo de Modelos

Para obter informações sobre os modelos do Azure OpenAI, consulte Azure OpenAI Service.

Alguns modelos nos modelos Curated by Azure AI e Open das coleções do hub Hugging Face podem ser implantados com uma opção de computação gerenciada, e alguns modelos estão disponíveis para serem implantados usando APIs sem servidor com cobrança pré-paga. Esses modelos podem ser descobertos, comparados, avaliados, ajustados (quando suportados) e implantados em escala e integrados em seus aplicativos de IA generativa com segurança de nível empresarial e governança de dados.

Descubra: revise cartões de modelo, experimente a inferência de exemplo e procure exemplos de código para avaliar, ajustar ou implantar o modelo.
Comparar: compare benchmarks entre modelos e conjuntos de dados disponíveis no setor para avaliar qual deles atende ao seu cenário de negócios.
Avaliar: avalie se o modelo é adequado para sua carga de trabalho específica, fornecendo seus próprios dados de teste. As métricas de avaliação facilitam a visualização do desempenho do modelo selecionado no seu cenário.
Ajuste fino: personalize modelos ajustáveis usando seus próprios dados de treinamento e escolha o melhor modelo comparando métricas em todos os seus trabalhos de ajuste fino. As otimizações integradas aceleram o ajuste fino e reduzem a memória e a computação necessárias para o ajuste fino.
Implantar: implante modelos pré-treinados ou modelos ajustados perfeitamente para inferência. Os modelos que podem ser implantados na computação gerenciada também podem ser baixados.

Implantação do modelo: computação gerenciada e API sem servidor (paga conforme o uso)

O Catálogo de Modelos oferece duas maneiras distintas de implementar modelos do catálogo para utilizar: computação gerida e APIs sem servidor. As opções de implantação disponíveis para cada modelo variam; Saiba mais sobre os recursos das opções de implantação e as opções disponíveis para modelos específicos nas tabelas a seguir. Saiba mais sobre o processamento de dados com as opções de implementação.

Funcionalidades	Computação gerida	API sem servidor (pay-as-you-go)
Experiência de implementação e faturação	Os pesos de modelo são implantados em máquinas virtuais dedicadas com pontos de extremidade online gerenciados. O ponto final online gerido, que pode ter uma ou mais implementações, disponibiliza uma API REST para inferência. São-lhe cobradas as horas principais da Máquina Virtual usadas pelas implementações.	O acesso aos modelos é feito por meio de uma implementação que aprovisiona uma API para aceder aos mesmos. A API fornece acesso ao modelo hospedado e gerenciado pela Microsoft, para inferência. Este modo de acesso é denominado "Modelos como Serviço". São-lhe cobradas as entradas e saídas para as APIs, geralmente em tokens; as informações de preços são fornecidas antes da implementação.
Autenticação de API	Chaves e Autenticação com Microsoft Entra ID.	Apenas chaves.
Segurança dos Conteúdos	Use as APIs do serviço de Segurança de Conteúdos do Azure.	Os filtros da Segurança de Conteúdos do Azure AI estão disponíveis integrados nas APIs de inferência. Os filtros de Segurança de Conteúdos do Azure AI podem ser cobrados separadamente.
Isolamento da rede	Configure a Rede Gerenciada. Mais informações.

Modelo	Computação gerida	API sem servidor (pay as you go)
Modelos da família Llama	Lama 2-7b Llama-2-7b-bate-papo Lama-2-13b Llama-2-13b-bate-papo Lama-2-70b Llama-2-70b-bate-papo Llama-3-8B-Instruir Llama-3-70B-Instruir Lama-3-8B Llama-3-70B	Llama-3-70B-Instruir Llama-3-8B-Instruir Lama 2-7b Llama-2-7b-bate-papo Lama-2-13b Llama-2-13b-bate-papo Lama-2-70b Llama-2-70b-chat
Modelos da família Mistral	mistralai-Mixtral-8x22B-v0-1 mistralai-Mixtral-8x22B-Instruir-v0-1 mistral-comunidade-Mixtral-8x22B-v0-1 mistralai-Mixtral-8x7B-v01 mistralai-Mistral-7B-Instruir-v0-2 mistralai-Mistral-7B-v01 mistralai-Mixtral-8x7B-Instruir-v01 mistralai-Mistral-7B-Instruct-v01	Mistral-grande Mistral-small
Modelos da família Cohere	Não disponível	Cohere-command-r-plus Cohere-command-r Cohere-embed-v3-inglês Cohere-embed-v3-multilingual
JAIS	Não disponível	jais-30b-bate-papo
Modelos da família Phi3	Phi-3-small-128k-Instruir Phi-3-small-8k-Instruir Phi-3-mini-4k-Instruir Phi-3-mini-128k-Instruir Phi3-medium-128k-instruir Phi3-médio-4k-instruir	Phi-3-mini-4k-Instruir Phi-3-mini-128k-Instruir Phi3-medium-128k-instruir Phi3-médio-4k-instruir
Nixtla	Não disponível	TimeGEN-1
Outros modelos	Disponível	Não disponível

Computação gerida

A capacidade de implantar modelos como uma computação gerenciada se baseia nos recursos de plataforma do Azure Machine Learning para permitir a integração perfeita, em todo o ciclo de vida LLMOps, da ampla coleção de modelos no Catálogo de Modelos.

Como os modelos são disponibilizados para implantação como computação gerenciada?

Os modelos são disponibilizados através de registos do Azure Machine Learning que permitem a primeira abordagem de ML para alojar e distribuir recursos de Machine Learning, como ponderações de modelos, runtimes de contentores para executar os modelos, pipelines para avaliar e ajustar os modelos e conjuntos de dados para referências e exemplos. Estes Registos de ML baseiam-se numa infraestrutura altamente escalável e pronta para a empresa que:

Fornece artefactos de modelo de acesso de baixa latência para todas as regiões do Azure com replicação geográfica incorporada.
Suporta requisitos de segurança empresarial como limitar o acesso a modelos com o Azure Policy e a implementação de forma segura com redes virtuais geridas.

Implante modelos para inferência com computação gerenciada

Os modelos disponíveis para implantação em uma computação gerenciada podem ser implantados nos Pontos de Extremidade Online do Azure Machine Learning para inferência em tempo real. A implantação em computação gerenciada exige que você tenha uma cota de Máquina Virtual em sua Assinatura do Azure para as SKUs específicas necessárias para executar o modelo de forma otimizada. Alguns modelos permitem que você implante uma cota compartilhada temporariamente para testar o modelo. Saiba mais sobre a implantação de modelos:

Crie aplicativos de IA generativa com computação gerenciada

O fluxo imediato oferece uma ótima experiência para prototipagem. Você pode usar modelos implantados com cálculos gerenciados no Prompt Flow com a ferramenta Open Model LLM. Você também pode usar a API REST exposta pela computação gerenciada em ferramentas LLM populares como LangChain com a extensão Azure Machine Learning.

Segurança de conteúdo para modelos implantados como computação gerenciada

O serviço Azure AI Content Safety (AACS) está disponível para uso com cálculos gerenciados para rastrear várias categorias de conteúdo prejudicial, como conteúdo sexual, violência, ódio e automutilação, além de ameaças avançadas, como deteção de risco de jailbreak e deteção de texto de material protegido. Você pode consultar este bloco de anotações para integração de referência com o AACS para Llama 2 ou usar a ferramenta Segurança de Conteúdo (Texto) no Prompt Flow para passar respostas do modelo para o AACS para triagem. Você é cobrado separadamente de acordo com os preços da AACS para tal uso.

APIs sem servidor com faturamento pré-pago

Certos modelos no Catálogo de Modelos podem ser implantados como APIs sem servidor com cobrança pré-paga; esse método de implantação é chamado de Models-as-a Service (MaaS), fornecendo uma maneira de consumi-los como uma API sem hospedá-los em sua assinatura. Os modelos disponíveis por meio do MaaS são hospedados em infraestrutura gerenciada pela Microsoft, o que permite o acesso baseado em API ao modelo do provedor de modelos. O acesso baseado em API pode reduzir drasticamente o custo de acesso a um modelo e simplificar significativamente a experiência de provisionamento. A maioria dos modelos MaaS vem com preços baseados em tokens.

Como os modelos de terceiros são disponibilizados no MaaS?

Os modelos disponíveis para implementação como APIs sem servidor com faturação pay-as-you-go são oferecidos pelo fornecedor de modelos, mas alojados na infraestrutura do Azure gerida pela Microsoft e acedidos através de API. Os provedores de modelo definem os termos de licença e definem o preço de uso de seus modelos, enquanto o serviço Azure Machine Learning gerencia a infraestrutura de hospedagem, disponibiliza as APIs de inferência e atua como processador de dados para prompts enviados e saída de conteúdo por modelos implantados via MaaS. Saiba mais sobre o processamento de dados para MaaS no artigo sobre privacidade de dados.

Pague pelo uso do modelo no MaaS

A experiência de descoberta, assinatura e consumo para modelos implantados por meio de MaaS está no Azure AI Studio e no estúdio Azure Machine Learning. Os usuários aceitam os termos de licença para uso dos modelos e as informações de preços para consumo são fornecidas durante a implantação. Os modelos de fornecedores terceiros são faturados através do Azure Marketplace, de acordo com os Termos de Utilização do Mercado Comercial, e os modelos da Microsoft são faturados utilizando os contadores do Azure como Serviços de Consumo de Primeira Parte. Conforme descrito nos Termos do Produto, os Serviços de Consumo de Primeira Parte são adquiridos usando medidores do Azure, mas não estão sujeitos aos termos de serviço do Azure, e o uso desses modelos está sujeito aos termos de licença fornecidos.

Implantar modelos para inferência por meio de MaaS

A implantação de um modelo por meio do MaaS permite que os usuários tenham acesso a APIs de inferência prontas para uso sem a necessidade de configurar a infraestrutura ou provisionar GPUs, economizando tempo e recursos de engenharia. Essas APIs podem ser integradas com várias ferramentas LLM e o uso é cobrado conforme descrito na seção anterior.

Ajuste os modelos através do MaaS com o Pay-as-you-go

Para modelos que estão disponíveis por meio de MaaS e suportam ajuste fino, os usuários podem aproveitar o ajuste fino hospedado com faturamento pré-pago para personalizar os modelos usando os dados que eles fornecem. Para obter mais informações, consulte a visão geral do ajuste fino.

RAG com modelos implantados como APIs sem servidor

O Azure AI Studio permite que os usuários usem índices vetoriais e geração aumentada de recuperação. Os modelos que podem ser implantados por meio de API sem servidor podem ser usados para gerar incorporações e inferências com base em dados personalizados para gerar respostas específicas para seu caso de uso. Para obter mais informações, consulte Como criar um índice vetorial.

Disponibilidade regional de ofertas e modelos

A faturação pré-paga está disponível apenas para utilizadores cuja subscrição do Azure pertença a uma conta de faturação num país onde o fornecedor de modelos disponibilizou a oferta (consulte "região de disponibilidade da oferta" na tabela da secção seguinte). Se a oferta estiver disponível na região relevante, o usuário deverá ter um Hub/Projeto na região do Azure onde o modelo está disponível para implantação ou ajuste fino, conforme aplicável (consulte as colunas "hub/região do projeto" na tabela abaixo).

Modelo	Disponibilidade regional da oferta	Região de Hub/Projeto para implantação	Região do Hub/Projeto para ajuste fino
Llama-3-70B-Instruir Llama-3-8B-Instruct	Países Geridos pela Microsoft	Leste dos EUA, Leste dos EUA 2, Centro-Norte dos EUA, Centro-Sul dos EUA, Suécia Central, Oeste dos EUA, Oeste dos EUA 3	Não disponível
Lama 2-7b Lama-2-13b Lama-2-70b	Países Geridos pela Microsoft	Leste dos EUA, Leste dos EUA 2, Centro-Norte dos EUA, Centro-Sul dos EUA, Oeste dos EUA, Oeste dos EUA 3	EUA Oeste 3
Llama-2-7b-bate-papo Llama-2-13b-bate-papo Llama-2-70b-chat	Países Geridos pela Microsoft	Leste dos EUA, Leste dos EUA 2, Centro-Norte dos EUA, Centro-Sul dos EUA, Oeste dos EUA, Oeste dos EUA 3,	Não disponível
Mistral Small	Países Geridos pela Microsoft	Leste dos EUA, Leste dos EUA 2, Centro-Norte dos EUA, Centro-Sul dos EUA, Suécia Central, Oeste dos EUA, Oeste dos EUA 3	Não disponível
Mistral-Large	Países Geridos pela Microsoft Brasil Hong Kong Israel	Leste dos EUA, Leste dos EUA 2, Centro-Norte dos EUA, Centro-Sul dos EUA, Suécia Central, Oeste dos EUA, Oeste dos EUA 3	Não disponível
Cohere-command-r-plus Cohere-command-r Cohere-embed-v3-inglês Cohere-embed-v3-multilingual	Países Geridos pela Microsoft Japão	Leste dos EUA, Leste dos EUA 2, Centro-Norte dos EUA, Centro-Sul dos EUA, Suécia Central, Oeste dos EUA, Oeste dos EUA 3	Não disponível
TimeGEN-1	Países Geridos pela Microsoft México Israel	Leste dos EUA, Leste dos EUA 2, Centro-Norte dos EUA, Centro-Sul dos EUA, Suécia Central, Oeste dos EUA, Oeste dos EUA 3	Não disponível
jais-30b-bate-papo	Países Geridos pela Microsoft	Leste dos EUA, Leste dos EUA 2, Centro-Norte dos EUA, Centro-Sul dos EUA, Suécia Central, Oeste dos EUA, Oeste dos EUA 3	Não disponível
Phi-3-mini-4k-instruir	Países Geridos pela Microsoft	Leste dos EUA 2, Canadá Central, Suécia Central, Oeste dos EUA 3	Não disponível
Phi-3-mini-128k-instruir Phi-3-medium-4k-instruir Phi-3-medium-128k-instruct	Países Geridos pela Microsoft	E.U.A. Leste 2, Suécia Central	Não disponível

Segurança de conteúdo para modelos implantados por meio da API Serverless

Importante

O Azure AI Studio implementa uma configuração padrão dos filtros de moderação de texto do Azure AI Content Safety para conteúdo nocivo (ódio, automutilação, sexual e violência) em modelos de linguagem implantados com MaaS. Para saber mais sobre filtragem de conteúdo (visualização), consulte Categorias de danos na Segurança de conteúdo de IA do Azure. A filtragem de conteúdo (visualização) ocorre de forma síncrona à medida que o serviço processa pedidos para gerar conteúdo, e pode ser-lhe cobrado separadamente de acordo com os preços da AACS para essa utilização. Você pode desabilitar a filtragem de conteúdo para pontos de extremidade sem servidor individuais quando implantar um modelo de idioma pela primeira vez ou na página de detalhes da implantação, clicando na alternância de filtragem de conteúdo. Poderá estar em maior risco de expor os utilizadores a conteúdos nocivos se desativar os filtros de conteúdo.

Próximos passos

Explore os modelos de base da IA do Azure no Azure AI Studio

Partilhar via

Catálogo de modelos e coleções no Azure AI Studio

Coleções de modelos

Visão geral dos recursos do Catálogo de Modelos

Implantação do modelo: computação gerenciada e API sem servidor (paga conforme o uso)

Computação gerida

Como os modelos são disponibilizados para implantação como computação gerenciada?

Implante modelos para inferência com computação gerenciada

Crie aplicativos de IA generativa com computação gerenciada

Segurança de conteúdo para modelos implantados como computação gerenciada

APIs sem servidor com faturamento pré-pago

Como os modelos de terceiros são disponibilizados no MaaS?

Pague pelo uso do modelo no MaaS

Implantar modelos para inferência por meio de MaaS

Ajuste os modelos através do MaaS com o Pay-as-you-go

RAG com modelos implantados como APIs sem servidor

Disponibilidade regional de ofertas e modelos

Segurança de conteúdo para modelos implantados por meio da API Serverless

Próximos passos

Comentários

Comentários

Recursos adicionais