Modelos do Serviço OpenAI do Azure

Artigo
05/14/2024

O Serviço OpenAI do Azure é alimentado por um conjunto diversificado de modelos com diferentes funcionalidades e pontos de preço. A disponibilidade do modelo varia de acordo com a região. Para o GPT-3 e outros modelos que serão desativados em julho de 2024, confira Modelos herdados do Serviço OpenAI do Azure.

Modelos	Descrição
GPT-4o &GPT-4 Turbo NOVO	Os modelos mais recentes do OpenAI do Azure com versões multimodal que podem aceitar texto e imagens como entrada.
GPT-4	Um conjunto de modelos que aprimoram o GPT-3.5 e podem entender e gerar código e linguagem natural.
GPT-3.5	Um conjunto de modelos que aprimoram o GPT-3 e podem entender e gerar código e linguagem natural.
Incorporações	Um conjunto de modelos que podem converter texto em um formulário de vetor numérico para facilitar a similaridade de texto.
DALL-E	Uma série de modelos que podem gerar imagens originais a partir de linguagem natural.
Whisper	Uma série de modelos em versão prévia que podem transcrever e traduzir uma fala em texto.
Conversão de texto em fala (versão prévia)	Uma série de modelos em versão prévia que podem sintetizar a conversão de texto em fala.

GPT-4o e GPT-4 Turbo

o GPT-4o é o modelo mais recente do OpenAI. O GPT-4o integra texto e imagens em um único modelo, permitindo que ele manipule vários tipos de dados simultaneamente. Essa abordagem multimodal melhora a precisão e a capacidade de resposta nas interações entre humanos e computadores. O GPT-4o tem as mesmas tarefas de codificação e texto em inglês que o GPT-4 Turbo, enquanto oferece um desempenho superior em idiomas além do inglês e em tarefas de visão, definindo novos parâmetros de comparação para os recursos de IA.

Como posso acessar o modelo GPT-4o?

O GPT-4o está disponível para implantação nos modelos padrão e padrão global.

Você deve criar ou usar um recurso já existente em uma região que seja padrão com suporte ou padrão global, onde o modelo está disponível.

Após a criação do recurso, você poderá implantar o modelo GPT-4o. Se estiver fazendo uma implantação programática, o nome do modelo é gpt-4o e a versão é 2024-05-13.

GPT-4 Turbo

O GPT-4 Turbo é um modelo multimodal grande (aceitando entradas de texto ou imagem e gerando texto) que pode resolver problemas difíceis com maior precisão do que qualquer um dos modelos anteriores do OpenAI. Assim como o GPT-3.5 Turbo e os modelos GPT-4 Turbo mais antigos, o GPT-4 Turbo é otimizado para chat e funciona bem para tarefas de conclusão tradicionais.

A última versão GA do GPT-4 Turbo é:

gpt-4Versão:turbo-2024-04-09

Essa é a substituição dos seguintes modelos de versão prévia:

gpt-4Versão:1106-Preview
gpt-4Versão:0125-Preview
gpt-4Versão:vision-preview

Diferenças entre os modelos OpenAI e Azure OpenAI GPT-4 Turbo GA

A versão mais recente do modelo turbo 0409 do OpenAI suporta o modo JSON e chamadas de função para todas as solicitações de inferência.
A versão do OpenAI do Azure do turbo-2024-04-09 mais recente no momento não dá suporte ao uso do modo JSON e chamadas de função ao fazer solicitações de inferência com entrada de imagem (visão). As solicitações de entrada baseadas em texto (solicitações sem image_url e imagens embutidas) dão suporte ao modo JSON e à chamada de função.

Diferenças do gpt-4 vision-preview

A IA do Azure não oferece suporte à integração de aprimoramentos específicos de Visão com o GPT-4 Turbo com Visão para a gpt-4Versão:turbo-2024-04-09. Isso inclui Reconhecimento Óptico de Caracteres (OCR), ancoragem de objetos, solicitações de vídeo e melhor manuseio dos seus dados com imagens.

Disponibilidade gerenciada provisionada do GPT-4 Turbo

gpt-4Versão:turbo-2024-04-09 está disponível para implantações padrão e provisionadas. Atualmente, a versão provisionada deste modelo não dá suporte a solicitações de inferência de imagem/visão. As implantações provisionadas deste modelo aceitam apenas a entrada de texto. As implantações de modelo Standard aceitam solicitações de inferência de texto e imagem/visão.

Disponibilidade de região

Para obter informações sobre a disponibilidade regional do modelo, confira a matriz de modelos para implantações padrão e provisionadas.

Implantar o GPT-4 Turbo com Visão GA

Para implantar o modelo GA na interface do usuário do Estúdio, selecione GPT-4 e escolha a versão turbo-2024-04-09 no menu suspenso. A cota padrão para o modelo gpt-4-turbo-2024-04-09 será a mesma da cota atual para o GPT-4-Turbo. Consulte os limites de cota regional.

GPT-4

O GPT-4 é o antecessor do GPT-4 Turbo. Tanto os modelos GPT-4 quanto os modelos GPT-4 Turbo têm um nome de modelo base de gpt-4. Você pode distinguir entre os modelos GPT-4 e Turbo examinando a versão do modelo.

gpt-4Versão0314
gpt-4Versão0613
gpt-4-32kVersão0613

Você pode ver o comprimento do contexto do token compatível com cada modelo na tabela de resumo do modelo.

Modelos de GPT-4 e GPT-4 Turbo

Esses modelos só podem ser usados com a API de Conclusão de Chat.

Consulte as versões de modelo para saber mais sobre como o Serviço OpenAI do Azure lida com atualizações de versão de modelo e trabalhando com modelos, para saber como exibir e definir as configurações de versão do modelo de suas implantações GPT-4.

ID do Modelo	Descrição	Máx. de solicitações (tokens)	Dados de treinamento (até)
`gpt-4o` (2024-05-13) GPT-4o (Omni)	Modelo GA mais recente - Processamento de imagem, texto – Modo JSON – chamada de função paralela - Precisão e capacidade de resposta aprimoradas - Paridade com o texto em inglês e tarefas de codificação em comparação ao GPT-4 Turbo com o Visão - Desempenho superior em idiomas além do inglês e em tarefas de visão - Não oferece suporte a aprimoramentos	Input: 128,000 Output: 4,096	Outubro de 2023
`gpt-4` (turbo-2024-04-09) GPT-4 Turbo com Visão	Novo modelo em disponibilidade geral - Substituição de todos os modelos de versão prévia do GPT-4 anteriores (`vision-preview`, `1106-Preview`, ). `0125-Preview` Atualmente, a - disponibilidade do recurso é diferente dependendo do método de entrada e do tipo de implantação. - Não oferece suporte a aprimoramentos.	Input: 128,000 Output: 4,096	dez. de 2023
`gpt-4` (0125-Preview)* Versão prévia do GPT-4 Turbo	Modelo de versão prévia – Substitui 1106-Preview – Melhor desempenho de geração de código – Reduz casos em que o modelo não conclui uma tarefa – Modo JSON – chamada de função paralela – saída reproduzível (versão prévia)	Input: 128,000 Output: 4,096	dez. de 2023
`gpt-4` (vision-preview) Versão prévia do GPT-4 Turbo com Visão	Modelo de versão prévia – Aceita entrada de texto e imagem. – Dá suporte a aprimoramentos – Modo JSON – chamada de função paralela – saída reproduzível (versão prévia)	Input: 128,000 Output: 4,096	Abril de 2023
`gpt-4` (1106-preview) Versão prévia do GPT-4 Turbo	Modelo de versão prévia – Modo JSON – chamada de função paralela – saída reproduzível (versão prévia)	Input: 128,000 Output: 4,096	Abril de 2023
`gpt-4-32k` (0613)	Modelo de GA mais antigo – Chamada de função básica com ferramentas	32.768	Setembro de 2021
`gpt-4` (0613)	Modelo de GA mais antigo – Chamada de função básica com ferramentas	8\.192	Setembro de 2021
`gpt-4-32k`(0314)	Modelo de GA mais antigo - Informações sobre desativação	32.768	Setembro de 2021
`gpt-4` (0314)	Modelo de GA mais antigo - Informações sobre desativação	8\.192	Setembro de 2021

Cuidado

Não recomendamos o uso desses modelos de versão prévia em produção. Atualizaremos todas as implantações de modelos de versão prévia para versões prévias futuras ou para a versão estável/GA mais recente. Os modelos de visualização designados não seguem o ciclo de vida padrão do modelo do Azure OpenAI.

Observação

A versão 0314 de gpt-4 e gpt-4-32k será desativada após 5 de julho de 2024. A versão 0613 de gpt-4 e gpt-4-32k será desativada após 30 de setembro de 2024. Confira atualizações de modelos para obter o comportamento de atualização do modelo.

GPT-4 versão 0125-preview é uma versão atualizada da versão prévia do GPT-4 Turbo lançada anteriormente como versão 1106-preview.
O GPT-4 versão 0125-preview conclui tarefas como a geração de código mais completamente em comparação com o gpt-4-1106-preview. Por isso, dependendo da tarefa, os clientes podem descobrir que o GPT-4-0125-preview gera mais saída em comparação com o gpt-4-1106-preview. Recomendamos que os clientes comparem as saídas do novo modelo. O GPT-4-0125-preview também aborda bugs no gpt-4-1106-preview com manipulação UTF-8 para idiomas diferentes do inglês.
A versão GPT-4 turbo-2024-04-09 é a versão GA mais recente e substitui 0125-Preview, 1106-preview e vision-preview.

Importante

gpt-4 as versões 1106-Preview, 0125-Preview e vision-preview serão atualizadas com uma versão estável do gpt-4 no futuro. As implantações das versões gpt-4 1106-Preview, 0125-Preview e vision-preview definidas como "Atualização automática para padrão" e "Atualizar quando expirado" começarão a ser atualizadas após o lançamento da versão estável. Para cada implantação, ocorre uma atualização da versão do modelo sem interrupção do serviço para chamadas de API. As atualizações são realizadas por região e espera-se que o processo completo de atualização leve 2 semanas. As implantações das versões gpt-4 1106-Preview, 0125-Preview e vision-preview definidas como "Sem atualização automática" não serão atualizadas e deixarão de funcionar quando a versão de visualização for atualizada na região. Confira Desativações e preterições do modelo do OpenAI do Azure para obter mais informações sobre o cronograma da atualização.

GPT-3.5

Os modelos GPT-3.5 conseguem entender e gerar linguagem natural ou código. O modelo mais capaz e mais econômico da família GPT-3.5 é o GPT-3.5 Turbo, que foi otimizado para chat e também funciona bem para tarefas de preenchimento tradicionais. O GPT-3.5 Turbo está disponível para uso com a API de Conclusão de Chat. O GPT-3.5 Turbo Instruct tem recursos semelhantes ao text-davinci-003 usando a API de Conclusão em vez da API de Conclusão de Chat. Recomendamos o uso do GPT-3.5 Turbo e do GPT-3.5 Turbo Instruct em vez dos modelos herdados GPT-3.5 e GPT-3.

ID do Modelo	Descrição	Máx. de solicitações (tokens)	Dados de treinamento (até)
`gpt-35-turbo` (0125) NOVO	Modelo GA mais recente – Modo JSON – chamada de função paralela – saída reproduzível (versão prévia) – Maior precisão na resposta nos formatos solicitados. – Correção de um bug que causou um problema de codificação de texto em chamadas de função em idiomas que não o inglês.	Input: 16,385 Output: 4,096	Setembro de 2021
`gpt-35-turbo` (1106)	Modelo de GA mais antigo – Modo JSON – chamada de função paralela – saída reproduzível (versão prévia)	Input: 16,385 Output: 4,096	Setembro de 2021
`gpt-35-turbo-instruct` (0914)	Somente ponto de extremidade de conclusão — Substituição de modelos de preenchimento herdados	4,097	Setembro de 2021
`gpt-35-turbo-16k` (0613)	Modelo de GA mais antigo – Chamada de função básica com ferramentas	16.384	Setembro de 2021
`gpt-35-turbo` (0613)	Modelo de GA mais antigo – Chamada de função básica com ferramentas	4\.096	Setembro de 2021
`gpt-35-turbo`¹ (0301)	Modelo de GA mais antigo - Informações sobre desativação	4\.096	Setembro de 2021

Para saber mais sobre como interagir com o GPT-3.5 Turbo e a API de Preenchimentos de Chat, confira nossas instruções passo a passo aprofundadas.

¹ Esse modelo aceitará solicitações > 4.096 tokens. Não é recomendável exceder o limite de 4.096 tokens de entrada, pois a versão mais recente do modelo é limitada a 4.096 tokens. Se você encontrar problemas ao exceder 4.096 tokens de entrada com esse modelo, essa configuração não terá suporte oficial.

Incorporações

text-embedding-3-large é o modelo de inserção mais recente e mais capaz. A atualização entre modelos de inserções não é possível. Para passar do uso de text-embedding-ada-002 para text-embedding-3-large, você precisaria gerar novas inserções.

text-embedding-3-large
text-embedding-3-small
text-embedding-ada-002

Em testes, o OpenAI relata que os modelos de inserções de terceira geração grandes e pequenos oferecem melhor desempenho médio de recuperação de vários idiomas com o parâmetro de comparação MIRACL, mantendo ainda o desempenho para tarefas em inglês com o parâmetro de comparação MTEB.

Benchmark de avaliação	`text-embedding-ada-002`	`text-embedding-3-small`	`text-embedding-3-large`
Média MIRACL	31,4	44,0	54.9
Média MTEB	61,0	62,3	64,6

Os modelos de inserções de terceira geração dão suporte à redução do tamanho da inserção por meio de um novo parâmetro dimensions. Normalmente, inserções maiores são mais caras de uma perspectiva de computação, memória e armazenamento. Ser capaz de ajustar o número de dimensões permite mais controle sobre o custo e o desempenho gerais. Não há suporte para o parâmetro dimensions em todas as versões da biblioteca OpenAI 1.x Python. Para aproveitar esse parâmetro, recomendamos atualizar para a versão mais recente: pip install openai --upgrade.

O teste de parâmetro de comparação MTEB da OpenAI constatou que, mesmo quando as dimensões do modelo de terceira geração são reduzidas para menos de 1.536 dimensões de text-embeddings-ada-002, o desempenho permanece ligeiramente melhor.

DALL-E

Os modelos DALL-E geram imagens a partir de prompts de texto fornecidos pelo usuário. DALL-E 3 está geralmente disponível para uso com APIs REST. DALL-E 2 e DALL-E 3 com SDKs de cliente estão em versão prévia.

Whisper

Os modelos do Whisper podem ser usados para conversão de fala em texto.

Use também o modelo Whisper por meio da API de transcrição em lote da Fala de IA do Azure. ConsulteO que é o modelo Whisper? para saber mais sobre quando usar a Fala de IA do Azure versus o Serviço OpenAI do Azure.

Conversão de texto em fala (versão prévia)

Os modelos de conversão de texto em fala do OpenAI, atualmente em versão prévia, podem ser usado para sintetizar a conversão de texto em fala.

Você também pode usar as vozes da conversão de texto em fala do OpenAI por meio da Fala de IA do Azure. Para saber mais, consulte o guia Vozes da conversão de texto em fala do OpenAI por meio do Serviço OpenAI do Azure ou Fala de IA do Azure.

Tabela de resumo de modelos e disponibilidade por região

Observação

Este artigo abrange principalmente a disponibilidade de modelo/região que se aplica a todos os clientes do OpenAI do Azure com tipos de implantação Standard. Alguns clientes selecionados têm acesso a combinações de modelo/região que não estão listadas na tabela unificada abaixo. Para obter mais informações sobre implantações provisionadas, consulte nossa Orientação provisionada.

Disponibilidade do modelo de implantação padrão

Região	gpt-4, 0613	gpt-4, 1106-Preview	gpt-4, 0125-Preview	gpt-4, vision-preview	gpt-4, turbo-2024-04-09	gpt-4o, 2024-05-13	gpt-4-32k, 0613	gpt-35-turbo, 0301	gpt-35-turbo, 0613	gpt-35-turbo, 1106	gpt-35-turbo, 0125	gpt-35-turbo-16k, 0613	gpt-35-turbo-instruct, 0914	text-embedding-ada-002, 1	text-embedding-ada-002, 2	text-embedding-3-small, 1	text-embedding-3-large, 1	babbage-002, 1	dall-e-3, 3.0	davinci-002, 1	tts, 001	tts-hd, 001	whisper, 001
australiaeast	✅	✅	-	✅	-	-	✅	-	✅	✅	-	✅	-	-	✅	-	-	-	✅	-	-	-	-
brazilsouth	-	-	-	-	-	-	-	-	-	-	-	-	-	-	✅	-	-	-	-	-	-	-	-
canadaeast	✅	✅	-	-	-	-	✅	-	✅	✅	✅	✅	-	-	✅	✅	✅	-	-	-	-	-	-
eastus	-	-	✅	-	-	✅	-	✅	✅	-	-	✅	✅	✅	✅	✅	✅	-	✅	-	-	-	-
eastus2	-	✅	-	-	✅	✅	-	-	✅	-	-	✅	-	-	✅	✅	✅	-	-	-	-	-	✅
francecentral	✅	✅	-	-	-	-	✅	✅	✅	✅	-	✅	-	-	✅	-	✅	-	-	-	-	-	-
japaneast	-	-	-	✅	-	-	-	-	✅	-	-	✅	-	-	✅	-	✅	-	-	-	-	-	-
northcentralus	-	-	✅	-	-	✅	-	-	✅	-	✅	✅	-	-	✅	-	-	✅	-	✅	✅	✅	✅
norwayeast	-	✅	-	-	-	-	-	-	-	-	-	-	-	-	✅	-	-	-	-	-	-	-	✅
southafricanorth	-	-	-	-	-	-	-	-	-	-	-	-	-	-	✅	-	-	-	-	-	-	-	-
southcentralus	-	-	✅	-	-	✅	-	✅	-	-	✅	-	-	✅	✅	-	-	-	-	-	-	-	-
southindia	-	✅	-	-	-	-	-	-	-	✅	-	-	-	-	✅	-	✅	-	-	-	-	-	✅
swedencentral	✅	✅	-	✅	✅	-	✅	-	✅	✅	-	✅	✅	-	✅	-	✅	✅	✅	✅	✅	✅	✅
switzerlandnorth	✅	-	-	✅	-	-	✅	-	✅	-	-	✅	-	-	✅	-	-	-	-	-	-	-	-
uksouth	-	✅	✅	-	-	-	-	✅	✅	✅	-	✅	-	-	✅	-	✅	-	-	-	-	-	-
westeurope	-	-	-	-	-	-	-	✅	-	-	-	-	-	-	✅	-	-	-	-	-	-	-	✅
westus	-	✅	-	✅	-	✅	-	-	-	✅	-	-	-	-	✅	-	-	-	-	-	-	-	-
westus3	-	✅	-	-	-	✅	-	-	-	-	-	-	-	-	✅	-	✅	-	-	-	-	-	-

Essa tabela não inclui o ajuste fino da disponibilidade regional. Consulte a seção de ajuste fino dedicada para obter essas informações.

Cota do modelo de implantação padrão

A cota padrão para modelos varia de acordo com o modelo e a região. Os limites da cota padrão estão sujeitos a alterações.

A cota para implantações padrão é descrita em termos de TPM (Tokens por Minuto).

Region	GPT-4	GPT-4-32K	GPT-4-Turbo	GPT-4-Turbo-V	gpt-4o	gpt-4o - GlobalStandard	GPT-35-Turbo	GPT-35-Turbo-Instruct	Text-Embedding-Ada-002	text-embedding-3-small	text-embedding-3-large	Babbage-002	Babbage-002 – ajuste fino	Davinci-002	Davinci-002 – ajuste fino	GPT-35-Turbo – ajuste fino	GPT-35-Turbo-1106 – ajuste fino	GPT-35-Turbo-0125 – ajuste fino	GPT-4 - finetune
australiaeast	40 mil	80 mil	80 mil	30 K	-	-	300 mil	-	350 mil	-	-	-	-	-	-	-	-	-	-
brazilsouth	-	-	-	-	-	-	-	-	350 mil	-	-	-	-	-	-	-	-	-	-
canadaeast	40 mil	80 mil	80 mil	-	-	-	300 mil	-	350 mil	350 mil	350 mil	-	-	-	-	-	-	-	-
eastus	-	-	80 mil	-	150 mil	450 K	240 mil	240 mil	240 mil	350 mil	350 mil	-	-	-	-	-	-	-	-
eastus2	-	-	80 mil	-	150 mil	450 K	300 mil	-	350 mil	350 mil	350 mil	-	-	-	-	250 mil	250 mil	250 mil	-
francecentral	20 mil	60 K	80 mil	-	-	-	240 mil	-	240 mil	-	350 mil	-	-	-	-	-	-	-	-
japaneast	-	-	-	30 K	-	-	300 mil	-	350 mil	-	350 mil	-	-	-	-	-	-	-	-
northcentralus	-	-	80 mil	-	150 mil	450 K	300 mil	-	350 mil	-	-	240 mil	250 mil	240 mil	250 mil	250 mil	250 mil	250 mil	100 mil
norwayeast	-	-	150 mil	-	-	-	-	-	350 mil	-	-	-	-	-	-	-	-	-	-
southafricanorth	-	-	-	-	-	-	-	-	350 mil	-	-	-	-	-	-	-	-	-	-
southcentralus	-	-	80 mil	-	150 mil	450 K	240 mil	-	240 mil	-	-	-	-	-	-	-	-	-	-
southindia	-	-	150 mil	-	-	-	300 mil	-	350 mil	-	350 mil	-	-	-	-	-	-	-	-
swedencentral	40 mil	80 mil	150 mil	30 K	-	-	300 mil	240 mil	350 mil	-	350 mil	240 mil	250 mil	240 mil	250 mil	250 mil	250 mil	250 mil	100 mil
switzerlandnorth	40 mil	80 mil	-	30 K	-	-	300 mil	-	350 mil	-	-	-	-	-	-	-	-	-	-
switzerlandwest	-	-	-	-	-	-	-	-	-	-	-	-	250 mil	-	250 mil	250 mil	250 mil	250 mil	-
uksouth	-	-	80 mil	-	-	-	240 mil	-	350 mil	-	350 mil	-	-	-	-	-	-	-	-
westeurope	-	-	-	-	-	-	240 mil	-	240 mil	-	-	-	-	-	-	-	-	-	-
westus	-	-	80 mil	30 K	150 mil	450 K	300 mil	-	350 mil	-	-	-	-	-	-	-	-	-	-
westus3	-	-	80 mil	-	150 mil	450 K	-	-	350 mil	-	350 mil	-	-	-	-	-	-	-	-

1 K = 1000 TPM (Tokens por Minuto). A relação entre TPM e RPM (Solicitações por Minuto) é definida atualmente como 6 RPM por 1000 TPM.

Os valores para GPT-4o na tabela acima representam valores de cota padrão que estão disponíveis para todos os clientes. Os clientes corporativos têm alocações de cota muito maiores.

Disponibilidade do modelo de implantação provisionada

Região	gpt-4, 0613	gpt-4, 1106-Preview	gpt-4, 0125-Preview	gpt-4, turbo-2024-04-09	gpt-4o, 2024-05-13	gpt-4-32k, 0613	gpt-35-turbo, 1106	gpt-35-turbo, 0125
australiaeast	✅	✅	✅	-		✅	✅	✅
brazilsouth	✅	✅	-	-		✅	✅	-
canadacentral	✅	-	-	-		✅	-	✅
canadaeast	✅	✅	-	-		-	✅	-
eastus	✅	✅	✅	✅		✅	✅	✅
eastus2	✅	✅	✅	✅		✅	✅	✅
francecentral	✅	✅	✅	-		✅	-	✅
germanywestcentral	✅	✅	✅	-		✅	✅	-
japaneast	-	✅	✅	✅	✅	-	-	✅
koreacentral	✅	-	-	-		✅	✅	-
northcentralus	✅	✅	✅	✅		✅	✅	✅
norwayeast	✅	-	✅	-		✅	-	-
polandcentral	✅	✅	✅	-		✅	✅	✅
southafricanorth	✅	✅	-	-		✅	✅	-
southcentralus	✅	✅	✅	✅		✅	✅	✅
southindia	✅	✅	✅	-		✅	✅	✅
swedencentral	✅	✅	✅	✅		✅	✅	✅
switzerlandnorth	✅	✅	✅	-		✅	✅	✅
switzerlandwest	-	-	-	-		-	-	✅
uksouth	✅	✅	✅	✅		✅	✅	✅
westus	✅	✅	✅	✅		✅	✅	✅
westus3	✅	✅	✅	✅		✅	✅	✅

Observação

A versão provisionada da gpt-4Versão:turbo-2024-04-09 atualmente está limitada apenas a texto.

Como fazer para obter acesso ao Provisioned?

Você precisa falar com sua equipe de vendas/conta da Microsoft para adquirir a taxa de transferência provisionada. Se você não tiver uma equipe de vendas/contas, infelizmente, no momento, não poderá adquirir a taxa de transferência provisionada.

Para obter mais informações sobre implantações provisionadas, consulte nossa Orientação provisionada.

Disponibilidade do modelo padrão global (versão prévia)

Modelos com suporte:

gpt-4oVersão:2024-05-13

Regiões com suporte:

eastus
eastus2
northcentralus
southcentralus
westus
westus3

Disponibilidade do modelo GPT-4 e GPT-4 Turbo

Regiões de nuvem pública

Região	gpt-4, 0613	gpt-4, 1106-Preview	gpt-4, 0125-Preview	gpt-4, vision-preview	gpt-4, turbo-2024-04-09	gpt-4o, 2024-05-13	gpt-4-32k, 0613
australiaeast	✅	✅	-	✅	-	-	✅
canadaeast	✅	✅	-	-	-	-	✅
eastus	-	-	✅	-	-	✅	-
eastus2	-	✅	-	-	✅	✅	-
francecentral	✅	✅	-	-	-	-	✅
japaneast	-	-	-	✅	-	-	-
northcentralus	-	-	✅	-	-	✅	-
norwayeast	-	✅	-	-	-	-	-
southcentralus	-	-	✅	-	-	✅	-
southindia	-	✅	-	-	-	-	-
swedencentral	✅	✅	-	✅	✅	-	✅
switzerlandnorth	✅	-	-	✅	-	-	✅
uksouth	-	✅	✅	-	-	-	-
westus	-	✅	-	✅	-	✅	-
westus3	-	✅	-	-	-	✅	-

Selecione o acesso do cliente

Além das regiões acima que estão disponíveis para todos os clientes do Azure OpenAI, alguns clientes pré-existentes selecionados receberam acesso a versões do GPT-4 in regiões adicionais:

Modelar	Region
`gpt-4` (0314) `gpt-4-32k` (0314)	Leste dos EUA França Central Centro-Sul dos Estados Unidos Sul do Reino Unido
`gpt-4` (0613) `gpt-4-32k` (0613)	Leste dos EUA Leste dos EUA 2 Leste do Japão Sul do Reino Unido

Regiões do Azure Governamental

Os seguintes modelos do GPT-4 estão disponíveis com o Azure Governamental:

ID do Modelo	Disponibilidade do modelo
`gpt-4` (1106-preview)	Gov. dos EUA – Virgínia Governo dos EUA do Arizona

Modelos GPT-3.5

Importante

O novo modelo de gpt-35-turbo (0125) tem vários aprimoramentos, incluindo maior precisão na resposta em formatos solicitados e uma correção para um bug que causou um problema de codificação de texto para chamadas de função que não são em inglês.

O GPT-3.5 Turbo é usado com a API de Preenchimento de Chat. O GPT-3.5 Turbo versão 0301 também pode ser usado com a API de Conclusões, embora isso não seja recomendado. As versões 0613 e 1106 do GPT-3.5 Turbo só dão suporte à API de Preenchimentos de Chat.

O GPT-3.5 Turbo versão 0301 é a primeira versão do modelo lançado. A versão 0613 é a segunda versão do modelo e adiciona suporte à chamada de função.

Consulte versões de modelo para saber mais sobre como o Serviço OpenAI do Azure lida com atualizações de versão de modelo e trabalhando com modelos, para saber como exibir e definir as configurações de versão do modelo de suas implantações do GPT-3.5 Turbo.

Observação

A versão 0613 de gpt-35-turbo e gpt-35-turbo-16k será desativada até 1 de agosto de 2024. A versão 0301 de gpt-35-turbo será desativada não antes de 1 de agosto de 2024. Confira atualizações de modelos para obter o comportamento de atualização do modelo.

Disponibilidade do modelo GPT-3.5-Turbo

Regiões de nuvem pública

Região	gpt-35-turbo, 0301	gpt-35-turbo, 0613	gpt-35-turbo, 1106	gpt-35-turbo, 0125	gpt-35-turbo-16k, 0613	gpt-35-turbo-instruct, 0914
australiaeast	-	✅	✅	-	✅	-
canadaeast	-	✅	✅	✅	✅	-
eastus	✅	✅	-	-	✅	✅
eastus2	-	✅	-	-	✅	-
francecentral	✅	✅	✅	-	✅	-
japaneast	-	✅	-	-	✅	-
northcentralus	-	✅	-	✅	✅	-
southcentralus	✅	-	-	✅	-	-
southindia	-	-	✅	-	-	-
swedencentral	-	✅	✅	-	✅	✅
switzerlandnorth	-	✅	-	-	✅	-
uksouth	✅	✅	✅	-	✅	-
westeurope	✅	-	-	-	-	-
westus	-	-	✅	-	-	-

Regiões do Azure Governamental

Os seguintes modelos do GPT-3.5 turbo estão disponíveis com o Azure Governamental:

ID do Modelo	Disponibilidade do modelo
`gpt-35-turbo` (1106-preview)	Gov. dos EUA – Virgínia

Modelos de inserções

Esses modelos só podem ser usados com solicitações da API de Inserção.

Observação

ID do Modelo	Máx. de solicitações (tokens)	Dimensões de saída	Dados de treinamento (até)
`text-embedding-ada-002` (versão 2)	8,191	1.536	Setembro de 2021
`text-embedding-ada-002` (versão 1)	2,046	1.536	Setembro de 2021
`text-embedding-3-large`	8,191	3.072	Setembro de 2021
`text-embedding-3-small`	8,191	1.536	Setembro de 2021

Observação

Ao enviar uma matriz de entradas para inserção, o número máximo de itens de entrada na matriz por chamada para o ponto de extremidade de inserção é 2048.

Regiões de nuvem pública

Região	text-embedding-ada-002, 1	text-embedding-ada-002, 2	text-embedding-3-small, 1	text-embedding-3-large, 1
australiaeast	-	✅	-	-
brazilsouth	-	✅	-	-
canadaeast	-	✅	✅	✅
eastus	✅	✅	✅	✅
eastus2	-	✅	✅	✅
francecentral	-	✅	-	✅
japaneast	-	✅	-	✅
northcentralus	-	✅	-	-
norwayeast	-	✅	-	-
southafricanorth	-	✅	-	-
southcentralus	✅	✅	-	-
southindia	-	✅	-	✅
swedencentral	-	✅	-	✅
switzerlandnorth	-	✅	-	-
uksouth	-	✅	-	✅
westeurope	-	✅	-	-
westus	-	✅	-	-
westus3	-	✅	-	✅

Regiões do Azure Governamental

Os seguintes modelos de Embeddings estão disponíveis no Azure Governamental:

ID do Modelo	Disponibilidade do modelo
`text-embedding-ada-002` (versão 2)	Gov. dos EUA – Virgínia Governo dos EUA do Arizona

Modelos do DALL-E

ID do Modelo	Disponibilidade do recurso	Solicitação máxima (caracteres)
dalle2 (versão prévia)	Leste dos EUA	1.000
dall-e-3	Leste dos EUA, Leste da Austrália, Suécia Central	4.000

Modelos de ajuste fino

babbage-002 e davinci-002 não são treinados para seguir as instruções. Consultar esses modelos base só deve ser feito como um ponto de referência para uma versão ajustada para avaliar o progresso do treinamento.

gpt-35-turbo: o ajuste fino desse modelo é limitado a um subconjunto de regiões e não está disponível em todas as regiões em que o modelo base está disponível.

ID do Modelo	Regiões com ajuste fino	Máx. de solicitações (tokens)	Dados de treinamento (até)
`babbage-002`	Centro-Norte dos EUA Suécia Central Oeste da Suíça	16.384	Setembro de 2021
`davinci-002`	Centro-Norte dos EUA Suécia Central Oeste da Suíça	16.384	Setembro de 2021
`gpt-35-turbo` (0613)	Leste dos EUA 2 Centro-Norte dos EUA Suécia Central Oeste da Suíça	4\.096	Setembro de 2021
`gpt-35-turbo` (1106)	Leste dos EUA 2 Centro-Norte dos EUA Suécia Central Oeste da Suíça	Input: 16,385 Output: 4,096	Setembro de 2021
`gpt-35-turbo` (0125)	Leste dos EUA 2 Centro-Norte dos EUA Suécia Central Oeste da Suíça	16.385	Setembro de 2021
`gpt-4` (0613) ¹	Centro-Norte dos EUA Suécia Central	8192	Setembro de 2021

^{1^{¹ Atualmente, o ajuste fino do GPT-4 está em versão prévia pública. Confira nossas diretrizes de avaliação de segurança de ajuste fino do GPT-4 para obter mais informações.}}

Modelos de sussurro

ID do Modelo Disponibilidade do modelo Solicitação máxima (tamanho do arquivo de áudio)

whisper Leste dos EUA 2
Centro-Norte dos EUA
Leste da Noruega
Sul da Índia
Suécia Central
Europa Ocidental 25 MB

Modelos de conversão de texto em fala (versão prévia)

ID do Modelo Disponibilidade do modelo

tts-1 Centro-Norte dos EUA
Suécia Central

tts-1-hd Centro-Norte dos EUA
Suécia Central

Assistentes (versão prévia)

Para Assistentes, você precisa de uma combinação de um modelo com suporte e uma região com suporte. Determinadas ferramentas e funcionalidades exigem os modelos mais recentes. Os modelos a seguir estão disponíveis na API de Assistentes, no SDK, no Azure AI Studio e no Azure OpenAI Studio. A tabela a seguir é para pagamento conforme o uso. Para obter informações sobre a disponibilidade da unidade de produtividade provisionado (PTU), veja rendimento provisionado.

Region gpt-35-turbo (0613) gpt-35-turbo (1106) fine tuned gpt-3.5-turbo-0125 gpt-4 (0613) gpt-4 (1106) gpt-4 (0125)

Leste da Austrália ✅ ✅ ✅ ✅

Leste dos EUA ✅ ✅

Leste dos EUA 2 ✅ ✅ ✅ ✅

França Central ✅ ✅ ✅ ✅

Leste do Japão ✅

Leste da Noruega ✅

Suécia Central ✅ ✅ ✅ ✅ ✅

Sul do Reino Unido ✅ ✅ ✅ ✅

Oeste dos EUA ✅ ✅

Oeste dos EUA 3 ✅

Próximas etapas

Saiba mais sobre como trabalhar com modelos do OpenAI do Azure

Saiba mais sobre o Azure OpenAI

Saiba mais sobre o ajuste fino de modelos do OpenAI do Azure

ID do Modelo	Disponibilidade do modelo
`tts-1`	Centro-Norte dos EUA Suécia Central
`tts-1-hd`	Centro-Norte dos EUA Suécia Central

Region	`gpt-35-turbo (0613)`	`gpt-35-turbo (1106)`	`fine tuned gpt-3.5-turbo-0125`	`gpt-4 (0613)`	`gpt-4 (1106)`	`gpt-4 (0125)`
Leste da Austrália	✅	✅		✅	✅
Leste dos EUA	✅					✅
Leste dos EUA 2	✅		✅	✅	✅
França Central	✅	✅		✅	✅
Leste do Japão	✅
Leste da Noruega					✅
Suécia Central	✅	✅	✅	✅	✅
Sul do Reino Unido	✅	✅			✅	✅
Oeste dos EUA		✅			✅
Oeste dos EUA 3					✅

Compartilhar via

Modelos do Serviço OpenAI do Azure

GPT-4o e GPT-4 Turbo

Como posso acessar o modelo GPT-4o?

GPT-4 Turbo

Diferenças entre os modelos OpenAI e Azure OpenAI GPT-4 Turbo GA

Diferenças do gpt-4 vision-preview

Disponibilidade gerenciada provisionada do GPT-4 Turbo

Disponibilidade de região

Implantar o GPT-4 Turbo com Visão GA

GPT-4

Modelos de GPT-4 e GPT-4 Turbo

GPT-3.5

Incorporações

DALL-E

Whisper

Conversão de texto em fala (versão prévia)

Tabela de resumo de modelos e disponibilidade por região

Disponibilidade do modelo de implantação padrão

Cota do modelo de implantação padrão

Disponibilidade do modelo de implantação provisionada

Como fazer para obter acesso ao Provisioned?

Disponibilidade do modelo padrão global (versão prévia)

Disponibilidade do modelo GPT-4 e GPT-4 Turbo

Regiões de nuvem pública

Selecione o acesso do cliente

Regiões do Azure Governamental

Modelos GPT-3.5

Disponibilidade do modelo GPT-3.5-Turbo

Regiões de nuvem pública

Regiões do Azure Governamental

Modelos de inserções

Regiões de nuvem pública

Regiões do Azure Governamental

Modelos do DALL-E

Modelos de ajuste fino

Modelos de sussurro

Modelos de conversão de texto em fala (versão prévia)

Assistentes (versão prévia)

Próximas etapas

Recursos adicionais