Introdução ao Gateway de IA do Mosaico

2025-06-26

Este artigo descreve o Mosaic Gateway de IA, a solução Databricks para controlar e monitorar o acesso a modelos de IA generativa com suporte e seus pontos de extremidade de serviço de modelo associados.

O que é o Mosaic AI Gateway?

O Gateway de IA do Mosaico foi projetado para simplificar o uso e o gerenciamento de modelos e agentes de IA generativos em uma organização. É um serviço centralizado que traz governança, monitoramento e preparação da produção para modelar os pontos de extremidade de serviço. Ele também permite que você execute, proteja e controle o tráfego de IA para democratizar e acelerar a adoção da IA na sua organização.

Todos os dados são registrados em log nas tabelas Delta no Catálogo do Unity.

Para começar a visualizar insights dos dados do AI Gateway, faça o download do painel de exemplo do AI Gateway no GitHub. Esse painel aproveita os dados das tabelas de inferência de registro em log de conteúdo e acompanhamento de uso.

Depois de baixar o arquivo JSON, importe o painel para o workspace. Para obter instruções sobre como importar painéis, confira Importar um arquivo de painel.

Funcionalidades com suporte

A tabela a seguir define os recursos disponíveis do AI Gateway e quais tipos de endpoints de servidores de modelos dão suporte a eles.

Recurso	Definição	Ponto de extremidade do modelo externo	As APIs dos Modelos de Base provisionaram o ponto de extremidade da taxa de transferência	Ponto de extremidade de pagamento por token das APIs de Modelo de Base	Agentes de IA do Mosaic	Ponto de extremidade de modelo personalizado
Limitação de permissão e taxa	Controle quem tem acesso e com que nível de permissão.	Suportado	Suportado	Suportado	Sem suporte	Suportado
Registro em log do conteúdo	Monitore e audite dados enviados para as APIs de modelo usando tabelas de inferência.	Suportado	Suportado	Suportado	Suportado	Suportado
Acompanhamento de uso	Monitore o uso operacional nos pontos de extremidade e os custos associados usando as tabelas do sistema.	Suportado	Suportado	Suportado	Sem suporte	Suportado
Diretrizes de segurança para IA	Evite dados indesejados e não seguros em solicitações e respostas. Consulte Proteções de IA.	Suportado	Suportado	Suportado	Sem suporte	Sem suporte
Soluções Alternativas	Minimize as interrupções de produção durante e após a implantação.	Suportado	Sem suporte	Sem suporte	Sem suporte	Sem suporte
Separação de tráfego	Balancear o tráfego entre modelos.	Suportado	Suportado	Sem suporte	Sem suporte	Suportado

O Gateway de IA do Mosaic incorre em encargos em uma base de recursos habilitada. Os recursos pagos incluem registro de carga e acompanhamento de uso. Recursos como permissões de consulta, limitação de fluxo, alternativas e separação de tráfego são gratuitos. Quaisquer novos recursos estão sujeitos a cobrança.

Diretrizes de segurança para IA

Importante

Esse recurso está em uma versão prévia.

As Proteções da IA permitem que os usuários configurem e imponham a conformidade dos dados no nível do ponto de extremidade de serviço do modelo e reduzam o conteúdo nocivo em todas as solicitações enviadas ao modelo subjacente. Solicitações e respostas incorretas são bloqueadas e uma mensagem padrão é retornada ao usuário. Consulte Como configurar as proteções em um modelo que serve o ponto de extremidade.

Importante

O serviço de moderação Diretrizes de segurança para IA tem uma dependência de modelos de pagamento por token das APIs de Modelo de Base. Essa dependência limita a disponibilidade do serviço de moderação AI Guardrails para regiões que dão suporte a APIs de Modelo de Fundação pagas por token.

A tabela a seguir resume as proteções de integridade configuráveis. Confira Limitações.

Observação

Após 30 de maio de 2025, deixará de haver suporte para os guardrails de IA que moderam tópicos e filtram palavras-chave. Se esses recursos forem necessários para seus fluxos de trabalho, entre em contato com sua equipe de conta do Databricks para participar da versão prévia privada de guardrails personalizados.

Verificador de integridade	Definição
Filtragem de segurança	A filtragem de segurança impede que seu modelo interaja com conteúdo inseguro e prejudicial, como crimes violentos, automutilação e discurso de ódio. O filtro de segurança do AI Gateway é construído com o Meta Llama 3. O Databricks usa o Llama Guard 2-8b como filtro de segurança. Para saber mais sobre o filtro de segurança Llama Guard e quais tópicos se aplicam ao filtro de segurança, consulte o cartão do modelo Meta Llama Guard 2 8B. O Meta Llama 3 é licenciado sob a Licença da Comunidade LLAMA 3, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir a conformidade com as licenças de modelo aplicáveis.
Detecção de PIIs (informações de identificação pessoal)	Os clientes podem detectar qualquer informação confidencial, como nomes, endereços, números de cartão de crédito dos usuários. Para esse recurso, o AI Gateway usa o Presidio para detectar as seguintes categorias de PII dos EUA: números de cartão de crédito, endereços de email, números de telefone, números de contas bancárias e números de previdência social. O classificador de PIIs pode ajudar a identificar informações confidenciais ou PIIs em dados estruturados e não estruturados. No entanto, como está usando mecanismos de detecção automatizados, não há garantia de que o serviço encontrará todas as informações confidenciais. Consequentemente, sistemas e proteções adicionais deverão ser empregados. Esses métodos de classificação têm como escopo principalmente as categorias de PIIs dos EUA, como números de telefone dos EUA e números do seguro social.

Verificador de integridade

Definição

Filtragem de segurança

A filtragem de segurança impede que seu modelo interaja com conteúdo inseguro e prejudicial, como crimes violentos, automutilação e discurso de ódio.
O filtro de segurança do AI Gateway é construído com o Meta Llama 3. O Databricks usa o Llama Guard 2-8b como filtro de segurança. Para saber mais sobre o filtro de segurança Llama Guard e quais tópicos se aplicam ao filtro de segurança, consulte o cartão do modelo Meta Llama Guard 2 8B.
O Meta Llama 3 é licenciado sob a Licença da Comunidade LLAMA 3, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir a conformidade com as licenças de modelo aplicáveis.

Detecção de PIIs (informações de identificação pessoal)

Os clientes podem detectar qualquer informação confidencial, como nomes, endereços, números de cartão de crédito dos usuários.
Para esse recurso, o AI Gateway usa o Presidio para detectar as seguintes categorias de PII dos EUA: números de cartão de crédito, endereços de email, números de telefone, números de contas bancárias e números de previdência social.
O classificador de PIIs pode ajudar a identificar informações confidenciais ou PIIs em dados estruturados e não estruturados. No entanto, como está usando mecanismos de detecção automatizados, não há garantia de que o serviço encontrará todas as informações confidenciais. Consequentemente, sistemas e proteções adicionais deverão ser empregados.
Esses métodos de classificação têm como escopo principalmente as categorias de PIIs dos EUA, como números de telefone dos EUA e números do seguro social.

Usar o Gateway de IA

Você pode configurar os recursos do Gateway de IA no seu modelo que atende os pontos de extremidade usando a interface do usuário de Serviço. Consulte Configurar o Gateway de IA nos pontos de extremidade do serviço de modelo.

Limitações

Veja a seguir as limitações para pontos de extremidade habilitados para o AI Gateway.

Quando as proteções de IA são utilizadas, o tamanho do lote da solicitação, seja para incorporações, conclusões ou o parâmetro n das solicitações de chat, não pode exceder 16.
Se você utilizar a função chamando e especificar diretrizes de segurança de IA, essas diretrizes não serão aplicadas às solicitações nem às respostas intermediárias da função. Contudo, os protetores são aplicados à resposta de saída final.
Não há suporte para cargas de trabalho de texto para imagem.
Somente o acompanhamento de uso tem suporte para cargas de trabalho de inferência em lote em pontos de extremidade de pagamento por token que têm recursos do Gateway de IA habilitados. Na tabela do endpoint_usage sistema, somente as linhas correspondentes à solicitação de inferência do lote estão visíveis.
Não há suporte para diretrizes de segurança para IA e mecanismos de fallback em pontos de extremidade de serviço de modelo personalizado.
Para pontos de extremidade de serviço de modelo personalizado, somente cargas de trabalho que não são otimizadas para roteamento dão suporte à limitação de fluxo e ao acompanhamento de uso.
As tabelas de inferência para pontos de extremidade de serviço de modelo otimizado de rota estão na Visualização Pública.
Consulte as limitações da tabela de inferência habilitada pelo Gateway de IA para obter detalhes sobre as limitações da tabela de inferência.