Compartilhar via


Mosaic AI Gateway

Importante

Esse recurso está em uma versão prévia.

Este artigo descreve o Mosaic AI Gateway, a solução da Databricks para controlar e monitorar o acesso a modelos de IA generativa com suporte e seus pontos de extremidade de serviço de modelo associados.

O que é o Mosaic AI Gateway?

O Mosaic AI Gateway foi projetado para simplificar o uso e o gerenciamento de modelos da IA generativa dentro de uma organização. É um serviço centralizado que traz governança, monitoramento e prontidão de produção para modelar pontos de extremidade de serviço. Ele também permite que você execute, proteja e controle o tráfego de IA para democratizar e acelerar a adoção da IA na sua organização.

Todos os dados são registrados em log nas tabelas Delta no Catálogo do Unity.

Para começar a visualizar insights dos dados do AI Gateway, faça o download do painel de exemplo do AI Gateway no GitHub. Esse painel aproveita os dados das tabelas de inferência de rastreamento de uso e registro de carga útil.

Depois de baixar o arquivo JSON, importe o painel para o workspace. Para obter instruções sobre como importar painéis, confira Importar um arquivo de painel.

O AI Gateway dá suporte aos seguintes recursos:

  • Permissão e limitação de taxa para controlar quem tem acesso e quanto acesso.
  • Registro em log da carga útil para monitorar e auditar dados enviados para APIs de modelo usando tabelas de inferência.
  • Rastreamento de uso para monitorar o uso operacional em pontos de extremidade e custos associados usando tabelas do sistema.
  • AI Guardrails para evitar dados indesejados e dados inseguros em solicitações e respostas.
  • Roteamento de tráfego para minimizar interrupções de produção durante e após a implantação.

O Mosaic AI Gateway ocasiona cobranças com base no recurso habilitado. Durante a versão prévia, esses recursos pagos incluem AI Guardrails, registro em log do payload e acompanhamento de uso. Recursos como permissões de consulta, limitação de taxa e roteamento de tráfego são gratuitos. Quaisquer novos recursos estão sujeitos a cobrança.

A tabela a seguir reflete a taxa de unidades do Databricks (DBUs) por milhão (M) de tokens para os recursos pagos do AI Gateway. As cobranças são listadas no SKU Serverless Real-time Inference.

Recurso Taxa de DBU
AI Guardrails 21,429 DBUs por M tokens
Registro em log do payload 2,857 DBUs por M tokens
Acompanhamento de uso 0,571 DBUs por M tokens

AI Guardrails

As AI Guardrails permitem que os usuários configurem e apliquem a conformidade de dados no nível do ponto de extremidade servindo ao modelo e reduzam o conteúdo prejudicial em todas as solicitações enviadas ao modelo subjacente. Solicitações e respostas incorretas são bloqueadas e uma mensagem padrão é retornada ao usuário. Veja como configurar proteções no ponto de extremidade de serviço de um modelo.

Importante

As AI Guardrails só estão disponíveis em regiões que oferecem suporte a APIs do Foundation Model pay-per-token.

A tabela a seguir resume os verificadores de integridade configuráveis.

Verificador de integridade Definição
Filtragem de segurança A filtragem de segurança impede que seu modelo interaja com conteúdo inseguro e prejudicial, como crimes violentos, automutilação e discurso de ódio.

O filtro de segurança do AI Gateway é construído com o Meta Llama 3. O Databricks usa o Llama Guard 2-8b como filtro de segurança. Para saber mais sobre o filtro de segurança Llama Guard e quais tópicos se aplicam ao filtro de segurança, consulte a placa do modelo Meta Llama Guard 2 8B.

O Meta Llama 3 é licenciado sob a Licença da Comunidade LLAMA 3, direitos autorais de Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir a conformidade com as licenças de modelo aplicáveis.
Detecção de PIIs (informações de identificação pessoal) Os clientes podem detectar qualquer informação confidencial, como nomes, endereços, números de cartão de crédito dos usuários.

Para esse recurso, o AI Gateway usa o Presidio para detectar as seguintes categorias de PII dos EUA: números de cartão de crédito, endereços de e-mail, números de telefone, números de contas bancárias e números de previdência social.

O classificador de PIIs pode ajudar a identificar informações confidenciais ou PIIs em dados estruturados e não estruturados. No entanto, como está usando mecanismos de detecção automatizados, não há garantia de que o serviço encontrará todas as informações confidenciais. Consequentemente, sistemas e proteções adicionais deverão ser empregados.

Esses métodos de classificação têm como escopo principalmente as categorias de PIIs dos EUA, como números de telefone dos EUA e números do seguro social.
Moderação de tópicos Capacidade de listar um conjunto de tópicos permitidos. Dada uma solicitação de chat, esse verificador de integridade sinaliza a solicitação se seu tópico não estiver nos tópicos permitidos.
Filtragem de palavras-chave Os clientes podem especificar diferentes conjuntos de palavras-chave inválidas para a entrada e a saída. Um caso de uso potencial para a filtragem de palavras-chave é que o modelo não fale sobre concorrentes.

Esse verificador de integridade usa correspondência de palavra-chave ou sequência para decidir se a palavra-chave existe no conteúdo da solicitação ou da resposta.

Usar o AI Gateway

É possível configurar os recursos do AI Gateway nos pontos de extremidade de serviço do modelo usando a IU de serviço. Consulte Configurar o AI Gateway em pontos de extremidade de serviço de modelo.

Limitações

As seguintes limitações se aplicam durante a versão prévia:

  • O AI Gateway só é compatível com pontos de extremidade de serviço de modelo que atendem a modelos externos.
  • Quando as proteções são usadas, o tamanho do lote da solicitação, ou seja, um tamanho do lote de inserções, o tamanho do lote de conclusões ou o parâmetro n de solicitações de chat, não pode exceder 16.