Mosaic AI Gateway
Importante
Esse recurso está em uma versão prévia.
Este artigo descreve o Mosaic AI Gateway, a solução da Databricks para controlar e monitorar o acesso a modelos de IA generativa com suporte e seus pontos de extremidade de serviço de modelo associados.
O que é o Mosaic AI Gateway?
O Mosaic AI Gateway foi projetado para simplificar o uso e o gerenciamento de modelos da IA generativa dentro de uma organização. É um serviço centralizado que traz governança, monitoramento e prontidão de produção para modelar pontos de extremidade de serviço. Ele também permite que você execute, proteja e controle o tráfego de IA para democratizar e acelerar a adoção da IA na sua organização.
Todos os dados são registrados em log nas tabelas Delta no Catálogo do Unity.
Para começar a visualizar insights dos dados do AI Gateway, faça o download do painel de exemplo do AI Gateway no GitHub. Esse painel aproveita os dados das tabelas de inferência de rastreamento de uso e registro de carga útil.
Depois de baixar o arquivo JSON, importe o painel para o workspace. Para obter instruções sobre como importar painéis, confira Importar um arquivo de painel.
O AI Gateway dá suporte aos seguintes recursos:
- Permissão e limitação de taxa para controlar quem tem acesso e quanto acesso.
- Registro em log da carga útil para monitorar e auditar dados enviados para APIs de modelo usando tabelas de inferência.
- Rastreamento de uso para monitorar o uso operacional em pontos de extremidade e custos associados usando tabelas do sistema.
- AI Guardrails para evitar dados indesejados e dados inseguros em solicitações e respostas.
- Roteamento de tráfego para minimizar interrupções de produção durante e após a implantação.
O Mosaic AI Gateway ocasiona cobranças com base no recurso habilitado. Durante a versão prévia, esses recursos pagos incluem AI Guardrails, registro em log do payload e acompanhamento de uso. Recursos como permissões de consulta, limitação de taxa e roteamento de tráfego são gratuitos. Quaisquer novos recursos estão sujeitos a cobrança.
A tabela a seguir reflete a taxa de unidades do Databricks (DBUs) por milhão (M) de tokens para os recursos pagos do AI Gateway. As cobranças são listadas no SKU Serverless Real-time Inference
.
Recurso | Taxa de DBU |
---|---|
AI Guardrails | 21,429 DBUs por M tokens |
Registro em log do payload | 2,857 DBUs por M tokens |
Acompanhamento de uso | 0,571 DBUs por M tokens |
AI Guardrails
As AI Guardrails permitem que os usuários configurem e apliquem a conformidade de dados no nível do ponto de extremidade servindo ao modelo e reduzam o conteúdo prejudicial em todas as solicitações enviadas ao modelo subjacente. Solicitações e respostas incorretas são bloqueadas e uma mensagem padrão é retornada ao usuário. Veja como configurar proteções no ponto de extremidade de serviço de um modelo.
Importante
As AI Guardrails só estão disponíveis em regiões que oferecem suporte a APIs do Foundation Model pay-per-token.
A tabela a seguir resume os verificadores de integridade configuráveis.
Verificador de integridade | Definição |
---|---|
Filtragem de segurança | A filtragem de segurança impede que seu modelo interaja com conteúdo inseguro e prejudicial, como crimes violentos, automutilação e discurso de ódio. O filtro de segurança do AI Gateway é construído com o Meta Llama 3. O Databricks usa o Llama Guard 2-8b como filtro de segurança. Para saber mais sobre o filtro de segurança Llama Guard e quais tópicos se aplicam ao filtro de segurança, consulte a placa do modelo Meta Llama Guard 2 8B. O Meta Llama 3 é licenciado sob a Licença da Comunidade LLAMA 3, direitos autorais de Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir a conformidade com as licenças de modelo aplicáveis. |
Detecção de PIIs (informações de identificação pessoal) | Os clientes podem detectar qualquer informação confidencial, como nomes, endereços, números de cartão de crédito dos usuários. Para esse recurso, o AI Gateway usa o Presidio para detectar as seguintes categorias de PII dos EUA: números de cartão de crédito, endereços de e-mail, números de telefone, números de contas bancárias e números de previdência social. O classificador de PIIs pode ajudar a identificar informações confidenciais ou PIIs em dados estruturados e não estruturados. No entanto, como está usando mecanismos de detecção automatizados, não há garantia de que o serviço encontrará todas as informações confidenciais. Consequentemente, sistemas e proteções adicionais deverão ser empregados. Esses métodos de classificação têm como escopo principalmente as categorias de PIIs dos EUA, como números de telefone dos EUA e números do seguro social. |
Moderação de tópicos | Capacidade de listar um conjunto de tópicos permitidos. Dada uma solicitação de chat, esse verificador de integridade sinaliza a solicitação se seu tópico não estiver nos tópicos permitidos. |
Filtragem de palavras-chave | Os clientes podem especificar diferentes conjuntos de palavras-chave inválidas para a entrada e a saída. Um caso de uso potencial para a filtragem de palavras-chave é que o modelo não fale sobre concorrentes. Esse verificador de integridade usa correspondência de palavra-chave ou sequência para decidir se a palavra-chave existe no conteúdo da solicitação ou da resposta. |
Usar o AI Gateway
É possível configurar os recursos do AI Gateway nos pontos de extremidade de serviço do modelo usando a IU de serviço. Consulte Configurar o AI Gateway em pontos de extremidade de serviço de modelo.
Limitações
As seguintes limitações se aplicam durante a versão prévia:
- O AI Gateway só é compatível com pontos de extremidade de serviço de modelo que atendem a modelos externos.
- Quando as proteções são usadas, o tamanho do lote da solicitação, ou seja, um tamanho do lote de inserções, o tamanho do lote de conclusões ou o parâmetro
n
de solicitações de chat, não pode exceder 16.