Implante modelos usando o Mosaic AI Model Serving

Este artigo descreve o Mosaic AI Model Serving, a solução Databricks para implantar modelos de IA e ML para serviço em tempo real e inferência em lote.

O que é o Mosaic AI Model Serving?

O Mosaic AI Model Serving fornece uma interface unificada para implantar, governar e consultar modelos de IA para inferência em tempo real e em lote. Cada modelo que você atende está disponível como uma API REST que você pode integrar em seu aplicativo Web ou cliente.

O Model Serving fornece um serviço altamente disponível e de baixa latência para a implantação de modelos. O serviço aumenta ou diminui automaticamente para atender às mudanças de demanda, economizando custos de infraestrutura e otimizando o desempenho de latência. Essa funcionalidade usa computação sem servidor. Consulte a página de preços do Model Serving para obter mais detalhes.

O Model Serving oferece uma API REST unificada e uma API de implantação MLflow para tarefas CRUD e de consulta. Além disso, ele fornece uma única interface para gerir todos os seus modelos e os seus respetivos endpoints de serviço. Você também pode acessar modelos diretamente do SQL usando funções de IA para fácil integração em fluxos de trabalho de análise.

As funções de IA e o serviço de modelo estão totalmente integrados para cenários de inferência em lote. Você pode utilizar qualquer uma das funções de IA específicas da tarefa ou ai-query nos seus pipelines de inferência em lote. Se optar por usar um modelo pré-provisionado hospedado e gerido pelo Databricks, não precisará configurar um endpoint de serviço de modelo por conta própria.

Consulte os seguintes guias para começar:

Para realizar inferência em lote, veja Enriquecer dados usando Funções de IA.
Para um tutorial introdutório sobre como servir modelos personalizados em Azure Databricks para inferência em tempo real, veja Tutorial: Deploy and query a custom model.
Para obter um tutorial de introdução sobre como consultar um modelo básico no Databricks para inferência em tempo real, consulte Introdução à consulta de LLMs no Databricks.

Modelos que você pode implantar

O serviço de modelo suporta inferência em tempo real e em lote para os seguintes tipos de modelo:

Modelos personalizados. Estes são modelos Python embalados no formato MLflow. Eles podem ser registrados no Unity Catalog ou no registro do modelo de espaço de trabalho. Exemplos incluem os modelos de transformador scikit-learn, XGBoost, PyTorch e Hugging Face.
- O atendimento por agente é suportado como um modelo personalizado. Ver Implementar um agente para aplicações de IA generativa (Servidor de Modelos)
Modelos de Base.
- Modelos fundamentais hospedados pelo Databricks como Meta Llama. Esses modelos estão disponíveis usando APIs do Foundation Model. Esses modelos são arquiteturas de modelo de base selecionadas que suportam inferência otimizada. Modelos base, como Meta-Llama-3.3-70B-Instruct, GTE-Large, e Mistral-7B, estão disponíveis para utilização imediata com pagamento por token. Cargas de trabalho que exigem garantias de desempenho e variantes de modelos ajustados podem ser implementadas com taxa de transferência provisionada.
- Modelos Fundamentais hospedados fora do Databricks, como GPT-4 da OpenAI. Estes modelos são acessíveis usando Modelos externos. Os endpoints que servem estes modelos podem ser governados centralmente a partir do Azure Databricks, para que possa simplificar o uso e a gestão de vários fornecedores de LLM, como OpenAI e Anthropic, dentro da sua organização.

Nota

Você pode interagir com modelos de linguagem grandes suportados usando o AI Playground. O AI Playground é um ambiente semelhante a um bate-papo onde você pode testar, solicitar e comparar LLMs. Esta funcionalidade está disponível no seu espaço de trabalho Azure Databricks.

Porquê usar o Model Serving?

Implantar e consultar quaisquer modelos: o Model Serving fornece uma interface unificada para que você possa gerenciar todos os modelos em um único local e consultá-los com uma única API, independentemente de estarem hospedados no Databricks ou externamente. Essa abordagem simplifica o processo de experimentação, personalização e implantação de modelos em produção em várias nuvens e provedores.
Personalize modelos com segurança com seus dados privados: Construído em uma plataforma de inteligência de dados, o Model Serving simplifica a integração de recursos e incorporações em modelos por meio da integração nativa com o Databricks Feature Store e o Mosaic AI Vetor Search. Para melhorar ainda mais a precisão e a compreensão contextual, os modelos podem ser ajustados com dados proprietários e implantados sem esforço no Model Serving.
Governar e monitorar modelos: a interface do usuário de serviço permite gerenciar centralmente todos os pontos de extremidade do modelo em um só lugar, incluindo aqueles que são hospedados externamente. Você pode gerenciar permissões, rastrear e definir limites de uso e monitorar a qualidade de todos os tipos de modelos usando AI Gateway. Isso permite que você democratize o acesso a SaaS e LLMs abertos em sua organização, garantindo que os guardrails apropriados estejam em vigor.
Reduza os custos com inferência otimizada e escalabilidade rápida: a Databricks implementou uma variedade de otimizações para garantir que você obtenha a melhor taxa de transferência e latência para modelos grandes. Os endpoints aumentam ou diminuem automaticamente a escala para atender às mudanças de demanda, economizando custos de infraestrutura e otimizando o desempenho de latência. Monitore os custos de operação do modelo.
- Para cargas de trabalho sensíveis à latência ou que envolvem um elevado número de consultas por segundo, veja Otimizar os endpoints de Servidor de Modelos para produção para estratégias de otimização abrangentes. Entre em contato com sua equipe de conta Databricks para garantir que seu espaço de trabalho esteja habilitado para alta escalabilidade.

Traga confiabilidade e segurança ao Model Serving: o Model Serving foi projetado para uso de produção de alta disponibilidade e baixa latência e pode suportar mais de 25K consultas por segundo com uma latência de sobrecarga inferior a 50 ms. As cargas de trabalho em serviço são protegidas por várias camadas de segurança, garantindo um ambiente seguro e confiável até mesmo para as tarefas mais sensíveis. Você pode controlar o acesso à rede aos pontos de extremidade do Model Serving configurando diretivas de rede. Consulte Gerenciar políticas de rede para controle de saída sem servidor.

Nota

O Model Serving não fornece patches de segurança para imagens de modelo existentes devido ao risco de desestabilização das implantações de produção. Uma nova imagem de modelo criada a partir de uma nova versão do modelo conterá os patches mais recentes. Entre em contato com sua equipe de conta Databricks para obter mais informações.

Requerimentos

Modelo registado no Catálogo do Unity ou no Registro de Modelos do Espaço de Trabalho.
Permissões nos modelos registados, conforme descrito em ACLs de pontos de extremidade em serviço.
- MLflow 1.29 ou superior.
Se estiver a usar o Azure Private Link para cumprir as regras de entrada relacionadas com a rede configuradas no espaço de trabalho, o suporte ao Azure Private Link só está disponível para endpoints de serviço de modelos que utilizam throughput provisionado ou para endpoints que servem modelos personalizados. Veja configurar a conectividade privada aos recursos Azure.
Permissões de espaço de trabalho configuradas. Consulte Gerenciar direitos.

Ativar o Model Serving para o seu espaço de trabalho

Nenhuma etapa adicional é necessária para habilitar o Model Serving em seu espaço de trabalho.

Limitações e disponibilidade da região

O Mosaic AI Model Serving impõe limites padrão para garantir um desempenho confiável. Consulte Limites e regiões de serviço do modelo. Se você tiver comentários sobre esses limites ou um ponto de extremidade em uma região sem suporte, entre em contato com sua equipe de conta do Databricks.

Proteção de dados no Model Serving

A Databricks leva a segurança de dados a sério. A Databricks entende a importância dos dados que você analisa usando o Mosaic AI Model Serving e implementa os seguintes controles de segurança para proteger seus dados.

Cada solicitação do cliente ao Model Serving é logicamente isolada, autenticada e autorizada.
O Mosaic AI Model Serving criptografa todos os dados em repouso (AES-256) e em trânsito (TLS 1.2+).

Para todas as contas pagas, o Mosaic AI Model Serving não usa entradas de usuário enviadas ao serviço ou saídas do serviço para treinar quaisquer modelos ou melhorar quaisquer serviços Databricks.

Para todas as cargas de trabalho do Mosaic AI Model Serving, o Databricks retém logs de compilação de contentor por até trinta (30) dias e dados de métricas por até catorze (14) dias.

Para APIs do Databricks Foundation Model, como parte do fornecimento do serviço, o Databricks pode processar e armazenar temporariamente entradas e saídas com a finalidade de prevenir, detetar e mitigar abusos ou usos prejudiciais. Suas entradas e saídas são isoladas das de outros clientes, armazenadas na mesma região do seu espaço de trabalho por até 30 (trinta) dias e acessíveis apenas para detetar e responder a preocupações de segurança ou abuso.

As APIs de Modelos Fundamentais são um Serviço Designado do Databricks, o que significa que aderem aos limites de residência de dados conforme implementado pelo Databricks Geos.

Recursos adicionais

Comentários

Esta página foi útil?

Last updated on 2026-04-13