Partilhar via


Serviço de modelos com o Azure Databricks

Este artigo descreve o Mosaic AI Model Serving, incluindo suas vantagens e limitações.

O que é Model Serving?

O Mosaic AI Model Serving fornece uma interface unificada para implantar, governar e consultar modelos de IA. Cada modelo que você atende está disponível como uma API REST que você pode integrar em seu aplicativo Web ou cliente.

O Model Serving fornece um serviço altamente disponível e de baixa latência para a implantação de modelos. O serviço aumenta ou diminui automaticamente para atender às mudanças de demanda, economizando custos de infraestrutura e otimizando o desempenho de latência. Essa funcionalidade usa computação sem servidor. Consulte a página de preços do Model Serving para obter mais detalhes.

O modelo de serviço suporta servir:

  • Modelos personalizados. Estes são modelos Python empacotados no formato MLflow. Eles podem ser registrados no Unity Catalog ou no registro do modelo de espaço de trabalho. Exemplos incluem os modelos de transformador scikit-learn, XGBoost, PyTorch e Hugging Face.
  • Modelos abertos de última geração disponibilizados pelas APIs do Foundation Model. Esses modelos são arquiteturas de modelo de base selecionadas que suportam inferência otimizada. Modelos básicos, como Llama-2-70B-chat, BGE-Large e Mistral-7B estão disponíveis para uso imediato com preços de pagamento por token , e cargas de trabalho que exigem garantias de desempenho e variantes de modelo ajustadas podem ser implantadas com taxa de transferência provisionada.
  • Modelos externos. Estes são modelos de IA generativa que são hospedados fora do Databricks. Os endpoints que atendem modelos externos podem ser controlados centralmente e os clientes podem estabelecer limites de taxa e controle de acesso para eles. Exemplos incluem modelos como GPT-4 da OpenAI, Claude da Anthropic e outros.

Nota

Você pode interagir com modelos de linguagem grandes suportados usando o AI Playground. O AI Playground é um ambiente semelhante a um bate-papo onde você pode testar, solicitar e comparar LLMs. Essa funcionalidade está disponível em seu espaço de trabalho do Azure Databricks.

O serviço de modelo oferece uma API REST unificada e uma API de implantação MLflow para tarefas CRUD e de consulta. Além disso, ele fornece uma única interface do usuário para gerenciar todos os seus modelos e seus respetivos pontos de extremidade de serviço. Você também pode acessar modelos diretamente do SQL usando funções de IA para fácil integração em fluxos de trabalho de análise.

Para obter um tutorial introdutório sobre como servir modelos personalizados no Azure Databricks, consulte Tutorial: Implantar e consultar um modelo personalizado.

Para obter um tutorial de introdução sobre como consultar um modelo de base no Databricks, consulte Introdução à consulta de LLMs no Databricks.

Porquê usar o Model Serving?

  • Implantar e consultar quaisquer modelos: o Model Serving fornece uma interface unificada para que você possa gerenciar todos os modelos em um único local e consultá-los com uma única API, independentemente de estarem hospedados no Databricks ou externamente. Essa abordagem simplifica o processo de experimentação, personalização e implantação de modelos em produção em várias nuvens e provedores.
  • Personalize modelos com segurança com seus dados privados: Construído em uma plataforma de inteligência de dados, o Model Serving simplifica a integração de recursos e incorporações em modelos por meio da integração nativa com o Databricks Feature Store e o Mosaic AI Vetor Search. Para melhorar ainda mais a precisão e a compreensão contextual, os modelos podem ser ajustados com dados proprietários e implantados sem esforço no Model Serving.
  • Governar e monitorar modelos: a interface do usuário de serviço permite gerenciar centralmente todos os pontos de extremidade do modelo em um só lugar, incluindo aqueles que são hospedados externamente. Você pode gerenciar permissões, controlar e definir limites de uso e monitorar a qualidade de todos os tipos de modelos. Isso permite que você democratize o acesso a SaaS e LLMs abertos em sua organização, garantindo que os guardrails apropriados estejam em vigor.
  • Reduza os custos com inferência otimizada e escalabilidade rápida: a Databricks implementou uma variedade de otimizações para garantir que você obtenha a melhor taxa de transferência e latência para modelos grandes. Os endpoints aumentam ou diminuem automaticamente a escala para atender às mudanças de demanda, economizando custos de infraestrutura e otimizando o desempenho de latência.

Nota

Para cargas de trabalho que são sensíveis à latência ou exigem consultas altas por segundo, o Model Serving oferece otimização de rota em pontos de extremidade de serviço de modelo personalizado, consulte Configurar otimização de rota em pontos de extremidade de serviço.

  • Traga confiabilidade e segurança ao Model Serving: o Model Serving foi projetado para uso de produção de alta disponibilidade e baixa latência e pode suportar mais de 25K consultas por segundo com uma latência de sobrecarga inferior a 50 ms. As cargas de trabalho de serviço são protegidas por várias camadas de segurança, garantindo um ambiente seguro e confiável até mesmo para as tarefas mais sensíveis.

Requerimentos

Ativar o Model Serving para o seu espaço de trabalho

Nenhuma etapa adicional é necessária para habilitar o Model Serving em seu espaço de trabalho.

Limitações e disponibilidade da região

O Mosaic AI Model Serving impõe limites padrão para garantir um desempenho confiável. Consulte Limites e regiões de serviço do modelo. Se você tiver comentários sobre esses limites ou um ponto de extremidade em uma região sem suporte, entre em contato com sua equipe de conta do Databricks.

Proteção de dados no Model Serving

A Databricks leva a segurança de dados a sério. A Databricks entende a importância dos dados que você analisa usando o Mosaic AI Model Serving e implementa os seguintes controles de segurança para proteger seus dados.

  • Cada solicitação do cliente ao Model Serving é logicamente isolada, autenticada e autorizada.
  • O Mosaic AI Model Serving criptografa todos os dados em repouso (AES-256) e em trânsito (TLS 1.2+).

Para todas as contas pagas, o Mosaic AI Model Serving não usa entradas de usuário enviadas ao serviço ou saídas do serviço para treinar quaisquer modelos ou melhorar quaisquer serviços Databricks.

Para APIs do Databricks Foundation Model, como parte do fornecimento do serviço, o Databricks pode processar e armazenar temporariamente entradas e saídas com a finalidade de prevenir, detetar e mitigar abusos ou usos prejudiciais. Suas entradas e saídas são isoladas das de outros clientes, armazenadas na mesma região do seu espaço de trabalho por até 30 (trinta) dias e acessíveis apenas para detetar e responder a preocupações de segurança ou abuso.

Recursos adicionais