Pontos finais de lote

O Azure Machine Learning permite implementar pontos de extremidade em lote e implantações para executar inferências assíncronas de longa execução com modelos e pipelines de aprendizado de máquina. Quando você treina um modelo ou pipeline de aprendizado de máquina, precisa implantá-lo para que outras pessoas possam usá-lo com novos dados de entrada para gerar previsões. Esse processo de geração de previsões com o modelo ou pipeline é chamado de inferência.

Os pontos finais em lote recebem ponteiros para dados e executam trabalhos de forma assíncrona para processar os dados em clusters de cálculo paralelos. Os pontos finais em lote armazenam as saídas num arquivo de dados para posterior análise. Use pontos de extremidade em lote quando:

  • Você tem modelos ou pipelines caros que exigem mais tempo para serem executados.
  • Você deseja operacionalizar pipelines de aprendizado de máquina e reutilizar componentes.
  • Você precisa realizar inferência sobre grandes quantidades de dados, distribuídos em vários arquivos.
  • Você não tem requisitos de baixa latência.
  • As entradas do seu modelo são armazenadas em uma Conta de Armazenamento ou em um ativo de dados do Azure Machine Learning.
  • Você pode tirar proveito da paralelização.

Implantações em lote

Uma implantação é um conjunto de recursos e cálculos necessários para implementar a funcionalidade que o ponto de extremidade fornece. Cada ponto de extremidade pode hospedar várias implantações com configurações diferentes, e essa funcionalidade ajuda a dissociar a interface do ponto de extremidade dos detalhes de implementação definidos pela implantação. Quando um ponto de extremidade em lote é invocado, ele roteia automaticamente o cliente para sua implantação padrão. Essa implantação padrão pode ser configurada e alterada a qualquer momento.

Diagrama mostrando a relação entre um ponto de extremidade em lote e suas implantações.

Dois tipos de implantações são possíveis nos pontos de extremidade em lote do Azure Machine Learning:

Implementação do modelo

A implantação do modelo permite a operacionalização da inferência do modelo em escala, permitindo processar grandes quantidades de dados de forma assíncrona e de baixa latência. O Azure Machine Learning instrumenta automaticamente a escalabilidade fornecendo paralelização dos processos de inferência entre vários nós em um cluster de computação.

Use a implantação do modelo quando:

  • Você tem modelos caros que exigem um tempo maior para executar a inferência.
  • Você precisa realizar inferência sobre grandes quantidades de dados, distribuídos em vários arquivos.
  • Você não tem requisitos de baixa latência.
  • Você pode tirar proveito da paralelização.

O principal benefício das implantações de modelo é que você pode usar os mesmos ativos que são implantados para inferência em tempo real para pontos de extremidade online, mas agora, você pode executá-los em escala em lote. Se o seu modelo requer pré-processamento ou pós-processamento simples, você pode criar um script de pontuação que execute as transformações de dados necessárias.

Para criar uma implantação de modelo em um ponto de extremidade em lote, você precisa especificar os seguintes elementos:

  • Modelo
  • Cluster de cálculo
  • Script de pontuação (opcional para modelos MLflow)
  • Ambiente (opcional para modelos MLflow)

Implantação de componentes de pipeline

A implantação de componentes de pipeline permite a operacionalização de gráficos (ou pipelines) de processamento inteiros para executar inferência em lote de forma assíncrona e de baixa latência.

Use a implantação do componente Pipeline quando:

  • Você precisa operacionalizar gráficos de computação completos que podem ser decompostos em várias etapas.
  • Você precisa reutilizar componentes de pipelines de treinamento em seu pipeline de inferência.
  • Você não tem requisitos de baixa latência.

O principal benefício das implantações de componentes de pipeline é a reutilização de componentes que já existem em sua plataforma e a capacidade de operacionalizar rotinas de inferência complexas.

Para criar uma implantação de componente de pipeline em um ponto de extremidade em lote, você precisa especificar os seguintes elementos:

  • Componente de pipeline
  • Configuração do cluster de computação

Os pontos de extremidade em lote também permitem criar implantações de componentes de pipeline a partir de um trabalho de pipeline existente. Ao fazer isso, o Aprendizado de Máquina do Azure cria automaticamente um componente de pipeline fora do trabalho. Isso simplifica o uso desses tipos de implantações. No entanto, é uma prática recomendada sempre criar componentes de pipeline explicitamente para simplificar sua prática de MLOps.

Gestão de custos

Invocar um ponto de extremidade em lote aciona um trabalho de inferência em lote assíncrono. O Azure Machine Learning provisiona automaticamente recursos de computação quando o trabalho é iniciado e os deslocaliza automaticamente à medida que o trabalho é concluído. Dessa forma, você só paga pela computação quando a usa.

Gorjeta

Ao implantar modelos, você pode substituir as configurações de recursos de computação (como contagem de instâncias) e as configurações avançadas (como tamanho de minilote, limite de erro e assim por diante) para cada trabalho de inferência de lote individual. Ao tirar proveito dessas configurações específicas, você poderá acelerar a execução e reduzir custos.

Os pontos de extremidade em lote também podem ser executados em VMs de baixa prioridade. Os pontos de extremidade em lote podem se recuperar automaticamente de VMs desalocadas e retomar o trabalho de onde ele foi deixado ao implantar modelos para inferência. Para obter mais informações sobre como usar VMs de baixa prioridade para reduzir o custo de cargas de trabalho de inferência em lote, consulte Usar VMs de baixa prioridade em pontos de extremidade em lote.

Por fim, o Aprendizado de Máquina do Azure não cobra por pontos de extremidade em lote ou implantações em lote em si, para que você possa organizar seus pontos de extremidade e implantações conforme melhor se adapte ao seu cenário. Pontos de extremidade e implantações podem usar clusters independentes ou compartilhados, para que você possa obter um controle refinado sobre qual computação os trabalhos consomem. Use a escala até zero em clusters para garantir que nenhum recurso seja consumido quando estiverem ociosos.

Simplifique a prática de MLOps

Os pontos de extremidade em lote podem lidar com várias implantações sob o mesmo ponto de extremidade, permitindo que você altere a implementação do ponto de extremidade sem alterar a URL que seus consumidores usam para invocá-lo.

Você pode adicionar, remover e atualizar implantações sem afetar o ponto de extremidade em si.

Diagrama que descreve como várias implantações podem ser usadas sob o mesmo ponto de extremidade.

Fontes de dados e armazenamento flexíveis

Os pontos de extremidade em lote leem e gravam dados diretamente do armazenamento. Você pode especificar armazenamentos de dados do Azure Machine Learning, ativos de dados do Azure Machine Learning ou Contas de Armazenamento como entradas. Para obter mais informações sobre as opções de entrada suportadas e como especificá-las, consulte Criar trabalhos e dados de entrada para pontos de extremidade em lote.

Segurança

Os pontos de extremidade em lote fornecem todos os recursos necessários para operar cargas de trabalho de nível de produção em um ambiente corporativo. Eles oferecem suporte à rede privada em espaços de trabalho seguros e à autenticação do Microsoft Entra, usando uma entidade de usuário (como uma conta de usuário) ou uma entidade de serviço (como uma identidade gerenciada ou não gerenciada). Os trabalhos gerados por um ponto de extremidade em lote são executados sob a identidade do invocador, o que lhe dá a flexibilidade de implementar qualquer cenário. Para obter mais informações sobre autorização ao usar pontos de extremidade em lote, consulte Como autenticar em pontos de extremidade em lote.