Wdrażanie modeli językowych w punktach końcowych wsadowych

2025-05-02

DOTYCZY: Rozszerzenie interfejsu wiersza polecenia platformy Azure w wersji 2 (current)Zestaw PYTHON SDK azure-ai-ml v2 (bieżąca)

Punkty końcowe usługi Batch mogą służyć do wdrażania kosztownych modeli, takich jak modele językowe, za pośrednictwem danych tekstowych. Z tego samouczka dowiesz się, jak wdrożyć model, który może wykonywać podsumowania tekstu długie sekwencje tekstu przy użyciu modelu z aplikacji HuggingFace. Pokazano również, jak przeprowadzić optymalizację wnioskowania przy użyciu bibliotek HuggingFace i optimum HuggingFaceaccelerate.

Informacje o tym przykładzie

Model, z który będziemy pracować, został utworzony przy użyciu popularnych transformatorów bibliotek z HuggingFace wraz ze wstępnie wytrenowanym modelem z Facebooka z architekturą BART. Został on wprowadzony w artykule BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation (Denoising Sequence-to-Sequence Pre-training for Natural Language Generation). Ten model ma następujące ograniczenia, które są ważne, aby pamiętać o wdrożeniu:

Może działać z sekwencjami do 1024 tokenów.
Jest szkolony do podsumowywania tekstu w języku angielskim.
Użyjemy Torcha jako zaplecza.

Przykład w tym artykule jest oparty na przykładach kodu zawartych w repozytorium azureml-examples . Aby uruchomić polecenia lokalnie bez konieczności kopiowania lub wklejania kodu YAML i innych plików, użyj następujących poleceń, aby sklonować repozytorium i przejść do folderu dla języka kodowania:

Interfejs wiersza polecenia platformy Azure
Pyton

git clone https://github.com/Azure/azureml-examples --depth 1
cd azureml-examples/cli

git clone https://github.com/Azure/azureml-examples --depth 1
cd azureml-examples/sdk/python

Pliki dla tego przykładu znajdują się w następujących elementach:

cd endpoints/batch/deploy-models/huggingface-text-summarization

Postępuj zgodnie z instrukcjami w notesach Jupyter Notebook

Możesz skorzystać z tego przykładu w notesie Jupyter Notebook. W sklonowanym repozytorium otwórz notes: text-summarization-batch.ipynb.

Wymagania wstępne

Subskrypcja platformy Azure. Jeśli nie masz subskrypcji platformy Azure, przed rozpoczęciem utwórz bezpłatne konto.
Obszar roboczy usługi Azure Machine Learning. Aby utworzyć obszar roboczy, zobacz Zarządzanie obszarami roboczymi usługi Azure Machine Learning.
Następujące uprawnienia w obszarze roboczym usługi Azure Machine Learning:
- Do tworzenia punktów końcowych i wdrożeń wsadowych lub zarządzania nimi: użyj roli właściciela, współautora lub niestandardowej, która została przypisana Microsoft.MachineLearningServices/workspaces/batchEndpoints/* do uprawnień.
- Aby utworzyć wdrożenia usługi Azure Resource Manager w grupie zasobów obszaru roboczego: użyj roli właściciel, współautor lub niestandardowa, która została przypisana Microsoft.Resources/deployments/write do uprawnienia w grupie zasobów, w której wdrożono obszar roboczy.
Interfejs wiersza polecenia usługi Azure Machine Learning lub zestaw AZURE Machine Learning SDK dla języka Python:
- Interfejs wiersza polecenia platformy Azure
- Pyton
Uruchom następujące polecenie, aby zainstalować interfejs wiersza polecenia platformy Azure i ml:
```
az extension add -n ml
```
Wdrożenia składników potoku dla punktów końcowych wsadowych są wprowadzane w wersji 2.7 ml rozszerzenia dla interfejsu wiersza polecenia platformy Azure. Użyj polecenia , az extension update --name ml aby pobrać najnowszą wersję.
Uruchom następujące polecenie, aby zainstalować zestaw AZURE Machine Learning SDK dla języka Python:
```
pip install azure-ai-ml
```
Klasy ModelBatchDeployment i PipelineComponentBatchDeployment są wprowadzane w wersji 1.7.0 zestawu SDK. Użyj polecenia , pip install -U azure-ai-ml aby pobrać najnowszą wersję.

Nawiązywanie połączenia z obszarem roboczym

Obszar roboczy to zasób najwyższego poziomu dla usługi Azure Machine Learning. Zapewnia scentralizowane miejsce do pracy ze wszystkimi artefaktami tworzonymi podczas korzystania z usługi Azure Machine Learning. W tej sekcji nawiąż połączenie z obszarem roboczym, w którym wykonujesz zadania wdrażania.

Interfejs wiersza polecenia platformy Azure
Pyton

W poniższym poleceniu wprowadź identyfikator subskrypcji, nazwę obszaru roboczego, nazwę grupy zasobów i lokalizację:

az account set --subscription <subscription>
az configure --defaults workspace=<workspace> group=<resource-group> location=<location>

Zaimportuj wymagane biblioteki:

from azure.ai.ml import MLClient, Input, load_component
from azure.ai.ml.entities import BatchEndpoint, ModelBatchDeployment, ModelBatchDeploymentSettings, PipelineComponentBatchDeployment, Model, AmlCompute, Data, BatchRetrySettings, CodeConfiguration, Environment, Data
from azure.ai.ml.constants import AssetTypes, BatchDeploymentOutputAction
from azure.ai.ml.dsl import pipeline
from azure.identity import DefaultAzureCredential

Skonfiguruj szczegóły obszaru roboczego i uzyskaj dojście do obszaru roboczego:

W poniższym poleceniu wprowadź identyfikator subskrypcji, nazwę grupy zasobów i nazwę obszaru roboczego:
```
subscription_id = "<subscription>"
resource_group = "<resource-group>"
workspace = "<workspace>"

ml_client = MLClient(DefaultAzureCredential(), subscription_id, resource_group, workspace)
```

Rejestrowanie modelu

Ze względu na rozmiar modelu nie jest on uwzględniony w tym repozytorium. Zamiast tego możesz pobrać kopię z centrum modelu HuggingFace. Potrzebne są pakiety transformers i torch zainstalowane w używanym środowisku.

%pip install transformers torch

Użyj następującego kodu, aby pobrać model do folderu model:

from transformers import pipeline

model = pipeline("summarization", model="facebook/bart-large-cnn")
model_local_path = 'model'
summarizer.save_pretrained(model_local_path)

Teraz możemy zarejestrować ten model w rejestrze usługi Azure Machine Learning:

Interfejs wiersza polecenia platformy Azure
Pyton

MODEL_NAME='bart-text-summarization'
az ml model create --name $MODEL_NAME --path "model"

model_name = 'bart-text-summarization'
model = ml_client.models.create_or_update(
    Model(name=model_name, path='model', type=AssetTypes.CUSTOM_MODEL)
)

Tworzenie punktu końcowego

Utworzymy punkt końcowy wsadowy o nazwie text-summarization-batch gdzie wdrożyć model HuggingFace w celu uruchomienia podsumowania tekstu w plikach tekstowych w języku angielskim.

Zdecyduj o nazwie punktu końcowego. Nazwa punktu końcowego kończy się identyfikatorem URI skojarzonym z punktem końcowym. W związku z tym nazwy punktów końcowych partii muszą być unikatowe w regionie świadczenia usługi Azure. Na przykład może istnieć tylko jeden punkt końcowy wsadowy o nazwie mybatchendpoint w pliku westus2.
- Interfejs wiersza polecenia platformy Azure
- Pyton
W takim przypadku umieśćmy nazwę punktu końcowego w zmiennej, abyśmy mogli ją łatwo odwołać później.
```
ENDPOINT_NAME="text-summarization-batch"
```
W takim przypadku umieśćmy nazwę punktu końcowego w zmiennej, abyśmy mogli ją łatwo odwołać później.
```
endpoint_name="text-summarization-batch"
```

Konfigurowanie punktu końcowego wsadowego

Interfejs wiersza polecenia platformy Azure
Pyton

Następujący plik YAML definiuje punkt końcowy partii:

endpoint.yml

$schema: https://azuremlschemas.azureedge.net/latest/batchEndpoint.schema.json
name: text-summarization-batch
description: A batch endpoint for summarizing text using a HuggingFace transformer model.
auth_mode: aad_token

endpoint = BatchEndpoint(
    name=endpoint_name,
    description="A batch endpoint for summarizing text using a HuggingFace transformer model.",
)

Utwórz punkt końcowy:

Interfejs wiersza polecenia platformy Azure
Pyton

az ml batch-endpoint create --file endpoint.yml  --name $ENDPOINT_NAME

ml_client.batch_endpoints.begin_create_or_update(endpoint)

Tworzenie wdrożenia

Utwórzmy wdrożenie hostujące model:

Musimy utworzyć skrypt oceniania, który może odczytywać pliki CSV dostarczone przez wdrożenie wsadowe i zwracać wyniki modelu z podsumowaniem. Poniższy skrypt wykonuje następujące akcje:

Wskazuje funkcję, która wykrywa konfigurację init sprzętu (procesor CPU i procesor GPU) i odpowiednio ładuje model. Zarówno model, jak i tokenizer są ładowane w zmiennych globalnych. Nie używamy pipeline obiektu z funkcji HuggingFace, aby uwzględnić ograniczenie w sekwencji aktualnie używanego modelu.
Zwróć uwagę, że przeprowadzamy optymalizacje modelu w celu zwiększenia wydajności przy użyciu optimum bibliotek i accelerate . Jeśli model lub sprzęt nie obsługuje go, uruchomimy wdrożenie bez takich optymalizacji.
run Wskazuje funkcję, która jest wykonywana dla każdej mini-partii zapewnia wdrożenie wsadowe.
Funkcja run odczytuje całą partię datasets przy użyciu biblioteki. Tekst, który musimy podsumować, znajduje się w kolumnie text.
Metoda run iteruje poszczególne wiersze tekstu i uruchamia przewidywanie. Ponieważ jest to bardzo kosztowny model, uruchomienie przewidywania dla całych plików spowoduje wyjątek braku pamięci. Zwróć uwagę, że model nie jest wykonywany z obiektem pipeline .transformers Jest to wykonywane w celu uwzględnienia długich sekwencji tekstu i ograniczenia 1024 tokenów w używanym modelu bazowym.
Zwraca podsumowanie podanego tekstu.

kod/batch_driver.py

import os
import time
import torch
import subprocess
import mlflow
from pprint import pprint
from transformers import AutoTokenizer, BartForConditionalGeneration
from optimum.bettertransformer import BetterTransformer
from datasets import load_dataset


def init():
    global model
    global tokenizer
    global device

    cuda_available = torch.cuda.is_available()
    device = "cuda" if cuda_available else "cpu"

    if cuda_available:
        print(f"[INFO] CUDA version: {torch.version.cuda}")
        print(f"[INFO] ID of current CUDA device: {torch.cuda.current_device()}")
        print("[INFO] nvidia-smi output:")
        pprint(
            subprocess.run(["nvidia-smi"], stdout=subprocess.PIPE).stdout.decode(
                "utf-8"
            )
        )
    else:
        print(
            "[WARN] CUDA acceleration is not available. This model takes hours to run on medium size data."
        )

    # AZUREML_MODEL_DIR is an environment variable created during deployment
    model_path = os.path.join(os.environ["AZUREML_MODEL_DIR"], "model")

    # load the tokenizer
    tokenizer = AutoTokenizer.from_pretrained(
        model_path, truncation=True, max_length=1024
    )

    # Load the model
    try:
        model = BartForConditionalGeneration.from_pretrained(
            model_path, device_map="auto"
        )
    except Exception as e:
        print(
            f"[ERROR] Error happened when loading the model on GPU or the default device. Error: {e}"
        )
        print("[INFO] Trying on CPU.")
        model = BartForConditionalGeneration.from_pretrained(model_path)
        device = "cpu"

    # Optimize the model
    if device != "cpu":
        try:
            model = BetterTransformer.transform(model, keep_original_model=False)
            print("[INFO] BetterTransformer loaded.")
        except Exception as e:
            print(
                f"[ERROR] Error when converting to BetterTransformer. An unoptimized version of the model will be used.\n\t> {e}"
            )

    mlflow.log_param("device", device)
    mlflow.log_param("model", type(model).__name__)


def run(mini_batch):
    resultList = []

    print(f"[INFO] Reading new mini-batch of {len(mini_batch)} file(s).")
    ds = load_dataset("csv", data_files={"score": mini_batch})

    start_time = time.perf_counter()
    for idx, text in enumerate(ds["score"]["text"]):
        # perform inference
        inputs = tokenizer.batch_encode_plus(
            [text], truncation=True, padding=True, max_length=1024, return_tensors="pt"
        )
        input_ids = inputs["input_ids"].to(device)
        summary_ids = model.generate(
            input_ids, max_length=130, min_length=30, do_sample=False
        )
        summaries = tokenizer.batch_decode(
            summary_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False
        )

        # Get results:
        resultList.append(summaries[0])
        rps = idx / (time.perf_counter() - start_time + 00000.1)
        print("Rows per second:", rps)

    mlflow.log_metric("rows_per_second", rps)
    return resultList

Napiwek

Mimo że pliki są udostępniane w minisadach przez wdrożenie, ten skrypt oceniania przetwarza jeden wiersz naraz. Jest to typowy wzorzec podczas pracy z kosztownymi modelami (takimi jak transformatory), ponieważ próba załadowania całej partii i wysłania jej do modelu jednocześnie może spowodować wysokie wykorzystanie pamięci w funkcji wykonawczej partii (wyjątki OOM).

Musimy wskazać, w którym środowisku będziemy uruchamiać wdrożenie. W naszym przypadku nasz model jest uruchamiany i Torch wymaga bibliotek transformers, acceleratei optimum z narzędzia HuggingFace. Usługa Azure Machine Learning ma już środowisko z dostępną obsługą platformy Torch i procesora GPU. Po prostu dodamy kilka zależności w conda.yaml pliku.

environment/torch200-conda.yaml
```
name: huggingface-env
channels:
  - conda-forge
dependencies:
  - python=3.8.5
  - pip
  - pip:
    - torch==2.0
    - transformers
    - accelerate
    - optimum
    - datasets
    - mlflow
    - azureml-mlflow
    - azureml-core
    - azureml-dataset-runtime[fuse]
```
Możemy użyć wymienionego wcześniej pliku conda w następujący sposób:
- Interfejs wiersza polecenia platformy Azure
- Pyton
Definicja środowiska jest zawarta w pliku wdrożenia.

deployment.yml
```
compute: azureml:gpu-cluster
environment:
  name: torch200-transformers-gpu
  image: mcr.microsoft.com/azureml/openmpi4.1.0-cuda11.8-cudnn8-ubuntu22.04:latest
```
Uzyskajmy odwołanie do środowiska:
```
environment = Environment(
    name="torch200-transformers-gpu",
    conda_file="environment/torch200-conda.yaml",
    image="mcr.microsoft.com/azureml/openmpi4.1.0-cuda11.8-cudnn8-ubuntu22.04:latest",
)
```
Ważne

Utworzone środowisko torch200-transformers-gpu wymaga zgodnego urządzenia sprzętowego CUDA 11.8 do uruchamiania platformy Torch 2.0 i Ubuntu 20.04. Jeśli urządzenie z procesorem GPU nie obsługuje tej wersji cuda, możesz sprawdzić alternatywne torch113-conda.yaml środowisko Conda (dostępne również w repozytorium), które uruchamia torch 1.3 w systemie Ubuntu 18.04 z cudA 10.1. Jednak przyspieszanie przy użyciu bibliotek optimum i accelerate nie jest obsługiwane w tej konfiguracji.
Każde wdrożenie jest uruchamiane w klastrach obliczeniowych. Obsługują one zarówno klastry obliczeniowe usługi Azure Machine Learning (AmlCompute) jak i klastry Kubernetes. W tym przykładzie nasz model może korzystać z przyspieszania procesora GPU, dlatego używamy klastra gpu.
- Interfejs wiersza polecenia platformy Azure
- Pyton
```
az ml compute create -n gpu-cluster --type amlcompute --size STANDARD_NV6 --min-instances 0 --max-instances 2
```
```
compute_name = "gpu-cluster"
compute_cluster = AmlCompute(
    name=compute_name,
    description="GPU cluster compute",
    size="Standard_NV6",
    min_instances=0,
    max_instances=2,
)
ml_client.begin_create_or_update(compute_cluster)
```
Uwaga

W tym momencie nie są naliczane opłaty za obliczenia, ponieważ klaster pozostaje w zerowych węzłach do momentu wywołania punktu końcowego wsadowego i przesłania zadania oceniania wsadowego. Dowiedz się więcej na temat zarządzania kosztami i optymalizowania pod kątem usługi AmlCompute.

Teraz utwórzmy wdrożenie.

Interfejs wiersza polecenia platformy Azure
Pyton

Aby utworzyć nowe wdrożenie w ramach utworzonego punktu końcowego, utwórz konfigurację podobną YAML do poniższej. Możesz sprawdzić pełny schemat YAML punktu końcowego wsadowego pod kątem dodatkowych właściwości.

deployment.yml

$schema: https://azuremlschemas.azureedge.net/latest/modelBatchDeployment.schema.json
endpoint_name: text-summarization-batch
name: text-summarization-optimum
description: A text summarization deployment implemented with HuggingFace and BART architecture with GPU optimization using Optimum.
type: model
model: azureml:bart-text-summarization@latest
compute: azureml:gpu-cluster
environment:
  name: torch200-transformers-gpu
  image: mcr.microsoft.com/azureml/openmpi4.1.0-cuda11.8-cudnn8-ubuntu22.04:latest
  conda_file: environment/torch200-conda.yaml
code_configuration:
  code: code
  scoring_script: batch_driver.py
resources:
  instance_count: 2
settings:
  max_concurrency_per_instance: 1
  mini_batch_size: 1
  output_action: append_row
  output_file_name: predictions.csv
  retry_settings:
    max_retries: 1
    timeout: 3000
  error_threshold: -1
  logging_level: info

Następnie utwórz wdrożenie za pomocą następującego polecenia:

az ml batch-deployment create --file deployment.yml --endpoint-name $ENDPOINT_NAME --set-default

Aby utworzyć nowe wdrożenie za pomocą wskazanego środowiska i skryptu oceniania, użyj następującego kodu:

deployment = BatchDeployment(
    name="text-summarization-hfbart",
    description="A text summarization deployment implemented with HuggingFace and BART architecture",
    endpoint_name=endpoint.name,
    model=model,
    environment=environment,
    code_configuration=CodeConfiguration(
        code="code",
        scoring_script="batch_driver.py",
    ),
    compute=compute_name,
    instance_count=2,
    max_concurrency_per_instance=1,
    mini_batch_size=1,
    output_action=BatchDeploymentOutputAction.APPEND_ROW,
    output_file_name="predictions.csv",
    retry_settings=BatchRetrySettings(max_retries=3, timeout=3000),
    logging_level="info",
)

Następnie utwórz wdrożenie za pomocą następującego polecenia:

ml_client.batch_deployments.begin_create_or_update(deployment)

Ważne

W tym wdrożeniu zauważysz wysoką wartość w timeout dla parametru retry_settings. Przyczyną jest charakter modelu, który uruchamiamy. Jest to bardzo kosztowny model i wnioskowanie w jednym wierszu może potrwać do 60 sekund. Parametr timeout określa, ile czasu wdrożenie usługi Batch powinno czekać na zakończenie przetwarzania każdego minisadowego skryptu oceniania. Ponieważ nasz model działa, wykonując przewidywania wiersz po wierszu, przetwarzanie długiego pliku może zająć trochę czasu. Zwróć również uwagę, że liczba plików na partię jest ustawiona na 1 (mini_batch_size=1). Jest to ponownie związane z naturą wykonywanej pracy. Przetwarzanie jednego pliku naraz na partię jest wystarczająco kosztowne, aby go uzasadnić. Zauważysz, że jest to wzorzec przetwarzania NLP.

Chociaż można wywołać określone wdrożenie wewnątrz punktu końcowego, zazwyczaj chcesz wywołać sam punkt końcowy i pozwolić punktowi końcowemu zdecydować, które wdrożenie ma być używane. Takie wdrożenie nosi nazwę "domyślnego" wdrożenia. Daje to możliwość zmiany wdrożenia domyślnego, a tym samym zmiany modelu obsługującego wdrożenie bez zmiany umowy z użytkownikiem wywołującym punkt końcowy. Aby zaktualizować wdrożenie domyślne, użyj następującej instrukcji:
- Interfejs wiersza polecenia platformy Azure
- Pyton
```
DEPLOYMENT_NAME="text-summarization-hfbart"
az ml batch-endpoint update --name $ENDPOINT_NAME --set defaults.deployment_name=$DEPLOYMENT_NAME
```
```
endpoint.defaults.deployment_name = deployment.name
ml_client.batch_endpoints.begin_create_or_update(endpoint)
```
W tym momencie nasz punkt końcowy wsadowy jest gotowy do użycia.

Testowanie wdrożenia

Na potrzeby testowania naszego punktu końcowego użyjemy próbki zestawu danych BillSum: Corpus for Automatic Summarization of US Legislation (Automatyczne podsumowanie przepisów USA). Ten przykład znajduje się w repozytorium w folderze data. Zwróć uwagę, że format danych to CSV, a zawartość do podsumowania znajduje się w kolumnie text, zgodnie z oczekiwaniami modelu.

Wywołajmy punkt końcowy:
- Interfejs wiersza polecenia platformy Azure
- Pyton
```
JOB_NAME=$(az ml batch-endpoint invoke --name $ENDPOINT_NAME --input data --input-type uri_folder --query name -o tsv)
```
Uwaga

jq Narzędzie może nie być zainstalowane w każdej instalacji. Możesz uzyskać instrukcje w tym linku.
Napiwek

Jaka jest różnica między parametrem inputs i input podczas wywoływania punktu końcowego?

Ogólnie rzecz biorąc, można użyć parametru słownika inputs = {} z invoke metodą , aby podać dowolną liczbę wymaganych danych wejściowych do punktu końcowego wsadowego, który zawiera wdrożenie modelu lub wdrożenie potoku.

W przypadku wdrożenia modelu można użyć parametru input jako krótszego sposobu określania lokalizacji danych wejściowych dla wdrożenia. Takie podejście działa, ponieważ wdrożenie modelu zawsze przyjmuje tylko jedno dane wejściowe.
```
input = Input(type=AssetTypes.URI_FOLDER, path="data")
job = ml_client.batch_endpoints.invoke(
   endpoint_name=endpoint.name,
   input=input,
)
```
Napiwek

Zwróć uwagę, że wskazując ścieżkę lokalną jako dane wejściowe, dane są przekazywane do domyślnego konta magazynu usługi Azure Machine Learning.
Zadanie wsadowe jest uruchamiane natychmiast po powrocie polecenia. Stan zadania można monitorować do momentu jego zakończenia:
- Interfejs wiersza polecenia platformy Azure
- Pyton
```
az ml job show -n $JOB_NAME --web
```
```
ml_client.jobs.get(job.name)
```
Po zakończeniu wdrażania możemy pobrać przewidywania:
- Interfejs wiersza polecenia platformy Azure
- Pyton
Aby pobrać przewidywania, użyj następującego polecenia:
```
az ml job download --name $JOB_NAME --output-name score --download-path .
```
```
ml_client.jobs.download(name=job.name, output_name='score', download_path='./')
```

Zagadnienia dotyczące wdrażania modeli, które przetwarzają tekst

Jak wspomniano w notatkach w tym samouczku, przetwarzanie tekstu może mieć specyficzne cechy, które wymagają określonej konfiguracji dla wdrożeń wsadowych. Podczas projektowania wdrożenia wsadowego należy wziąć pod uwagę następujące kwestie:

Niektóre modele NLP mogą być bardzo kosztowne pod względem pamięci i czasu obliczeniowego. Jeśli tak jest, rozważ zmniejszenie liczby plików uwzględnionych w każdej minisadowej partii. W poprzednim przykładzie liczba została zmniejszona do minimum, 1 plik na partię. Chociaż może to nie być Twój przypadek, należy wziąć pod uwagę liczbę plików, które model może oceniać za każdym razem. Należy pamiętać, że relacja między rozmiarem danych wejściowych i pamięcią modelu może nie być liniowa dla modeli uczenia głębokiego.
Jeśli model nie może nawet obsłużyć jednego pliku naraz (na przykład w tym przykładzie), rozważ odczytanie danych wejściowych w wierszach/fragmentach. Zaimplementuj przetwarzanie wsadowe na poziomie wiersza, jeśli chcesz osiągnąć większą przepływność lub wykorzystanie sprzętu.
timeout Ustaw wartość wdrożenia odpowiednio na kosztowny model i ilość danych, które mają być przetwarzane. Należy pamiętać, że parametr timeout wskazuje czas oczekiwania wdrożenia wsadowego na uruchomienie skryptu oceniania dla danej partii. Jeśli w partii istnieje wiele plików lub plików z wieloma wierszami, ma to wpływ na właściwą wartość tego parametru.

Zagadnienia dotyczące modeli MLflow, które przetwarzają tekst

Te same zagadnienia, o których wspomniano wcześniej, dotyczą modeli MLflow. Jednak ponieważ nie jest wymagane podanie skryptu oceniania dla wdrożenia modelu MLflow, niektóre wymienione zalecenia mogą wymagać innego podejścia.

Modele MLflow w punktach końcowych usługi Batch obsługują odczytywanie danych tabelarycznych jako danych wejściowych, które mogą zawierać długie sekwencje tekstu. Zobacz Obsługa typów plików, aby uzyskać szczegółowe informacje o obsługiwanych typach plików.
Wdrożenia wsadowe wywołuje funkcję predict modelu MLflow z zawartością całego pliku w ramce danych biblioteki Pandas. Jeśli dane wejściowe zawierają wiele wierszy, prawdopodobieństwo uruchomienia złożonego modelu (na przykład przedstawionego w tym samouczku) powoduje wyjątek braku pamięci. Jeśli tak jest, możesz rozważyć następujące kwestie:
- Dostosuj sposób uruchamiania przewidywań modelu i implementowanie przetwarzania wsadowego. Aby dowiedzieć się, jak dostosować proces inferencji modelu MLflow, zobacz Dostosowywanie modeli niestandardowych.
- Utwórz skrypt oceniania i załaduj model przy użyciu polecenia mlflow.<flavor>.load_model(). Aby uzyskać szczegółowe informacje, zobacz Używanie modeli MLflow ze skryptem oceniania.