Nasazení toku do online koncového bodu pro odvozování v reálném čase pomocí rozhraní příkazového řádku

V tomto článku se dozvíte, jak nasadit tok do spravovaného online koncového bodu nebo do online koncového bodu Kubernetes pro použití při odvozování v reálném čase pomocí azure Machine Learning v2 CLI.

Než začnete, ujistěte se, že jste tok správně otestovali a máte jistotu, že je připravená k nasazení do produkčního prostředí. Další informace o testování toku najdete v tématu o testování toku. Po otestování toku se dozvíte, jak vytvořit spravovaný online koncový bod a nasazení a jak ho používat k odvozování v reálném čase.

Tento článek popisuje, jak používat rozhraní příkazového řádku.
Sada Python SDK není popsána v tomto článku. Místo toho si prohlédněte ukázkový poznámkový blok GitHubu. Pokud chcete použít sadu Python SDK, musíte mít sadu Python SDK v2 pro Azure Machine Learning. Další informace najdete v tématu Instalace sady Python SDK v2 pro Azure Machine Learning.

Důležité

Položky označené (Preview) v tomto článku jsou aktuálně ve verzi Public Preview. Verze Preview je poskytována bez smlouvy o úrovni služeb a nedoporučuje se pro produkční úlohy. Některé funkce se nemusí podporovat nebo mohou mít omezené možnosti. Další informace najdete v dodatečných podmínkách použití pro verze Preview v Microsoft Azure.

Požadavky

Azure CLI a rozšíření Azure Machine Learning pro Azure CLI. Další informace najdete v tématu Instalace, nastavení a použití rozhraní příkazového řádku (v2).
Pracovní prostor služby Azure Machine Learning. Pokud ho nemáte, vytvořte ho pomocí kroků v rychlém startu : Vytvoření článku o prostředcích pracovního prostoru.
Řízení přístupu na základě role v Azure (Azure RBAC) slouží k udělení přístupu k operacím ve službě Azure Machine Learning. Pokud chcete provést kroky v tomto článku, musí mít váš uživatelský účet přiřazenou roli vlastníka nebo přispěvatele pro pracovní prostor Služby Azure Machine Learning nebo vlastní roli, která povoluje Microsoft.MachineLearningServices/workspaces/onlineEndpoints/. Pokud k vytváření a správě online koncových bodů/nasazení používáte studio, potřebujete další oprávnění Microsoft.Resources/deployments/write od vlastníka skupiny prostředků. Další informace najdete v tématu Správa přístupu k pracovnímu prostoru Azure Machine Learning.

Poznámka:

Spravovaný online koncový bod podporuje jenom spravovanou virtuální síť. Pokud je váš pracovní prostor ve vlastní virtuální síti, můžete ho nasadit do online koncového bodu Kubernetes nebo nasadit na jiné platformy, jako je Docker.

Přidělení kvóty virtuálních počítačů pro nasazení

Pro spravované online koncové body si Azure Machine Learning rezervuje 20 % výpočetních prostředků pro provádění upgradů. Pokud tedy v nasazení požadujete určitý počet instancí, musíte mít k dispozici kvótu, ceil(1.2 * number of instances requested for deployment) * number of cores for the VM SKU abyste se vyhnuli chybě. Pokud například v nasazení požadujete 10 instancí virtuálního počítače Standard_DS3_v2 (který je součástí čtyř jader), měli byste mít kvótu pro 48 jader (12 instancí čtyř jader). Pokud chcete zobrazit navýšení kvóty využití a žádosti, přečtěte si téma Zobrazení využití a kvót na webu Azure Portal.

Příprava toku na nasazení

Každý tok má složku, která obsahuje kódy a výzvy, definici a další artefakty toku. Pokud jste tok vytvořili pomocí uživatelského rozhraní, můžete si ji stáhnout ze stránky s podrobnostmi o toku. Pokud jste tok vyvinuli pomocí rozhraní příkazového řádku nebo sady SDK, měli byste už mít složku toku.

Tento článek používá ukázkový tok "basic-chat" jako příklad nasazení do online koncového bodu spravovaného službou Azure Machine Learning.

Důležité

Pokud jste tok použili additional_includes , musíte nejdřív použít pf flow build --source <path-to-flow> --output <output-path> --format docker k získání vyřešené verze složky flow.

Nastavení výchozího pracovního prostoru

Pomocí následujících příkazů nastavte výchozí pracovní prostor a skupinu prostředků pro rozhraní příkazového řádku.

az account set --subscription <subscription ID>
az configure --defaults workspace=<Azure Machine Learning workspace name> group=<resource group>

Registrace toku jako modelu (volitelné)

V online nasazení můžete buď odkazovat na registrovaný model, nebo zadat cestu k modelu (odkud se mají nahrát soubory modelu) vložené. Doporučuje se zaregistrovat model a zadat název a verzi modelu v definici nasazení. Použijte formulář model:<model_name>:<version>.

Následuje příklad definice modelu pro tok chatu.

Poznámka:

Pokud tok není tok chatu, nemusíte je propertiespřidávat.

$schema: https://azuremlschemas.azureedge.net/latest/model.schema.json
name: basic-chat-model
path: ../../../../examples/flows/chat/basic-chat
description: register basic chat flow folder as a custom model
properties:
  # In AuzreML studio UI, endpoint detail UI Test tab needs this property to know it's from prompt flow
  azureml.promptflow.source_flow_id: basic-chat
  
  # Following are properties only for chat flow 
  # endpoint detail UI Test tab needs this property to know it's a chat flow
  azureml.promptflow.mode: chat
  # endpoint detail UI Test tab needs this property to know which is the input column for chat flow
  azureml.promptflow.chat_input: question
  # endpoint detail UI Test tab needs this property to know which is the output column for chat flow
  azureml.promptflow.chat_output: answer

Slouží az ml model create --file model.yaml k registraci modelu do pracovního prostoru.

Definování koncového bodu

Pokud chcete definovat koncový bod, musíte zadat:

Název koncového bodu: Název koncového bodu. Musí být jedinečný v oblasti Azure. Další informace o pravidlech pojmenování najdete v tématu Omezení koncových bodů.
Režim ověřování: Metoda ověřování pro koncový bod. Vyberte si mezi ověřováním založeným na klíči a ověřováním na základě tokenů služby Azure Machine Learning. Platnost klíče nevyprší, ale platnost tokenu vyprší. Další informace o ověřování najdete v tématu Ověřování u online koncového bodu. Volitelně můžete do koncového bodu přidat popis a značky.
Volitelně můžete do koncového bodu přidat popis a značky.
Pokud chcete nasadit do clusteru Kubernetes (cluster s podporou AKS nebo Arc), který se připojuje k vašemu pracovnímu prostoru, můžete tok nasadit jako online koncový bod Kubernetes.

Následuje příklad definice koncového bodu, který ve výchozím nastavení používá identitu přiřazenou systémem.

Spravovaný online koncový bod
Online koncový bod Kubernetes

$schema: https://azuremlschemas.azureedge.net/latest/managedOnlineEndpoint.schema.json
name: basic-chat-endpoint
auth_mode: key
properties:
# this property only works for system-assigned identity.
# if the deploy user has access to connection secrets, 
# the endpoint system-assigned identity will be auto-assigned connection secrets reader role as well
  enforce_access_to_default_secret_stores: enabled

$schema: https://azuremlschemas.azureedge.net/latest/kubernetesOnlineEndpoint.schema.json
name: basic-chat-endpoint
compute: azureml:<Kubernetes compute name>
auth_mode: key

Důležité

Key	Popis
`$schema`	(Volitelné) Schéma YAML. Pokud chcete zobrazit všechny dostupné možnosti v souboru YAML, můžete schéma zobrazit v předchozím fragmentu kódu v prohlížeči.
`name`	Název koncového bodu
`auth_mode`	Používá se `key` pro ověřování založené na klíčích. Používá se `aml_token` pro ověřování na základě tokenů služby Azure Machine Learning. K získání nejnovějšího tokenu `az ml online-endpoint get-credentials` použijte příkaz.
`property: enforce_access_to_default_secret_stores` (Preview)	– Ve výchozím nastavení koncový bod používá identitu se systémem asigned. Tato vlastnost funguje jenom pro identitu přiřazenou systémem. – Tato vlastnost znamená, že pokud máte oprávnění čtenáře tajných kódů připojení, identita přiřazená systémem koncového bodu je automaticky přiřazena role Čtenář tajných kódů připojení pracovního prostoru služby Azure Machine Learning, aby koncový bod měl při odvozování správný přístup k připojením. - Ve výchozím nastavení je tato vlastnost zakázaná.

Pokud vytvoříte online koncový bod Kubernetes, musíte zadat následující atributy:

Key	Popis
`compute`	Cílový výpočetní objekt Kubernetes pro nasazení koncového bodu.

Další konfigurace koncového bodu najdete ve spravovaném schématu online koncového bodu.

Důležité

Pokud váš tok používá ověřovací připojení založená na Microsoft Entra ID, bez ohledu na to, jestli používáte identitu přiřazenou systémem nebo identitu přiřazenou uživatelem, musíte spravované identitě vždy udělit příslušné role odpovídajících prostředků, aby bylo možné volat rozhraní API pro daný prostředek. Pokud například vaše připojení Azure OpenAI používá ověřování založené na ID Microsoftu, musíte udělit identitě spravované koncovým bodem Cognitive Services openAI uživatele nebo přispěvatele OpenAI služeb Cognitive Services s odpovídajícími prostředky Azure OpenAI.

Použití identity přiřazené uživatelem

Ve výchozím nastavení se při vytváření online koncového bodu automaticky vygeneruje spravovaná identita přiřazená systémem. Můžete také zadat existující spravovanou identitu přiřazenou uživatelem pro koncový bod.

Pokud chcete použít identitu přiřazenou uživatelem, můžete zadat následující atributy v :endpoint.yaml

identity:
  type: user_assigned
  user_assigned_identities:
    - resource_id: user_identity_ARM_id_place_holder

Kromě toho musíte také zadat Client ID identitu přiřazenou uživatelem následujícím environment_variablesdeployment.yaml postupem. Spravovanou identitu najdete Client IDOverview na webu Azure Portal.

environment_variables:
  AZURE_CLIENT_ID: <client_id_of_your_user_assigned_identity>

Důležité

Před vytvořením koncového bodu musíte identitě přiřazené uživatelem udělit následující oprávnění, aby mohl přistupovat k prostředkům Azure, aby mohl provádět odvozování. Přečtěte si další informace o tom, jak udělit oprávnění identitě koncového bodu.

Obor	Role	Proč je to potřeba
Pracovní prostor služby Azure Machine Learning	Role Čtenář tajných kódů pro připojení pracovního prostoru Azure Machine LearningNEBO přizpůsobená role s klíčem „Microsoft.MachineLearningServices/workspaces/connections/listsecrets/action“	Získejte připojení k pracovnímu prostoru
Registr kontejneru pracovního prostoru	ACR pull	Image kontejneru pro přijetí změn
Výchozí úložiště pracovního prostoru	Čtenář dat v objektech blob služby Storage	Načtení modelu z úložiště
(Volitelné) Pracovní prostor Azure Machine Learning	Zapisovač metrik pracovního prostoru	Toto oprávnění je nutné identitě udělit v případě, že po nasazení koncového bodu chcete monitorovat metriky související s koncovými body, jako je využití procesoru, GPU, disku nebo paměti.

Definování nasazení

Nasazení je sada prostředků vyžadovaných pro hostování modelu, který provádí skutečné odvozování.

Následuje příklad definice nasazení, ve kterém model část odkazuje na zaregistrovaný model toku. Můžete také zadat cestu modelu toku na řádku.

Spravovaný online koncový bod
Online koncový bod Kubernetes

$schema: https://azuremlschemas.azureedge.net/latest/managedOnlineDeployment.schema.json
name: blue
endpoint_name: basic-chat-endpoint
model: azureml:basic-chat-model:1
  # You can also specify model files path inline
  # path: examples/flows/chat/basic-chat
environment: 
  image: mcr.microsoft.com/azureml/promptflow/promptflow-runtime:latest
  # inference config is used to build a serving container for online deployments
  inference_config:
    liveness_route:
      path: /health
      port: 8080
    readiness_route:
      path: /health
      port: 8080
    scoring_route:
      path: /score
      port: 8080
instance_type: Standard_E16s_v3
instance_count: 1
environment_variables:
  # for pulling connections from workspace
  PRT_CONFIG_OVERRIDE: deployment.subscription_id=<subscription_id>,deployment.resource_group=<resource_group>,deployment.workspace_name=<workspace_name>,deployment.endpoint_name=<endpoint_name>,deployment.deployment_name=<deployment_name>

  # (Optional) When there are multiple fields in the response, using this env variable will filter the fields to expose in the response.
  # For example, if there are 2 flow outputs: "answer", "context", and I only want to have "answer" in the endpoint response, I can set this env variable to '["answer"]'.
  # If you don't set this environment, by default all flow outputs will be included in the endpoint response.
  # PROMPTFLOW_RESPONSE_INCLUDED_FIELDS: '["category", "evidence"]'

$schema: https://azuremlschemas.azureedge.net/latest/kubernetesOnlineDeployment.schema.json
name: blue
type: kubernetes
endpoint_name: basic-chat-endpoint
model: azureml:basic-chat-model:1
  # You can also specify model files path inline
  # path: examples/flows/chat/basic-chat
environment: 
  image: mcr.microsoft.com/azureml/promptflow/promptflow-runtime:latest
  # inference config is used to build a serving container for online deployments
  inference_config:
    liveness_route:
      path: /health
      port: 8080
    readiness_route:
      path: /health
      port: 8080
    scoring_route:
      path: /score
      port: 8080
instance_type: <kubernetes custom instance type>
instance_count: 1
environment_variables:

  # for pulling connections from workspace
  PRT_CONFIG_OVERRIDE: deployment.subscription_id=<subscription_id>,deployment.resource_group=<resource_group>,deployment.workspace_name=<workspace_name>,deployment.endpoint_name=<endpoint_name>,deployment.deployment_name=<deployment_name>

  # (Optional) When there are multiple fields in the response, using this env variable will filter the fields to expose in the response.
  # For example, if there are 2 flow outputs: "answer", "context", and I only want to have "answer" in the endpoint response, I can set this env variable to '["answer"]'.
  # If you don't set this environment, by default all flow outputs will be included in the endpoint response.
  # PROMPTFLOW_RESPONSE_INCLUDED_FIELDS: '["category", "evidence"]'

Atribut	Popis
Name	Název nasazení.
Název koncového bodu	Název koncového bodu pro vytvoření nasazení v části.
Model	Model, který se má použít pro nasazení. Tato hodnota může být odkazem na existující model verze v pracovním prostoru nebo specifikace vloženého modelu.
Prostředí	Prostředí pro hostování modelu a kódu. Obsahuje: - `image` - `inference_config`: slouží k sestavení kontejneru obsluhy pro online nasazení, včetně `liveness route`, `readiness_route`a `scoring_route` .
Typ instance	Velikost virtuálního počítače, která se má použít pro nasazení. Seznam podporovaných velikostí najdete v seznamu skladových položek spravovaných online koncových bodů.
Počet instancí	Početinstancích Založte hodnotu na očekávané úloze. Pro zajištění vysoké dostupnosti doporučujeme nastavit hodnotu alespoň `3`na hodnotu . Pro provádění upgradů si vyhrazujeme dalších 20 %. Další informace najdete v omezeních pro online koncové body.
Proměnné prostředí	Pro koncové body nasazené z toku je potřeba nastavit následující proměnné prostředí: - (povinné) `PRT_CONFIG_OVERRIDE`: pro vyžádání připojení z pracovního prostoru - (volitelné) `PROMPTFLOW_RESPONSE_INCLUDED_FIELDS:`: Pokud v odpovědi existuje více polí, pomocí této proměnné env filtruje pole tak, aby byla v odpovědi vystavena. Pokud jsou například dva výstupy toku: "answer", "context" a pokud chcete mít v odpovědi koncového bodu jen "odpověď", můžete tuto proměnnou env nastavit na ["answer"]".

Důležité

Pokud má requirements.txt složka toku soubor, který obsahuje závislosti potřebné ke spuštění toku, musíte postupovat podle nasazení pomocí vlastních kroků prostředí pro sestavení vlastního prostředí včetně závislostí.

Pokud vytváříte online nasazení Kubernetes, musíte zadat následující atributy:

Atribut	Popis
Typ	Typ nasazení. Nastavte hodnotu na `kubernetes`.
Typ instance	Typ instance, který jste vytvořili v clusteru Kubernetes, který se má použít pro nasazení, představuje výpočetní prostředek požadavku nebo limitu nasazení. Další podrobnosti najdete v tématu Vytvoření a správa typu instance.

Nasazení online koncového bodu do Azure

Pokud chcete vytvořit koncový bod v cloudu, spusťte následující kód:

az ml online-endpoint create --file endpoint.yml

Pokud chcete vytvořit nasazení pojmenované blue pod koncovým bodem, spusťte následující kód:

az ml online-deployment create --file blue-deployment.yml --all-traffic

Poznámka:

Toto nasazení může trvat déle než 15 minut.

Tip

Pokud nechcete blokovat konzolu rozhraní příkazového řádku, můžete k příkazu přidat příznak --no-wait . Tím se ale zastaví interaktivní zobrazení stavu nasazení.

Důležité

Příznak --all-traffic v předchozím az ml online-deployment create přidělení 100 % provozu koncového bodu nově vytvořenému modrému nasazení. I když je to užitečné pro účely vývoje a testování, v produkčním prostředí můžete chtít otevřít provoz do nového nasazení prostřednictvím explicitního příkazu. Například az ml online-endpoint update -n $ENDPOINT_NAME --traffic "blue=100".

Kontrola stavu koncového bodu a nasazení

Pokud chcete zkontrolovat stav koncového bodu, spusťte následující kód:

az ml online-endpoint show -n basic-chat-endpoint

Pokud chcete zkontrolovat stav nasazení, spusťte následující kód:

az ml online-deployment get-logs --name blue --endpoint basic-chat-endpoint

Vyvolání koncového bodu pro určení skóre dat pomocí modelu

Soubor sample-request.json můžete vytvořit takto:

{
  "question": "What is Azure Machine Learning?",
  "chat_history":  []
}

az ml online-endpoint invoke --name basic-chat-endpoint --request-file sample-request.json

Můžete ho také volat pomocí klienta HTTP, například pomocí nástroje curl:

ENDPOINT_KEY=<your-endpoint-key>
ENDPOINT_URI=<your-endpoint-uri>

curl --request POST "$ENDPOINT_URI" --header "Authorization: Bearer $ENDPOINT_KEY" --header 'Content-Type: application/json' --data '{"question": "What is Azure Machine Learning?", "chat_history":  []}'

Klíč koncového bodu a identifikátor URI koncového bodu můžete získat z pracovního prostoru Azure Machine Learning v části Koncové body>spotřebovávat>základní informace o spotřebě.

Pokročilá konfigurace

Nasazení s různými připojeními od vývoje toku

Během nasazování můžete chtít přepsat připojení toku.

Pokud například váš soubor flow.dag.yaml používá připojení s názvem my_connection, můžete ho přepsat přidáním proměnných prostředí yaml nasazení takto:

Možnost 1: Přepsání názvu připojení

environment_variables:
  my_connection: <override_connection_name>

Pokud chcete přepsat konkrétní pole připojení, můžete přepsat přidáním proměnných prostředí se vzorem <connection_name>_<field_name>pojmenování . Pokud váš tok například používá připojení s názvem my_connectionchat_deployment_namekonfiguračního klíče, služba back-end se ve výchozím nastavení pokusí načíst chat_deployment_name z proměnné prostředí "MY_CONNECTION_CHAT_DEPLOYMENT_NAME". Pokud proměnná prostředí není nastavená, použije původní hodnotu z definice toku.

Možnost 2: přepsání odkazem na prostředek

environment_variables:
  my_connection: ${{azureml://connections/<override_connection_name>}}

Poznámka:

Připojení můžete odkazovat pouze v rámci stejného pracovního prostoru.

Nasazení s využitím vlastního prostředí

V této části se dozvíte, jak pomocí kontextu sestavení Dockeru určit prostředí pro vaše nasazení za předpokladu, že máte znalosti o prostředíCh Dockeru a Azure Machine Learningu.

V místním prostředí vytvořte složku s názvem image_build_with_reqirements obsahující následující soubory:
```
|--image_build_with_reqirements
|  |--requirements.txt
|  |--Dockerfile
```
- Měla requirements.txt by být zděděna ze složky toku, která byla použita ke sledování závislostí toku.
- Obsah Dockerfile je podobný následujícímu textu:
```
FROM mcr.microsoft.com/azureml/promptflow/promptflow-runtime:latest
COPY ./requirements.txt .
RUN pip install -r requirements.txt
```

nahraďte oddíl prostředí v souboru yaml definice nasazení následujícím obsahem:

environment: 
  build:
    path: image_build_with_reqirements
    dockerfile_path: Dockerfile
  # deploy prompt flow is BYOC, so we need to specify the inference config
  inference_config:
    liveness_route:
      path: /health
      port: 8080
    readiness_route:
      path: /health
      port: 8080
    scoring_route:
      path: /score
      port: 8080

Použití obslužné moduly FastAPI (Preview)

Ve výchozím nastavení obsluha toku výzvy používá obslužný modul FLASK. Počínaje sadou SDK toku výzvy verze 1.10.0 se podporuje obslužný modul založený na FastAPI. Obslužný modul můžete použít fastapi zadáním proměnné PROMPTFLOW_SERVING_ENGINEprostředí .

environment_variables:
  PROMPTFLOW_SERVING_ENGINE=fastapi

Konfigurace souběžnosti pro nasazení

Když nasadíte tok do online nasazení, existují dvě proměnné prostředí, které nakonfigurujete pro souběžnost: PROMPTFLOW_WORKER_NUM a PROMPTFLOW_WORKER_THREADS. Kromě toho budete muset také nastavit max_concurrent_requests_per_instance parametr.

Níže je příklad konfigurace v deployment.yaml souboru.

request_settings:
  max_concurrent_requests_per_instance: 10
environment_variables:
  PROMPTFLOW_WORKER_NUM: 4
  PROMPTFLOW_WORKER_THREADS: 1

PROMPTFLOW_WORKER_NUM: Tento parametr určuje počet pracovních procesů (procesů), které budou spuštěny v jednom kontejneru. Výchozí hodnota se rovná počtu jader procesoru a maximální hodnota je dvakrát vyšší než počet jader procesoru.
PROMPTFLOW_WORKER_THREADS: Tento parametr určuje počet vláken, která budou spuštěna v jednom pracovním procesu. Výchozí hodnota je 1.

Poznámka:

Pokud nastavíte PROMPTFLOW_WORKER_THREADS hodnotu větší než 1, ujistěte se, že je kód toku bezpečný pro přístup z více vláken.
max_concurrent_requests_per_instance: Maximální počet souběžných požadavků na instanci povolenou pro nasazení. Výchozí hodnota je 10.

Navrhovaná hodnota závisí max_concurrent_requests_per_instance na čase vaší žádosti:
- Pokud je doba vaší žádosti větší než 200 ms, nastavte max_concurrent_requests_per_instance na PROMPTFLOW_WORKER_NUM * PROMPTFLOW_WORKER_THREADShodnotu .
- Pokud je doba požadavku menší nebo rovna 200 ms, nastavte na (1.5-2) * PROMPTFLOW_WORKER_NUM * PROMPTFLOW_WORKER_THREADShodnotu max_concurrent_requests_per_instance . To může zlepšit celkovou propustnost tím, že umožníte, aby se některé požadavky zařadily do fronty na straně serveru.
- Pokud odesíláte žádosti mezi oblastmi, můžete změnit prahovou hodnotu z 200 ms na 1 s.

Při ladění výše uvedených parametrů je potřeba monitorovat následující metriky, abyste zajistili optimální výkon a stabilitu:

Využití procesoru nebo paměti instance tohoto nasazení
Odpovědi bez 200 (4xx, 5xx)
- Pokud obdržíte odpověď 429, obvykle to značí, že je potřeba znovu nastavit souběžnost podle výše uvedeného průvodce nebo škálovat nasazení.
Stav omezování Azure OpenAI

Monitorování koncových bodů

Shromažďování obecných metrik

Můžete zobrazit obecné metriky online nasazení (čísla požadavků, latence požadavků, bajty sítě, procesor, GPU, využití disku nebo paměti atd.).

Shromažďování trasovacích dat a systémových metrik během doby odvozování

Během doby odvozování do pracovního prostoru propojeného application Insights můžete také shromažďovat metriky specifické pro trasování a výzev k nasazení (spotřeba tokenů, latence toku atd.) přidáním vlastnosti app_insights_enabled: true do souboru Yaml nasazení. Přečtěte si další informace o trasování a metrikách nasazení toku výzvy.

Metriky a trasování pro konkrétní tok výzvy je možné zadat do jiné služby Application Insights, než je propojený pracovní prostor. Proměnnou prostředí můžete zadat v souboru yaml nasazení následujícím způsobem. Připojovací řetězec application Insights najdete na stránce Přehled na webu Azure Portal.

environment_variables:
  APPLICATIONINSIGHTS_CONNECTION_STRING: <connection_string>

Poznámka:

Pokud nastavíte app_insights_enabled: true jenom pracovní prostor, ale nemá propojený Application Insights, nasazení se nezdaří, ale nebudou shromážděna žádná data. Pokud současně zadáte proměnnou app_insights_enabled: true prostředí i výše uvedenou proměnnou prostředí, data a metriky trasování se posílají do propojené služby Application Insights pracovního prostoru. Proto pokud chcete zadat jinou službu Application Insights, stačí zachovat proměnnou prostředí.

Běžné chyby

Problém s vypršením časového limitu nadřazeného požadavku při využívání koncového bodu

Příčinou takové chyby je obvykle vypršení časového limitu. Ve výchozím nastavení je to request_timeout_ms 5000. Můžete zadat maximálně 5 minut, což je 300 000 ms. Následuje příklad ukazující, jak zadat časový limit požadavku v souboru yaml nasazení. Další informace o schématu nasazení najdete tady.

request_settings:
  request_timeout_ms: 300000

Důležité

Časový limit 300 000 ms funguje jenom pro spravovaná online nasazení z toku výzvy. Maximální hodnota koncového bodu spravovaného online toku bez výzvy je 180 sekund.

Musíte se ujistit, že jste do modelu přidali vlastnosti následujícím způsobem (buď ve specifikaci vloženého modelu v yaml nasazení, nebo yaml samostatné specifikace modelu), abyste označili, že se jedná o nasazení z toku výzvy.

properties:
  # indicate a deployment from prompt flow
  azureml.promptflow.source_flow_id: <value>

Další kroky

Přečtěte si další informace o schématu spravovaného online koncového bodu a schématu spravovaného online nasazení.
Přečtěte si další informace o testování koncového bodu v uživatelském rozhraní a monitorování koncového bodu.
Přečtěte si další informace o řešení potíží se spravovanými online koncovými body.
Řešení potíží s nasazeními toku výzvy
Jakmile tok vylepšíte a chcete nasadit vylepšenou verzi se strategií bezpečného zavedení, přečtěte si téma Bezpečné zavedení pro online koncové body.
Přečtěte si další informace o nasazení toků do jiných platforem, jako je místní vývojová služba, kontejner Dockeru, služba Azure APP atd.

Váš názor

Byla tato stránka užitečná?

Last updated on 2024-09-01

Sdílet prostřednictvím

Nasazení toku do online koncového bodu pro odvozování v reálném čase pomocí rozhraní příkazového řádku

Požadavky

Přidělení kvóty virtuálních počítačů pro nasazení

Příprava toku na nasazení

Nastavení výchozího pracovního prostoru

Registrace toku jako modelu (volitelné)

Definování koncového bodu

Použití identity přiřazené uživatelem

Definování nasazení

Nasazení online koncového bodu do Azure

Kontrola stavu koncového bodu a nasazení

Vyvolání koncového bodu pro určení skóre dat pomocí modelu

Pokročilá konfigurace

Nasazení s různými připojeními od vývoje toku

Nasazení s využitím vlastního prostředí

Použití obslužné moduly FastAPI (Preview)

Konfigurace souběžnosti pro nasazení

Monitorování koncových bodů

Shromažďování obecných metrik

Shromažďování trasovacích dat a systémových metrik během doby odvozování

Běžné chyby

Problém s vypršením časového limitu nadřazeného požadavku při využívání koncového bodu

Další kroky

Váš názor

Další materiály