Kurz: Nasazení a dotazování vlastního modelu

Tento článek obsahuje základní kroky pro nasazení a dotazování vlastního modelu, což je tradiční model ML nainstalovaný v katalogu Unity nebo zaregistrovaný v registru modelů pracovního prostoru pomocí obsluhy modelu Azure Databricks.

Následující příručky popisují obsluhu a nasazení základního modelu pro generování AI a LLM:

Krok 1: Protokolování modelu do registru modelů

Existují různé způsoby, jak model protokolovat pro obsluhu modelu:

Technika protokolování Popis
Automatické přihlašování To se automaticky zapne, když pro strojové učení použijete Databricks Runtime. Je to nejjednodušší způsob, ale dává vám menší kontrolu.
Protokolování pomocí předdefinovaných příchutí MLflow Model můžete ručně protokolovat pomocí předdefinovaných modelů MLflow.
Vlastní protokolování s využitím pyfunc Tuto možnost použijte, pokud máte vlastní model nebo pokud potřebujete další kroky před nebo po odvozování.

Následující příklad ukazuje, jak protokolovat model MLflow pomocí příchutě transformer a zadat parametry, které potřebujete pro váš model.

with mlflow.start_run():
    model_info = mlflow.transformers.log_model(
        transformers_model=text_generation_pipeline,
        artifact_path="my_sentence_generator",
        inference_config=inference_config,
        registered_model_name='gpt2',
        input_example=input_example,
        signature=signature
    )

Po zaprotokolování modelu nezapomeňte zkontrolovat, jestli je váš model zaregistrovaný v katalogu Unity MLflow nebo v registru modelů.

Krok 2: Vytvoření koncového bodu pomocí uživatelského rozhraní obsluhy

Po zaprotokolování zaregistrovaného modelu a jeho obsluhu můžete vytvořit koncový bod obsluhující model pomocí uživatelského rozhraní pro obsluhu.

  1. Kliknutím na obsluhu na bočním panelu zobrazte uživatelské rozhraní obsluhy.

  2. Klikněte na Vytvořit koncový bod obsluhy.

    Podokno obsluhy modelu v uživatelském rozhraní Databricks

  3. Do pole Název zadejte název koncového bodu.

  4. V části Obsluhované entity

    1. Kliknutím do pole Entita otevřete formulář obsluhované entity Select.
    2. Vyberte typ modelu, který chcete použít. Formulář se dynamicky aktualizuje na základě vašeho výběru.
    3. Vyberte, který model a verzi modelu chcete použít.
    4. Vyberte procento provozu, které se má směrovat do vašeho modelu obsluhy.
    5. Vyberte, jakou velikost výpočetních prostředků chcete použít. Pro své úlohy můžete použít výpočetní výkon procesoru nebo GPU. Podpora modelu obsluhujícího GPU je ve verzi Public Preview. Další informace o dostupných výpočetních prostředcích GPU najdete v typech úloh GPU.
    6. V části Horizontální navýšení kapacity výpočetních prostředků vyberte velikost škálování výpočetních prostředků, která odpovídá počtu požadavků, které tento obsluhovaný model může zpracovat současně. Toto číslo by se mělo přibližně rovnat času provádění modelu QPS x.
      1. Dostupné velikosti jsou malé pro 0 až 4 požadavky, středně velké 8 až 16 požadavků a velké pro požadavky 16 až 64.
    7. Určete, jestli se má koncový bod při použití škálovat na nulu.
  5. Klikněte na Vytvořit. Stránka Obslužné koncové body se zobrazí se stavemobsluhy koncového bodu, který je zobrazený jako Nepřipravený.

    Vytvoření koncového bodu obsluhy modelu

Pokud dáváte přednost programovému vytvoření koncového bodu pomocí rozhraní Databricks Serving API, přečtěte si téma Vytvoření vlastních modelů obsluhujících koncové body.

Krok 3: Dotazování koncového bodu

Nejjednodušším a nejrychlejším způsobem, jak otestovat a odeslat žádosti o bodování do obsluhy modelu, je použít uživatelské rozhraní obsluhy .

  1. Na stránce Obsluha koncového bodu vyberte Koncový bod dotazu.

  2. Vložte vstupní data modelu ve formátu JSON a klikněte na Odeslat požadavek. Pokud byl model zaprotokolován pomocí vstupního příkladu, klikněte na Zobrazit příklad a načtěte příklad vstupu.

       {
       "inputs" : ["Hello, I'm a language model,"],
       "params" : {"max_new_tokens": 10, "temperature": 1}
       }
    

Pokud chcete odesílat žádosti o bodování, vytvořte JSON s jedním z podporovaných klíčů a objektem JSON odpovídajícím vstupnímu formátu. Viz Dotazy obsluhující koncové body pro vlastní modely pro podporované formáty a pokyny k odesílání žádostí o bodování pomocí rozhraní API.

Pokud máte v úmyslu získat přístup ke svému koncovému bodu obsluhy mimo uživatelské rozhraní služby Azure Databricks, potřebujete .DATABRICKS_API_TOKEN

Důležité

Jako osvědčený postup zabezpečení pro produkční scénáře doporučuje Databricks používat tokeny OAuth počítače pro ověřování během produkčního prostředí.

Pro účely testování a vývoje doporučuje Databricks místo uživatelů pracovního prostoru používat osobní přístupový token patřící instančním objektům . Pokud chcete vytvořit tokeny pro instanční objekty, přečtěte si téma Správa tokenů instančního objektu.

Příklady poznámkových bloků

Podívejte se na následující poznámkový blok pro obsluhu modelu MLflow transformers s obsluhou modelů.

Nasazení poznámkového bloku modelu Hugging Face transformers

Získat poznámkový blok

Podívejte se na následující poznámkový blok pro obsluhu modelu MLflow pyfunc s obsluhou modelů. Další podrobnosti o přizpůsobení nasazení modelu najdete v tématu Nasazení kódu Pythonu pomocí služby Model Serving.

Nasazení poznámkového bloku modelu MLflow pyfunc

Získat poznámkový blok