Dávkové odvozování s využitím zřízené propustnosti rozhraní API základního modelu
Tento článek obsahuje ukázkový poznámkový blok, který provádí dávkové odvozování na zřízeném koncovém bodu propustnosti pomocí rozhraní API modelu Foundation. Obsahuje také ukázkový poznámkový blok pro určení optimální souběžnosti vašeho koncového bodu na základě úlohy dávkového odvozování.
Požadavky
- Pracovní prostor v podporované oblasti rozhraní API základního modelu
- Databricks Runtime 14.3 ML LTS nebo vyšší
Spuštění dávkového odvození
Obecně platí, že nastavení dávkového odvozování zahrnuje 3 kroky:
- Připravte ukázková data a nastavte koncový bod srovnávacího testu.
- Spusťte zátěžový test s ukázkovými daty na koncovém bodu srovnávacího testu a určete ideální konfiguraci koncového bodu.
- Vytvořte koncový bod, který se použije pro dávkové odvozování, a odešlete žádosti o odvozování dávek.
Ukázkový poznámkový blok nastaví dávkové odvozování a k provedení následujících kroků používá model Meta Llama 3.1 70B a PySpark:
- Ukázka vstupních dat pro sestavení reprezentativní datové sady
- Vytvoření koncového bodu srovnávacího testu s vybraným modelem
- Zátěžový test koncového bodu srovnávacího testu s využitím ukázkových dat k určení latence a souběžnosti
- Vytvoření koncového bodu zřízené propustnosti pro dávkové odvozování výsledků zátěžového testu
- Vytvoření dávkových požadavků a jejich odeslání do koncového bodu pro odvození dávky
Odvozování dávky s poznámkovým blokem zřízeného koncového bodu propustnosti
Určení optimální souběžnosti pro úlohu dávkového odvozování
Následující poznámkový blok poskytuje alternativní nástroj pro zátěžové testování koncového bodu srovnávacího testu pomocí PySparku.