Migrace optimalizovaných koncových bodů llm obsluhující koncové body do zřízené propustnosti

Tento článek popisuje, jak migrovat stávající llm obsluhující koncové body do zřízeného prostředí propustnosti , které je k dispozici pomocí rozhraní API modelu Foundation.

Co se mění?

Zřízená propustnost poskytuje jednodušší prostředí pro spouštění optimalizovaných koncových bodů pro obsluhu LLM. Databricks upravila systém obsluhy modelu LLM tak, aby:

  • Rozsahy horizontálního navýšení kapacity je možné nakonfigurovat v nativních termínech LLM, jako jsou tokeny za sekundu místo souběžnosti.
  • Zákazníci už nemusí sami vybírat typy úloh GPU.

Nové koncové body obsluhy LLM se ve výchozím nastavení vytvářejí se zřízenou propustností. Pokud chcete pokračovat v výběru typu úlohy GPU, podporuje se toto prostředí pouze pomocí rozhraní API.

Migrace koncových bodů služby LLM do zřízené propustnosti

Nejjednodušší způsob, jak migrovat existující koncový bod na zřízenou propustnost, je aktualizovat koncový bod novou verzí modelu. Po výběru nové verze modelu uživatelské rozhraní zobrazí prostředí pro zřízenou propustnost. Uživatelské rozhraní zobrazuje tokeny za sekundu na základě srovnávacích testů Databricks pro typické případy použití.

Provisioned throughput LLM serving

Výkon s touto aktualizovanou nabídkou je přísně lepší z důvodu vylepšení optimalizace a cena koncového bodu zůstane beze změny. Obraťte se prosím na model-serving-feedback@databricks.com zpětnou vazbu nebo připomínky k produktům.