Rozhraní API modelu Databricks Foundation
Tento článek obsahuje přehled rozhraní API základního modelu v Azure Databricks. Zahrnuje požadavky na použití, podporované modely a omezení.
Co jsou rozhraní API modelu Foundation Databricks?
Služba Databricks Model Obsluha teď podporuje rozhraní API základního modelu, která umožňují přístup k špičkovým otevřeným modelům a dotazování na nich z koncového bodu obsluhy. Pomocí rozhraní API pro základní modely můžete rychle a snadno vytvářet aplikace, které využívají vysoce kvalitní model generující AI bez údržby vlastního nasazení modelu.
Rozhraní API základního modelu jsou poskytována ve dvou cenových režimech:
- Platba za token: Nejjednodušší způsob, jak začít používat základní modely v Databricks a doporučuje se začít s rozhraními API základního modelu. Tento režim není určený pro aplikace s vysokou propustností ani pro výkonné produkční úlohy.
- Zřízená propustnost: Tento režim se doporučuje pro všechny produkční úlohy, zejména pro ty, které vyžadují vysokou propustnost, záruky výkonu, jemně vyladěné modely nebo mají další požadavky na zabezpečení. Koncové body zřízené propustnosti jsou k dispozici s certifikacemi dodržování předpisů, jako je HIPAA.
Pokyny k použití těchto dvou režimů a podporovaných modelů najdete v tématu Použití rozhraní API pro základní modely.
Pomocí rozhraní API základního modelu můžete:
- Dotazem na generalizovaný LLM ověřte platnost projektu před investováním dalších zdrojů.
- Dotazování generalizovaného LLM za účelem vytvoření rychlého testování konceptu pro aplikaci založenou na LLM před investicemi do trénování a nasazení vlastního modelu.
- K vytvoření chatovacího robota pomocí načítání rozšířené generace (RAG) použijte základní model spolu s vektorovou databází.
- Nahraďte proprietární modely otevřenými alternativami pro optimalizaci nákladů a výkonu.
- Efektivně porovnejte LLM a zjistěte, který z nich je nejlepším kandidátem pro váš případ použití, nebo prohození produkčního modelu s lepším výkonem.
- Vytvořte aplikaci LLM pro vývoj nebo produkci na základě škálovatelného řešení s podporou LLM založeného na sla, které může podporovat špičky provozu v produkčním prostředí.
Požadavky
- Token rozhraní API Databricks pro ověření požadavků koncového bodu
- Bezserverové výpočetní prostředky (pro zřízené modely propustnosti)
- Pracovní prostor v podporované oblasti:
- Oblasti s platbou za tokeny
- Oblasti zřízené propustnosti.
Poznámka:
Úlohy zřízené propustnosti, které používají základní model DBRX, najdete v tématu Omezení rozhraní API základních modelů pro dostupnost oblastí.
Použití rozhraní API základního modelu
Pro použití rozhraní API základního modelu máte několik možností.
Rozhraní API jsou kompatibilní s OpenAI, takže můžete k dotazování dokonce použít klienta OpenAI. K dotazování podporovaných modelů můžete použít také uživatelské rozhraní, rozhraní PYTHON SDK pro základní modely, sadu SDK pro nasazení MLflow nebo rozhraní REST API. Databricks doporučuje použít sadu SDK pro nasazení MLflow nebo rozhraní REST API pro rozšířené interakce a uživatelské rozhraní pro vyzkoušení této funkce.
Příklady vyhodnocování najdete v základních modelech dotazů.
Rozhraní API základního modelu s platbami za tokeny
Důležité
Tato funkce je ve verzi Public Preview.
Modely s platbami za tokeny jsou dostupné ve vašem pracovním prostoru Azure Databricks a doporučuje se začít. Přístup k nim v pracovním prostoru získáte tak, že na levém bočním panelu přejdete na kartu Obsluha . Rozhraní API základního modelu se nacházejí v horní části zobrazení seznamu koncových bodů.
Následující tabulka shrnuje podporované modely pro platby za token. Další informace o modelu najdete v podporovaných modelech pro platby za token .
Pokud chcete otestovat a chatovat s těmito modely, můžete to udělat pomocí AI Playground. Podívejte se na chat s podporovanými LLM pomocí AI Playgroundu.
Model | Typ úkolu | Koncový bod |
---|---|---|
DbRX – pokyn | Chat | databricks-dbrx-instruct |
Meta-Llama-3-70B-Instruct | Chat | databricks-meta-llama-3-70b-instruct |
Meta-Llama-2-70B-Chat | Chat | databricks-llama-2-70b-chat |
Mixtral-8x7B – pokyn | Chat | databricks-mixtral-8x7b-instruct |
MPT 7B – pokyn | Dokončení | databricks-mpt-7b-instruct |
MPT 30B – pokyn | Dokončení | databricks-mpt-30b-instruct |
BGE Large (angličtina) | Vkládání | databricks-bge-large-en |
- Pokyny k dotazování rozhraní API základního modelu najdete v tématu Modely dotazů.
- Informace o požadovaných parametrech a syntaxi najdete v referenčních informacích k rozhraní REST API základního modelu.
Rozhraní API základního modelu zřízené propustnosti
Zřízená propustnost je obecně dostupná a Databricks doporučuje zřízenou propustnost pro produkční úlohy. Zřízená propustnost poskytuje koncové body s optimalizovaným odvozováním pro úlohy základních modelů, které vyžadují záruky výkonu. Podrobné pokyny k nasazení rozhraní API základních modelů se zřízenou propustností najdete v podrobném průvodci nasazením rozhraní API základního modelu ve zřízeném režimu.
Podpora zřízené propustnosti zahrnuje:
- Základní modely všech velikostí, například DBRX Base. K základním modelům můžete přistupovat pomocí Webu Databricks Marketplace nebo si je můžete stáhnout z webu Hugging Face nebo jiného externího zdroje a zaregistrovat je v katalogu Unity. Druhý přístup funguje s libovolnou jemně vyladěnou variantou podporovaných modelů bez ohledu na použitou metodu jemného ladění.
- Jemně vyladěné varianty základních modelů, jako je LlamaGuard-7B. To zahrnuje modely, které jsou jemně vyladěné na proprietárních datech.
- Plně vlastní váhy a tokenizátory, jako jsou ty, které jsou natrénované úplně od začátku nebo pokračování v předtrénování nebo jiné varianty pomocí základní architektury modelu (například CodeLlama, Yi-34B-Chat nebo SOLAR-10.7B).
Následující tabulka shrnuje podporované architektury modelů pro zřízenou propustnost.
Architektura modelu | Typy úkolů | Notes |
---|---|---|
DBRX | Chat nebo dokončení | Viz omezení rozhraní API základního modelu pro dostupnost oblastí. |
Meta Llama 3 | Chat nebo dokončení | |
Meta Llama 2 | Chat nebo dokončení | |
Mistral | Chat nebo dokončení | |
Mixtral | Chat nebo dokončení | |
MPT | Chat nebo dokončení | |
BGE v1.5 (angličtina) | Vkládání |
Omezení
Viz Omezení a oblasti služby Model Serving.
Další materiály
Váš názor
https://aka.ms/ContentUserFeedback.
Připravujeme: V průběhu roku 2024 budeme postupně vyřazovat problémy z GitHub coby mechanismus zpětné vazby pro obsah a nahrazovat ho novým systémem zpětné vazby. Další informace naleznete v tématu:Odeslat a zobrazit názory pro