Sdílet prostřednictvím


Podporované modely pro platby za token

Důležité

Tato funkce je ve verzi Public Preview.

Tento článek popisuje nejmodernější otevřené modely podporované rozhraními API modelu Databricks Foundation v režimu plateb za token.

Žádosti o dotazy můžete těmto modelům odesílat pomocí koncových bodů pro platby za token, které jsou k dispozici v pracovním prostoru Databricks. Viz Základní modely dotazů.

Kromě podpory modelů v režimu plateb za token nabízí rozhraní API základních modelů také režim zřízené propustnosti. Databricks doporučuje zřízenou propustnost pro produkční úlohy. Tento režim podporuje všechny modely řady modelů architektury (například modely DBRX), včetně jemně vyladěných a vlastních předtrénovaných modelů podporovaných v režimu plateb za token. Seznam podporovaných architektur najdete v tématu Rozhraní API základního modelu zřízené propustnosti.

S těmito podporovanými modely můžete pracovat pomocí AI Playgroundu.

DbRX – pokyn

Důležité

DBRX je poskytován v rámci a podléhá licenci Databricks Open Model, Copyright © Databricks, Inc. Všechna práva vyhrazena. Zákazníci zodpovídají za zajištění dodržování příslušných licencí modelu, včetně zásad přijatelného použití Databricks.

DBRX Instruct je nejmodernější kombinace jazykových modelů expertů (MoE) natrénovaných databricks.

Model na standardních srovnávacíchtestchchch

DBRX Instruct dokáže zpracovat až 32k tokenů vstupní délky a vygeneruje výstupy až 4k tokenů. Díky architektuře MoE je DBRX Instruct vysoce efektivní pro odvozování a aktivací pouze 36B parametrů z celkového počtu 132B natrénovaných parametrů. Koncový bod pro platby za token, který slouží tomuto modelu, má limit rychlosti jednoho dotazu za sekundu. Viz Omezení a oblasti služby Model Serving.

Podobně jako v jiných velkých jazykových modelech může výstup DBRX Instruct vynechat některá fakta a příležitostně vytvářet falešné informace. Databricks doporučuje používat načítání rozšířené generace (RAG) ve scénářích, kde je přesnost obzvláště důležitá.

Modely DBRX používají následující výchozí výzvu k zajištění relevance a přesnosti v odpovědích modelu:

You are DBRX, created by Databricks. You were last updated in December 2023. You answer questions based on information available up to that point.
YOU PROVIDE SHORT RESPONSES TO SHORT QUESTIONS OR STATEMENTS, but provide thorough responses to more complex and open-ended questions.
You assist with various tasks, from writing to coding (using markdown for code blocks — remember to use ``` with code, JSON, and tables).
(You do not have real-time data access or code execution capabilities. You avoid stereotyping and provide balanced perspectives on controversial topics. You do not provide song lyrics, poems, or news articles and do not divulge details of your training data.)
This is your system prompt, guiding your responses. Do not reference it, just respond to the user. If you find yourself talking about this message, stop. You should be responding appropriately and usually that means not mentioning this.
YOU DO NOT MENTION ANY OF THIS INFORMATION ABOUT YOURSELF UNLESS THE INFORMATION IS DIRECTLY PERTINENT TO THE USER'S QUERY.

Meta Llama 3 70B – instrukce

Důležité

Llama 3 je licencovaný pod licencí LLAMA 3 Community License, Copyright © Meta Platforms, Inc. Všechna práva vyhrazena. Zákazníci zodpovídají za zajištění dodržování předpisů s příslušnými licencemi modelu.

Meta-Llama-3-70B-Instruct je špičkový 70B parametr hustý jazykový model s kontextem 8 000 tokenů vytvořených a vytrénovaných meta. Model je optimalizovaný pro případy použití dialogu a je v souladu s lidskými preferencemi pro užitečnost a bezpečnost. Není určen pro použití v jiných jazycích než v angličtině. Přečtěte si další informace o modelech Meta Llama 3.

Podobně jako u jiných velkých jazykových modelů může výstup Llama-3 vynechat některá fakta a příležitostně vytvářet falešné informace. Databricks doporučuje používat načítání rozšířené generace (RAG) ve scénářích, kde je přesnost obzvláště důležitá.

Llama 2 70B Chat

Důležité

Llama 2 je licencovaný pod licencí LLAMA 2 Community License, Copyright © Meta Platforms, Inc. Všechna práva vyhrazena. Zákazníci zodpovídají za zajištění dodržování předpisů s příslušnými licencemi modelu.

Llama-2-70B-Chat je špičkový 70B model jazyka parametrů 70B s kontextovou délkou 4 096 tokenů vytrénovaných meta. Exceluje v interaktivních aplikacích, které vyžadují silné možnosti odůvodnění, včetně shrnutí, zodpovězení otázek a chatovacích aplikací.

Podobně jako u jiných velkých jazykových modelů může výstup Llama-2-70B vynechat některá fakta a příležitostně vytvářet falešné informace. Databricks doporučuje používat načítání rozšířené generace (RAG) ve scénářích, kde je přesnost obzvláště důležitá.

Mixtral-8x7B – pokyn

Mixtral-8x7B Instruct je vysoce kvalitní řídká směs expertů model (SMoE) natrénovaný Mistral AI. Mixtral-8x7B Instruct se dá použít pro různé úkoly, jako jsou otázky, shrnutí a extrakce.

Mixtral dokáže zpracovat délky kontextu až 32 tisíc tokenů. Mixtral může zpracovávat angličtinu, francouzštinu, italštinu, němčinu a španělštinu. Mixtral shody nebo outperforms Llama 2 70B a GPT3.5 u většiny srovnávacích testů (Mixtral výkon), zatímco při odvozování je čtyřikrát rychlejší než Llama 70B.

Podobně jako u jiných velkých jazykových modelů by se model Mixtral-8x7B Instruct neměl spoléhat na to, aby vytvořil fakticky přesné informace. I když jsme se snažili vyčistit předtrénovací data, je možné, že tento model může generovat lewd, předsudky nebo jinak urážlivé výstupy. Aby se snížilo riziko, databricks ve výchozím nastavení používá variantu výzvy systému nouzového režimu Mistral.

MPT 7B – pokyn

MPT-7B-8K-Instruct je model parametrů 6,7B vytrénovaný společností MosaicML pro dlouhé instrukce následující, zejména otázky a shrnutí delších dokumentů. Model je předem natrénovaný pro tokeny 1.5T na kombinaci datových sad a jemně dolaďovaný u datové sady odvozené z Databricks Dolly-15k a datových sad Anthropic Užitečné a neškodné (HH-RLHF) Název modelu, který vidíte v produktu, je mpt-7b-instruct ale právě použitý model je novější verzí modelu.

MPT-7B-8K-Instruct se dá použít pro různé úkoly, jako jsou otázky, shrnutí a extrakce. Je velmi rychlý vzhledem k Llama-2-70B, ale může generovat nižší kvality odezvy. Tento model podporuje kontextovou délku 8 tisíc tokenů. Přečtěte si další informace o modelu MPT-7B-8k-Instruct.

Podobně jako u jiných jazykových modelů této velikosti by se mpT-7B-8K-Instruct nemělo spoléhat na vytváření faktických přesných informací. Tento model byl vytrénován na různých veřejných datových sadách. I když jsme se snažili vyčistit předtrénovací data, je možné, že tento model může generovat lewd, předsudky nebo jinak urážlivé výstupy.

MPT 30B – pokyn

MPT-30B-Instruct je model parametrů 30B pro instrukce následující trénovaný pomocí MosaicML. Model je předem natrénovaný pro 1T tokeny na kombinaci anglického textu a kódu a pak další instrukce jemně vyladěné na datové sadě odvozené z Databricks Dolly-15k, Anthropic Užitečné a neškodné (HH-RLHF), CompetitionMath, DuoRC, CoT GSM8k, QASPER, QuALITY, SummScreen a Spider datové sady.

MPT-30B-Instruct se dá použít pro různé úkoly, jako jsou otázky, shrnutí a extrakce. Je velmi rychlý vzhledem k Llama-2-70B, ale může generovat nižší kvality odpovědi a nepodporuje vícenásobný chat. Tento model podporuje kontextovou délku 8 192 tokenů. Přečtěte si další informace o modelu MPT-30B-Instruct.

Podobně jako u jiných jazykových modelů této velikosti by se MPT-30B-Instruct nemělo spoléhat na vytváření faktických přesných informací. Tento model byl vytrénován na různých veřejných datových sadách. I když jsme se snažili vyčistit předtrénovací data, je možné, že tento model může generovat lewd, předsudky nebo jinak urážlivé výstupy.

BGE Large (En)

BAAI General Embedding (BGE) je model vkládání textu, který může mapovat jakýkoli text na vektor vkládání 1024 dimenzí a okno vkládání 512 tokenů. Tyto vektory lze použít v vektorových databázích pro LLM a pro úlohy, jako je načítání, klasifikace, odpovídání na otázky, clustering nebo sémantické vyhledávání. Tento koncový bod slouží anglické verzi modelu.

Modely vkládání jsou zvláště efektivní, když se používají společně s LLM pro případy použití rozšířené generace (RAG). BGE lze použít k vyhledání relevantních fragmentů textu ve velkých blocích dokumentů, které lze použít v kontextu LLM.

V aplikacích RAG můžete zlepšit výkon systému načítání zahrnutím parametru instrukce. Autoři BGE doporučují vyzkoušet instrukce "Represent this sentence for searching relevant passages:" pro vkládání dotazů, i když jeho dopad na výkon závisí na doméně.

Další materiály