Grundmodell-API:er för Databricks
Den här artikeln innehåller en översikt över FOUNDATION Model API:er i Azure Databricks. Den innehåller krav för användning, modeller som stöds och begränsningar.
Vad är Api:er för Databricks Foundation-modell?
Mosaic AI Model Serving har nu stöd för Foundation Model-API:er som gör att du kan komma åt och köra frågor mot toppmoderna öppna modeller från en serveringsslutpunkt. Med API:er för Foundation Model kan du snabbt och enkelt skapa program som utnyttjar en generativ AI-modell av hög kvalitet utan att underhålla din egen modelldistribution. FOUNDATION Model API:er är en Databricks Designated Service, vilket innebär att den använder Databricks Geos för att hantera datahemvist vid bearbetning av kundinnehåll.
API:erna för Foundation Model finns i två prislägen:
- Betala per token: Det här är det enklaste sättet att börja komma åt grundmodeller på Databricks och rekommenderas för att påbörja din resa med Foundation Model-API:er. Det här läget är inte utformat för program med högt dataflöde eller högpresterande produktionsarbetsbelastningar.
- Etablerat dataflöde: Det här läget rekommenderas för alla produktionsarbetsbelastningar, särskilt de som kräver högt dataflöde, prestandagarantier, finjusterade modeller eller har ytterligare säkerhetskrav. Etablerade dataflödesslutpunkter är tillgängliga med efterlevnadscertifieringar som HIPAA.
Med api:erna för Foundation Model kan du:
- Fråga en generaliserad LLM för att verifiera ett projekts giltighet innan du investerar fler resurser.
- Fråga en generaliserad LLM för att skapa ett snabbt konceptbevis för ett LLM-baserat program innan du investerar i träning och distribuerar en anpassad modell.
- Använd en grundmodell, tillsammans med en vektordatabas, för att skapa en chattrobot med hämtning av utökad generering (RAG).
- Ersätt egna modeller med öppna alternativ för att optimera för kostnader och prestanda.
- Jämför llm-datorer effektivt för att se vilken som är den bästa kandidaten för ditt användningsfall, eller byt ut en produktionsmodell mot en bättre presterande.
- Skapa ett LLM-program för utveckling eller produktion ovanpå en skalbar, SLA-backad LLM-serverlösning som kan stödja dina toppar i produktionstrafiken.
Krav
- Databricks API-token för att autentisera slutpunktsbegäranden.
- Serverlös beräkning (för etablerade dataflödesmodeller).
- En arbetsyta i en region som stöds:
Använda FOUNDATION Model-API:er
Du har flera alternativ för att använda API:er för Foundation Model.
API:erna är kompatibla med OpenAI, så du kan använda OpenAI-klienten för att fråga. Du kan också använda användargränssnittet, Foundation Models API:erna Python SDK, MLflow Deployments SDK eller REST-API:et för att fråga efter modeller som stöds. Databricks rekommenderar att du använder OpenAI-klientens SDK eller API för utökade interaktioner och användargränssnittet för att testa funktionen.
Se Fråga generativa AI-modeller för bedömningsexempel.
API:er för Foundation-modell för betala per token
Modeller med betala per token är tillgängliga på din Azure Databricks-arbetsyta och rekommenderas för att komma igång. Om du vill komma åt dem på arbetsytan går du till fliken Servering i det vänstra sidofältet. API:erna för grundmodell finns överst i listvyn Slutpunkter.
I följande tabell sammanfattas de modeller som stöds för betala per token. Mer modellinformation finns i Modeller som stöds för betalning per token .
Om du vill testa och chatta med dessa modeller kan du göra det med hjälp av AI Playground. Se Chatta med LLM:er och prototyper av GenAI-appar med AI Playground.
Viktigt!
- Från och med den 23 juli 2024 ersätter Meta-Llama-3.1-70B-Instruct stödet för Meta-Llama-3-70B-Instruct i FOUNDATION Model-API:er betala per token-slutpunkter.
- Meta-Llama-3.1-405B-Instruct är den största öppet tillgängliga, toppmoderna stora språkmodellen som skapats och tränats av Meta och distribuerats av Azure Machine Learning med hjälp av AzureML-modellkatalogen.
- Följande modeller har nu dragits tillbaka. Se Tillbakadragna modeller för rekommenderade ersättningsmodeller.
- Llama 2 70B Chatt
- MPT 7B-instruktion
- MPT 30B-instruktion
Modell | Uppgiftstyp | Slutpunkt | Kommentar |
---|---|---|---|
GTE Large (engelska) | Inbäddning | databricks-gte-large-en |
Genererar inte normaliserade inbäddningar. |
Meta-Llama-3.1-70B-Instruct | Chatt | databricks-meta-llama-3-1-70b-instruct |
|
Meta-Llama-3.1-405B-Instruct* | Chatt | databricks-meta-llama-3-1-405b-instruct |
Se Foundation Model-API:er för begränsningar för regiontillgänglighet. |
DBRX-instruktioner | Chatt | databricks-dbrx-instruct |
Se Foundation Model-API:er för begränsningar för regiontillgänglighet. |
Mixtral-8x7B Instruct | Chatt | databricks-mixtral-8x7b-instruct |
Se Foundation Model-API:er för begränsningar för regiontillgänglighet. |
BGE Large (engelska) | Inbäddning | databricks-bge-large-en |
Se Foundation Model-API:er för begränsningar för regiontillgänglighet. |
*
Kontakta ditt Databricks-kontoteam om du stöter på slutpunktsfel eller stabiliseringsfel när du använder den här modellen.
- Se Fråga generativa AI-modeller för vägledning om hur du frågar Foundation Model-API:er.
- Se Rest API-referens för Foundation-modell för obligatoriska parametrar och syntax.
Api:er för grundmodell för etablerat dataflöde
Etablerat dataflöde ger slutpunkter med optimerad slutsatsdragning för grundläggande modellarbetsbelastningar som kräver prestandagarantier. Databricks rekommenderar etablerat dataflöde för produktionsarbetsbelastningar. En stegvis guide om hur du distribuerar API:er för Foundation Model i etablerat läge finns i Api:er för etablerad dataflödesmodell.
Stöd för etablerat dataflöde omfattar:
- Basmodeller av alla storlekar, till exempel DBRX Base. Basmodeller kan nås via Databricks Marketplace, eller så kan du ladda ned dem från Hugging Face eller en annan extern källa och registrera dem i Unity-katalogen. Den senare metoden fungerar med alla finjusterade varianter av de modeller som stöds, oavsett vilken finjusteringsmetod som används.
- Finjusterade varianter av basmodeller, till exempel LlamaGuard-7B eller
meta-llama/Llama-3.1-8B
. Detta inkluderar modeller som är finjusterade på proprietära data. - Helt anpassade vikter och tokenizers, till exempel de som tränats från grunden eller fortsatt förtränade eller andra varianter med hjälp av basmodellarkitekturen (till exempel CodeLlama).
I följande tabell sammanfattas de modellarkitekturer som stöds för etablerat dataflöde.
Viktigt!
Meta Llama 3.2 är licensierad enligt LLAMA 3.2 Community License, Copyright © Meta Platforms, Inc. Alla rättigheter reserverade. Kunderna ansvarar för att säkerställa att de följer villkoren i den här licensen och llama 3.2-principen för godtagbar användning.
Meta Llama 3.1 är licensierade enligt LLAMA 3.1 Community License, Copyright © Meta Platforms, Inc. Alla rättigheter reserverade. Kunderna ansvarar för att säkerställa efterlevnaden av tillämpliga modelllicenser.
Modellarkitektur | Uppgiftstyper | Kommentar |
---|---|---|
Meta Llama 3.2 3B | Chatt eller slutförande | Se Etablerade dataflödesgränser för modellvarianter som stöds och regiontillgänglighet. |
Meta Llama 3.2 1B | Chatt eller slutförande | Se Etablerade dataflödesgränser för modellvarianter som stöds och regiontillgänglighet. |
Meta Llama 3.1 | Chatt eller slutförande | Se Etablerade dataflödesgränser för modellvarianter som stöds och regiontillgänglighet. |
Meta Llama 3 | Chatt eller slutförande | |
Meta Llama 2 | Chatt eller slutförande | |
DBRX | Chatt eller slutförande | Se Etablerade dataflödesgränser för regiontillgänglighet. |
Mistral | Chatt eller slutförande | |
Mixtral | Chatt eller slutförande | |
MPT | Chatt eller slutförande | |
GTE v1.5 (engelska) | Inbäddning | Genererar inte normaliserade inbäddningar. |
BGE v1.5 (engelska) | Inbäddning |
Begränsningar
Se Gränser för Foundation Model-API:er.