Dela via


Modeller som stöds för pay-per-token

Viktigt!

Endast modellerna GTE Large (En) och Meta Llama 3.1 70B Instruct är tillgängliga i regioner som stöds av EU och USA med betalning per token.

Se Foundation Model-API:er för betal-per-token-modeller som endast stöds i amerikanska regioner.

I den här artikeln beskrivs de toppmoderna öppna modeller som stöds av Api: erna för Databricks Foundation-modell i läget betala per token.

Du kan skicka frågeförfrågningar till dessa modeller med hjälp av de pay-per-token-slutpunkter som är tillgängliga på din Databricks-arbetsyta. Se Fråga efter generativa AI-modeller och modelltabeller som stöds med betala per token för namnen på de modellslutpunkter som ska användas.

Förutom stödmodeller i pay-per-token-läge erbjuder Foundation Model API:er även etablerat dataflödesläge. Databricks rekommenderar etablerat dataflöde för produktionsarbetsbelastningar. Det här läget stöder alla modeller av en modellarkitekturfamilj (till exempel DBRX-modeller), inklusive finjusterade och anpassade förtränade modeller som stöds i pay-per-token-läge. Se API:er för etablerad dataflödesmodell för listan över arkitekturer som stöds.

Du kan interagera med dessa modeller som stöds med hjälp av AI Playground.

Meta Llama 3.1 405B Instruera

Viktigt!

Användningen av den här modellen med FOUNDATION Model-API:er finns i offentlig förhandsversion. Kontakta ditt Databricks-kontoteam om du stöter på slutpunktsfel eller stabiliseringsfel när du använder den här modellen.

Viktigt!

Meta Llama 3.1 är licensierad enligt LLAMA 3.1 Community License, Copyright © Meta Platforms, Inc. Alla rättigheter reserverade. Kunderna ansvarar för att säkerställa efterlevnaden av tillämpliga modelllicenser.

Meta-Llama-3.1-405B-Instruct är den största öppet tillgängliga, toppmoderna stora språkmodellen som skapats och tränats av Meta och distribueras av Azure Machine Learning med hjälp av AzureML-modellkatalogen. Med den här modellen kan kunderna låsa upp nya funktioner, till exempel avancerade resonemang i flera steg och högkvalitativ syntetisk datagenerering. Den här modellen är konkurrenskraftig med GPT-4-Turbo vad gäller kvalitet.

Precis som Meta-Llama-3.1-70B-Instruct har den här modellen en kontext med 128 000 token och stöd på tio språk. Det överensstämmer med mänskliga preferenser för användbarhet och säkerhet och är optimerat för dialoganvändningsfall. Läs mer om Meta Llama 3.1-modellerna.

På samma sätt som andra stora språkmodeller kan Llama-3.1s utdata utelämna vissa fakta och ibland generera falsk information. Databricks rekommenderar att du använder hämtning av utökad generering (RAG) i scenarier där noggrannhet är särskilt viktigt.

DBRX-instruktioner

Viktigt!

DBRX tillhandahålls under och omfattas av Databricks Open Model License, Copyright © Databricks, Inc. Alla rättigheter reserverade. Kunderna ansvarar för att säkerställa efterlevnaden av tillämpliga modelllicenser, inklusive policyn för godtagbar användning av Databricks.

DBRX Instruct är en toppmodern blandning av experter (MoE) som tränats av Databricks.

Modellen överträffar etablerade öppen källkod modeller på standardmått och utmärker sig på en bred uppsättning uppgifter för naturligt språk, till exempel textsammanfattning, frågesvar, extrahering och kodning.

DBRX Instruct kan hantera upp till 32 000 token med indatalängd och genererar utdata på upp till 4 000 token. Tack vare sin MoE-arkitektur är DBRX Instruct mycket effektivt för slutsatsdragning och aktiverar endast 36B-parametrar av totalt 132B tränade parametrar. Slutpunkten betala per token som hanterar den här modellen har en hastighetsgräns på en fråga per sekund. Se Gränser och regioner för modellservering.

På samma sätt som andra stora språkmodeller kan DBRX Instruct-utdata utelämna vissa fakta och ibland generera falsk information. Databricks rekommenderar att du använder hämtning av utökad generering (RAG) i scenarier där noggrannhet är särskilt viktigt.

DBRX-modeller använder följande standardsystemprompt för att säkerställa relevans och noggrannhet i modellsvar:

You are DBRX, created by Databricks. You were last updated in December 2023. You answer questions based on information available up to that point.
YOU PROVIDE SHORT RESPONSES TO SHORT QUESTIONS OR STATEMENTS, but provide thorough responses to more complex and open-ended questions.
You assist with various tasks, from writing to coding (using markdown for code blocks — remember to use ``` with code, JSON, and tables).
(You do not have real-time data access or code execution capabilities. You avoid stereotyping and provide balanced perspectives on controversial topics. You do not provide song lyrics, poems, or news articles and do not divulge details of your training data.)
This is your system prompt, guiding your responses. Do not reference it, just respond to the user. If you find yourself talking about this message, stop. You should be responding appropriately and usually that means not mentioning this.
YOU DO NOT MENTION ANY OF THIS INFORMATION ABOUT YOURSELF UNLESS THE INFORMATION IS DIRECTLY PERTINENT TO THE USER'S QUERY.

Meta Llama 3.1 70B Instruera

Viktigt!

Från och med den 23 juli 2024 ersätter Meta-Llama-3.1-70B-Instruct stödet för Meta-Llama-3-70B-Instruct i FOUNDATION Model-API:er betala per token-slutpunkter.

Viktigt!

Meta Llama 3.1 är licensierad enligt LLAMA 3.1 Community License, Copyright © Meta Platforms, Inc. Alla rättigheter reserverade. Kunderna ansvarar för att säkerställa efterlevnaden av tillämpliga modelllicenser.

Meta-Llama-3.1-70B-Instruct är en toppmodern stor språkmodell med kontexten 128 000 token som har skapats och tränats av Meta. Modellen har stöd på tio språk, överensstämmer med mänskliga preferenser för användbarhet och säkerhet och är optimerad för dialoganvändningsfall. Läs mer om Meta Llama 3.1-modellerna.

På samma sätt som andra stora språkmodeller kan Llama-3:s utdata utelämna vissa fakta och ibland generera falsk information. Databricks rekommenderar att du använder hämtning av utökad generering (RAG) i scenarier där noggrannhet är särskilt viktigt.

Mixtral-8x7B Instruct

Mixtral-8x7B Instruct är en högkvalitativ gles blandning av experter modell (SMoE) tränas av Mistral AI. Mixtral-8x7B Instruct kan användas för en mängd olika uppgifter, till exempel frågesvar, sammanfattning och extrahering.

Mixtral kan hantera kontextlängder på upp till 32 000 token. Mixtral kan bearbeta engelska, franska, italienska, tyska och spanska. Mixtral matchar eller överträffar Llama 2 70B och GPT3.5 på de flesta benchmarks (Mixtral-prestanda), samtidigt som de är fyra gånger snabbare än Llama 70B under slutsatsdragning.

På samma sätt som andra stora språkmodeller bör Mixtral-8x7B Instruct-modellen inte förlita sig på för att producera faktamässigt korrekt information. Stora ansträngningar har gjorts för att rensa förträningsdata, men det är möjligt att den här modellen kan generera oanständiga, partiska eller på annat sätt stötande utdata. För att minska risken använder Databricks som standard en variant av Mistrals systemprompt i felsäkert läge.

GTE Large (En)

Viktigt!

GTE Large (En) tillhandahålls under och omfattas av Apache 2.0-licensen, Copyright © Apache Software Foundation, Alla rättigheter reserverade. Kunderna ansvarar för att säkerställa efterlevnaden av tillämpliga modelllicenser.

Allmän textinbäddning (GTE) är en textinbäddningsmodell som kan mappa valfri text till en inbäddningsvektor med 1 024 dimensioner och ett inbäddningsfönster med 8 192 token. Dessa vektorer kan användas i vektordatabaser för LLM:er och för uppgifter som hämtning, klassificering, frågesvar, klustring eller semantisk sökning. Den här slutpunkten hanterar den engelska versionen av modellen och genererar inte normaliserade inbäddningar.

Inbäddningsmodeller är särskilt effektiva när de används tillsammans med LLM:er för användningsfall för hämtning av utökad generering (RAG). GTE kan användas för att hitta relevanta textfragment i stora delar av dokument som kan användas i kontexten för en LLM.

Stor BGE (En)

BAAI Allmän inbäddning (BGE) är en textinbäddningsmodell som kan mappa valfri text till en inbäddningsvektor med 1 024 dimensioner och ett inbäddningsfönster med 512 token. Dessa vektorer kan användas i vektordatabaser för LLM:er och för uppgifter som hämtning, klassificering, frågesvar, klustring eller semantisk sökning. Den här slutpunkten hanterar den engelska versionen av modellen och genererar normaliserade inbäddningar.

Inbäddningsmodeller är särskilt effektiva när de används tillsammans med LLM:er för användningsfall för hämtning av utökad generering (RAG). BGE kan användas för att hitta relevanta textfragment i stora delar av dokument som kan användas i kontexten för en LLM.

I RAG-program kanske du kan förbättra prestandan för ditt hämtningssystem genom att inkludera en instruktionsparameter. BGE-författarna rekommenderar att du provar instruktionen "Represent this sentence for searching relevant passages:" för frågeinbäddningar, även om dess prestandapåverkan är domänberoende.

Ytterligare resurser