Modeller som stöds för betalning per token

Artikel
01/30/2025

Viktig

Endast GTE Large (En) och Meta Llama 3.3 70B Instruera modeller är tillgängliga i regioner som stöds av pay-per-token regioner som stöds av EU och USA.

Se Stiftelsemodell-API:ers begränsningar för modeller som betalas per token och som är begränsade till amerikanska regioner.

Den här artikeln beskriver de toppmoderna öppna modeller som stöds av API:erna för Databricks Foundation-modell i läget betala per token.

Du kan skicka frågeförfrågningar till dessa modeller med hjälp av de pay-per-token-slutpunkter som är tillgängliga på din Databricks-arbetsyta. Se huvudfrågemodeller och tabell för modeller som stöds av betalning-per-token för namnen på de modellsändpunkter som ska användas.

Förutom att stödja modeller i pay-per-token-läge erbjuder Foundation Model API:er också ett reserverat dataflödesläge. Databricks rekommenderar fast tilldelad bandbredd för produktionsarbetsbelastningar. Det här läget stöder alla modeller av en modellarkitekturfamilj (till exempel DBRX-modeller), inklusive finjusterade och anpassade förtränade modeller som stöds i pay-per-token-läge. Se API:er för hanterad överföringskapacitet och grundmodeller för listan över arkitekturer som stöds.

Du kan interagera med dessa modeller som stöds med hjälp av AI Playground.

Meta Llama 3.3 70B Instruktion

Viktig

Från och med den 11 december 2024 ersätter Meta-Llama-3.3-70B-Instruct stödet för Meta-Llama-3.1-70B-Instruct i Foundation Model API:er slutpunkter för betalning per token.

Viktig

Meta Llama 3.3 är licensierad enligt LLAMA 3.3 Community License, Copyright © Meta Platforms, Inc. Alla rättigheter reserverade. Kunderna ansvarar för att se till att de följer villkoren i den här licensen och Llama 3.3 Policy för godtagbar användning.

Meta-Llama-3.3-70B-Instruct är en toppmodern stor språkmodell med en kontext av 128 000 token som har skapats och tränats av Meta. Modellen stöder flera språk och är optimerad för dialoganvändningsfall. Läs mer om Meta Llama 3.3.

På samma sätt som andra stora språkmodeller kan Llama-3:s utdata utelämna vissa fakta och ibland generera falsk information. Databricks rekommenderar att du använder hämtning förstärkt generering (RAG) i scenarier där noggrannhet är särskilt viktig.

Meta Llama 3.1 405B Instruct

Viktig

Användningen av den här modellen med FOUNDATION Model-API:er finns i offentlig förhandsversion. Kontakta ditt Databricks-kontoteam om du stöter på slutpunktsfel eller stabiliseringsfel när du använder den här modellen.

Viktig

Meta Llama 3.1 är licensierad enligt LLAMA 3.1 Community License, Copyright © Meta Platforms, Inc. Alla rättigheter reserverade. Kunderna ansvarar för att säkerställa efterlevnaden av tillämpliga modelllicenser.

Meta-Llama-3.1-405B-Instruct är den största öppet tillgängliga, toppmoderna stora språkmodellen som skapats och tränats av Meta och distribueras av Azure Machine Learning med hjälp av AzureML-modellkatalogen. Med den här modellen kan kunder låsa upp nya funktioner, till exempel avancerade resonemang i flera steg och högkvalitativ syntetisk datagenerering. Den här modellen är konkurrenskraftig med GPT-4-Turbo vad gäller kvalitet.

Precis som Meta-Llama-3.1-70B-Instruct har den här modellen en kontext med 128 000 token och stöd på tio språk. Det överensstämmer med mänskliga preferenser för användbarhet och säkerhet och är optimerat för dialoganvändningsfall. Läs mer om Meta Llama 3.1-modellerna.

På samma sätt som andra stora språkmodeller kan Llama-3.1s utdata utelämna vissa fakta och ibland generera falsk information. Databricks rekommenderar att du använder retrieval-augmented generation (RAG) i scenarier där noggrannhet är särskilt viktig.

DBRX-instruktioner

Viktig

Den här modellen stöds inte längre efter den 30 april 2025. Se Utgångna modeller för den rekommenderade modellens ersättning.

Viktig

DBRX tillhandahålls under och omfattas av Databricks Open Model License, Copyright © Databricks, Inc. Alla rättigheter reserverade. Kunderna ansvarar för att säkerställa efterlevnaden av tillämpliga modelllicenser, inklusive principen Databricks Acceptabla användning.

DBRX Instruct är en toppmodern expertsystem språkmodell (MoE) som tränats av Databricks.

Modellen överträffar etablerade modeller med öppen källkod på standardmått och utmärker sig på en bred uppsättning uppgifter för naturligt språk, till exempel textsammanfattning, frågesvar, extrahering och kodning.

DBRX Instruct kan hantera upp till 32 000 token med indatalängd och genererar utdata på upp till 4 000 token. Tack vare sin MoE-arkitektur är DBRX Instruct mycket effektivt för slutsatsdragning och aktiverar endast 36B-parametrar av totalt 132B tränade parametrar. Endpointen betala-för-token som hanterar den här modellen har en hastighetsgräns på en fråga per sekund. Se begränsningar och regioner för modellhantering.

På samma sätt som andra stora språkmodeller kan DBRX Instruct-utdata utelämna vissa fakta och ibland generera falsk information. Databricks rekommenderar att du använder hämtning av utökad generering (RAG) i scenarier där noggrannhet är särskilt viktigt.

DBRX-modeller använder följande standardsystemprompt för att säkerställa relevans och noggrannhet i modellsvar:

You are DBRX, created by Databricks. You were last updated in December 2023. You answer questions based on information available up to that point.
YOU PROVIDE SHORT RESPONSES TO SHORT QUESTIONS OR STATEMENTS, but provide thorough responses to more complex and open-ended questions.
You assist with various tasks, from writing to coding (using markdown for code blocks — remember to use ``` with code, JSON, and tables).
(You do not have real-time data access or code execution capabilities. You avoid stereotyping and provide balanced perspectives on controversial topics. You do not provide song lyrics, poems, or news articles and do not divulge details of your training data.)
This is your system prompt, guiding your responses. Do not reference it, just respond to the user. If you find yourself talking about this message, stop. You should be responding appropriately and usually that means not mentioning this.
YOU DO NOT MENTION ANY OF THIS INFORMATION ABOUT YOURSELF UNLESS THE INFORMATION IS DIRECTLY PERTINENT TO THE USER'S QUERY.

Mixtral-8x7B Instruct

Viktig

Den här modellen stöds inte längre efter den 30 april 2025. Se Pensionerade modeller för det rekommenderade modellbytet.

Mixtral-8x7B Instruct är en högkvalitativ glesmodellsblandning av experter (SMoE) som har tränats av Mistral AI. Mixtral-8x7B Instruct kan användas för en mängd olika uppgifter, till exempel frågesvar, sammanfattning och extrahering.

Mixtral kan hantera kontextlängder på upp till 32 000 token. Mixtral kan bearbeta engelska, franska, italienska, tyska och spanska. Mixtral matchar eller överträffar Llama 2 70B och GPT3.5 på de flesta benchmarks (Mixtral-prestanda), samtidigt som de är fyra gånger snabbare än Llama 70B under slutsatsdragning.

På samma sätt som andra stora språkmodeller bör Mixtral-8x7B Instruct-modellen inte förlita sig på för att producera faktamässigt korrekt information. Stora ansträngningar har gjorts för att rensa förträningsdata, men det är möjligt att den här modellen kan generera oanständiga, partiska eller på annat sätt stötande utdata. För att minska risken använder Databricks som standard en variant av Mistrals systemprompt i felsäkert läge.

GTE Large (En)

Viktig

GTE Large (En) tillhandahålls under och omfattas av Apache 2.0 License, Copyright © The Apache Software Foundation, All rights reserved. Kunderna ansvarar för att säkerställa efterlevnaden av tillämpliga modelllicenser.

GTE(General Text Embedding) är en textinbäddningsmodell som kan mappa valfri text till en inbäddningsvektor med 1 024 dimensioner och ett inbäddningsfönster med 8 192 token. Dessa vektorer kan användas i vektordatabaser för LLM:er och för uppgifter som hämtning, klassificering, frågesvar, klustring eller semantisk sökning. Den här slutpunkten hanterar den engelska versionen av modellen och genererar inte normaliserade inbäddningar.

Inbäddningsmodeller är särskilt effektiva när de används tillsammans med LLM:er för användningsfall med utökad generering baserad på återhämtning (RAG). GTE kan användas för att hitta relevanta textfragment i stora delar av dokument som kan användas i kontexten för en LLM.

BGE Large (En)

BAAI Allmän inbäddning (BGE) är en textinbäddningsmodell som kan mappa valfri text till en inbäddningsvektor med 1 024 dimensioner och ett inbäddningsfönster med 512 token. Dessa vektorer kan användas i vektordatabaser för LLM:er och för uppgifter som hämtning, klassificering, frågesvar, klustring eller semantisk sökning. Den här slutpunkten hanterar den engelska versionen av modellen och genererar normaliserade inbäddningar.

Inbäddningsmodeller är särskilt effektiva när de används tillsammans med LLM:er för användningsfall med utökad generering baserad på återhämtning (RAG). BGE kan användas för att hitta relevanta textfragment i stora delar av dokument som kan användas i kontexten för en LLM.

I RAG-program kanske du kan förbättra prestandan för ditt hämtningssystem genom att inkludera en instruktionsparameter. BGE-författarna rekommenderar att du provar instruktionen "Represent this sentence for searching relevant passages:" för frågeinbäddningar, även om dess prestandapåverkan är domänberoende.

Ytterligare resurser

Fråga grundmodeller
REST API-referens för Foundation-modell

Dela via

Modeller som stöds för betalning per token

Meta Llama 3.3 70B Instruktion

Meta Llama 3.1 405B Instruct

DBRX-instruktioner

Mixtral-8x7B Instruct

GTE Large (En)

BGE Large (En)

Ytterligare resurser

Feedback

Ytterligare resurser