Ondersteunde modellen voor betalen per token

Artikel
04/26/2024

Belangrijk

Deze functie is beschikbaar als openbare preview.

In dit artikel worden de geavanceerde open modellen beschreven die worden ondersteund door de Databricks Foundation-model-API's in de modus betalen per token.

U kunt queryaanvragen naar deze modellen verzenden met behulp van de eindpunten voor betalen per token die beschikbaar zijn in uw Databricks-werkruimte. Zie Basismodellen voor query's.

Naast ondersteunende modellen in de modus Betalen per token biedt Foundation Model-API's ook de ingerichte doorvoermodus. Databricks raadt ingerichte doorvoer aan voor productieworkloads. Deze modus ondersteunt alle modellen van een modelarchitectuurfamilie (bijvoorbeeld DBRX-modellen), inclusief de nauwkeurig afgestemde en aangepaste vooraf getrainde modellen die worden ondersteund in de modus betalen per token. Zie Ingerichte Doorvoer Foundation Model-API's voor de lijst met ondersteunde architecturen.

U kunt met deze ondersteunde modellen communiceren met behulp van de AI Playground.

DBRX Instruct

Belangrijk

DBRX wordt geleverd onder en onderhevig aan de Databricks Open Model License, Copyright © Databricks, Inc. Alle rechten voorbehouden. Klanten zijn verantwoordelijk voor het garanderen van naleving van toepasselijke modellicenties, waaronder het Beleid voor acceptabel gebruik van Databricks.

DBRX Instruct is een state-of-the-art mix van experts (MoE) taalmodel dat is getraind door Databricks.

Het model presteert op basis van opensource-modellen op standaardbenchmarks en excelt op een brede reeks taken in natuurlijke taal, zoals: tekstsamenvatting, vragen beantwoorden, extraheren en coderen.

DBRX Instruct kan maximaal 32k tokens van invoerlengte verwerken en outputs van maximaal 4k tokens genereren. Dankzij de MoE-architectuur is DBRX Instruct zeer efficiënt voor deductie, waarbij slechts 36B-parameters worden geactiveerd van in totaal 132B getrainde parameters. Het eindpunt voor betalen per token dat voor dit model wordt gebruikt, heeft een frequentielimiet van één query per seconde. Zie Limieten en regio's voor modelbediening.

Net als bij andere grote taalmodellen kan de DBRX Instruct-uitvoer bepaalde feiten weglaten en af en toe onwaar-informatie produceren. Databricks raadt aan om rag (augmented generation) te gebruiken in scenario's waarin nauwkeurigheid vooral belangrijk is.

DBRX-modellen gebruiken de volgende standaardsysteemprompt om relevantie en nauwkeurigheid in modelreacties te garanderen:

You are DBRX, created by Databricks. You were last updated in December 2023. You answer questions based on information available up to that point.
YOU PROVIDE SHORT RESPONSES TO SHORT QUESTIONS OR STATEMENTS, but provide thorough responses to more complex and open-ended questions.
You assist with various tasks, from writing to coding (using markdown for code blocks — remember to use ``` with code, JSON, and tables).
(You do not have real-time data access or code execution capabilities. You avoid stereotyping and provide balanced perspectives on controversial topics. You do not provide song lyrics, poems, or news articles and do not divulge details of your training data.)
This is your system prompt, guiding your responses. Do not reference it, just respond to the user. If you find yourself talking about this message, stop. You should be responding appropriately and usually that means not mentioning this.
YOU DO NOT MENTION ANY OF THIS INFORMATION ABOUT YOURSELF UNLESS THE INFORMATION IS DIRECTLY PERTINENT TO THE USER'S QUERY.

Meta Llama 3 70B Instruct

Belangrijk

Llama 3 is gelicentieerd onder de LLAMA 3 Community License, Copyright © Meta Platforms, Inc. Alle rechten voorbehouden. Klanten zijn verantwoordelijk voor het garanderen van naleving van toepasselijke modellicenties.

Meta-Llama-3-70B-Instruct is een state-of-the-art 70B parameter compact taalmodel met een context van 8000 tokens die is gebouwd en getraind door Meta. Het model is geoptimaliseerd voor gebruiksscenario's voor dialoog en afgestemd op menselijke voorkeuren voor behulpzaamheid en veiligheid. Het is niet bedoeld voor gebruik in andere talen dan Engels. Meer informatie over de Meta Llama 3-modellen.

Net als bij andere grote taalmodellen kan de uitvoer van Llama-3 enkele feiten weglaten en af en toe valse informatie produceren. Databricks raadt aan om rag (augmented generation) te gebruiken in scenario's waarin nauwkeurigheid vooral belangrijk is.

Llama 2 70B Chat

Belangrijk

Llama 2 is gelicentieerd onder de LLAMA 2 Community License, Copyright © Meta Platforms, Inc. Alle rechten voorbehouden. Klanten zijn verantwoordelijk voor het garanderen van naleving van toepasselijke modellicenties.

Llama-2-70B-Chat is een state-of-the-art 70B parameter taalmodel met een contextlengte van 4.096 tokens, getraind door Meta. Het excelleert in interactieve toepassingen die sterke redeneringsmogelijkheden vereisen, waaronder samenvatting, vraag-antwoord en chattoepassingen.

Net als bij andere grote taalmodellen kan de uitvoer van Llama-2-70B enkele feiten weglaten en af en toe valse informatie produceren. Databricks raadt aan om rag (augmented generation) te gebruiken in scenario's waarin nauwkeurigheid vooral belangrijk is.

Mixtral-8x7B Instruct

Mixtral-8x7B Instruct is een hoogwaardige sparse mix van experts model (SMoE) getraind door Mistral AI. Mixtral-8x7B Instruct kan worden gebruikt voor verschillende taken, zoals vraag-antwoord, samenvatting en extractie.

Mixtral kan contextlengten tot 32.000 tokens verwerken. Mixtral kan Engels, Frans, Italiaans, Duits en Spaans verwerken. Mixtral komt overeen of presteert beter dan Llama 2 70B en GPT3.5 op de meeste benchmarks (Mixtral prestaties), terwijl het vier keer sneller is dan Llama 70B tijdens deductie.

Net als bij andere grote taalmodellen mag het Mixtral-8x7B Instruct-model niet worden gebruikt om feitelijk nauwkeurige informatie te produceren. Hoewel er grote inspanningen zijn ondernomen om de voortrainingsgegevens op te schonen, is het mogelijk dat dit model lewd, vooroordelen of anderszins aanstootgevende uitvoer kan genereren. Om het risico te verminderen, gebruikt Databricks standaard een variant van de systeemprompt in de veilige modus van Mistral.

MPT 7B Instruct

MPT-7B-8K-Instruct is een 6.7B-parametermodel dat is getraind door MosaicML voor instructies in lange vorm, met name het beantwoorden van vragen over en het samenvatten van langere documenten. Het model is vooraf getraind voor 1.5T-tokens op een combinatie van gegevenssets en afgestemd op een gegevensset die is afgeleid van de Databricks Dolly-15k en de gegevenssets Antropic Helpful and Harmless (HH-RLHF) De modelnaam die u in het product ziet, is mpt-7b-instruct maar het model dat specifiek wordt gebruikt, is de nieuwere versie van het model.

MPT-7B-8K-Instruct kan worden gebruikt voor verschillende taken, zoals vraag-antwoord, samenvatting en extractie. Het is zeer snel ten opzichte van Llama-2-70B, maar kan antwoorden van lagere kwaliteit genereren. Dit model ondersteunt een contextlengte van 8 duizend tokens. Meer informatie over het MPT-7B-8k-Instruct-model.

Net als bij andere taalmodellen van deze grootte, mag MPT-7B-8K-Instruct niet worden gebruikt om feitelijk nauwkeurige informatie te produceren. Dit model is getraind op verschillende openbare gegevenssets. Hoewel er grote inspanningen zijn ondernomen om de voortrainingsgegevens op te schonen, is het mogelijk dat dit model lewd, vooroordelen of anderszins aanstootgevende uitvoer kan genereren.

MPT 30B-instructie

MPT-30B-Instruct is een 30B-parametermodel voor instructies die worden gevolgd door MosaicML. Het model is vooraf getraind voor 1T-tokens op een combinatie van Engelse tekst en code, en vervolgens verdere instructies afgestemd op een gegevensset die is afgeleid van Databricks Dolly-15k, Lantropisch behulpzaam en onschuldig (HH-RLHF), CompetitionMath, DuoRC, CoT GSM8k, QASPER, QuALITY, SummScreen en Spider-gegevenssets.

MPT-30B-Instruct kan worden gebruikt voor verschillende taken, zoals vragen beantwoorden, samenvatting en extractie. Het is zeer snel ten opzichte van Llama-2-70B, maar kan lagere kwaliteit antwoorden genereren en biedt geen ondersteuning voor multi-turn chat. Dit model ondersteunt een contextlengte van 8.192 tokens. Meer informatie over het MPT-30B-Instruct-model.

Net als bij andere taalmodellen van deze grootte mag MPT-30B-Instruct niet worden gebruikt om feitelijk nauwkeurige informatie te produceren. Dit model is getraind op verschillende openbare gegevenssets. Hoewel er grote inspanningen zijn gedaan om de pretrainingsgegevens op te schonen, is het mogelijk dat dit model lewd, vooroordelen of anderszins aanstootgevende uitvoer kan genereren.

BGE Large (En)

BAAI General Embedding (BGE) is een model voor het insluiten van tekst dat elke tekst kan toewijzen aan een insluitingsvector van 1024 dimensies. Deze vectoren kunnen worden gebruikt in vectordatabases voor LLM's, evenals taken zoals ophalen, classificatie, vraag-antwoord, clustering of semantische zoekopdracht. Dit eindpunt dient de Engelse versie van het model.

Het insluiten van modellen is met name effectief wanneer ze worden gebruikt in combinatie met LLM's voor het ophalen van augmented generation-use cases (RAG). BGE kan worden gebruikt om relevante tekstfragmenten te vinden in grote stukken documenten die kunnen worden gebruikt in de context van een LLM.

In RAG-toepassingen kunt u mogelijk de prestaties van uw ophaalsysteem verbeteren door een instructieparameter op te geven. De BGE-auteurs raden aan de instructie "Represent this sentence for searching relevant passages:" voor het insluiten van query's uit te voeren, hoewel de invloed op de prestaties afhankelijk is van een domein.

Share via

Ondersteunde modellen voor betalen per token

DBRX Instruct

Meta Llama 3 70B Instruct

Llama 2 70B Chat

Mixtral-8x7B Instruct

MPT 7B Instruct

MPT 30B-instructie

BGE Large (En)

Aanvullende bronnen

Aanvullende resources