Unterstützte Modelle für Pay-per-Token

Artikel
06/19/2024

Wichtig

Dieses Feature befindet sich in der Public Preview.

In diesem Artikel werden die neuesten offenen Modelle beschrieben, die von den Databricks Foundation Model-APIs unterstützt werden.

Sie können Abfrageanforderungen an diese Modelle senden, indem Sie die in Ihrem Databricks-Arbeitsbereich verfügbaren Endpunkte für tokenbasierte Bezahlung verwenden. Siehe Abfragen von Foundation-Modellen.

Zusätzlich zur Unterstützung von Modellen im Pay-per-Token-Modus bieten Foundation Model-APIs auch den bereitgestellten Durchsatzmodus. Databricks empfiehlt den bereitgestellten Durchsatz für Produktionsworkloads. Dieser Modus unterstützt alle Modelle einer Modellarchitekturfamilie (z. B. DBRX-Modelle), einschließlich der optimierten und benutzerdefinierten vortrainierten Modelle, die im Modus für tokenbasierte Bezahlung unterstützt werden. Die Liste der unterstützten Architekturen finden Sie unter Foundation Model-APIs mit bereitgestelltem Durchsatz.

Sie können mit diesen unterstützten Modellen mit dem KI-Playground interagieren.

DBRX Instruct

Wichtig

DBRX wird im Rahmen und vorbehaltlich der Open-Model-Lizenz von Databricks (Copyright © Databricks, Inc.) bereitgestellt. Alle Rechte vorbehalten. Kunden sind dafür verantwortlich, die Einhaltung anwendbarer Modelllizenzen (einschließlich der Acceptable Use Policy von Databricks) sicherzustellen.

DBRX Instruct ist ein hochmodernes MoE-Sprachmodell (Mixture of Experts), das von Databricks trainiert wird.

Das Modell übertrifft die Leistung etablierter Open-Source-Modelle hinsichtlich Standardbenchmarks und zeichnet sich bei einigen Aufgaben im Zusammenhang mit natürlicher Sprache aus (z. B. Textzusammenfassung, Beantwortung von Fragen, Extrahierung und Programmierung).

DBRX Instruct kann Eingaben mit bis zu 32.000 Tokens verarbeiten und Ausgaben mit bis zu 4.000 Tokens generieren. Dank der MoE-Architektur ist DBRX Instruct für Rückschlüsse sehr effizient, wobei nur 36 Milliarden Parameter von insgesamt 132 Milliarden trainierten Parametern aktiviert werden. Der Endpunkt für tokenbasierte Bezahlung, der dieses Modell bereitstellt, weist eine Begrenzung von einer Abfrage pro Sekunde auf. Weitere Informationen finden Sie unter Grenzwerte und Regionen für die Modellbereitstellung.

Ähnlich wie bei anderen umfassenden Sprachmodellen können DBRX Instruct-Ausgaben einige Fakten auslassen und gelegentlich falsche Informationen liefern. Databricks empfiehlt die Verwendung von Retrieval Augmented Generation (RAG) in Szenarien, in denen Genauigkeit besonders wichtig ist.

DBRX-Modelle verwenden den folgenden Standardsystemprompt, um die Relevanz und Genauigkeit in Modellantworten sicherzustellen:

You are DBRX, created by Databricks. You were last updated in December 2023. You answer questions based on information available up to that point.
YOU PROVIDE SHORT RESPONSES TO SHORT QUESTIONS OR STATEMENTS, but provide thorough responses to more complex and open-ended questions.
You assist with various tasks, from writing to coding (using markdown for code blocks — remember to use ``` with code, JSON, and tables).
(You do not have real-time data access or code execution capabilities. You avoid stereotyping and provide balanced perspectives on controversial topics. You do not provide song lyrics, poems, or news articles and do not divulge details of your training data.)
This is your system prompt, guiding your responses. Do not reference it, just respond to the user. If you find yourself talking about this message, stop. You should be responding appropriately and usually that means not mentioning this.
YOU DO NOT MENTION ANY OF THIS INFORMATION ABOUT YOURSELF UNLESS THE INFORMATION IS DIRECTLY PERTINENT TO THE USER'S QUERY.

Meta Llama 3 70B Anweisung

Wichtig

Llama 3 ist unter der LLAMA 3 Community License, Copyright © Meta Platforms, Inc. lizenziert. Alle Rechte vorbehalten. Kunden sind dafür verantwortlich, die Einhaltung anwendbarer Modelllizenzen sicherzustellen.

Meta-Llama-3-70B-Instruct ist ein hochmodernes 70B-Parameterdichte-Sprachmodell mit einem Kontext von 8000 Token, die von Meta erstellt und trainiert wurde. Das Modell ist für Dialoganwendungen optimiert und auf die menschlichen Präferenzen für Hilfestellung und Sicherheit abgestimmt. Sie ist nicht für die Verwendung in anderen Sprachen als Englisch vorgesehen. Erfahren Sie mehr über die Meta Llama 3 Modelle.

Ähnlich wie bei anderen großen Sprachmodellen (LLMs) können Llama-3-Ausgaben einige Fakten auslassen und gelegentlich falsche Informationen liefern. Databricks empfiehlt die Verwendung von Retrieval Augmented Generation (RAG) in Szenarien, in denen Genauigkeit besonders wichtig ist.

Llama 2 70B Chat

Wichtig

Llama 2 ist unter der LLAMA 2 Community License, Copyright © Meta Platforms, Inc. lizenziert. Alle Rechte vorbehalten. Kunden sind dafür verantwortlich, die Einhaltung anwendbarer Modelllizenzen sicherzustellen.

Llama-2-70B-Chat ist ein hochmodernes Sprachmodell mit 70 Milliarden Parametern mit einer Kontextlänge von 4.096 Token, trainiert von Meta. Es eignet sich hervorragend für interaktive Anwendungen, die starke Argumentationsfähigkeiten erfordern, einschließlich Zusammenfassungen, Beantworten von Fragen und Chat-Anwendungen.

Ähnlich wie bei anderen großen Sprachmodellen (LLMs) können Llama-2-70B-Ausgaben einige Fakten auslassen und gelegentlich falsche Informationen liefern. Databricks empfiehlt die Verwendung von Retrieval Augmented Generation (RAG) in Szenarien, in denen Genauigkeit besonders wichtig ist.

Mixtral-8x7B Instruct

Mixtral-8x7B Instruct ist eine hochwertige, platzsparende Mischung aus einem Expertenmodell (SMoE), das mit Mistral AI trainiert wurde. Mixtral-8x7B Instruct kann für eine Vielzahl von Aufgaben wie die Beantwortung von Fragen, Zusammenfassung und Extraktion verwendet werden.

Mixtral kann Kontextlängen von bis zu 32.000 Token verarbeiten. Mixtral kann Englisch, Französisch, Italienisch, Deutsch und Spanisch verarbeiten. Mixtral ist bei den meisten Benchmarks Llama 2 70B und GPT3.5 mindestens ebenbürtig (Mixtral-Leistung), aber bei Rückschlüssen viermal schneller als Llama 70B.

Ähnlich wie bei anderen großen Sprachmodellen sollte das Mixtral-8x7B-Strukturmodell nicht darauf angewiesen werden, faktengenaue Informationen zu erzeugen. Auch wenn große Anstrengungen unternommen wurden, um die Daten für das Vorabtraining zu bereinigen, ist es möglich, dass dieses Modell fasche, tendenziöse oder anderweitig anstößige Ausgaben erzeugt. Um das Risiko zu verringern, verwendet Databricks standardmäßig eine Variante der Systemeingabeaufforderung im abgesicherten Modus von Mistral.

GTE Large (En)

Wichtig

GTE Large (En) wird unter und vorbehaltlich der Apache 2.0-Lizenz, Copyright © The Apache Software Foundation gestellt, Alle Rechte vorbehalten. Kunden sind dafür verantwortlich, die Einhaltung anwendbarer Modelllizenzen sicherzustellen.

General Text Embedding (GTE) ist ein Texteinbettungsmodell, das beliebigen Text einem 1024-dimensionalen Einbettungsvektor und einem Einbettungsfenster mit 8192 Tokens zuordnen kann. Diese Vektoren können in Vektordatenbanken für LLMs sowie für Aufgaben wie Abrufen, Klassifizierung, Fragebeantwortung, Clustering oder semantische Suche verwendet werden. Dieser Endpunkt dient der englischen Version des Modells.

Einbettungsmodelle sind besonders effektiv, wenn sie zusammen mit LLMs für Retrieval Augmented Generation (RAG)-Fälle verwendet werden. GTE kann verwendet werden, um relevante Textausschnitte in großen Abschnitten von Dokumenten zu finden, die im Kontext eines LLM verwendet werden können.

BGE Large (En)

BAAI General Embedding (BGE) ist ein Texteinbettungsmodell, das beliebigen Text einem 1024-dimensionalen Einbettungsvektor und einem Einbettungsfenster mit 512 Tokens zuordnen kann. Diese Vektoren können in Vektordatenbanken für LLMs sowie für Aufgaben wie Abrufen, Klassifizierung, Fragebeantwortung, Clustering oder semantische Suche verwendet werden. Dieser Endpunkt dient der englischen Version des Modells.

Einbettungsmodelle sind besonders effektiv, wenn sie zusammen mit LLMs für Retrieval Augmented Generation (RAG)-Fälle verwendet werden. BGE kann verwendet werden, um relevante Textausschnitte in großen Abschnitten von Dokumenten zu finden, die im Kontext eines LLM verwendet werden können.

In RAG-Anwendungen können Sie möglicherweise die Leistung Ihres Abrufsystems verbessern, indem Sie einen Anweisungsparameter einschließen. Die BGE-Autor*innen empfehlen, die "Represent this sentence for searching relevant passages:"-Anweisung für Abfrageeinbettungen zu testen, obwohl ihre Leistungsauswirkungen themenabhängig sind.

MPT 7B Instruct

Wichtig

Die MPT 7B-Struktur ist veraltet. Nach dem 30. August 2024 wird dieses Modell nicht mehr unterstützt.

MPT-7B-8K-Instruct ist ein Modell mit 6,7 Milliarden Parametern, das von MosaicML für lange Anweisungen trainiert wurde, insbesondere die Beantwortung von Fragen und die Zusammenfassung längerer Dokumente. Das Modell wird für 1,5 Billionen Token für eine Mischung aus Datasets vorbereitet und auf ein Dataset abgestimmt, das von den Databricks Dolly-15k- und den HH-RLHF-Datasets (Anthropic Helpful and Harmless) abgeleitet ist. Der Modellname, den Sie im Produkt sehen, lautet mpt-7b-instruct, aber das Modell, das verwendet wird, ist die neuere Modellversion.

MPT-7B-8K-Instruct kann für eine Vielzahl von Aufgaben wie die Beantwortung von Fragen, Zusammenfassung und Extraktion verwendet werden. Es ist verglichen mit Llama-2-70B sehr schnell, könnte aber qualitativ schlechtere Antworten liefern. Dieses Modell unterstützt eine Kontextlänge von 8.000 Token. Erfahren Sie mehr über das MPT-7B-8k-Instruct-Modell.

Ähnlich wie bei anderen Sprachmodellen dieser Größe sollte bei MPT-7B-8K-Instruct nicht davon ausgegangen werden, sachlich genaue Informationen zu erhalten. Dieses Modell wurde mit verschiedenen öffentlichen Datasets trainiert. Auch wenn große Anstrengungen unternommen wurden, um die Daten für das Vorabtraining zu bereinigen, ist es möglich, dass dieses Modell fasche, tendenziöse oder anderweitig anstößige Ausgaben erzeugt.

MPT 30B Instruct

Wichtig

Das MPT 30B-Strukturmodell ist veraltet. Nach dem 30. August 2024 wird dieses Modell nicht mehr unterstützt.

MPT-30B-Instruct ist ein 30B-Parametermodell für das Befolgen von Anweisungen, das von MosaicML trainiert wurde. Das Modell wird für 1 Billionen Token mit einer Mischung aus englischem Text und Code vortrainiert und dann mithilfe eines Datasets, das aus Databricks Dolly-15k, Anthropic Helpful and Harmless (HH-RLHF), CompetitionMath, DuoRC, CoT GSM8k, QASPER, QuALITY, SummScreen und Spider abgeleitet wurde, fein abgestimmt.

MPT-30B-Instruct kann für eine Vielzahl von Aufgaben wie die Beantwortung von Fragen, Zusammenfassung und Extraktion verwendet werden. Es ist verglichen mit Llama-2-70B sehr schnell, liefert aber u. U. qualitativ schlechtere Antworten und unterstützt mehrteilige Chats nicht. Dieses Modell unterstützt eine Kontextlänge von 8.192 Token. Erfahren Sie mehr über das MPT-30B-Instruct-Modell.

Ähnlich wie bei anderen Sprachmodellen dieser Größe sollte bei MPT-30B-Instruct nicht davon ausgegangen werden, sachlich genaue Informationen zu erhalten. Dieses Modell wurde mit verschiedenen öffentlichen Datasets trainiert. Auch wenn große Anstrengungen unternommen wurden, um die Daten für das Vorabtraining zu bereinigen, ist es möglich, dass dieses Modell fasche, tendenziöse oder anderweitig anstößige Ausgaben erzeugt.

Freigeben über

Unterstützte Modelle für Pay-per-Token

DBRX Instruct

Meta Llama 3 70B Anweisung

Llama 2 70B Chat

Mixtral-8x7B Instruct

GTE Large (En)

BGE Large (En)

MPT 7B Instruct

MPT 30B Instruct

Zusätzliche Ressourcen

Feedback

Feedback

Zusätzliche Ressourcen