Teilen über


Databricks-gehostete Foundation-Modelle, die in Foundation Model-APIs verfügbar sind

In diesem Artikel werden die hochmodernen offenen Modelle beschrieben, die von Databricks Foundation Model-APIs unterstützt werden.

Hinweis

Siehe Unterstützte Foundation-Modelle auf Mosaic AI Model Bedienung von für die regionale Verfügbarkeit dieser Modelle und die unterstützten Funktionsbereiche.

Sie können Abfrageanforderungen an diese Modelle senden, indem Sie die in Ihrem Databricks-Arbeitsbereich verfügbaren Pay-per-Token-Endpunkte verwenden. Informationen zu den Namen der zu verwendenden Modellendpunkte finden Sie in der Tabelle zu Foundation-Modellen verwenden und Modellen mit unterstützter Pay-per-Token-Zahlung.

Zusätzlich zur Unterstützung von Modellen im Pay-per-Token-Modus bieten Foundation Model-APIs auch den Modus mit bereitgestelltem Durchsatz. Databricks empfiehlt den bereitgestellten Durchsatz für Produktionsworkloads. Dieser Modus unterstützt alle Modelle einer Modellarchitekturfamilie, einschließlich der fein abgestimmten und benutzerdefinierten vortrainierten Modelle, die im Pay-per-Token-Modus unterstützt werden. Eine Liste der unterstützten Architekturen finden Sie unter Provisioned Throughput Foundation Model-APIs.

Sie können mit diesen unterstützten Modellen mit dem AI Playgroundinteragieren.

Alibaba Cloud Qwen3-Next 80B A3B-Anweisung

Wichtig

Das Qwen3-Next 80B A3B-Anweisungsmodell befindet sich in Der Betaversion und ist nur in der eastus2 Region verfügbar.

  • Anleitungen zum Aktivieren dieses Modells finden Sie unter Verwalten von Azure Databricks-Vorschauen .
  • Qwen3-Next 80B A3B Instruct wird unter und vorbehaltlich der Apache 2.0-Lizenz bereitgestellt, Copyright (c) The Apache Software Foundation, alle Rechte vorbehalten. Kunden sind dafür verantwortlich, die Einhaltung anwendbarer Modelllizenzen sicherzustellen.

Endpunktname: databricks-qwen3-next-80b-a3b-instruct

Qwen3-Next-80B-A3B-Instruct ist ein hocheffizientes großes Sprachmodell, das für von Alibaba Cloud erstellte und trainierte Aufgaben mit Anleitungen optimiert ist. Dieses Modell wurde entwickelt, um ultra-lange Kontexte zu verarbeiten und zeichnet sich durch hervorragende Leistungen bei mehrstufigen Workflows, generationserweitertem Abruf und Unternehmensanwendungen aus, die deterministische Ausgaben mit hohem Durchsatz erfordern.

Wie bei anderen großen Sprachmodellen kann die Ausgabe von Qwen3-Next 80B A3B einige Fakten auslassen und gelegentlich falsche Informationen erzeugen. Databricks empfiehlt die Verwendung der abrufgestützten Generierung (RAG) in Szenarien, in denen Genauigkeit besonders wichtig ist.

OpenAI GPT OSS 120B

Wichtig

OpenAI GPT OSS 120B wird unter und vorbehaltlich der Apache 2.0 Lizenz bereitgestellt und unterliegt dem Copyright (c) The Apache Software Foundation, alle Rechte vorbehalten. Kunden sind dafür verantwortlich, die Einhaltung anwendbarer Modelllizenzen sicherzustellen.

Endpunktname: databricks-gpt-oss-120b

GPT OSS 120B ist ein hochmodernes, gedankendes Modell mit gedankenketten und anpassbaren Anstrengungsstufen, die von OpenAI erstellt und trainiert wurden. Es ist das OpenAI-Flaggschiff-Open-Weight-Modell und verfügt über ein 128K-Tokenkontextfenster. Das Modell ist für qualitativ hochwertige Begründungsaufgaben aufgebaut.

Wie bei anderen großen Sprachmodellen kann die GPT OSS 120B-Ausgabe einige Fakten weglassen und gelegentlich falsche Informationen erzeugen. Databricks empfiehlt die Verwendung der abrufgestützten Generierung (RAG) in Szenarien, in denen Genauigkeit besonders wichtig ist.

OpenAI GPT OSS 20B

Wichtig

OpenAI GPT OSS 20B wird gemäß den Bestimmungen der Apache 2.0-Lizenz bereitgestellt, Copyright (c) The Apache Software Foundation, alle Rechte vorbehalten. Kunden sind dafür verantwortlich, die Einhaltung anwendbarer Modelllizenzen sicherzustellen.

Endpunktname: databricks-gpt-oss-20b

GPT OSS 20B ist ein hochmodernes, einfaches Grundmodell, das von OpenAI entwickelt und trainiert wird. Dieses Modell verfügt über ein Kontextfenster mit 128K-Token und zeichnet sich bei Copiloten und Batch-Ableitungsaufgaben in Echtzeit aus.

Wie bei anderen großen Sprachmodellen kann die GPT OSS 20B-Ausgabe einige Fakten weglassen und gelegentlich falsche Informationen erzeugen. Databricks empfiehlt die Verwendung der abrufgestützten Generierung (RAG) in Szenarien, in denen Genauigkeit besonders wichtig ist.

Google Gemma 3 12B

Wichtig

Siehe anwendbare Modellentwicklerlizenzen und -bedingungen für die Gemma 3 Community-Lizenz und die Richtlinie zur zulässigen Nutzung.

Endpunktname: databricks-gemma-3-12b

Gemma 3 12B ist ein 12 Milliarden Parameter multimodales und visionssprachliches Modell, das von Google als Teil der Gemma 3-Familie entwickelt wurde. Gemma 3 verfügt über bis zu 128K-Tokenkontext und bietet mehrsprachige Unterstützung für mehr als 140 Sprachen. Dieses Modell wurde entwickelt, um Sowohl Text- als auch Bildeingaben zu verarbeiten und Textausgaben zu generieren und ist für Dialoganwendungsfälle, Textgenerierungs- und Bildverständnisaufgaben optimiert, einschließlich Der Beantwortung von Fragen.

Wie bei anderen großen Sprachmodellen kann Gemma 3 einige Fakten weglassen und gelegentlich falsche Informationen erzeugen. Databricks empfiehlt die Verwendung der abrufgestützten Generierung (RAG) in Szenarien, in denen Genauigkeit besonders wichtig ist.

Meta Llama 4 Maverick

Wichtig

Siehe anwendbare Modellentwicklerlizenzen und -bedingungen für die Llama-4-Gemeinschaftslizenz und die Richtlinie zur akzeptablen Nutzung.

Endpunktname: databricks-llama-4-maverick

Llama 4 Maverick ist ein hochmodernes großes Sprachmodell, das von Meta gebaut und trainiert wurde. Es ist das erste Mitglied der Llama-Modellfamilie, das eine Expertenarchitektur-Mischung für Recheneffizienz verwendet. Llama 4 Maverick unterstützt mehrere Sprachen und ist für präzise Bild- und Textverständnisfälle optimiert. Derzeit ist databricks-Unterstützung von Llama 4 Maverick auf Textverständnis-Anwendungsfälle beschränkt. Erfahren Sie mehr über Llama 4 Maverick.

Wie bei anderen großen Sprachmodellen kann die Ausgabe von Llama 4 einige Fakten weglassen und gelegentlich falsche Informationen liefern. Databricks empfiehlt die Verwendung der abrufgestützten Generierung (RAG) in Szenarien, in denen Genauigkeit besonders wichtig ist.

Meta Llama 3.3 70B Instruct

Wichtig

Ab dem 11. Dezember 2024 ersetzt Meta-Llama-3.3-70B-Instruct die Unterstützung von Meta-Llama-3.1-70B-Instruct in den Pay-per-Token-Endpunkten der Foundation Model APIs.

Siehe anwendbare Modellentwicklerlizenzen und -bedingungen für die LLama 3.3 Community-Lizenz und die Richtlinie zur zulässigen Nutzung.

Endpunktname: databricks-meta-llama-3-3-70b-instruct

Meta-Llama-3.3-70B-Instruct ist ein hochmodernes großes Sprachmodell mit einem Kontext von 128.000 Token, die von Meta erstellt und trainiert wurden. Das Modell unterstützt mehrere Sprachen und ist für Dialoganwendungsfälle optimiert. Erfahren Sie mehr über die Meta Llama 3.3.

Ähnlich wie bei anderen großen Sprachmodellen kann die Ausgabe von Llama-3 einige Fakten weglassen und gelegentlich falsche Informationen erzeugen. Databricks empfiehlt die Verwendung der abrufgestützten Generierung (RAG) in Szenarien, in denen Genauigkeit besonders wichtig ist.

Meta Llama 3.1 405B Instruct

Wichtig

Meta-Llama-3.1-405B-Instruct wird eingestellt,

  • Ab dem 15. Februar 2026 für Pay-per-Token-Workloads.
  • Ab dem 15. Mai 2026 für bereitgestellte Durchsatzarbeitslasten.

Siehe "Eingestellte Modelle" für das empfohlene Ersatzmodell und Anleitungen für die Migration während der Außerbetriebnahme.

Wichtig

Die Verwendung dieses Modells mit Foundation-Modell-APIs befindet sich in Public Preview. Wenden Sie sich an Ihr Databricks-Kontoteam, wenn bei Verwendung dieses Modells Endpunktfehler oder Stabilisierungsfehler auftreten.

Siehe anwendbare Modellentwicklerlizenzen und -bedingungen für die Llama 3.1 Community-Lizenz und die Richtlinie zur zulässigen Nutzung.

Endpunktname: databricks-meta-llama-3-1-405b-instruct

Meta-Llama-3.1-405B-Instruct ist das größte offen verfügbare, hochmoderne großsprachige Modell, das von Meta erstellt und trainiert wird und von Azure Machine Learning mithilfe des AzureML-Modellkatalogs verteilt wird. Mit diesem Modell können Kunden neue Funktionen wie erweitertes, mehrstufiges Denken und hochwertige synthetische Datengenerierungfreischalten. Dieses Modell ist mit GPT-4-Turbo in Bezug auf Qualität wettbewerbsfähig.

Wie Meta-Llama-3.1-70B-Instruct verfügt dieses Modell über einen Kontext von 128.000 Token und unterstützung in zehn Sprachen. Sie richtet sich an menschliche Vorlieben für Hilfreichkeit und Sicherheit und ist für Dialoganwendungsfälle optimiert. Erfahren Sie mehr über die Meta Llama 3.1 Modelle.

Ähnlich wie bei anderen großen Sprachmodellen kann die Ausgabe von Llama-3.1 einige Fakten weglassen und gelegentlich falsche Informationen liefern. Databricks empfiehlt die Verwendung der abrufgestützten Generierung (RAG) in Szenarien, in denen Genauigkeit besonders wichtig ist.

Meta Llama 3.1 8B Anweisung

Wichtig

Siehe anwendbare Modellentwicklerlizenzen und -bedingungen für die LLama 3.1 Community-Lizenz und die Richtlinie zur zulässigen Verwendung.

Endpunktname: databricks-meta-llama-3-1-8b-instruct

Meta-Llama-3.1-8B-Instruct ist ein hochmodernes großes Sprachmodell mit einem Kontext von 128.000 Token, die von Meta erstellt und trainiert wurde. Das Modell unterstützt mehrere Sprachen und ist für Dialoganwendungsfälle optimiert. Erfahren Sie mehr über die Meta Llama 3.1.

Ähnlich wie bei anderen großen Sprachmodellen kann die Ausgabe von Llama-3 einige Fakten weglassen und gelegentlich falsche Informationen erzeugen. Databricks empfiehlt die Verwendung der abrufgestützten Generierung (RAG) in Szenarien, in denen Genauigkeit besonders wichtig ist.

Anthropic Claude Haiku 4.5

Wichtig

Kunden sind dafür verantwortlich, ihre Einhaltung der Bedingungen der Anthropic-Richtlinie für die zulässige Nutzung sicherzustellen. Siehe auch den Databricks Master Cloud Services Agreement.

Endpunktname: databricks-claude-haiku-4-5

Claude Haiku 4.5 ist das am schnellsten und kostengünstigste Modell von Anthropic, das eine nahezu grenznahe Codierungsqualität mit außergewöhnlicher Geschwindigkeit und Effizienz liefert. Es zeichnet sich bei Echtzeitanwendungen mit geringer Latenz aus, einschließlich Chat-Assistenten, Kundendienstmitarbeitern, Paarprogrammierung und rapide Prototyperstellung. Dieses Modell eignet sich ideal für kostenbewusste Produktionsbereitstellungen und agentische Systeme, die eine reaktionsfähige KI-Unterstützung erfordern.

Wie bei anderen großen Sprachmodellen kann Claude Haiku 4.5 einige Fakten weglassen und gelegentlich falsche Informationen liefern. Databricks empfiehlt die Verwendung der abrufgestützten Generierung (RAG) in Szenarien, in denen Genauigkeit besonders wichtig ist.

Dieser Endpunkt wird von Databricks innerhalb des Databricks-Sicherheitsperimeters gehostet.

Anthropic Claude Sonnet 4.5

Wichtig

Kunden sind dafür verantwortlich, ihre Einhaltung der Bedingungen der Anthropic-Richtlinie für die zulässige Nutzung sicherzustellen. Siehe auch den Databricks Master Cloud Services Agreement.

Endpunktname: databricks-claude-sonnet-4-5

Claude Sonnet 4.5 ist das fortschrittlichste Hybrid-Reasoning-Modell von Anthropic. Es bietet zwei Modi: nahezu sofortige Antworten und erweitertes Denken für eine tiefere Begründung basierend auf der Komplexität der Aufgabe. Claude Sonnet 4.5 ist auf Anwendungen spezialisiert, die ein Gleichgewicht des praktischen Durchsatzes und fortgeschrittenen Denkens erfordern, z. B. kundenorientierte Agenten, Produktionscodierungsworkflows und Inhaltsgenerierung im Großen und Maßstab.

Wie bei anderen großen Sprachmodellen kann Claude Sonnet 4.5 einige Fakten weglassen und gelegentlich falsche Informationen liefern. Databricks empfiehlt die Verwendung der abrufgestützten Generierung (RAG) in Szenarien, in denen Genauigkeit besonders wichtig ist.

Dieser Endpunkt wird von Databricks in AWS innerhalb des Databricks-Sicherheitsperimeters gehostet.

Anthropic Claude Opus 4.5

Wichtig

Kunden sind dafür verantwortlich, ihre Einhaltung der Bedingungen der Anthropic-Richtlinie für die zulässige Nutzung sicherzustellen. Siehe auch den Databricks Master Cloud Services Agreement.

Dieses Modell wird auf einem globalen Endpunkt gehostet und erfordert ein geografieübergreifendes Routing.

Endpunktname: databricks-claude-opus-4-5

Claude Opus 4.5 ist das fähigste Hybrid-Reasoning-Modell von Anthropic, das für die komplexesten Aufgaben entwickelt wurde, die tiefe Analyse und erweitertes Denken erfordern. Dieses Modell kombiniert leistungsstarke allgemeine Funktionen mit fortgeschrittenem logischen Denken und zeichnet sich durch hervorragende Leistungen in der Codegenerierung, Forschung, Inhaltserstellung und anspruchsvollen mehrstufigen agentengesteuerten Workflows aus. Claude Opus 4.5 unterstützt Text- und Vision-Eingaben mit einem Kontextfenster von 200K-Token, wodurch es ideal für Unternehmensanwendungen ist, die sowohl Breite als auch Tiefe des Verständnisses erfordern.

Wie bei anderen großen Sprachmodellen kann Claude Opus 4.5 einige Fakten weglassen und gelegentlich falsche Informationen liefern. Databricks empfiehlt die Verwendung der abrufgestützten Generierung (RAG) in Szenarien, in denen Genauigkeit besonders wichtig ist.

Dieser Endpunkt wird von Databricks in AWS innerhalb des Databricks-Sicherheitsperimeters gehostet.

Anthropisches Claude-Sonett 4

Wichtig

Kunden sind dafür verantwortlich, ihre Einhaltung der Bedingungen der Anthropic-Richtlinie für die zulässige Nutzung sicherzustellen. Siehe auch den Databricks Master Cloud Services Agreement.

Endpunktname: databricks-claude-sonnet-4

Claude Sonnet 4 ist ein hochmodernes, hybrides Reasoning-Modell, das von Anthropic gebaut und trainiert wurde. Dieses Modell bietet zwei Modi: nahezu sofortige Antworten und erweitertes Denken für tiefere Gründe basierend auf der Komplexität der Aufgabe. Claude Sonnet 4 ist für verschiedene Aufgaben wie Codeentwicklung, umfangreiche Inhaltsanalyse und Agent-Anwendungsentwicklung optimiert.

Wie bei anderen großen Sprachmodellen kann Claude Sonnet 4 einige Fakten weglassen und gelegentlich falsche Informationen liefern. Databricks empfiehlt die Verwendung der abrufgestützten Generierung (RAG) in Szenarien, in denen Genauigkeit besonders wichtig ist.

Dieser Endpunkt wird von Databricks in AWS innerhalb des Databricks-Sicherheitsperimeters gehostet.

Anthropic Claude Opus 4.1

Wichtig

Kunden sind dafür verantwortlich, ihre Einhaltung der Bedingungen der Anthropic-Richtlinie für die zulässige Nutzung sicherzustellen. Siehe auch den Databricks Master Cloud Services Agreement.

Endpunktname: databricks-claude-opus-4-1

Claude Opus 4.1 ist ein hochmodernes, hybrides Begründungsmodell, das von Anthropic gebaut und trainiert wurde. Dieses allgemeine Sprachmodell ist sowohl für komplexe Argumente als auch für reale Anwendungen im Unternehmensmaßstab konzipiert. Es unterstützt Text- und Bildeingaben mit einem 200K-Tokenkontextfenster und 32K-Ausgabetokenfunktionen. Dieses Modell zeichnet sich bei Aufgaben wie Codegenerierung, Forschung, Inhaltserstellung und mehrstufigen Agenten-Workflows ohne ständiges menschliches Eingreifen aus.

Wie bei anderen großen Sprachmodellen kann Claude Opus 4.1 einige Fakten weglassen und gelegentlich falsche Informationen liefern. Databricks empfiehlt die Verwendung der abrufgestützten Generierung (RAG) in Szenarien, in denen Genauigkeit besonders wichtig ist.

Dieser Endpunkt wird von Databricks in AWS innerhalb des Databricks-Sicherheitsperimeters gehostet.

Anthropic Claude 3.7 Sonnet

Wichtig

Endpunktname: databricks-claude-3-7-sonnet

Claude 3.7 Sonnet ist ein hochmodernes, hybrides Begründungsmodell, das von Anthropic gebaut und trainiert wurde. Es handelt sich um ein großes Sprachmodell und ein Denkmodell, das schnell reagieren oder seine Schlussfolgerungen basierend auf der Komplexität der Aufgabe erweitern kann. Im erweiterten Denken-Modus sind die Begründungsschritte von Claude 3.7 Sonnet für den Benutzer sichtbar. Claude 3.7 Sonnet ist für verschiedene Aufgaben wie Codegenerierung, mathematisches Denken und Anweisungsverfolgung optimiert.

Wie bei anderen großen Sprachmodellen kann Claude 3.7 einige Fakten weglassen und gelegentlich falsche Informationen liefern. Databricks empfiehlt die Verwendung der abrufgestützten Generierung (RAG) in Szenarien, in denen Genauigkeit besonders wichtig ist.

Dieser Endpunkt wird von Databricks in AWS innerhalb des Databricks-Sicherheitsperimeters gehostet.

GTE Large (En)

Wichtig

GTE Large (En) steht unter der Apache 2.0 Lizenz, Copyright (c) The Apache Software Foundation, alle Rechte vorbehalten. Kunden sind dafür verantwortlich, die Einhaltung anwendbarer Modelllizenzen sicherzustellen.

Endpunktname: databricks-gte-large-en

allgemeine Texteinbettung (GENERAL Text Embedding, GTE) ist ein Texteinbettungsmodell, das beliebigen Text einem Vektor mit 1024 Dimensionen und einem Einbettungsfenster von 8192-Token zuordnen kann. Diese Vektoren können in Vektorindizes für LLMs und für Aufgaben wie Abruf, Klassifizierung, Fragebeantwortung, Clustering oder semantische Suche verwendet werden. Dieser Endpunkt dient der englischen Version des Modells und generiert keine normalisierten Einbettungen.

Einbettungsmodelle sind besonders effektiv, wenn sie zusammen mit LLMs für Einsatzfälle der retrieval-augmentierten Generierung (RAG) verwendet werden. GTE kann verwendet werden, um relevante Textausschnitte in großen Abschnitten von Dokumenten zu finden, die im Kontext einer LLM verwendet werden können.

BGE Large (En)

Endpunktname: databricks-bge-large-en

BAAI General Embedding (BGE)- ist ein Texteinbettungsmodell, das jeden Text einem Vektor mit 1024 Dimensionen und einem Einbettungsfenster von 512 Token zuordnen kann. Diese Vektoren können in Vektorindizes für LLMs und für Aufgaben wie Abruf, Klassifizierung, Fragebeantwortung, Clustering oder semantische Suche verwendet werden. Dieser Endpunkt dient der englischen Version des Modells und generiert normalisierte Einbettungen.

Einbettungsmodelle sind besonders effektiv, wenn sie zusammen mit LLMs für Einsatzfälle der retrieval-augmentierten Generierung (RAG) verwendet werden. BGE kann verwendet werden, um relevante Textausschnitte in großen Abschnitten von Dokumenten zu finden, die im Kontext eines LLM verwendet werden können.

In RAG-Anwendungen können Sie möglicherweise die Leistung Ihres Abrufsystems verbessern, indem Sie einen Anweisungsparameter einschließen. Die BGE-Autoren empfehlen, die Anweisung "Represent this sentence for searching relevant passages:" für Abfrageeinbettungen zu testen, obwohl ihre Leistungsauswirkungen domänenabhängig sind.

Weitere Ressourcen