Verwenden von Foundation-Modellen

In diesem Artikel erfahren Sie, welche Optionen zum Schreiben von Abfrageanforderungen für Foundation-Modelle verfügbar sind und wie Sie sie an Ihren Modellbereitstellungsendpunkt senden. Sie können Foundation-Modelle abfragen, die von Databricks und Foundation-Modellen gehostet werden, die außerhalb von Databricks gehostet werden.

Informationen zu Abfrageanforderungen für herkömmliche ML- oder Python-Modelle finden Sie unter Abfragen von Bereitstellungsendpunkten für benutzerdefinierte Modelle.

Mosaik AI Model Serving unterstützt Foundation Models-APIs und externe Modelle für den Zugriff auf Foundation-Modelle. Model Serving verwendet eine einheitliche OpenAI-kompatible API und ein SDK für die Abfrage. Dies ermöglicht das Experimentieren und Anpassen von Foundation-Modellen für die Produktion in unterstützten Clouds und Anbietern.

Abfrageoptionen

Mosaik AI Model Serve bietet die folgenden Optionen zum Senden von Abfrageanforderungen an Endpunkte, die Foundation-Modelle dienen:

Methode	Einzelheiten
OpenAI-Client	Abfragen eines Modells, das von einem Mosaic AI Model Serving-Endpunkt mithilfe des OpenAI-Clients gehostet wird. Geben Sie das Modell an, das den Endpunktnamen als `model`-Eingabe angibt. Unterstützt für Chat-, Einbettungs- und Abschlussmodelle, die von Foundation Model-APIs oder externen Modellen zur Verfügung gestellt werden.
KI-Funktionen	Rufen Sie den Modellrückschluss direkt aus SQL mithilfe der SQL-Funktion „`ai_query`“ auf. Siehe Beispiel: Abfragen eines Foundation-Modells.
Serving-Benutzeroberfläche	Wählen Sie auf der Seite Bereitstellungsendpunkt die Option Endpunkt abfragen aus. Fügen Sie Eingabedaten des JSON-Formatmodells ein, und klicken Sie auf Anforderung übermitteln. Wenn das Modell ein Eingabebeispiel protokolliert hat, verwenden Sie Beispiel anzeigen, um es zu laden.
REST-API	Rufen Sie das Modell mithilfe der REST-API auf, und fragen Sie es ab. Details finden Sie unter POST /serving-endpoints/{name}/invocations. Informationen zum Bewerten von Anforderungen an Endpunkte, die mehreren Modellen dienen, finden Sie unter Abfragen einzelner Modelle hinter einem Endpunkt.
MLflow Deployments SDK	Verwenden Sie die Vorhersage() -Funktion des MLflow Deployments SDK, um das Modell abzufragen.
Databricks Python SDK	Das Databricks Python SDK ist eine Ebene über der REST-API. Es behandelt Details auf niedriger Ebene, z. B. die Authentifizierung, wodurch die Interaktion mit den Modellen erleichtert wird.

Anforderungen

Ein Modellbereitstellungsendpunkt.
Ein Databricks-Arbeitsbereich in einer unterstützten Region.
- Regionen von Basis-Modell-APIs
- Externe Modellregionen
Sie müssen über Databricks-API-Token verfügen, um eine Bewertungsanforderung über den OpenAI-Client, die REST-API oder das MLflow Deployment SDK zu senden.

Wichtig

Als bewährte Sicherheitsmethode für Produktionsszenarien empfiehlt Databricks, Computer-zu-Computer-OAuth-Token für die Authentifizierung während der Produktion zu verwenden.

Für die Test- und Entwicklungsphase empfiehlt Databricks die Verwendung eines persönlichen Zugriffstokens, das Dienstprinzipalen anstelle von Arbeitsbereichsbenutzern gehört. Informationen zum Erstellen von Token für Dienstprinzipale finden Sie unter Verwalten von Token für einen Dienstprinzipal.

Installieren von Paketen

Nachdem Sie eine Abfragemethode ausgewählt haben, müssen Sie zuerst das entsprechende Paket für Ihren Cluster installieren.

OpenAI-Client

Um den OpenAI-Client zu verwenden, muss das databricks-sdk[openai]-Paket für Ihren Cluster installiert sein. Databricks SDK bietet einen Wrapper zum Erstellen des OpenAI-Clients mit automatischer Autorisierung, die für das Abfragen von generativen KI-Modellen konfiguriert ist. Führen Sie den folgenden Befehl in Ihrem Notebook oder lokalen Terminal aus:

!pip install databricks-sdk[openai]>=0.35.0

Folgendes ist nur erforderlich, wenn das Paket für ein Databricks-Notebook installiert wird.

dbutils.library.restartPython()

REST-API

Der Zugriff auf die Bereitstellungs-REST-API ist in Databricks Runtime für Machine Learning verfügbar.

MLflow Deployments SDK

!pip install mlflow

Folgendes ist nur erforderlich, wenn das Paket für ein Databricks-Notebook installiert wird.

dbutils.library.restartPython()

Databricks Python SDK

Das Databricks-SDK für Python ist auf allen Azure Databricks-Clustern bereits installiert, die Databricks Runtime 13.3 LTS oder höher verwenden. Für Azure Databricks-Cluster, die Databricks Runtime 12.2 LTS und darunter verwenden, müssen Sie zuerst das Databricks-SDK für Python installieren. Siehe Databricks SDK für Python.

Foundation-Modelltypen

In der folgenden Tabelle sind die unterstützten Foundation-Modelle basierend auf dem Aufgabentyp zusammengefasst.

Wichtig

Meta-Llama-3.1-405B-Instruct wird eingestellt,

Ab dem 15. Februar 2026 für Pay-per-Token-Workloads.
Ab dem 15. Mai 2026 für bereitgestellte Durchsatzarbeitslasten.

Siehe "Eingestellte Modelle" für das empfohlene Ersatzmodell und Anleitungen für die Migration während der Außerbetriebnahme.

Aufgabentyp	BESCHREIBUNG	Unterstützte Modelle	Wann sollte ich verwenden? Empfohlene Anwendungsfälle
Allgemeiner Zweck	Modelle, die entwickelt wurden, um natürliche, multi-turn-Unterhaltungen zu verstehen und zu interagieren. Sie sind auf große Datasets des menschlichen Dialogs abgestimmt, die es ihnen ermöglichen, kontextbezogene Antworten zu generieren, die Unterhaltungshistorie nachzuverfolgen und kohärente, menschliche Interaktionen in verschiedenen Themen bereitzustellen.	Im Folgenden werden databricks-gehostete Foundation-Modelle unterstützt: `databricks-claude-sonnet-4-5` `databricks-gpt-oss-20b` `databricks-gpt-oss-120b` `databricks-gemma-3-12b` `databricks-claude-sonnet-4` `databricks-claude-opus-4-5` `databricks-claude-opus-4-1` `databricks-llama-4-maverick` `databricks-claude-3-7-sonnet` `databricks-meta-llama-3-3-70b-instruct` `databricks-meta-llama-3-1-405b-instruct` `databricks-meta-llama-3-1-8b-instruct` Im Folgenden werden externe Modelle unterstützt: OpenAI GPT- und O-Serienmodelle Anthropische Claude Modelle Google Gemini-Modelle	Empfohlen für Szenarien, in denen natürlicher, multidreher Dialog und kontextbezogenes Verständnis erforderlich sind: Virtuelle Assistenten Kundensupport-Bots Interaktive Tutoring-Systeme.
Einbettungen	Einbettungsmodelle sind Machine Learning-Systeme, die komplexe Daten wie Text, Bilder oder Audio in kompakte numerische Vektoren transformieren, die als Einbettungen bezeichnet werden. Diese Vektoren erfassen die wesentlichen Features und Beziehungen innerhalb der Daten, was eine effiziente Vergleichs-, Cluster- und semantische Suche ermöglicht.	Im Folgenden werden das vom Databricks gehostete Foundation-Modell unterstützt: `databricks-gte-large-en` `databricks-bge-large-en` Im Folgenden werden externe Modelle unterstützt: OpenAI-Texteinbettungsmodelle Gemeinsame Texteinbettungsmodelle Google-Texteinbettungsmodelle	Empfohlen für Anwendungen, bei denen semantisches Verständnis, Ähnlichkeitsvergleich und effizientes Abrufen oder Clustering komplexer Daten unerlässlich sind: Semantische Suche Abrufen erweiterter Generation (RAG) Themenclustering Stimmungsanalyse und Textanalyse
Vision	Modelle zum Verarbeiten, Interpretieren und Analysieren visueller Daten wie Bilder und Videos, damit Maschinen die visuelle Welt "sehen" und verstehen können.	Im Folgenden werden databricks-gehostete Foundation-Modelle unterstützt: `databricks-claude-sonnet-4-5` `databricks-claude-sonnet-4` `databricks-claude-opus-4-5` `databricks-claude-opus-4-1` `databricks-claude-3-7-sonnet` Im Folgenden werden externe Modelle unterstützt: OpenAI GPT- und o-Serienmodelle mit Vision-Fähigkeiten Anthropische Claude Modelle mit Visionsfähigkeiten Google Gemini-Modelle mit Vision-Funktionen Andere externe Foundation-Modelle mit Vision-Funktionen, die openAI-API kompatibel sind, werden ebenfalls unterstützt.	Empfohlen, wo automatisierte, genaue und skalierbare Analyse visueller Informationen erforderlich ist: Objekterkennung und -erkennung Bildklassifizierung Bildsegmentierung Dokumentverständnis
Denken	Erweiterte KI-Systeme, die zum Simulieren von menschlichen logischen Denken entwickelt wurden. Grundmodelle integrieren Techniken wie symbolische Logik, probabilistisches Denken und neurale Netzwerke, um Kontext zu analysieren, Aufgaben aufzuschlüsseln und ihre Entscheidungsfindung zu erläutern.	Im Folgenden werden das vom Databricks gehostete Foundation-Modell unterstützt: `databricks-gpt-oss-20B` `databricks-gpt-oss-120B` `databricks-claude-sonnet-4-5` `databricks-claude-sonnet-4` `databricks-claude-opus-4-5` `databricks-claude-opus-4-1` `databricks-claude-3-7-sonnet` Im Folgenden werden externe Modelle unterstützt: OpenAI-Modelle mit Logikfunktionen Anthropische Claude Modelle mit Begründungsfunktionen Google Gemini-Modelle mit Logikfunktionen	Empfohlen, wo automatisierte, genaue und skalierbare Analyse visueller Informationen erforderlich ist: Codeerzeugung Erstellung und Zusammenfassung von Inhalten Agent-Orchestrierung

Aufrufen der Funktion

Databricks Function Calling ist OpenAI-kompatibel und ist nur während des Modells verfügbar, das als Teil Foundation Model-APIs dient und Endpunkte bedient, die externen Modellendienen. Ausführliche Informationen finden Sie unter Funktionsaufrufe für Azure Databricks.

Strukturierte Ausgaben

Strukturierte Ausgaben sind openAI-kompatibel und stehen nur während des Modells als Teil von Foundation Model-APIs zur Verfügung. Ausführliche Informationen finden Sie unter "Strukturierte Ausgaben" in Azure Databricks.

Prompt-Zwischenspeicherung

Das Prompt-Caching wird für von Databricks gehostete Claude-Modelle als Teil der Foundation Model-APIs unterstützt.

Sie können den cache_control Parameter in Ihren Abfrageanforderungen angeben, um Folgendes zwischenzuspeichern:

Textinhaltsnachrichten im messages.content Array.
Denken sie an Nachrichteninhalte im messages.content Array.
Bilderinhaltsblöcke im messages.content Array.
Toolverwendung, Ergebnisse und Definitionen im tools Array.

Siehe Foundation-Modell-REST-API-Referenz.

TextContent

{
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "What's the date today?",
          "cache_control": { "type": "ephemeral" }
        }
      ]
    }
  ]
}

ReasonContent

{
  "messages": [
    {
      "role": "assistant",
      "content": [
        {
          "type": "reasoning",
          "summary": [
            {
              "type": "summary_text",
              "text": "Thinking...",
              "signature": "[optional]"
            },
            {
              "type": "summary_encrypted_text",
              "data": "[encrypted text]"
            }
          ]
        }
      ]
    }
  ]
}

ImageContent

Bildnachrichteninhalte müssen die codierten Daten als Quelle verwenden. URLs werden nicht unterstützt.

{
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "What’s in this image?"
        },
        {
          "type": "image_url",
          "image_url": {
            "url": "data:image/jpeg;base64,[content]"
          },
          "cache_control": { "type": "ephemeral" }
        }
      ]
    }
  ]
}

ToolCall-Inhalt

{
  "messages": [
    {
      "role": "assistant",
      "content": "Ok, let’s get the weather in New York.",
      "tool_calls": [
        {
          "type": "function",
          "id": "123",
          "function": {
            "name": "get_weather",
            "arguments": "{\"location\":\"New York, NY\"}"
          },
          "cache_control": { "type": "ephemeral" }
        }
      ]
    }
  ]
}

Hinweis

Die Databricks REST-API ist openAI-kompatibel und unterscheidet sich von der anthropischen API. Diese Unterschiede wirken sich auch auf Antwortobjekte wie die folgenden aus:

Die Ausgabe wird im choices Feld zurückgegeben.
Streaming-Blockformat. Alle Chunks entsprechen demselben Format, wobei choices die Antwort delta enthält und in jedem Chunk die Nutzung zurückgegeben wird.
Der Stoppgrund wird im finish_reason Feld zurückgegeben.
- Anthropic verwendet: end_turn, stop_sequence, max_tokens und tool_use
- Databricks verwendet stop, stop, length und tool_calls jeweils.

Chatten mit unterstützten LLMs im KI-Playground

Sie können mit unterstützten großen Sprachmodellen interagieren, indem Sie den KI-Playground verwenden. Der KI-Playground ist eine Chat-ähnliche Umgebung, in der Sie LLMs aus Ihrem Azure Databricks-Arbeitsbereich testen, auffordern und vergleichen können.

KI-Playground

Zusätzliche Ressourcen

Feedback

War diese Seite hilfreich?

Last updated on 2025-12-19

Teilen über

Verwenden von Foundation-Modellen

Abfrageoptionen

Anforderungen

Installieren von Paketen

OpenAI-Client

REST-API

MLflow Deployments SDK

Databricks Python SDK

Foundation-Modelltypen

Aufrufen der Funktion

Strukturierte Ausgaben

Prompt-Zwischenspeicherung

TextContent

ReasonContent

ImageContent

ToolCall-Inhalt

Chatten mit unterstützten LLMs im KI-Playground

Zusätzliche Ressourcen

Feedback

Zusätzliche Ressourcen