Freigeben über


Vision-Modelle abfragen

In diesem Artikel erfahren Sie, wie Sie Abfrageanforderungen für Foundation-Modelle schreiben, die für Visionsaufgaben optimiert sind, und sie an Ihren Modellbereitstellungsendpunkt senden.

Mosaik AI Model Serving bietet eine einheitliche API, um mithilfe einer Vielzahl von Foundation-Modellen Bilder zu verstehen und zu analysieren und leistungsstarke multimodale Fähigkeiten freizusetzen. Diese Funktionalität steht über ausgewählte databricks-gehostete Modelle als Teil von Foundation Model-APIs zur Verfügung und stellt Endpunkte bereit, die externe Modelle bereitstellen.

Anforderungen

  • Siehe Anforderungen.
  • Installieren Sie das entsprechende Paket auf Ihrem Cluster basierend auf der von Ihnen ausgewählten Option für den Abfrage-Client.

Abfragebeispiele

OpenAI-Client

Um den OpenAI-Client zu verwenden, geben Sie den Endpunktnamen der Modellbereitstellung als model-Eingabe ein.


from openai import OpenAI
import base64
import httpx

client = OpenAI(
    api_key="dapi-your-databricks-token",
    base_url="https://example.staging.cloud.databricks.com/serving-endpoints"
)

# encode image
image_url = "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg"
image_data = base64.standard_b64encode(httpx.get(image_url).content).decode("utf-8")

# OpenAI request
completion = client.chat.completions.create(
    model="databricks-claude-sonnet-4-5",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "what's in this image?"},
                {
                    "type": "image_url",
                    "image_url": {"url": f"data:image/jpeg;base64,{image_data}"},
                },
            ],
        }
    ],
)

print(completion.choices[0].message.content)

Die Chat-Vervollständigungs-API unterstützt mehrere Bilddaten, sodass das Modell jedes Bild analysieren und Informationen aus allen Eingaben synthetisieren kann, um eine Antwort auf die Aufforderung zu generieren.


from openai import OpenAI
import base64
import httpx

client = OpenAI(
    api_key="dapi-your-databricks-token",
    base_url="https://example.staging.cloud.databricks.com/serving-endpoints"
)

# Encode multiple images

image1_url = "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
image1_data = base64.standard_b64encode(httpx.get(image1_url).content).decode("utf-8")

image2_url = "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
image2_data = base64.standard_b64encode(httpx.get(image1_url).content).decode("utf-8")

# OpenAI request

completion = client.chat.completions.create(
    model="databricks-claude-sonnet-4-5",
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "What are in these images? Is there any difference between them?"},
            {
            "type": "image_url",
            "image_url": {"url": f"data:image/jpeg;base64,{image1_data}"},
            },
            {
            "type": "image_url",
            "image_url": {"url": f"data:image/jpeg;base64,{image2_data}"},
            },
          ],
      }
  ],
)

print(completion.choices[0].message.content)

SQL

Von Bedeutung

Im folgenden Beispiel wird die integrierte SQL-Funktion ai_query verwendet. Diese Funktion befindet sich in der öffentlichen Vorschau , und die Definition kann sich ändern.

Im Folgenden wird ein Foundation-Modell, das von den Databricks Foundation Model APIs unterstützt wird, für eine multimodale Eingabe mithilfe der AI-Funktion ai_query() abgefragt.


> SELECT *, ai_query(
  'databricks-llama-4-maverick',
 'what is this image about?', files => content)
as output FROM READ_FILES("/Volumes/main/multimodal/unstructured/image.jpeg");

Unterstützte Modelle

Siehe Foundation-Modelltypen für unterstützte Vision-Modelle.

Eingabebildanforderungen

Modell(n) Unterstützte Formate Mehrere Bilder pro Anforderung Größenbeschränkungen für Bilder Empfehlungen zur Größenänderung von Bildern Überlegungen zur Bildqualität
databricks-gpt-5
  • JPEG
  • PNG
  • WebP
  • GIF (Nicht animiert GIF)
Bis zu 500 einzelne Bildeingaben pro Anforderung Dateigrößenbeschränkung: Bis zu 10 MB Gesamtnutzlastgröße pro Anforderung N/A
  • Keine Wasserzeichen oder Logos
  • Klar genug, um einen Menschen zu verstehen
databricks-gpt-5-mini
  • JPEG
  • PNG
  • WebP
  • GIF (Nicht animiert GIF)
Bis zu 500 einzelne Bildeingaben pro Anforderung Dateigrößenbeschränkung: Bis zu 10 MB Gesamtnutzlastgröße pro Anforderung N/A
  • Keine Wasserzeichen oder Logos
  • Klar genug, um einen Menschen zu verstehen
databricks-gpt-5-nano
  • JPEG
  • PNG
  • WebP
  • GIF (Nicht animiert GIF)
Bis zu 500 einzelne Bildeingaben pro Anforderung Dateigrößenbeschränkung: Bis zu 10 MB Gesamtnutzlastgröße pro Anforderung N/A
  • Keine Wasserzeichen oder Logos
  • Klar genug, um einen Menschen zu verstehen
databricks-gemma-3-12b
  • JPEG
  • PNG
  • WebP
  • GIF
Bis zu 5 Bilder für API-Anforderungen
  • Alle bereitgestellten Bilder werden in einer Anforderung verarbeitet.
Dateigrößenbeschränkung: 10 MB gesamt für alle Bilder pro API-Anforderung N/A N/A
databricks-llama-4-maverick
  • JPEG
  • PNG
  • WebP
  • GIF
Bis zu 5 Bilder für API-Anforderungen
  • Alle bereitgestellten Bilder werden in einer Anforderung verarbeitet.
Dateigrößenbeschränkung: 10 MB gesamt für alle Bilder pro API-Anforderung N/A N/A
  • databricks-claude-sonnet-4-5
  • databricks-claude-haiku-4-5
  • databricks-claude-opus-4-5
  • databricks-claude-opus-4-1
  • databricks-claude-sonnet-4
  • databricks-claude-sonnet-4-5
  • JPEG
  • PNG
  • GIF
  • WebP
  • Bis zu 20 Bilder für Claude.ai
  • Bis zu 100 Bilder für API-Anforderungen
  • Alle bereitgestellten Bilder werden in einer Anforderung verarbeitet, die zum Vergleichen oder Kontrasten hilfreich ist.
  • Bilder, die größer als 8000x8000 px sind, werden abgelehnt.
  • Wenn mehr als 20 Bilder in einer API-Anforderung übermittelt werden, beträgt die maximal zulässige Größe pro Bild2000 x 2000 px.
Um eine optimale Leistung zu erzielen, ändern Sie die Größe von Bildern, bevor Sie sie hochladen, wenn sie zu groß sind.
  • Wenn der lange Rand eines Bilds 1568 Pixel überschreitet oder seine Größe ~1.600 Token überschreitet, wird es automatisch nach unten skaliert , während das Seitenverhältnis beibehalten wird.
  • Sehr kleine Bilder (unter 200 Pixel an jedem Rand) können die Leistung beeinträchtigen.
  • Um die Latenz zu reduzieren, behalten Sie Bilder innerhalb von 1,15 Megapixeln und höchstens1568 Pixel in beiden Dimensionen bei.
  • Klarheit: Vermeiden Sie verschwommene oder pixelige Bilder.
  • Text in Bildern:
    • Stellen Sie sicher, dass Text lesbar und nicht zu smal ist.
    • Vermeiden Sie das Zuschneiden von visuellem Schlüsselkontext, um den Text zu vergrößern.

Umwandlung von Bild in Token

Dieser Abschnitt gilt nur für Foundation Model-APIs. Informationen zu externen Modellen finden Sie in der Dokumentation des Anbieters.

Jede Bildanfrage an ein Foundation-Modell erhöht Ihre Token-Nutzung. Sehen Sie sich den Preisrechner an, um die Bildpreise basierend auf der verwendeten Tokennutzung und dem verwendeten Modell zu schätzen.

Einschränkungen des Bildverständnisses

Dieser Abschnitt gilt nur für Foundation Model-APIs. Informationen zu externen Modellen finden Sie in der Dokumentation des Anbieters.

Im Folgenden sind Bildverständnisbeschränkungen für die unterstützten Databricks-gehosteten Foundation-Modelle aufgeführt:

Model Einschränkungen
Die folgenden Claude-Modelle werden unterstützt:
  • databricks-claude-sonnet-4-5
  • databricks-claude-opus-4-1
  • databricks-claude-sonnet-4
  • databricks-claude-sonnet-4-5
Nachfolgend sind die Grenzwerte für Claude-Modelle auf Databricks aufgeführt:
  • Vermeiden Sie Claude für Aufgaben, die eine perfekte Präzision oder sensible Analyse ohne menschliche Aufsicht erfordern.
  • Personenidentifikation: Personen in Bildern können nicht identifiziert oder benannt werden.
  • Genauigkeit: Kann schlechte Qualität, gedrehte oder sehr kleine Bilder (200 px) falsch interpretieren.
  • Räumliches Denken: Probleme mit präzisen Layouts haben, wie z. B. das Ablesen analoger Uhren oder das Erfassen von Schachpositionen.
  • Zählen: Stellt ungefähre Anzahlen bereit, kann aber für viele kleine Objekte ungenau sein.
  • KI-generierte Bilder: Synthetische oder gefälschte Bilder können nicht zuverlässig erkannt werden.
  • Unangemessene Inhalte: Blockiert explizite oder richtlinienverletzende Bilder.
  • Gesundheitswesen: Nicht geeignet für komplexe medizinische Scans (z. B. CTs und MRIs). Es ist kein Diagnosetool.

Weitere Ressourcen