Model visi kueri

Dalam artikel ini, Anda mempelajari cara menulis permintaan kueri untuk model fondasi yang dioptimalkan untuk tugas visi, dan mengirimkannya ke titik akhir penyajian model Anda.

Mosaic AI Model Serving menyediakan API terpadu untuk memahami dan menganalisis gambar menggunakan berbagai model fondasi, membuka kemampuan multimodal yang kuat. Fungsionalitas ini tersedia melalui model yang dihosting Databricks tertentu sebagai bagian dari API Model Foundation dan melayani titik akhir yang melayani model eksternal.

Persyaratan

Contoh kueri

Klien OpenAI

Untuk menggunakan klien OpenAI, tentukan nama titik akhir model sebagai model input.


from openai import OpenAI
import base64
import httpx

client = OpenAI(
    api_key="dapi-your-databricks-token",
    base_url="https://example.staging.cloud.databricks.com/serving-endpoints"
)

# encode image
image_url = "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg"
image_data = base64.standard_b64encode(httpx.get(image_url).content).decode("utf-8")

# OpenAI request
completion = client.chat.completions.create(
    model="databricks-claude-sonnet-4-5",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "what's in this image?"},
                {
                    "type": "image_url",
                    "image_url": {"url": f"data:image/jpeg;base64,{image_data}"},
                },
            ],
        }
    ],
)

print(completion.choices[0].message.content)

API Penyelesaian Obrolan mendukung beberapa input gambar, memungkinkan model menganalisis setiap gambar dan mensintesis informasi dari semua input untuk menghasilkan respons terhadap perintah.


from openai import OpenAI
import base64
import httpx

client = OpenAI(
    api_key="dapi-your-databricks-token",
    base_url="https://example.staging.cloud.databricks.com/serving-endpoints"
)

# Encode multiple images

image1_url = "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
image1_data = base64.standard_b64encode(httpx.get(image1_url).content).decode("utf-8")

image2_url = "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
image2_data = base64.standard_b64encode(httpx.get(image2_url).content).decode("utf-8")

# OpenAI request

completion = client.chat.completions.create(
    model="databricks-claude-sonnet-4-5",
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "What are in these images? Is there any difference between them?"},
            {
            "type": "image_url",
            "image_url": {"url": f"data:image/jpeg;base64,{image1_data}"},
            },
            {
            "type": "image_url",
            "image_url": {"url": f"data:image/jpeg;base64,{image2_data}"},
            },
          ],
      }
  ],
)

print(completion.choices[0].message.content)

SQL

Penting

Contoh berikut menggunakan fungsi SQL bawaan, ai_query. Fungsi ini ada di Pratinjau Umum dan definisinya mungkin berubah.

Berikut ini mengquery model dasar yang didukung oleh Databricks Foundation Model API untuk input multimodal menggunakan Fungsi AI ai_query().


> SELECT *, ai_query(
  'databricks-llama-4-maverick',
 'what is this image about?', files => content)
as output FROM READ_FILES("/Volumes/main/multimodal/unstructured/image.jpeg");

Model yang didukung

Lihat Jenis model fondasi untuk model penglihatan yang didukung.

Persyaratan untuk gambar input

Model Format yang didukung Beberapa gambar per permintaan Batasan ukuran gambar Rekomendasi mengubah ukuran gambar Pertimbangan kualitas gambar
databricks-gpt-5
  • JPEG
  • PNG
  • WebP
  • GIF (Tidak bergerak GIF)
Hingga 500 input gambar individual per permintaan Batas ukuran file: Total ukuran payload hingga 10 MB per permintaan N/A
  • Tidak ada tanda air atau logo
  • Cukup jelas bagi manusia untuk memahami
databricks-gpt-5-mini
  • JPEG
  • PNG
  • WebP
  • GIF (Tidak bergerak GIF)
Hingga 500 input gambar individual per permintaan Batas ukuran file: Total ukuran payload hingga 10 MB per permintaan N/A
  • Tidak ada tanda air atau logo
  • Cukup jelas bagi manusia untuk memahami
databricks-gpt-5-nano
  • JPEG
  • PNG
  • WebP
  • GIF (Tidak bergerak GIF)
Hingga 500 input gambar individual per permintaan Batas ukuran file: Total ukuran payload hingga 10 MB per permintaan N/A
  • Tidak ada tanda air atau logo
  • Cukup jelas bagi manusia untuk memahami
databricks-gemma-3-12b
  • JPEG
  • PNG
  • WebP
  • GIF
Hingga 5 gambar untuk permintaan API
  • Semua gambar yang disediakan diproses melalui permintaan.
Batas ukuran file: Total 10 MB di semua gambar per permintaan API N/A N/A
databricks-llama-4-maverick
  • JPEG
  • PNG
  • WebP
  • GIF
Hingga 5 gambar untuk permintaan API
  • Semua gambar yang disediakan diproses melalui permintaan.
Batas ukuran file: Total 10 MB di semua gambar per permintaan API N/A N/A
  • databricks-claude-sonnet-4-6
  • databricks-claude-sonnet-4-5
  • databricks-claude-haiku-4-5
  • databricks-claude-opus-4-7
  • databricks-claude-opus-4-6
  • databricks-claude-opus-4-5
  • databricks-claude-opus-4-1
  • databricks-claude-sonnet-4
  • JPEG
  • PNG
  • GIF
  • WebP
  • Hingga 20 gambar untuk Claude.ai
  • Hingga 100 gambar untuk permintaan API
  • Semua gambar yang disediakan diproses dalam permintaan, yang berguna untuk membandingkan atau mengontraskannya.
  • Gambar yang lebih besar dari 8000x8000 px ditolak.
  • Jika lebih dari 20 gambar dikirimkan dalam satu permintaan API, ukuran maksimum yang diizinkan per gambar adalah 2000 x 2000 px.
Untuk performa optimal, mengubah ukuran gambar sebelum mengunggah jika terlalu besar.
  • Jika sisi panjang gambar melebihi 1568 piksel atau ukurannya melebihi ~1.600 token, itu secara otomatis diskalakan ke bawah sambil mempertahankan rasio aspek aslinya.
  • Gambar yang sangat kecil (di bawah 200 piksel di tepi mana pun) dapat menurunkan performa.
  • Untuk mengurangi latensi, simpan gambar dalam 1,15 megapiksel dan paling banyak 1568 piksel di kedua dimensi.
  • Kejelasan: Hindari gambar kabur atau piksel.
  • Teks dalam gambar:
    • Pastikan teks dapat dibaca dan tidak terlalu kecil.
    • Hindari memotong konteks visual utama hanya untuk memperbesar teks.

Konversi gambar ke token

Bagian ini hanya berlaku untuk API Model Foundation. Untuk model eksternal, lihat dokumentasi penyedia.

Setiap gambar dalam permintaan ke model fondasi ditambahkan ke penggunaan token Anda. Lihat kalkulator harga untuk memperkirakan harga gambar berdasarkan penggunaan token dan model yang Anda gunakan.

Batasan pemahaman gambar

Bagian ini hanya berlaku untuk API Model Foundation. Untuk model eksternal, lihat dokumentasi penyedia.

Berikut ini adalah batasan pengenalan gambar untuk model dasar yang dihosting oleh Databricks dan didukung:

Model Keterbatasan
Model Claude berikut didukung:
  • databricks-claude-sonnet-4-6
  • databricks-claude-sonnet-4-5
  • databricks-claude-opus-4-1
  • databricks-claude-sonnet-4
Berikut ini adalah batasan untuk model Claude di Databricks:
  • Hindari menggunakan Claude untuk tugas yang membutuhkan analisis presisi atau sensitif yang sempurna tanpa pengawasan manusia.
  • Identifikasi orang: Tidak dapat mengidentifikasi atau memberi nama orang dalam gambar.
  • Akurasi: Dapat salah menafsirkan gambar berkualitas rendah, diputar, atau sangat kecil (200 px).
  • Penalaran spasial: Mengalami kesulitan dengan tata letak yang presisi, seperti memahami jam analog atau posisi catur.
  • Penghitungan: Memberikan perkiraan jumlah, tetapi mungkin tidak akurat untuk banyak objek kecil.
  • Gambar yang dihasilkan AI: Tidak dapat mendeteksi gambar sintetis atau palsu dengan andal.
  • Konten yang tidak pantas: Memblokir gambar eksplisit atau melanggar kebijakan.
  • Layanan kesehatan: Tidak cocok untuk pemindaian medis yang kompleks (misalnya, CTs dan MRI). Ini bukan alat diagnostik.

Sumber daya tambahan