Referensi API REST model dasar

Artikel ini menyediakan informasi API umum untuk API Model Databricks Foundation dan model yang mereka dukung. API Model Foundation dirancang agar mirip dengan REST API OpenAI untuk mempermudah migrasi proyek yang ada. Baik titik akhir bayar per token dan throughput yang disediakan menerima format permintaan REST API yang sama.

Titik Akhir

API Foundation Model mendukung titik akhir bayar per token dan titik akhir throughput terprovisi.

Titik akhir yang telah dikonfigurasi sebelumnya tersedia di ruang kerja Anda untuk setiap model yang didukung bayar per token, dan pengguna dapat berinteraksi dengan titik akhir ini menggunakan permintaan HTTP POST. Lihat Model fondasi yang didukung pada Mosaic AI Model Serving untuk model yang didukung.

Titik akhir throughput yang disediakan dapat dibuat menggunakan API atau antarmuka pengguna Serving. Titik akhir ini mendukung beberapa model per titik akhir untuk pengujian A/B, selama kedua model yang dilayani mengekspos format API yang sama. Misalnya, kedua model adalah model obrolan. Lihat POST /api/2.0/serving-endpoints untuk parameter konfigurasi titik akhir.

Permintaan dan respons menggunakan JSON, struktur JSON yang tepat tergantung pada jenis tugas titik akhir. Titik akhir obrolan dan penyelesaian mendukung respons streaming.

Penggunaan

Respons mencakup sub-pesan usage yang melaporkan jumlah token dalam permintaan dan respons. Format sub-pesan ini sama di semua jenis tugas.

Lapangan Jenis Deskripsi
completion_tokens Integer Jumlah token yang dihasilkan. Tidak termasuk dalam respons penggabungan.
prompt_tokens Integer Jumlah token dari prompt input.
total_tokens Integer Jumlah total token.
reasoning_tokens Integer Jumlah token pemikiran. Ini hanya berlaku untuk model penalaran.

Untuk model seperti databricks-meta-llama-3-3-70b-instruct permintaan pengguna diubah menggunakan templat perintah sebelum diteruskan ke model. Untuk titik akhir dengan skema bayar per token, prompt sistem mungkin juga ditambahkan. prompt_tokens menyertakan semua teks yang ditambahkan oleh server kami.

API Respons

Penting

API Respons hanya kompatibel dengan model OpenAI.

API Respons memungkinkan percakapan multi-giliran dengan model. Tidak seperti Penyelesaian Percakapan, API Respons menggunakan input sebagai pengganti messages.

Permintaan API respons

Lapangan Bawaan Jenis Deskripsi
model Tali diperlukan . ID model yang digunakan untuk menghasilkan respons.
input String atau List[ResponsesInput] diperlukan . Input teks, gambar, atau file ke model, digunakan untuk menghasilkan respons. Tidak seperti messages, bidang ini menggunakan input untuk menentukan konten percakapan.
instructions null Tali Pesan sistem (atau pengembang) dimasukkan ke dalam konteks model.
max_output_tokens null null, yang berarti tidak ada batas, atau bilangan bulat yang lebih besar dari nol Batas maksimum untuk jumlah token yang dapat dihasilkan untuk respons, termasuk token keluaran yang terlihat dan token penalaran.
temperature 1.0 Mengapung di [0,2] Suhu pengambilan sampel. 0 adalah nilai deterministik dan lebih tinggi memperkenalkan lebih banyak keacakan.
top_p 1.0 Mengambang dalam (0,1] Ambang probabilitas yang digunakan untuk pengambilan sampel nukleus.
stream false Boolean Jika diatur ke true, data respons model akan dialirkan ke klien saat sedang dihasilkan menggunakan peristiwa yang dikirim oleh server.
stream_options null StreamOptions Opsi untuk respons streaming. Hanya atur ini saat Anda mengatur stream: true.
text null TextConfig Opsi konfigurasi untuk respons teks dari model. Dapat berupa teks biasa atau data JSON terstruktur.
reasoning null ReasoningConfig Konfigurasi penalaran untuk model gpt-5 dan o-series.
tool_choice "auto" String atau ToolChoiceObject Bagaimana model harus memilih alat (atau alat) mana yang akan digunakan saat menghasilkan respons. tools Lihat parameter untuk melihat cara menentukan alat mana yang dapat dipanggil model.
tools null Daftar[ToolObject] Sekumpulan alat yang dapat dipanggil model ketika menghasilkan respons. Catatan: Penerjemah kode dan alat pencarian web tidak didukung oleh Databricks.
parallel_tool_calls true Boolean Apakah akan mengizinkan model menjalankan panggilan alat secara paralel.
max_tool_calls null Bilangan bulat lebih besar dari nol Jumlah maksimum total panggilan ke alat bawaan yang dapat diproses dalam respons.
metadata null Objek Satu set berisi 16 pasangan kunci-nilai yang dapat dilampirkan ke suatu objek.
prompt_cache_key null Tali Digunakan untuk menyimpan respons untuk permintaan serupa untuk mengoptimalkan tingkat hit cache. Mengganti bidang user.
prompt_cache_retention null Tali Kebijakan retensi untuk cache prompt. Atur ke "24h" untuk mengaktifkan caching prompt yang diperluas, yang membuat prompt yang dicache tetap aktif lebih lama, hingga maksimal 24 jam.
safety_identifier null Tali Pengidentifikasi stabil yang digunakan untuk membantu mendeteksi pengguna aplikasi Anda yang mungkin melanggar kebijakan penggunaan.
user null Tali tidak digunakan lagi. Gunakan safety_identifier dan prompt_cache_key sebagai gantinya.
truncation null Tali Strategi pemotongan yang akan digunakan untuk respons model.
top_logprobs null Integer Bilangan bulat antara 0 dan 20 yang menentukan jumlah token yang kemungkinan besar akan dikembalikan pada setiap posisi token, masing-masing dengan probabilitas log terkait.
include null Daftar[String] Tentukan data output tambahan untuk disertakan dalam respons model.
prompt null Objek Referensi ke template prompt dan variabel-variabelnya.

Parameter yang tidak didukung: Parameter berikut tidak didukung oleh Databricks dan akan mengembalikan kesalahan 400 jika ditentukan:

  • background - Pemrosesan latar belakang tidak didukung
  • store - Respons tersimpan tidak didukung
  • conversation - API Percakapan tidak didukung
  • service_tier - Pemilihan tingkat layanan dikelola oleh Databricks

ResponsesInput

Bidang input menerima string atau daftar objek pesan input dengan peran dan konten.

Lapangan Jenis Deskripsi
role Tali diperlukan . Peran penulis pesan. Bisa "user" atau "assistant".
content String atau List[ResponsesContentBlock] diperlukan . Konten pesan, baik sebagai teks atau array blok konten.

ResponsesContentBlock

Blok konten menentukan jenis konten dalam pesan input dan output. Tipe blok isi ditentukan oleh type bidang .

InputText
Lapangan Jenis Deskripsi
type Tali diperlukan . Harus berupa "input_text" .
text Tali diperlukan . Isi teks.
OutputText
Lapangan Jenis Deskripsi
type Tali diperlukan . Harus berupa "output_text" .
text Tali diperlukan . Isi teks.
annotations Daftar[Objek] Anotasi opsional untuk konten teks.
InputImage
Lapangan Jenis Deskripsi
type Tali diperlukan . Harus berupa "input_image" .
image_url Tali diperlukan . URL atau URI data yang dikodekan base64 dari gambar.
InputFile
Lapangan Jenis Deskripsi
type Tali diperlukan . Harus berupa "input_file" .
file_id Tali Pengidentifikasi file jika menggunakan file yang diunggah.
filename Tali Nama berkas tersebut.
file_data Tali URI data yang dikodekan dalam Base64 dengan prefiks format. Misalnya, file PDF menggunakan format data:application/pdf;base64,<base64 data>.
FunctionCall
Lapangan Jenis Deskripsi
type Tali diperlukan . Harus berupa "function_call" .
id Tali diperlukan . Pengidentifikasi unik untuk panggilan fungsi.
call_id Tali diperlukan . Pengidentifikasi panggilan.
name Tali diperlukan . Nama fungsi yang dipanggil.
arguments Objek/String diperlukan . Argumen fungsi sebagai objek atau string JSON.
FunctionCallOutput
Lapangan Jenis Deskripsi
type Tali diperlukan . Harus berupa "function_call_output" .
call_id Tali diperlukan . Pengidentifikasi panggilan yang sesuai dengan output ini.
output String/Objek diperlukan . Output fungsi sebagai string atau objek JSON.
CustomToolCall

Dikembalikan dalam array respons output saat alat kustom dipanggil. Tidak seperti panggilan fungsi, panggilan alat kustom mengembalikan teks input biasa alih-alih JSON arguments.

Lapangan Jenis Deskripsi
type Tali diperlukan . Harus berupa "custom_tool_call" .
id Tali diperlukan . Pengidentifikasi unik untuk panggilan alat kustom ini.
call_id Tali diperlukan . Pengidentifikasi panggilan.
name Tali diperlukan . Nama perangkat kustom yang dipanggil.
input Tali diperlukan . Input alat sebagai teks polos (bukan JSON).
status Tali Status panggilan alat. Salah satu dari: completed, in_progress.
CustomToolCallOutput

Gunakan jenis input ini untuk memberikan hasil panggilan alat kustom kembali ke model dalam percakapan multi-giliran.

Lapangan Jenis Deskripsi
type Tali diperlukan . Harus berupa "custom_tool_call_output" .
call_id Tali diperlukan . Pengidentifikasi panggilan yang sesuai dengan output ini.
output Tali diperlukan . Hasil keluaran dari alat kustom sebagai string.

StreamOptions

Konfigurasi untuk respons streaming. Hanya digunakan ketika stream: true.

Lapangan Jenis Deskripsi
include_usage Boolean Jika true, sertakan informasi penggunaan token dalam aliran. Defaultnya adalah false.

TextConfig

Konfigurasi untuk output teks, termasuk output terstruktur.

Lapangan Jenis Deskripsi
format ResponsesFormatObject Spesifikasi format untuk output teks.

ResponsesFormatObject

Menentukan format output untuk respons teks.

Lapangan Jenis Deskripsi
type Tali diperlukan . Jenis format: "text" untuk teks biasa, "json_object" untuk JSON, atau "json_schema" untuk JSON terstruktur.
json_schema Objek Diperlukan ketika type adalah "json_schema". Objek skema JSON yang menentukan struktur output.

Objek json_schema memiliki struktur yang sama dengan JsonSchemaObject yang didokumenkan dalam API Penyelesaian Obrolan.

ReasoningConfig

Konfigurasi untuk perilaku penalaran dalam model penalaran (model seri o dan gpt-5).

Lapangan Jenis Deskripsi
effort Tali Tingkat upaya penalaran: "low", "medium", atau "high". Defaultnya adalah "medium".
encrypted_content Tali Konten pemrosesan terenkripsi untuk mode stateless. Disediakan oleh model dalam respons sebelumnya.

ToolObject

Lihat Pemanggilan Fungsi pada Azure Databricks.

Nota

Api Respons mendukung jenis alat berikut: function, , custom, mcp, image_generationshell. Alat kustom dan format output berbasis tata bahasa hanya tersedia dengan model seri GPT-5 (gpt-5, gpt-5.1, gpt-5.2).

Lapangan Jenis Deskripsi
type Tali diperlukan . Jenis alat. Lihat catatan di atas untuk nilai yang didukung.
function FunctionObject Diperlukan saat type adalah function. Definisi fungsi yang terkait dengan alat.
name Tali Diperlukan saat type adalah custom. Nama alat kustom.
description Tali Diperlukan saat type adalah custom. Deskripsi tentang apa yang dilakukan alat kustom.
format Format Kustom Optional. Ketika type adalah custom, menentukan format output. Secara default menjadi {"type": "text"}. Juga dapat digunakan {"type": "grammar", "definition": "<grammar>", "syntax": "lark"} untuk output terstruktur. Hanya didukung dengan model seri GPT-5.

CustomToolObject

Alat kustom memungkinkan model mengembalikan output string arbitrer alih-alih argumen fungsi berformat JSON. Ini berguna untuk pembuatan kode, menerapkan patch, atau kasus penggunaan lainnya di mana JSON terstruktur tidak diperlukan.

Nota

Alat kustom hanya didukung dengan model seri GPT-5 (gpt-5, , gpt-5.1gpt-5.2) melalui API Respons.

Contoh alat kustom:

{
  "type": "custom",
  "name": "code_exec",
  "description": "Executes arbitrary Python code. Return only valid Python code."
}

Contoh alat kustom dengan tata bahasa:

{
  "type": "custom",
  "name": "apply_patch",
  "description": "Apply a patch to create or modify files.",
  "format": {
    "type": "grammar",
    "definition": "start: begin_patch hunk end_patch\nbegin_patch: \"*** Begin Patch\" LF\n...",
    "syntax": "lark"
  }
}

Saat alat kustom dipanggil, respons berisi custom_tool_call item output dengan teks biasa input alih-alih JSON arguments.

CustomFormat

Format output berbasis tata bahasa hanya didukung dengan model seri GPT-5.

Lapangan Jenis Deskripsi
type Tali diperlukan . Baik "text" untuk output teks biasa atau "grammar" untuk output yang dibatasi tata bahasa.
definition Tali Diperlukan saat type adalah "grammar". String definisi tata bahasa menggunakan sintaks Lark.
syntax Tali Diperlukan saat type adalah "grammar". Sintaks tata bahasa. Saat ini hanya "lark" yang didukung.

FunctionObject

Lapangan Jenis Deskripsi
name Tali diperlukan . Nama fungsi yang akan dipanggil.
description Objek diperlukan . Deskripsi terperinci tentang fungsi. Model ini menggunakan deskripsi ini untuk memahami relevansi fungsi dengan perintah dan menghasilkan panggilan alat dengan akurasi yang lebih tinggi.
parameters Objek Parameter yang diterima fungsi, dijelaskan sebagai objek skema JSON yang valid. Jika alat dipanggil, maka panggilan alat sesuai dengan skema JSON yang disediakan. Menghilangkan parameter mendefinisikan fungsi tanpa parameter apa pun. Jumlah properties dibatasi hingga 15 kunci.
strict Boolean Apakah akan mengaktifkan kepatuhan skema yang ketat saat menghasilkan panggilan fungsi. Jika diatur ke true, model mengikuti skema yang tepat yang ditentukan dalam bidang skema. Hanya sebagian skema JSON yang didukung ketika strict true

ToolChoiceObject

Lihat Pemanggilan Fungsi pada Azure Databricks.

Lapangan Jenis Deskripsi
type Tali diperlukan . Jenis alat yang akan dipaksa. Nilai yang didukung cocok dengan jenis alat di ToolObject: "function", "custom", dll.
function Objek Diperlukan saat type adalah "function". Objek dengan bentuk {"name": "my_function"} di mana "my_function" adalah nama FunctionObject pada bidang tools.
name Tali Diperlukan saat type adalah "custom". Nama alat kustom untuk diterapkan secara paksa. Hanya didukung dengan model seri GPT-5.

Respons API respons

Untuk permintaan non-streaming, responsnya adalah objek respons tunggal. Untuk permintaan streaming, respons adalah text/event-stream di mana setiap peristiwa adalah potongan respons.

Lapangan Jenis Deskripsi
id Tali Pengidentifikasi unik untuk respons. Catatan: Databricks mengenkripsi ID ini untuk keamanan.
object Tali Jenis objek. Sama dengan "response".
created_at Integer Tanda waktu Unix (dalam detik) saat respons dibuat.
status Tali Status dari respons. Salah satu dari: completed, , failedin_progress, cancelled, queued, atau incomplete.
model Tali Versi model yang digunakan untuk menghasilkan respons.
output Daftar[ResponsesMessage] Output yang dihasilkan oleh model, biasanya berisi objek pesan.
usage Penggunaan Metadata penggunaan token.
error Error Informasi kesalahan jika respons gagal.
incomplete_details RincianTidakLengkap Detail tentang mengapa respons tidak lengkap, jika berlaku.
instructions Tali Instruksi yang diberikan dalam permintaan.
max_output_tokens Integer Token output maksimum yang ditentukan dalam permintaan.
temperature Mengapung Suhu yang digunakan untuk pembuatan.
top_p Mengapung Nilai top_p yang digunakan dalam proses pembuatan model.
tools Daftar[ToolObject] Alat yang ditentukan dalam permintaan.
tool_choice String atau ToolChoiceObject Pengaturan "tool_choice" dari permintaan.
parallel_tool_calls Boolean Apakah panggilan alat paralel diaktifkan.
store Boolean Apakah respons disimpan.
metadata Objek Metadata yang dilampirkan ke respons.

ResponsesMessage

Objek pesan dalam kolom output yang berisi konten respons model.

Lapangan Jenis Deskripsi
id Tali diperlukan . Pengidentifikasi unik untuk pesan.
role Tali diperlukan . Peran pesan dalam komunikasi. Entah "user" atau "assistant".
content Daftar[ResponsesContentBlock] diperlukan . Konten diblokir dalam pesan.
status Tali Status pemrosesan pesan.
type Tali diperlukan . Jenis objek. Sama dengan "message".

Error

Informasi kesalahan saat respons gagal.

Lapangan Jenis Deskripsi
code Tali diperlukan . Kode kesalahan.
message Tali diperlukan . Pesan kesalahan yang dapat dibaca manusia.
param Tali Parameter yang menyebabkan kesalahan, jika berlaku.
type Tali diperlukan . Jenis kesalahan.

IncompleteDetails

Detail tentang mengapa respons tidak lengkap.

Lapangan Jenis Deskripsi
reason Tali diperlukan . Alasan respons tidak lengkap.

API Penyelesaian Obrolan

API Penyelesaian Obrolan memungkinkan percakapan bergiliran banyak dengan model. Respons model menyediakan pesan assistant berikutnya dalam percakapan. Lihat POST /serving-endpoints/{name}/invocations untuk mengkueri parameter titik akhir.

Permintaan percakapan

Lapangan Bawaan Jenis Deskripsi
messages Daftar ChatMessage diperlukan . Daftar pesan yang mewakili percakapan saat ini.
max_tokens null null, yang berarti tidak ada batas, atau bilangan bulat yang lebih besar dari nol Jumlah maksimum token yang akan dihasilkan.
stream true Boolean Mengirimkan respons ke klien agar memungkinkan hasil parsial untuk permintaan. Jika parameter ini disertakan dalam permintaan, respons dikirim menggunakan Peristiwa yang dikirim server standar.
temperature 1.0 Mengapung di [0,2] Suhu pengambilan sampel. 0 adalah nilai deterministik dan lebih tinggi memperkenalkan lebih banyak keacakan.
top_p 1.0 Mengambang dalam (0,1] Ambang probabilitas yang digunakan untuk pengambilan sampel nukleus.
top_k null null, yang berarti tidak ada batas, atau bilangan bulat yang lebih besar dari nol Menentukan jumlah token k yang paling mungkin digunakan untuk pemfilteran k atas. Atur nilai ini ke 1 untuk membuat output deterministik.
stop [] String atau Daftar[String] Model berhenti menghasilkan token lebih lanjut ketika salah satu urutan dalam stop ditemui.
n 1 Bilangan bulat lebih besar dari nol API mengembalikan n penyelesaian obrolan independen saat n ditentukan. Direkomendasikan untuk beban kerja yang menghasilkan beberapa penyelesaian pada input yang sama untuk efisiensi inferensi tambahan dan penghematan biaya. Hanya tersedia untuk titik akhir dengan throughput yang telah ditentukan.
tool_choice none String atau ToolChoiceObject Hanya digunakan bersama dengan bidang tools. tool_choice mendukung berbagai string kata kunci seperti auto, required, dan none. auto berarti Anda membiarkan model memutuskan alat mana (jika ada) yang relevan untuk digunakan. Dengan auto jika model tidak percaya salah satu alat di tools relevan, model menghasilkan pesan asisten standar alih-alih panggilan alat. required berarti model memilih alat yang paling relevan dalam tools dan harus menghasilkan panggilan alat. none berarti bahwa model tidak menghasilkan panggilan alat apa pun dan sebaliknya harus menghasilkan pesan asisten standar. Untuk melakukan panggilan paksa alat dengan alat tertentu yang didefinisikan dalam tools, gunakan ToolChoiceObject. Secara default, jika bidang tools diisi tool_choice = "auto". Jika tidak, bidang tools diatur secara default ke tool_choice = "none"
tools null Objek Alat Daftar tools yang dapat dipanggil oleh model. Saat ini, function adalah satu-satunya jenis tool yang didukung dan maksimal 32 fungsi didukung.
response_format null ResponseFormatObject Objek yang menentukan format yang harus dihasilkan model. Jenis yang diterima text, json_schema, atau json_object
Pengaturan ke { "type": "json_schema", "json_schema": {...} } memungkinkan output terstruktur yang memastikan model mengikuti skema JSON yang Disediakan.
Pengaturan ke { "type": "json_object" } memastikan respons yang dihasilkan model adalah JSON yang valid, tetapi tidak memastikan bahwa respons mengikuti skema tertentu.
logprobs false Boolean Parameter ini menunjukkan apakah akan memberikan probabilitas log dari token yang sedang diambil sampelnya.
top_logprobs null Integer Parameter ini mengontrol jumlah kandidat token yang kemungkinan besar untuk mengembalikan probabilitas log untuk di setiap langkah pengambilan sampel. Dapat berkisar dari 0 hingga 20. logprobs harus true jika menggunakan bidang ini.
reasoning_effort "medium" Tali Mengontrol tingkat upaya penalaran yang harus diterapkan model saat menghasilkan respons. Nilai yang diterima adalah "low", "medium", atau "high". Upaya penalaran yang lebih tinggi dapat mengakibatkan respons yang lebih bijaksana dan akurat tetapi dapat meningkatkan latensi dan penggunaan token. Parameter ini hanya diterima oleh sekumpulan model terbatas, termasuk databricks-gpt-oss-120b dan databricks-gpt-oss-20b.

ChatMessage

Lapangan Jenis Deskripsi
role Tali diperlukan . Peran penulis pesan. Dapat "system", "user", "assistant", atau "tool".
content Tali Isi pesan. Diperlukan untuk tugas obrolan yang tidak melibatkan panggilan alat.
tool_calls daftar ToolCall Daftar tool_calls yang dihasilkan oleh model. Harus memiliki role sebagai "assistant" dan tidak ada spesifikasi untuk bidang content.
tool_call_id Tali Ketika role adalah "tool", maka ID yang terkait dengan ToolCall yang direspons oleh pesan tersebut. Harus kosong untuk opsi role lainnya.

Peran system hanya dapat digunakan sekali, sebagai pesan pertama dalam percakapan. Ini mengesampingkan prompt sistem bawaan model.

ToolCall

Saran tindakan panggilan alat oleh model. Lihat Pemanggilan Fungsi pada Azure Databricks.

Lapangan Jenis Deskripsi
id Tali diperlukan . Identifikasi unik untuk alat saran panggilan ini.
type Tali diperlukan . Hanya "function" yang didukung.
function PenyelesaianPanggilanFungsi diperlukan . Panggilan fungsi yang disarankan oleh model.
cache_control Tali Mengaktifkan penyimpanan cache untuk permintaan Anda. Parameter ini hanya diterima oleh model Claude yang dihosting Databricks. Lihat Penyimpanan sementara untuk contoh.

FunctionCallCompletion

Lapangan Jenis Deskripsi
name Tali Diperlukan. Nama fungsi yang direkomendasikan oleh model.
arguments Objek Diperlukan. Argumen ke fungsi sebagai kamus JSON berseri.

Catatan: ToolChoiceObject, ToolObject, dan FunctionObject didefinisikan di bagian API Respons dan dibagikan antara kedua API.

ResponseFormatObject

Lihat output terstruktur di Azure Databricks.

Lapangan Jenis Deskripsi
type Tali diperlukan . Jenis format respons yang ditentukan. Baik text untuk teks yang tidak terstruktur, json_object untuk objek JSON yang tidak terstruktur, atau json_schema untuk objek JSON yang mematuhi skema tertentu.
json_schema JsonSchemaObject diperlukan . Skema JSON yang harus dipatuhi jika type diatur ke json_schema

JsonSchemaObject

Lihat output terstruktur di Azure Databricks.

Lapangan Jenis Deskripsi
name Tali diperlukan . Nama format tanggapan.
description Tali Deskripsi tentang tujuan format respons, yang digunakan oleh model untuk menentukan cara merespons dalam format tersebut.
schema Objek diperlukan . Skema untuk format respons, dijelaskan sebagai objek skema JSON.
strict Boolean Apakah akan mengaktifkan kepatuhan skema yang ketat saat menghasilkan output. Jika diatur ke true, model mengikuti skema yang tepat yang ditentukan dalam bidang skema. Hanya sebagian skema JSON yang didukung ketika strict true

Respon percakapan

Untuk permintaan non-streaming, responsnya adalah objek penyelesaian chat tunggal. Untuk permintaan streaming, responsnya adalah text/event-stream di mana setiap peristiwa adalah objek gugus penyelesaian. Struktur penyelesaian dan potongan objek tingkat atas hampir identik: hanya choices yang memiliki jenis yang berbeda.

Lapangan Jenis Deskripsi
id Tali Pengidentifikasi unik untuk selesainya obrolan.
choices List[ChatCompletionChoice] atau List[ChatCompletionChunk] (streaming) Daftar teks penyelesaian obrolan. n pilihan dikembalikan jika parameter n ditentukan.
object Tali Jenis objek. Sama dengan "chat.completions" untuk non-streaming atau "chat.completion.chunk" untuk streaming.
created Integer Waktu penyelesaian obrolan dihasilkan dalam hitungan detik.
model Tali Versi model yang digunakan untuk menghasilkan respons.
usage Penggunaan Metadata penggunaan token. Mungkin tidak tersedia dalam respons streaming.

ChatCompletionChoice

Lapangan Jenis Deskripsi
index Integer Indeks pilihan dalam daftar pilihan yang dihasilkan.
message ChatMessage Pesan penyelesaian obrolan yang dikembalikan oleh model. Peran ini akan menjadi assistant.
finish_reason Tali Alasan model berhenti menghasilkan token.
extra_fields Tali Saat menggunakan model kepemilikan dari penyedia model eksternal, API penyedia mungkin menyertakan metadata tambahan sebagai respons. Databricks memfilter respons ini dan hanya mengembalikan subset bidang asli penyedia. safetyRating adalah satu-satunya bidang tambahan yang didukung saat ini, lihat dokumentasi Gemini untuk detail selengkapnya.

ChatCompletionChunk

Lapangan Jenis Deskripsi
index Integer Indeks pilihan dalam daftar pilihan yang dihasilkan.
delta ChatMessage Bagian pesan penyelesaian obrolan dari respons yang di-streaming dan dihasilkan oleh model. Hanya potongan pertama yang dijamin memiliki role terisi.
finish_reason Tali Alasan model berhenti menghasilkan token. Hanya potongan terakhir yang akan terisi dengan informasi.

Embeddings API

Tugas perendaman memetakan rangkaian input menjadi vektor perendaman. Banyak input dapat di-batch bersama-sama di setiap permintaan. Lihat POST /serving-endpoints/{name}/invocations untuk mengkueri parameter titik akhir.

Permintaan penyematan

Lapangan Jenis Deskripsi
input String atau Daftar[String] diperlukan . Teks input yang akan disematkan. Dapat berupa string atau daftar string.
instruction Tali Instruksi opsional untuk diberikan kepada model embedding.
dimensions Integer Optional. Jumlah dimensi yang harus dimiliki oleh embedding output yang dihasilkan. Harus menjadi kekuatan 2 mulai dari 32 hingga 1024. Dukungan hanya diberikan untuk databricks-qwen3-embedding-0-6b.

Instruksi bersifat opsional dan sangat spesifik untuk model. Misalnya, penulis BGE merekomendasikan tidak menggunakan instruksi saat mengindeks blok dan merekomendasikan penggunaan instruksi "Represent this sentence for searching relevant passages:" untuk kueri pengambilan. Penulis Qwen3-Embedding merekomendasikan instruksi khusus tugas seperti "Given a web search query, retrieve relevant passages that answer the query" untuk kueri pengambilan, dan tidak ada instruksi saat menyematkan dokumen pengambilan. Model lain seperti Instructor-XL mendukung berbagai string instruksi.

Tanggapan Embeddings

Lapangan Jenis Deskripsi
id Tali Pengidentifikasi unik untuk embedding.
object Tali Jenis objek. Sama dengan "list".
model Tali Nama model embedding yang digunakan untuk membuat embedding.
data EmbeddingObject Objek penyematan.
usage Penggunaan Metadata penggunaan token.

EmbeddingObject

Lapangan Jenis Deskripsi
object Tali Jenis objek. Sama dengan "embedding".
index Integer Indeks penyematan dalam daftar penyematan yang dihasilkan oleh model.
embedding Daftar[Float] Vektor penyematan. Setiap model akan mengembalikan vektor ukuran tetap (1024 untuk BGE-Large)

API Pelengkapan

Tugas penyelesaian teks adalah untuk menghasilkan respons ke satu perintah. Tidak seperti Obrolan, tugas ini mendukung input batch: beberapa perintah independen dapat dikirim dalam satu permintaan. Lihat POST /serving-endpoints/{name}/invocations untuk mengkueri parameter titik akhir.

Permintaan penyelesaian

Lapangan Bawaan Jenis Deskripsi
prompt String atau Daftar[String] diperlukan . Petunjuk untuk model.
max_tokens null null, yang berarti tidak ada batas, atau bilangan bulat yang lebih besar dari nol Jumlah maksimum token yang akan dihasilkan.
stream true Boolean Mengirimkan respons ke klien agar memungkinkan hasil parsial untuk permintaan. Jika parameter ini disertakan dalam permintaan, respons dikirim menggunakan Peristiwa yang dikirim server standar.
temperature 1.0 Mengapung di [0,2] Suhu pengambilan sampel. 0 adalah nilai deterministik dan lebih tinggi memperkenalkan lebih banyak keacakan.
top_p 1.0 Mengambang dalam (0,1] Ambang probabilitas yang digunakan untuk pengambilan sampel nukleus.
top_k null null, yang berarti tidak ada batas, atau bilangan bulat yang lebih besar dari nol Menentukan jumlah token k yang paling mungkin digunakan untuk pemfilteran k atas. Atur nilai ini ke 1 untuk membuat output deterministik.
error_behavior "error" "truncate" atau "error" Untuk batas waktu habis dan kesalahan melebihi panjang konteks. Salah satu dari: "truncate" (mengembalikan token sebanyak mungkin) dan "error" (mengembalikan kesalahan). Parameter ini hanya diterima dengan membayar per titik akhir token.
n 1 Bilangan bulat lebih besar dari nol API mengembalikan n penyelesaian obrolan independen saat n ditentukan. Direkomendasikan untuk beban kerja yang menghasilkan beberapa penyelesaian pada input yang sama untuk efisiensi inferensi tambahan dan penghematan biaya. Hanya tersedia untuk titik akhir dengan throughput yang telah ditentukan.
stop [] String atau Daftar[String] Model berhenti menghasilkan token lebih lanjut ketika salah satu urutan dalam stop ditemui.
suffix "" Tali Sebuah string yang ditambahkan pada akhir setiap penyelesaian.
echo false Boolean Mengembalikan prompt beserta hasil penyelesaiannya.
use_raw_prompt true untuk throughput yang disediakan, false untuk bayar per token Boolean Jika true, teruskan prompt langsung ke model tanpa transformasi apa pun. Mengatur default ke true pada titik akhir throughput yang dialokasikan dan false pada titik akhir bayar per token.

Tanggapan Penyelesaian

Lapangan Jenis Deskripsi
id Tali Identifikasi unik untuk penyelesaian teks.
choices CompletionChoice Daftar pelengkap teks. Untuk setiap permintaan yang diteruskan, pilihan n dihasilkan jika n ditentukan. Nilai default n adalah 1.
object Tali Jenis objek. Sama dengan "text_completion"
created Integer Waktu penyelesaian dihasilkan dalam hitungan detik.
usage Penggunaan Metadata penggunaan token.

CompletionChoice

Lapangan Jenis Deskripsi
index Integer Indeks dari petunjuk dalam permintaan.
text Tali Penyelesaian yang dihasilkan.
finish_reason Tali Alasan model berhenti menghasilkan token.

Sumber daya tambahan