Referensi API REST model dasar

Artikel ini menyediakan informasi API umum untuk API Model Databricks Foundation dan model yang mereka dukung. API Model Foundation dirancang agar mirip dengan REST API OpenAI untuk mempermudah migrasi proyek yang ada. Baik titik akhir bayar per token dan throughput yang disediakan menerima format permintaan REST API yang sama.

Titik Akhir

API Foundation Model mendukung titik akhir bayar per token dan titik akhir throughput terprovisi.

Titik akhir yang telah dikonfigurasi sebelumnya tersedia di ruang kerja Anda untuk setiap model yang didukung bayar per token, dan pengguna dapat berinteraksi dengan titik akhir ini menggunakan permintaan HTTP POST. Lihat Model fondasi yang didukung pada Mosaic AI Model Serving untuk model yang didukung.

Titik akhir throughput yang disediakan dapat dibuat menggunakan API atau antarmuka pengguna Serving. Titik akhir ini mendukung beberapa model per titik akhir untuk pengujian A/B, selama kedua model yang dilayani mengekspos format API yang sama. Misalnya, kedua model adalah model obrolan. Lihat POST /api/2.0/serving-endpoints untuk parameter konfigurasi titik akhir.

Permintaan dan respons menggunakan JSON, struktur JSON yang tepat tergantung pada jenis tugas titik akhir. Titik akhir obrolan dan penyelesaian mendukung respons streaming.

Penggunaan

Respons mencakup sub-pesan usage yang melaporkan jumlah token dalam permintaan dan respons. Format sub-pesan ini sama di semua jenis tugas.

Lapangan	Jenis	Deskripsi
`completion_tokens`	Integer	Jumlah token yang dihasilkan. Tidak termasuk dalam respons penggabungan.
`prompt_tokens`	Integer	Jumlah token dari prompt input.
`total_tokens`	Integer	Jumlah total token.
`reasoning_tokens`	Integer	Jumlah token pemikiran. Ini hanya berlaku untuk model penalaran.

Untuk model seperti databricks-meta-llama-3-3-70b-instruct permintaan pengguna diubah menggunakan templat perintah sebelum diteruskan ke model. Untuk titik akhir dengan skema bayar per token, prompt sistem mungkin juga ditambahkan. prompt_tokens menyertakan semua teks yang ditambahkan oleh server kami.

API Respons

Penting

API Respons hanya kompatibel dengan model OpenAI.

API Respons memungkinkan percakapan multi-giliran dengan model. Tidak seperti Penyelesaian Percakapan, API Respons menggunakan input sebagai pengganti messages.

Permintaan API respons

Lapangan	Bawaan	Jenis	Deskripsi
`model`		Tali	diperlukan . ID model yang digunakan untuk menghasilkan respons.
`input`		String atau List[ResponsesInput]	diperlukan . Input teks, gambar, atau file ke model, digunakan untuk menghasilkan respons. Tidak seperti `messages`, bidang ini menggunakan `input` untuk menentukan konten percakapan.
`instructions`	`null`	Tali	Pesan sistem (atau pengembang) dimasukkan ke dalam konteks model.
`max_output_tokens`	`null`	`null`, yang berarti tidak ada batas, atau bilangan bulat yang lebih besar dari nol	Batas maksimum untuk jumlah token yang dapat dihasilkan untuk respons, termasuk token keluaran yang terlihat dan token penalaran.
`temperature`	`1.0`	Mengapung di [0,2]	Suhu pengambilan sampel. 0 adalah nilai deterministik dan lebih tinggi memperkenalkan lebih banyak keacakan.
`top_p`	`1.0`	Mengambang dalam (0,1]	Ambang probabilitas yang digunakan untuk pengambilan sampel nukleus.
`stream`	`false`	Boolean	Jika diatur ke true, data respons model akan dialirkan ke klien saat sedang dihasilkan menggunakan peristiwa yang dikirim oleh server.
`stream_options`	`null`	StreamOptions	Opsi untuk respons streaming. Hanya atur ini saat Anda mengatur `stream: true`.
`text`	`null`	TextConfig	Opsi konfigurasi untuk respons teks dari model. Dapat berupa teks biasa atau data JSON terstruktur.
`reasoning`	`null`	ReasoningConfig	Konfigurasi penalaran untuk model gpt-5 dan o-series.
`tool_choice`	`"auto"`	String atau ToolChoiceObject	Bagaimana model harus memilih alat (atau alat) mana yang akan digunakan saat menghasilkan respons. `tools` Lihat parameter untuk melihat cara menentukan alat mana yang dapat dipanggil model.
`tools`	`null`	Daftar[ToolObject]	Sekumpulan alat yang dapat dipanggil model ketika menghasilkan respons. Catatan: Penerjemah kode dan alat pencarian web tidak didukung oleh Databricks.
`parallel_tool_calls`	`true`	Boolean	Apakah akan mengizinkan model menjalankan panggilan alat secara paralel.
`max_tool_calls`	`null`	Bilangan bulat lebih besar dari nol	Jumlah maksimum total panggilan ke alat bawaan yang dapat diproses dalam respons.
`metadata`	`null`	Objek	Satu set berisi 16 pasangan kunci-nilai yang dapat dilampirkan ke suatu objek.
`prompt_cache_key`	`null`	Tali	Digunakan untuk menyimpan respons untuk permintaan serupa untuk mengoptimalkan tingkat hit cache. Mengganti bidang `user`.
`prompt_cache_retention`	`null`	Tali	Kebijakan retensi untuk cache prompt. Atur ke `"24h"` untuk mengaktifkan caching prompt yang diperluas, yang membuat prompt yang dicache tetap aktif lebih lama, hingga maksimal 24 jam.
`safety_identifier`	`null`	Tali	Pengidentifikasi stabil yang digunakan untuk membantu mendeteksi pengguna aplikasi Anda yang mungkin melanggar kebijakan penggunaan.
`user`	`null`	Tali	tidak digunakan lagi. Gunakan `safety_identifier` dan `prompt_cache_key` sebagai gantinya.
`truncation`	`null`	Tali	Strategi pemotongan yang akan digunakan untuk respons model.
`top_logprobs`	`null`	Integer	Bilangan bulat antara 0 dan 20 yang menentukan jumlah token yang kemungkinan besar akan dikembalikan pada setiap posisi token, masing-masing dengan probabilitas log terkait.
`include`	`null`	Daftar[String]	Tentukan data output tambahan untuk disertakan dalam respons model.
`prompt`	`null`	Objek	Referensi ke template prompt dan variabel-variabelnya.

Parameter yang tidak didukung: Parameter berikut tidak didukung oleh Databricks dan akan mengembalikan kesalahan 400 jika ditentukan:

background - Pemrosesan latar belakang tidak didukung
store - Respons tersimpan tidak didukung
conversation - API Percakapan tidak didukung
service_tier - Pemilihan tingkat layanan dikelola oleh Databricks

`ResponsesInput`

Bidang input menerima string atau daftar objek pesan input dengan peran dan konten.

Lapangan	Jenis	Deskripsi
`role`	Tali	diperlukan . Peran penulis pesan. Bisa `"user"` atau `"assistant"`.
`content`	String atau List[ResponsesContentBlock]	diperlukan . Konten pesan, baik sebagai teks atau array blok konten.

`ResponsesContentBlock`

Blok konten menentukan jenis konten dalam pesan input dan output. Tipe blok isi ditentukan oleh type bidang .

`InputText`

Lapangan	Jenis	Deskripsi
`type`	Tali	diperlukan . Harus berupa `"input_text"` .
`text`	Tali	diperlukan . Isi teks.

`OutputText`

Lapangan	Jenis	Deskripsi
`type`	Tali	diperlukan . Harus berupa `"output_text"` .
`text`	Tali	diperlukan . Isi teks.
`annotations`	Daftar[Objek]	Anotasi opsional untuk konten teks.

`InputImage`

Lapangan	Jenis	Deskripsi
`type`	Tali	diperlukan . Harus berupa `"input_image"` .
`image_url`	Tali	diperlukan . URL atau URI data yang dikodekan base64 dari gambar.

`InputFile`

Lapangan	Jenis	Deskripsi
`type`	Tali	diperlukan . Harus berupa `"input_file"` .
`file_id`	Tali	Pengidentifikasi file jika menggunakan file yang diunggah.
`filename`	Tali	Nama berkas tersebut.
`file_data`	Tali	URI data yang dikodekan dalam Base64 dengan prefiks format. Misalnya, file PDF menggunakan format `data:application/pdf;base64,<base64 data>`.

`FunctionCall`

Lapangan	Jenis	Deskripsi
`type`	Tali	diperlukan . Harus berupa `"function_call"` .
`id`	Tali	diperlukan . Pengidentifikasi unik untuk panggilan fungsi.
`call_id`	Tali	diperlukan . Pengidentifikasi panggilan.
`name`	Tali	diperlukan . Nama fungsi yang dipanggil.
`arguments`	Objek/String	diperlukan . Argumen fungsi sebagai objek atau string JSON.

`FunctionCallOutput`

Lapangan	Jenis	Deskripsi
`type`	Tali	diperlukan . Harus berupa `"function_call_output"` .
`call_id`	Tali	diperlukan . Pengidentifikasi panggilan yang sesuai dengan output ini.
`output`	String/Objek	diperlukan . Output fungsi sebagai string atau objek JSON.

`CustomToolCall`

Dikembalikan dalam array respons output saat alat kustom dipanggil. Tidak seperti panggilan fungsi, panggilan alat kustom mengembalikan teks input biasa alih-alih JSON arguments.

Lapangan	Jenis	Deskripsi
`type`	Tali	diperlukan . Harus berupa `"custom_tool_call"` .
`id`	Tali	diperlukan . Pengidentifikasi unik untuk panggilan alat kustom ini.
`call_id`	Tali	diperlukan . Pengidentifikasi panggilan.
`name`	Tali	diperlukan . Nama perangkat kustom yang dipanggil.
`input`	Tali	diperlukan . Input alat sebagai teks polos (bukan JSON).
`status`	Tali	Status panggilan alat. Salah satu dari: `completed`, `in_progress`.

`CustomToolCallOutput`

Gunakan jenis input ini untuk memberikan hasil panggilan alat kustom kembali ke model dalam percakapan multi-giliran.

Lapangan	Jenis	Deskripsi
`type`	Tali	diperlukan . Harus berupa `"custom_tool_call_output"` .
`call_id`	Tali	diperlukan . Pengidentifikasi panggilan yang sesuai dengan output ini.
`output`	Tali	diperlukan . Hasil keluaran dari alat kustom sebagai string.

`StreamOptions`

Konfigurasi untuk respons streaming. Hanya digunakan ketika stream: true.

Lapangan	Jenis	Deskripsi
`include_usage`	Boolean	Jika true, sertakan informasi penggunaan token dalam aliran. Defaultnya adalah `false`.

`TextConfig`

Konfigurasi untuk output teks, termasuk output terstruktur.

Lapangan	Jenis	Deskripsi
`format`	ResponsesFormatObject	Spesifikasi format untuk output teks.

`ResponsesFormatObject`

Menentukan format output untuk respons teks.

Lapangan	Jenis	Deskripsi
`type`	Tali	diperlukan . Jenis format: `"text"` untuk teks biasa, `"json_object"` untuk JSON, atau `"json_schema"` untuk JSON terstruktur.
`json_schema`	Objek	Diperlukan ketika `type` adalah `"json_schema"`. Objek skema JSON yang menentukan struktur output.

Objek json_schema memiliki struktur yang sama dengan JsonSchemaObject yang didokumenkan dalam API Penyelesaian Obrolan.

`ReasoningConfig`

Konfigurasi untuk perilaku penalaran dalam model penalaran (model seri o dan gpt-5).

Lapangan	Jenis	Deskripsi
`effort`	Tali	Tingkat upaya penalaran: `"low"`, `"medium"`, atau `"high"`. Defaultnya adalah `"medium"`.
`encrypted_content`	Tali	Konten pemrosesan terenkripsi untuk mode stateless. Disediakan oleh model dalam respons sebelumnya.

`ToolObject`

Lihat Pemanggilan Fungsi pada Azure Databricks.

Nota

Api Respons mendukung jenis alat berikut: function, , custom, mcp, image_generationshell. Alat kustom dan format output berbasis tata bahasa hanya tersedia dengan model seri GPT-5 (gpt-5, gpt-5.1, gpt-5.2).

Lapangan	Jenis	Deskripsi
`type`	Tali	diperlukan . Jenis alat. Lihat catatan di atas untuk nilai yang didukung.
`function`	FunctionObject	Diperlukan saat `type` adalah `function`. Definisi fungsi yang terkait dengan alat.
`name`	Tali	Diperlukan saat `type` adalah `custom`. Nama alat kustom.
`description`	Tali	Diperlukan saat `type` adalah `custom`. Deskripsi tentang apa yang dilakukan alat kustom.
`format`	Format Kustom	Optional. Ketika `type` adalah `custom`, menentukan format output. Secara default menjadi `{"type": "text"}`. Juga dapat digunakan `{"type": "grammar", "definition": "<grammar>", "syntax": "lark"}` untuk output terstruktur. Hanya didukung dengan model seri GPT-5.

`CustomToolObject`

Alat kustom memungkinkan model mengembalikan output string arbitrer alih-alih argumen fungsi berformat JSON. Ini berguna untuk pembuatan kode, menerapkan patch, atau kasus penggunaan lainnya di mana JSON terstruktur tidak diperlukan.

Nota

Alat kustom hanya didukung dengan model seri GPT-5 (gpt-5, , gpt-5.1gpt-5.2) melalui API Respons.

Contoh alat kustom:

{
  "type": "custom",
  "name": "code_exec",
  "description": "Executes arbitrary Python code. Return only valid Python code."
}

Contoh alat kustom dengan tata bahasa:

{
  "type": "custom",
  "name": "apply_patch",
  "description": "Apply a patch to create or modify files.",
  "format": {
    "type": "grammar",
    "definition": "start: begin_patch hunk end_patch\nbegin_patch: \"*** Begin Patch\" LF\n...",
    "syntax": "lark"
  }
}

Saat alat kustom dipanggil, respons berisi custom_tool_call item output dengan teks biasa input alih-alih JSON arguments.

`CustomFormat`

Format output berbasis tata bahasa hanya didukung dengan model seri GPT-5.

Lapangan	Jenis	Deskripsi
`type`	Tali	diperlukan . Baik `"text"` untuk output teks biasa atau `"grammar"` untuk output yang dibatasi tata bahasa.
`definition`	Tali	Diperlukan saat `type` adalah `"grammar"`. String definisi tata bahasa menggunakan sintaks Lark.
`syntax`	Tali	Diperlukan saat `type` adalah `"grammar"`. Sintaks tata bahasa. Saat ini hanya `"lark"` yang didukung.

`FunctionObject`

Lapangan	Jenis	Deskripsi
`name`	Tali	diperlukan . Nama fungsi yang akan dipanggil.
`description`	Objek	diperlukan . Deskripsi terperinci tentang fungsi. Model ini menggunakan deskripsi ini untuk memahami relevansi fungsi dengan perintah dan menghasilkan panggilan alat dengan akurasi yang lebih tinggi.
`parameters`	Objek	Parameter yang diterima fungsi, dijelaskan sebagai objek skema JSON yang valid. Jika alat dipanggil, maka panggilan alat sesuai dengan skema JSON yang disediakan. Menghilangkan parameter mendefinisikan fungsi tanpa parameter apa pun. Jumlah `properties` dibatasi hingga 15 kunci.
`strict`	Boolean	Apakah akan mengaktifkan kepatuhan skema yang ketat saat menghasilkan panggilan fungsi. Jika diatur ke `true`, model mengikuti skema yang tepat yang ditentukan dalam bidang skema. Hanya sebagian skema JSON yang didukung ketika strict `true`

`ToolChoiceObject`

Lihat Pemanggilan Fungsi pada Azure Databricks.

Lapangan	Jenis	Deskripsi
`type`	Tali	diperlukan . Jenis alat yang akan dipaksa. Nilai yang didukung cocok dengan jenis alat di ToolObject: `"function"`, `"custom"`, dll.
`function`	Objek	Diperlukan saat `type` adalah `"function"`. Objek dengan bentuk `{"name": "my_function"}` di mana `"my_function"` adalah nama FunctionObject pada bidang `tools`.
`name`	Tali	Diperlukan saat `type` adalah `"custom"`. Nama alat kustom untuk diterapkan secara paksa. Hanya didukung dengan model seri GPT-5.

Respons API respons

Untuk permintaan non-streaming, responsnya adalah objek respons tunggal. Untuk permintaan streaming, respons adalah text/event-stream di mana setiap peristiwa adalah potongan respons.

Lapangan	Jenis	Deskripsi
`id`	Tali	Pengidentifikasi unik untuk respons. Catatan: Databricks mengenkripsi ID ini untuk keamanan.
`object`	Tali	Jenis objek. Sama dengan `"response"`.
`created_at`	Integer	Tanda waktu Unix (dalam detik) saat respons dibuat.
`status`	Tali	Status dari respons. Salah satu dari: `completed`, , `failedin_progress`, `cancelled`, `queued`, atau `incomplete`.
`model`	Tali	Versi model yang digunakan untuk menghasilkan respons.
`output`	Daftar[ResponsesMessage]	Output yang dihasilkan oleh model, biasanya berisi objek pesan.
`usage`	Penggunaan	Metadata penggunaan token.
`error`	Error	Informasi kesalahan jika respons gagal.
`incomplete_details`	RincianTidakLengkap	Detail tentang mengapa respons tidak lengkap, jika berlaku.
`instructions`	Tali	Instruksi yang diberikan dalam permintaan.
`max_output_tokens`	Integer	Token output maksimum yang ditentukan dalam permintaan.
`temperature`	Mengapung	Suhu yang digunakan untuk pembuatan.
`top_p`	Mengapung	Nilai top_p yang digunakan dalam proses pembuatan model.
`tools`	Daftar[ToolObject]	Alat yang ditentukan dalam permintaan.
`tool_choice`	String atau ToolChoiceObject	Pengaturan "tool_choice" dari permintaan.
`parallel_tool_calls`	Boolean	Apakah panggilan alat paralel diaktifkan.
`store`	Boolean	Apakah respons disimpan.
`metadata`	Objek	Metadata yang dilampirkan ke respons.

`ResponsesMessage`

Objek pesan dalam kolom output yang berisi konten respons model.

Lapangan	Jenis	Deskripsi
`id`	Tali	diperlukan . Pengidentifikasi unik untuk pesan.
`role`	Tali	diperlukan . Peran pesan dalam komunikasi. Entah `"user"` atau `"assistant"`.
`content`	Daftar[ResponsesContentBlock]	diperlukan . Konten diblokir dalam pesan.
`status`	Tali	Status pemrosesan pesan.
`type`	Tali	diperlukan . Jenis objek. Sama dengan `"message"`.

`Error`

Informasi kesalahan saat respons gagal.

Lapangan	Jenis	Deskripsi
`code`	Tali	diperlukan . Kode kesalahan.
`message`	Tali	diperlukan . Pesan kesalahan yang dapat dibaca manusia.
`param`	Tali	Parameter yang menyebabkan kesalahan, jika berlaku.
`type`	Tali	diperlukan . Jenis kesalahan.

`IncompleteDetails`

Detail tentang mengapa respons tidak lengkap.

Lapangan	Jenis	Deskripsi
`reason`	Tali	diperlukan . Alasan respons tidak lengkap.

API Penyelesaian Obrolan

API Penyelesaian Obrolan memungkinkan percakapan bergiliran banyak dengan model. Respons model menyediakan pesan assistant berikutnya dalam percakapan. Lihat POST /serving-endpoints/{name}/invocations untuk mengkueri parameter titik akhir.

Permintaan percakapan

Lapangan	Bawaan	Jenis	Deskripsi
`messages`		Daftar ChatMessage	diperlukan . Daftar pesan yang mewakili percakapan saat ini.
`max_tokens`	`null`	`null`, yang berarti tidak ada batas, atau bilangan bulat yang lebih besar dari nol	Jumlah maksimum token yang akan dihasilkan.
`stream`	`true`	Boolean	Mengirimkan respons ke klien agar memungkinkan hasil parsial untuk permintaan. Jika parameter ini disertakan dalam permintaan, respons dikirim menggunakan Peristiwa yang dikirim server standar.
`temperature`	`1.0`	Mengapung di [0,2]	Suhu pengambilan sampel. 0 adalah nilai deterministik dan lebih tinggi memperkenalkan lebih banyak keacakan.
`top_p`	`1.0`	Mengambang dalam (0,1]	Ambang probabilitas yang digunakan untuk pengambilan sampel nukleus.
`top_k`	`null`	`null`, yang berarti tidak ada batas, atau bilangan bulat yang lebih besar dari nol	Menentukan jumlah token k yang paling mungkin digunakan untuk pemfilteran k atas. Atur nilai ini ke 1 untuk membuat output deterministik.
`stop`	[]	String atau Daftar[String]	Model berhenti menghasilkan token lebih lanjut ketika salah satu urutan dalam `stop` ditemui.
`n`	1	Bilangan bulat lebih besar dari nol	API mengembalikan `n` penyelesaian obrolan independen saat `n` ditentukan. Direkomendasikan untuk beban kerja yang menghasilkan beberapa penyelesaian pada input yang sama untuk efisiensi inferensi tambahan dan penghematan biaya. Hanya tersedia untuk titik akhir dengan throughput yang telah ditentukan.
`tool_choice`	`none`	String atau ToolChoiceObject	Hanya digunakan bersama dengan bidang `tools`. `tool_choice` mendukung berbagai string kata kunci seperti `auto`, `required`, dan `none`. `auto` berarti Anda membiarkan model memutuskan alat mana (jika ada) yang relevan untuk digunakan. Dengan `auto` jika model tidak percaya salah satu alat di `tools` relevan, model menghasilkan pesan asisten standar alih-alih panggilan alat. `required` berarti model memilih alat yang paling relevan dalam `tools` dan harus menghasilkan panggilan alat. `none` berarti bahwa model tidak menghasilkan panggilan alat apa pun dan sebaliknya harus menghasilkan pesan asisten standar. Untuk melakukan panggilan paksa alat dengan alat tertentu yang didefinisikan dalam `tools`, gunakan `ToolChoiceObject`. Secara default, jika bidang `tools` diisi `tool_choice = "auto"`. Jika tidak, bidang `tools` diatur secara default ke `tool_choice = "none"`
`tools`	`null`	Objek Alat	Daftar `tools` yang dapat dipanggil oleh model. Saat ini, `function` adalah satu-satunya jenis `tool` yang didukung dan maksimal 32 fungsi didukung.
`response_format`	`null`	ResponseFormatObject	Objek yang menentukan format yang harus dihasilkan model. Jenis yang diterima `text`, `json_schema`, atau `json_object` Pengaturan ke `{ "type": "json_schema", "json_schema": {...} }` memungkinkan output terstruktur yang memastikan model mengikuti skema JSON yang Disediakan. Pengaturan ke `{ "type": "json_object" }` memastikan respons yang dihasilkan model adalah JSON yang valid, tetapi tidak memastikan bahwa respons mengikuti skema tertentu.
`logprobs`	`false`	Boolean	Parameter ini menunjukkan apakah akan memberikan probabilitas log dari token yang sedang diambil sampelnya.
`top_logprobs`	`null`	Integer	Parameter ini mengontrol jumlah kandidat token yang kemungkinan besar untuk mengembalikan probabilitas log untuk di setiap langkah pengambilan sampel. Dapat berkisar dari 0 hingga 20. `logprobs` harus `true` jika menggunakan bidang ini.
`reasoning_effort`	`"medium"`	Tali	Mengontrol tingkat upaya penalaran yang harus diterapkan model saat menghasilkan respons. Nilai yang diterima adalah `"low"`, `"medium"`, atau `"high"`. Upaya penalaran yang lebih tinggi dapat mengakibatkan respons yang lebih bijaksana dan akurat tetapi dapat meningkatkan latensi dan penggunaan token. Parameter ini hanya diterima oleh sekumpulan model terbatas, termasuk `databricks-gpt-oss-120b` dan `databricks-gpt-oss-20b`.

`ChatMessage`

Lapangan	Jenis	Deskripsi
`role`	Tali	diperlukan . Peran penulis pesan. Dapat `"system"`, `"user"`, `"assistant"`, atau `"tool"`.
`content`	Tali	Isi pesan. Diperlukan untuk tugas obrolan yang tidak melibatkan panggilan alat.
`tool_calls`	daftar ToolCall	Daftar `tool_calls` yang dihasilkan oleh model. Harus memiliki `role` sebagai `"assistant"` dan tidak ada spesifikasi untuk bidang `content`.
`tool_call_id`	Tali	Ketika `role` adalah `"tool"`, maka ID yang terkait dengan `ToolCall` yang direspons oleh pesan tersebut. Harus kosong untuk opsi `role` lainnya.

Peran system hanya dapat digunakan sekali, sebagai pesan pertama dalam percakapan. Ini mengesampingkan prompt sistem bawaan model.

`ToolCall`

Saran tindakan panggilan alat oleh model. Lihat Pemanggilan Fungsi pada Azure Databricks.

Lapangan	Jenis	Deskripsi
`id`	Tali	diperlukan . Identifikasi unik untuk alat saran panggilan ini.
`type`	Tali	diperlukan . Hanya `"function"` yang didukung.
`function`	PenyelesaianPanggilanFungsi	diperlukan . Panggilan fungsi yang disarankan oleh model.
`cache_control`	Tali	Mengaktifkan penyimpanan cache untuk permintaan Anda. Parameter ini hanya diterima oleh model Claude yang dihosting Databricks. Lihat Penyimpanan sementara untuk contoh.

`FunctionCallCompletion`

Lapangan	Jenis	Deskripsi
`name`	Tali	Diperlukan. Nama fungsi yang direkomendasikan oleh model.
`arguments`	Objek	Diperlukan. Argumen ke fungsi sebagai kamus JSON berseri.

Catatan: ToolChoiceObject, ToolObject, dan FunctionObject didefinisikan di bagian API Respons dan dibagikan antara kedua API.

`ResponseFormatObject`

Lihat output terstruktur di Azure Databricks.

Lapangan	Jenis	Deskripsi
`type`	Tali	diperlukan . Jenis format respons yang ditentukan. Baik `text` untuk teks yang tidak terstruktur, `json_object` untuk objek JSON yang tidak terstruktur, atau `json_schema` untuk objek JSON yang mematuhi skema tertentu.
`json_schema`	JsonSchemaObject	diperlukan . Skema JSON yang harus dipatuhi jika `type` diatur ke `json_schema`

`JsonSchemaObject`

Lihat output terstruktur di Azure Databricks.

Lapangan	Jenis	Deskripsi
`name`	Tali	diperlukan . Nama format tanggapan.
`description`	Tali	Deskripsi tentang tujuan format respons, yang digunakan oleh model untuk menentukan cara merespons dalam format tersebut.
`schema`	Objek	diperlukan . Skema untuk format respons, dijelaskan sebagai objek skema JSON.
`strict`	Boolean	Apakah akan mengaktifkan kepatuhan skema yang ketat saat menghasilkan output. Jika diatur ke `true`, model mengikuti skema yang tepat yang ditentukan dalam bidang skema. Hanya sebagian skema JSON yang didukung ketika strict `true`

Respon percakapan

Untuk permintaan non-streaming, responsnya adalah objek penyelesaian chat tunggal. Untuk permintaan streaming, responsnya adalah text/event-stream di mana setiap peristiwa adalah objek gugus penyelesaian. Struktur penyelesaian dan potongan objek tingkat atas hampir identik: hanya choices yang memiliki jenis yang berbeda.

Lapangan	Jenis	Deskripsi
`id`	Tali	Pengidentifikasi unik untuk selesainya obrolan.
`choices`	List[ChatCompletionChoice] atau List[ChatCompletionChunk] (streaming)	Daftar teks penyelesaian obrolan. `n` pilihan dikembalikan jika parameter `n` ditentukan.
`object`	Tali	Jenis objek. Sama dengan `"chat.completions"` untuk non-streaming atau `"chat.completion.chunk"` untuk streaming.
`created`	Integer	Waktu penyelesaian obrolan dihasilkan dalam hitungan detik.
`model`	Tali	Versi model yang digunakan untuk menghasilkan respons.
`usage`	Penggunaan	Metadata penggunaan token. Mungkin tidak tersedia dalam respons streaming.

`ChatCompletionChoice`

Lapangan	Jenis	Deskripsi
`index`	Integer	Indeks pilihan dalam daftar pilihan yang dihasilkan.
`message`	ChatMessage	Pesan penyelesaian obrolan yang dikembalikan oleh model. Peran ini akan menjadi `assistant`.
`finish_reason`	Tali	Alasan model berhenti menghasilkan token.
`extra_fields`	Tali	Saat menggunakan model kepemilikan dari penyedia model eksternal, API penyedia mungkin menyertakan metadata tambahan sebagai respons. Databricks memfilter respons ini dan hanya mengembalikan subset bidang asli penyedia. `safetyRating` adalah satu-satunya bidang tambahan yang didukung saat ini, lihat dokumentasi Gemini untuk detail selengkapnya.

`ChatCompletionChunk`

Lapangan	Jenis	Deskripsi
`index`	Integer	Indeks pilihan dalam daftar pilihan yang dihasilkan.
`delta`	ChatMessage	Bagian pesan penyelesaian obrolan dari respons yang di-streaming dan dihasilkan oleh model. Hanya potongan pertama yang dijamin memiliki `role` terisi.
`finish_reason`	Tali	Alasan model berhenti menghasilkan token. Hanya potongan terakhir yang akan terisi dengan informasi.

Embeddings API

Tugas perendaman memetakan rangkaian input menjadi vektor perendaman. Banyak input dapat di-batch bersama-sama di setiap permintaan. Lihat POST /serving-endpoints/{name}/invocations untuk mengkueri parameter titik akhir.

Permintaan penyematan

Lapangan	Jenis	Deskripsi
`input`	String atau Daftar[String]	diperlukan . Teks input yang akan disematkan. Dapat berupa string atau daftar string.
`instruction`	Tali	Instruksi opsional untuk diberikan kepada model embedding.
`dimensions`	Integer	Optional. Jumlah dimensi yang harus dimiliki oleh embedding output yang dihasilkan. Harus menjadi kekuatan 2 mulai dari 32 hingga 1024. Dukungan hanya diberikan untuk `databricks-qwen3-embedding-0-6b`.

Instruksi bersifat opsional dan sangat spesifik untuk model. Misalnya, penulis BGE merekomendasikan tidak menggunakan instruksi saat mengindeks blok dan merekomendasikan penggunaan instruksi "Represent this sentence for searching relevant passages:" untuk kueri pengambilan. Penulis Qwen3-Embedding merekomendasikan instruksi khusus tugas seperti "Given a web search query, retrieve relevant passages that answer the query" untuk kueri pengambilan, dan tidak ada instruksi saat menyematkan dokumen pengambilan. Model lain seperti Instructor-XL mendukung berbagai string instruksi.

Tanggapan Embeddings

Lapangan	Jenis	Deskripsi
`id`	Tali	Pengidentifikasi unik untuk embedding.
`object`	Tali	Jenis objek. Sama dengan `"list"`.
`model`	Tali	Nama model embedding yang digunakan untuk membuat embedding.
`data`	EmbeddingObject	Objek penyematan.
`usage`	Penggunaan	Metadata penggunaan token.

`EmbeddingObject`

Lapangan	Jenis	Deskripsi
`object`	Tali	Jenis objek. Sama dengan `"embedding"`.
`index`	Integer	Indeks penyematan dalam daftar penyematan yang dihasilkan oleh model.
`embedding`	Daftar[Float]	Vektor penyematan. Setiap model akan mengembalikan vektor ukuran tetap (1024 untuk BGE-Large)

API Pelengkapan

Tugas penyelesaian teks adalah untuk menghasilkan respons ke satu perintah. Tidak seperti Obrolan, tugas ini mendukung input batch: beberapa perintah independen dapat dikirim dalam satu permintaan. Lihat POST /serving-endpoints/{name}/invocations untuk mengkueri parameter titik akhir.

Permintaan penyelesaian

Lapangan	Bawaan	Jenis	Deskripsi
`prompt`		String atau Daftar[String]	diperlukan . Petunjuk untuk model.
`max_tokens`	`null`	`null`, yang berarti tidak ada batas, atau bilangan bulat yang lebih besar dari nol	Jumlah maksimum token yang akan dihasilkan.
`stream`	`true`	Boolean	Mengirimkan respons ke klien agar memungkinkan hasil parsial untuk permintaan. Jika parameter ini disertakan dalam permintaan, respons dikirim menggunakan Peristiwa yang dikirim server standar.
`temperature`	`1.0`	Mengapung di [0,2]	Suhu pengambilan sampel. 0 adalah nilai deterministik dan lebih tinggi memperkenalkan lebih banyak keacakan.
`top_p`	`1.0`	Mengambang dalam (0,1]	Ambang probabilitas yang digunakan untuk pengambilan sampel nukleus.
`top_k`	`null`	`null`, yang berarti tidak ada batas, atau bilangan bulat yang lebih besar dari nol	Menentukan jumlah token k yang paling mungkin digunakan untuk pemfilteran k atas. Atur nilai ini ke 1 untuk membuat output deterministik.
`error_behavior`	`"error"`	`"truncate"` atau `"error"`	Untuk batas waktu habis dan kesalahan melebihi panjang konteks. Salah satu dari: `"truncate"` (mengembalikan token sebanyak mungkin) dan `"error"` (mengembalikan kesalahan). Parameter ini hanya diterima dengan membayar per titik akhir token.
`n`	1	Bilangan bulat lebih besar dari nol	API mengembalikan `n` penyelesaian obrolan independen saat `n` ditentukan. Direkomendasikan untuk beban kerja yang menghasilkan beberapa penyelesaian pada input yang sama untuk efisiensi inferensi tambahan dan penghematan biaya. Hanya tersedia untuk titik akhir dengan throughput yang telah ditentukan.
`stop`	[]	String atau Daftar[String]	Model berhenti menghasilkan token lebih lanjut ketika salah satu urutan dalam `stop` ditemui.
`suffix`	`""`	Tali	Sebuah string yang ditambahkan pada akhir setiap penyelesaian.
`echo`	`false`	Boolean	Mengembalikan prompt beserta hasil penyelesaiannya.
`use_raw_prompt`	`true` untuk throughput yang disediakan, `false` untuk bayar per token	Boolean	Jika `true`, teruskan `prompt` langsung ke model tanpa transformasi apa pun. Mengatur default ke `true` pada titik akhir throughput yang dialokasikan dan `false` pada titik akhir bayar per token.

Tanggapan Penyelesaian

Lapangan	Jenis	Deskripsi
`id`	Tali	Identifikasi unik untuk penyelesaian teks.
`choices`	CompletionChoice	Daftar pelengkap teks. Untuk setiap permintaan yang diteruskan, pilihan `n` dihasilkan jika `n` ditentukan. Nilai default `n` adalah 1.
`object`	Tali	Jenis objek. Sama dengan `"text_completion"`
`created`	Integer	Waktu penyelesaian dihasilkan dalam hitungan detik.
`usage`	Penggunaan	Metadata penggunaan token.

`CompletionChoice`

Lapangan	Jenis	Deskripsi
`index`	Integer	Indeks dari petunjuk dalam permintaan.
`text`	Tali	Penyelesaian yang dihasilkan.
`finish_reason`	Tali	Alasan model berhenti menghasilkan token.

Sumber daya tambahan

Model fondasi yang dihosting Databricks tersedia di API Model Foundation

Saran dan Komentar

Apakah halaman ini membantu?

Last updated on 2026-04-23

Referensi API REST model dasar

Titik Akhir

Penggunaan

API Respons

Permintaan API respons

ResponsesInput

ResponsesContentBlock

InputText

OutputText

InputImage

InputFile

FunctionCall

FunctionCallOutput

CustomToolCall

CustomToolCallOutput

StreamOptions

TextConfig

ResponsesFormatObject

ReasoningConfig

ToolObject

CustomToolObject

CustomFormat

FunctionObject

ToolChoiceObject