Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Artikel ini menyediakan informasi API umum untuk API Model Databricks Foundation dan model yang mereka dukung. API Model Foundation dirancang agar mirip dengan REST API OpenAI untuk mempermudah migrasi proyek yang ada. Baik titik akhir bayar per token dan throughput yang disediakan menerima format permintaan REST API yang sama.
Titik Akhir
API Foundation Model mendukung titik akhir bayar per token dan titik akhir throughput terprovisi.
Titik akhir yang telah dikonfigurasi sebelumnya tersedia di ruang kerja Anda untuk setiap model yang didukung bayar per token, dan pengguna dapat berinteraksi dengan titik akhir ini menggunakan permintaan HTTP POST. Lihat Model fondasi yang didukung pada Mosaic AI Model Serving untuk model yang didukung.
Titik akhir throughput yang disediakan dapat dibuat menggunakan API atau antarmuka pengguna Serving. Titik akhir ini mendukung beberapa model per titik akhir untuk pengujian A/B, selama kedua model yang dilayani mengekspos format API yang sama. Misalnya, kedua model adalah model obrolan. Lihat POST /api/2.0/serving-endpoints untuk parameter konfigurasi titik akhir.
Permintaan dan respons menggunakan JSON, struktur JSON yang tepat tergantung pada jenis tugas titik akhir. Titik akhir obrolan dan penyelesaian mendukung respons streaming.
Penggunaan
Respons mencakup sub-pesan usage yang melaporkan jumlah token dalam permintaan dan respons. Format sub-pesan ini sama di semua jenis tugas.
| Lapangan | Jenis | Deskripsi |
|---|---|---|
completion_tokens |
Integer | Jumlah token yang dihasilkan. Tidak termasuk dalam respons penggabungan. |
prompt_tokens |
Integer | Jumlah token dari prompt input. |
total_tokens |
Integer | Jumlah total token. |
reasoning_tokens |
Integer | Jumlah token pemikiran. Ini hanya berlaku untuk model penalaran. |
Untuk model seperti databricks-meta-llama-3-3-70b-instruct permintaan pengguna diubah menggunakan templat perintah sebelum diteruskan ke model. Untuk titik akhir dengan skema bayar per token, prompt sistem mungkin juga ditambahkan.
prompt_tokens menyertakan semua teks yang ditambahkan oleh server kami.
API Respons
Penting
API Respons hanya kompatibel dengan model OpenAI.
API Respons memungkinkan percakapan multi-giliran dengan model. Tidak seperti Penyelesaian Percakapan, API Respons menggunakan input sebagai pengganti messages.
Permintaan API respons
| Lapangan | Bawaan | Jenis | Deskripsi |
|---|---|---|---|
model |
Tali | diperlukan . ID model yang digunakan untuk menghasilkan respons. | |
input |
String atau List[ResponsesInput] |
diperlukan . Input teks, gambar, atau file ke model, digunakan untuk menghasilkan respons. Tidak seperti messages, bidang ini menggunakan input untuk menentukan konten percakapan. |
|
instructions |
null |
Tali | Pesan sistem (atau pengembang) dimasukkan ke dalam konteks model. |
max_output_tokens |
null |
null, yang berarti tidak ada batas, atau bilangan bulat yang lebih besar dari nol |
Batas maksimum untuk jumlah token yang dapat dihasilkan untuk respons, termasuk token keluaran yang terlihat dan token penalaran. |
temperature |
1.0 |
Mengapung di [0,2] | Suhu pengambilan sampel. 0 adalah nilai deterministik dan lebih tinggi memperkenalkan lebih banyak keacakan. |
top_p |
1.0 |
Mengambang dalam (0,1] | Ambang probabilitas yang digunakan untuk pengambilan sampel nukleus. |
stream |
false |
Boolean | Jika diatur ke true, data respons model akan dialirkan ke klien saat sedang dihasilkan menggunakan peristiwa yang dikirim oleh server. |
stream_options |
null |
StreamOptions | Opsi untuk respons streaming. Hanya atur ini saat Anda mengatur stream: true. |
text |
null |
TextConfig | Opsi konfigurasi untuk respons teks dari model. Dapat berupa teks biasa atau data JSON terstruktur. |
reasoning |
null |
ReasoningConfig | Konfigurasi penalaran untuk model gpt-5 dan o-series. |
tool_choice |
"auto" |
String atau ToolChoiceObject | Bagaimana model harus memilih alat (atau alat) mana yang akan digunakan saat menghasilkan respons.
tools Lihat parameter untuk melihat cara menentukan alat mana yang dapat dipanggil model. |
tools |
null |
Daftar[ToolObject] | Sekumpulan alat yang dapat dipanggil model ketika menghasilkan respons. Catatan: Penerjemah kode dan alat pencarian web tidak didukung oleh Databricks. |
parallel_tool_calls |
true |
Boolean | Apakah akan mengizinkan model menjalankan panggilan alat secara paralel. |
max_tool_calls |
null |
Bilangan bulat lebih besar dari nol | Jumlah maksimum total panggilan ke alat bawaan yang dapat diproses dalam respons. |
metadata |
null |
Objek | Satu set berisi 16 pasangan kunci-nilai yang dapat dilampirkan ke suatu objek. |
prompt_cache_key |
null |
Tali | Digunakan untuk menyimpan respons untuk permintaan serupa untuk mengoptimalkan tingkat hit cache. Mengganti bidang user. |
prompt_cache_retention |
null |
Tali | Kebijakan retensi untuk cache prompt. Atur ke "24h" untuk mengaktifkan caching prompt yang diperluas, yang membuat prompt yang dicache tetap aktif lebih lama, hingga maksimal 24 jam. |
safety_identifier |
null |
Tali | Pengidentifikasi stabil yang digunakan untuk membantu mendeteksi pengguna aplikasi Anda yang mungkin melanggar kebijakan penggunaan. |
user |
null |
Tali |
tidak digunakan lagi. Gunakan safety_identifier dan prompt_cache_key sebagai gantinya. |
truncation |
null |
Tali | Strategi pemotongan yang akan digunakan untuk respons model. |
top_logprobs |
null |
Integer | Bilangan bulat antara 0 dan 20 yang menentukan jumlah token yang kemungkinan besar akan dikembalikan pada setiap posisi token, masing-masing dengan probabilitas log terkait. |
include |
null |
Daftar[String] | Tentukan data output tambahan untuk disertakan dalam respons model. |
prompt |
null |
Objek | Referensi ke template prompt dan variabel-variabelnya. |
Parameter yang tidak didukung: Parameter berikut tidak didukung oleh Databricks dan akan mengembalikan kesalahan 400 jika ditentukan:
-
background- Pemrosesan latar belakang tidak didukung -
store- Respons tersimpan tidak didukung -
conversation- API Percakapan tidak didukung -
service_tier- Pemilihan tingkat layanan dikelola oleh Databricks
ResponsesInput
Bidang input menerima string atau daftar objek pesan input dengan peran dan konten.
| Lapangan | Jenis | Deskripsi |
|---|---|---|
role |
Tali |
diperlukan . Peran penulis pesan. Bisa "user" atau "assistant". |
content |
String atau List[ResponsesContentBlock] | diperlukan . Konten pesan, baik sebagai teks atau array blok konten. |
ResponsesContentBlock
Blok konten menentukan jenis konten dalam pesan input dan output. Tipe blok isi ditentukan oleh type bidang .
InputText
| Lapangan | Jenis | Deskripsi |
|---|---|---|
type |
Tali |
diperlukan . Harus berupa "input_text" . |
text |
Tali | diperlukan . Isi teks. |
OutputText
| Lapangan | Jenis | Deskripsi |
|---|---|---|
type |
Tali |
diperlukan . Harus berupa "output_text" . |
text |
Tali | diperlukan . Isi teks. |
annotations |
Daftar[Objek] | Anotasi opsional untuk konten teks. |
InputImage
| Lapangan | Jenis | Deskripsi |
|---|---|---|
type |
Tali |
diperlukan . Harus berupa "input_image" . |
image_url |
Tali | diperlukan . URL atau URI data yang dikodekan base64 dari gambar. |
InputFile
| Lapangan | Jenis | Deskripsi |
|---|---|---|
type |
Tali |
diperlukan . Harus berupa "input_file" . |
file_id |
Tali | Pengidentifikasi file jika menggunakan file yang diunggah. |
filename |
Tali | Nama berkas tersebut. |
file_data |
Tali | URI data yang dikodekan dalam Base64 dengan prefiks format. Misalnya, file PDF menggunakan format data:application/pdf;base64,<base64 data>. |
FunctionCall
| Lapangan | Jenis | Deskripsi |
|---|---|---|
type |
Tali |
diperlukan . Harus berupa "function_call" . |
id |
Tali | diperlukan . Pengidentifikasi unik untuk panggilan fungsi. |
call_id |
Tali | diperlukan . Pengidentifikasi panggilan. |
name |
Tali | diperlukan . Nama fungsi yang dipanggil. |
arguments |
Objek/String | diperlukan . Argumen fungsi sebagai objek atau string JSON. |
FunctionCallOutput
| Lapangan | Jenis | Deskripsi |
|---|---|---|
type |
Tali |
diperlukan . Harus berupa "function_call_output" . |
call_id |
Tali | diperlukan . Pengidentifikasi panggilan yang sesuai dengan output ini. |
output |
String/Objek | diperlukan . Output fungsi sebagai string atau objek JSON. |
CustomToolCall
Dikembalikan dalam array respons output saat alat kustom dipanggil. Tidak seperti panggilan fungsi, panggilan alat kustom mengembalikan teks input biasa alih-alih JSON arguments.
| Lapangan | Jenis | Deskripsi |
|---|---|---|
type |
Tali |
diperlukan . Harus berupa "custom_tool_call" . |
id |
Tali | diperlukan . Pengidentifikasi unik untuk panggilan alat kustom ini. |
call_id |
Tali | diperlukan . Pengidentifikasi panggilan. |
name |
Tali | diperlukan . Nama perangkat kustom yang dipanggil. |
input |
Tali | diperlukan . Input alat sebagai teks polos (bukan JSON). |
status |
Tali | Status panggilan alat. Salah satu dari: completed, in_progress. |
CustomToolCallOutput
Gunakan jenis input ini untuk memberikan hasil panggilan alat kustom kembali ke model dalam percakapan multi-giliran.
| Lapangan | Jenis | Deskripsi |
|---|---|---|
type |
Tali |
diperlukan . Harus berupa "custom_tool_call_output" . |
call_id |
Tali | diperlukan . Pengidentifikasi panggilan yang sesuai dengan output ini. |
output |
Tali | diperlukan . Hasil keluaran dari alat kustom sebagai string. |
StreamOptions
Konfigurasi untuk respons streaming. Hanya digunakan ketika stream: true.
| Lapangan | Jenis | Deskripsi |
|---|---|---|
include_usage |
Boolean | Jika true, sertakan informasi penggunaan token dalam aliran. Defaultnya adalah false. |
TextConfig
Konfigurasi untuk output teks, termasuk output terstruktur.
| Lapangan | Jenis | Deskripsi |
|---|---|---|
format |
ResponsesFormatObject | Spesifikasi format untuk output teks. |
ResponsesFormatObject
Menentukan format output untuk respons teks.
| Lapangan | Jenis | Deskripsi |
|---|---|---|
type |
Tali |
diperlukan . Jenis format: "text" untuk teks biasa, "json_object" untuk JSON, atau "json_schema" untuk JSON terstruktur. |
json_schema |
Objek |
Diperlukan ketika type adalah "json_schema". Objek skema JSON yang menentukan struktur output. |
Objek json_schema memiliki struktur yang sama dengan JsonSchemaObject yang didokumenkan dalam API Penyelesaian Obrolan.
ReasoningConfig
Konfigurasi untuk perilaku penalaran dalam model penalaran (model seri o dan gpt-5).
| Lapangan | Jenis | Deskripsi |
|---|---|---|
effort |
Tali | Tingkat upaya penalaran: "low", "medium", atau "high". Defaultnya adalah "medium". |
encrypted_content |
Tali | Konten pemrosesan terenkripsi untuk mode stateless. Disediakan oleh model dalam respons sebelumnya. |
ToolObject
Lihat Pemanggilan Fungsi pada Azure Databricks.
Nota
Api Respons mendukung jenis alat berikut: function, , custom, mcp, image_generationshell. Alat kustom dan format output berbasis tata bahasa hanya tersedia dengan model seri GPT-5 (gpt-5, gpt-5.1, gpt-5.2).
| Lapangan | Jenis | Deskripsi |
|---|---|---|
type |
Tali | diperlukan . Jenis alat. Lihat catatan di atas untuk nilai yang didukung. |
function |
FunctionObject | Diperlukan saat type adalah function. Definisi fungsi yang terkait dengan alat. |
name |
Tali | Diperlukan saat type adalah custom. Nama alat kustom. |
description |
Tali | Diperlukan saat type adalah custom. Deskripsi tentang apa yang dilakukan alat kustom. |
format |
Format Kustom | Optional. Ketika type adalah custom, menentukan format output. Secara default menjadi {"type": "text"}. Juga dapat digunakan {"type": "grammar", "definition": "<grammar>", "syntax": "lark"} untuk output terstruktur. Hanya didukung dengan model seri GPT-5. |
CustomToolObject
Alat kustom memungkinkan model mengembalikan output string arbitrer alih-alih argumen fungsi berformat JSON. Ini berguna untuk pembuatan kode, menerapkan patch, atau kasus penggunaan lainnya di mana JSON terstruktur tidak diperlukan.
Nota
Alat kustom hanya didukung dengan model seri GPT-5 (gpt-5, , gpt-5.1gpt-5.2) melalui API Respons.
Contoh alat kustom:
{
"type": "custom",
"name": "code_exec",
"description": "Executes arbitrary Python code. Return only valid Python code."
}
Contoh alat kustom dengan tata bahasa:
{
"type": "custom",
"name": "apply_patch",
"description": "Apply a patch to create or modify files.",
"format": {
"type": "grammar",
"definition": "start: begin_patch hunk end_patch\nbegin_patch: \"*** Begin Patch\" LF\n...",
"syntax": "lark"
}
}
Saat alat kustom dipanggil, respons berisi custom_tool_call item output dengan teks biasa input alih-alih JSON arguments.
CustomFormat
Format output berbasis tata bahasa hanya didukung dengan model seri GPT-5.
| Lapangan | Jenis | Deskripsi |
|---|---|---|
type |
Tali |
diperlukan . Baik "text" untuk output teks biasa atau "grammar" untuk output yang dibatasi tata bahasa. |
definition |
Tali | Diperlukan saat type adalah "grammar". String definisi tata bahasa menggunakan sintaks Lark. |
syntax |
Tali | Diperlukan saat type adalah "grammar". Sintaks tata bahasa. Saat ini hanya "lark" yang didukung. |
FunctionObject
| Lapangan | Jenis | Deskripsi |
|---|---|---|
name |
Tali | diperlukan . Nama fungsi yang akan dipanggil. |
description |
Objek | diperlukan . Deskripsi terperinci tentang fungsi. Model ini menggunakan deskripsi ini untuk memahami relevansi fungsi dengan perintah dan menghasilkan panggilan alat dengan akurasi yang lebih tinggi. |
parameters |
Objek | Parameter yang diterima fungsi, dijelaskan sebagai objek skema JSON yang valid. Jika alat dipanggil, maka panggilan alat sesuai dengan skema JSON yang disediakan. Menghilangkan parameter mendefinisikan fungsi tanpa parameter apa pun. Jumlah properties dibatasi hingga 15 kunci. |
strict |
Boolean | Apakah akan mengaktifkan kepatuhan skema yang ketat saat menghasilkan panggilan fungsi. Jika diatur ke true, model mengikuti skema yang tepat yang ditentukan dalam bidang skema. Hanya sebagian skema JSON yang didukung ketika strict true |
ToolChoiceObject
Lihat Pemanggilan Fungsi pada Azure Databricks.
| Lapangan | Jenis | Deskripsi |
|---|---|---|
type |
Tali |
diperlukan . Jenis alat yang akan dipaksa. Nilai yang didukung cocok dengan jenis alat di ToolObject: "function", "custom", dll. |
function |
Objek | Diperlukan saat type adalah "function". Objek dengan bentuk {"name": "my_function"} di mana "my_function" adalah nama FunctionObject pada bidang tools. |
name |
Tali | Diperlukan saat type adalah "custom". Nama alat kustom untuk diterapkan secara paksa. Hanya didukung dengan model seri GPT-5. |
Respons API respons
Untuk permintaan non-streaming, responsnya adalah objek respons tunggal. Untuk permintaan streaming, respons adalah text/event-stream di mana setiap peristiwa adalah potongan respons.
| Lapangan | Jenis | Deskripsi |
|---|---|---|
id |
Tali | Pengidentifikasi unik untuk respons. Catatan: Databricks mengenkripsi ID ini untuk keamanan. |
object |
Tali | Jenis objek. Sama dengan "response". |
created_at |
Integer | Tanda waktu Unix (dalam detik) saat respons dibuat. |
status |
Tali | Status dari respons. Salah satu dari: completed, , failedin_progress, cancelled, queued, atau incomplete. |
model |
Tali | Versi model yang digunakan untuk menghasilkan respons. |
output |
Daftar[ResponsesMessage] | Output yang dihasilkan oleh model, biasanya berisi objek pesan. |
usage |
Penggunaan | Metadata penggunaan token. |
error |
Error | Informasi kesalahan jika respons gagal. |
incomplete_details |
RincianTidakLengkap | Detail tentang mengapa respons tidak lengkap, jika berlaku. |
instructions |
Tali | Instruksi yang diberikan dalam permintaan. |
max_output_tokens |
Integer | Token output maksimum yang ditentukan dalam permintaan. |
temperature |
Mengapung | Suhu yang digunakan untuk pembuatan. |
top_p |
Mengapung | Nilai top_p yang digunakan dalam proses pembuatan model. |
tools |
Daftar[ToolObject] | Alat yang ditentukan dalam permintaan. |
tool_choice |
String atau ToolChoiceObject | Pengaturan "tool_choice" dari permintaan. |
parallel_tool_calls |
Boolean | Apakah panggilan alat paralel diaktifkan. |
store |
Boolean | Apakah respons disimpan. |
metadata |
Objek | Metadata yang dilampirkan ke respons. |
ResponsesMessage
Objek pesan dalam kolom output yang berisi konten respons model.
| Lapangan | Jenis | Deskripsi |
|---|---|---|
id |
Tali | diperlukan . Pengidentifikasi unik untuk pesan. |
role |
Tali |
diperlukan . Peran pesan dalam komunikasi. Entah "user" atau "assistant". |
content |
Daftar[ResponsesContentBlock] | diperlukan . Konten diblokir dalam pesan. |
status |
Tali | Status pemrosesan pesan. |
type |
Tali |
diperlukan . Jenis objek. Sama dengan "message". |
Error
Informasi kesalahan saat respons gagal.
| Lapangan | Jenis | Deskripsi |
|---|---|---|
code |
Tali | diperlukan . Kode kesalahan. |
message |
Tali | diperlukan . Pesan kesalahan yang dapat dibaca manusia. |
param |
Tali | Parameter yang menyebabkan kesalahan, jika berlaku. |
type |
Tali | diperlukan . Jenis kesalahan. |
IncompleteDetails
Detail tentang mengapa respons tidak lengkap.
| Lapangan | Jenis | Deskripsi |
|---|---|---|
reason |
Tali | diperlukan . Alasan respons tidak lengkap. |
API Penyelesaian Obrolan
API Penyelesaian Obrolan memungkinkan percakapan bergiliran banyak dengan model. Respons model menyediakan pesan assistant berikutnya dalam percakapan. Lihat POST /serving-endpoints/{name}/invocations untuk mengkueri parameter titik akhir.
Permintaan percakapan
| Lapangan | Bawaan | Jenis | Deskripsi |
|---|---|---|---|
messages |
Daftar ChatMessage | diperlukan . Daftar pesan yang mewakili percakapan saat ini. | |
max_tokens |
null |
null, yang berarti tidak ada batas, atau bilangan bulat yang lebih besar dari nol |
Jumlah maksimum token yang akan dihasilkan. |
stream |
true |
Boolean | Mengirimkan respons ke klien agar memungkinkan hasil parsial untuk permintaan. Jika parameter ini disertakan dalam permintaan, respons dikirim menggunakan Peristiwa yang dikirim server standar. |
temperature |
1.0 |
Mengapung di [0,2] | Suhu pengambilan sampel. 0 adalah nilai deterministik dan lebih tinggi memperkenalkan lebih banyak keacakan. |
top_p |
1.0 |
Mengambang dalam (0,1] | Ambang probabilitas yang digunakan untuk pengambilan sampel nukleus. |
top_k |
null |
null, yang berarti tidak ada batas, atau bilangan bulat yang lebih besar dari nol |
Menentukan jumlah token k yang paling mungkin digunakan untuk pemfilteran k atas. Atur nilai ini ke 1 untuk membuat output deterministik. |
stop |
[] | String atau Daftar[String] | Model berhenti menghasilkan token lebih lanjut ketika salah satu urutan dalam stop ditemui. |
n |
1 | Bilangan bulat lebih besar dari nol | API mengembalikan n penyelesaian obrolan independen saat n ditentukan. Direkomendasikan untuk beban kerja yang menghasilkan beberapa penyelesaian pada input yang sama untuk efisiensi inferensi tambahan dan penghematan biaya. Hanya tersedia untuk titik akhir dengan throughput yang telah ditentukan. |
tool_choice |
none |
String atau ToolChoiceObject | Hanya digunakan bersama dengan bidang tools.
tool_choice mendukung berbagai string kata kunci seperti auto, required, dan none.
auto berarti Anda membiarkan model memutuskan alat mana (jika ada) yang relevan untuk digunakan. Dengan auto jika model tidak percaya salah satu alat di tools relevan, model menghasilkan pesan asisten standar alih-alih panggilan alat.
required berarti model memilih alat yang paling relevan dalam tools dan harus menghasilkan panggilan alat.
none berarti bahwa model tidak menghasilkan panggilan alat apa pun dan sebaliknya harus menghasilkan pesan asisten standar. Untuk melakukan panggilan paksa alat dengan alat tertentu yang didefinisikan dalam tools, gunakan ToolChoiceObject. Secara default, jika bidang tools diisi tool_choice = "auto". Jika tidak, bidang tools diatur secara default ke tool_choice = "none" |
tools |
null |
Objek Alat | Daftar tools yang dapat dipanggil oleh model. Saat ini, function adalah satu-satunya jenis tool yang didukung dan maksimal 32 fungsi didukung. |
response_format |
null |
ResponseFormatObject | Objek yang menentukan format yang harus dihasilkan model. Jenis yang diterima text, json_schema, atau json_objectPengaturan ke { "type": "json_schema", "json_schema": {...} } memungkinkan output terstruktur yang memastikan model mengikuti skema JSON yang Disediakan.Pengaturan ke { "type": "json_object" } memastikan respons yang dihasilkan model adalah JSON yang valid, tetapi tidak memastikan bahwa respons mengikuti skema tertentu. |
logprobs |
false |
Boolean | Parameter ini menunjukkan apakah akan memberikan probabilitas log dari token yang sedang diambil sampelnya. |
top_logprobs |
null |
Integer | Parameter ini mengontrol jumlah kandidat token yang kemungkinan besar untuk mengembalikan probabilitas log untuk di setiap langkah pengambilan sampel. Dapat berkisar dari 0 hingga 20.
logprobs harus true jika menggunakan bidang ini. |
reasoning_effort |
"medium" |
Tali | Mengontrol tingkat upaya penalaran yang harus diterapkan model saat menghasilkan respons. Nilai yang diterima adalah "low", "medium", atau "high". Upaya penalaran yang lebih tinggi dapat mengakibatkan respons yang lebih bijaksana dan akurat tetapi dapat meningkatkan latensi dan penggunaan token. Parameter ini hanya diterima oleh sekumpulan model terbatas, termasuk databricks-gpt-oss-120b dan databricks-gpt-oss-20b. |
ChatMessage
| Lapangan | Jenis | Deskripsi |
|---|---|---|
role |
Tali |
diperlukan . Peran penulis pesan. Dapat "system", "user", "assistant", atau "tool". |
content |
Tali | Isi pesan. Diperlukan untuk tugas obrolan yang tidak melibatkan panggilan alat. |
tool_calls |
daftar ToolCall | Daftar tool_calls yang dihasilkan oleh model. Harus memiliki role sebagai "assistant" dan tidak ada spesifikasi untuk bidang content. |
tool_call_id |
Tali | Ketika role adalah "tool", maka ID yang terkait dengan ToolCall yang direspons oleh pesan tersebut. Harus kosong untuk opsi role lainnya. |
Peran system hanya dapat digunakan sekali, sebagai pesan pertama dalam percakapan. Ini mengesampingkan prompt sistem bawaan model.
ToolCall
Saran tindakan panggilan alat oleh model. Lihat Pemanggilan Fungsi pada Azure Databricks.
| Lapangan | Jenis | Deskripsi |
|---|---|---|
id |
Tali | diperlukan . Identifikasi unik untuk alat saran panggilan ini. |
type |
Tali |
diperlukan . Hanya "function" yang didukung. |
function |
|
diperlukan . Panggilan fungsi yang disarankan oleh model. |
cache_control |
Tali | Mengaktifkan penyimpanan cache untuk permintaan Anda. Parameter ini hanya diterima oleh model Claude yang dihosting Databricks. Lihat Penyimpanan sementara untuk contoh. |
FunctionCallCompletion
| Lapangan | Jenis | Deskripsi |
|---|---|---|
name |
Tali | Diperlukan. Nama fungsi yang direkomendasikan oleh model. |
arguments |
Objek | Diperlukan. Argumen ke fungsi sebagai kamus JSON berseri. |
Catatan: ToolChoiceObject, ToolObject, dan FunctionObject didefinisikan di bagian API Respons dan dibagikan antara kedua API.
ResponseFormatObject
Lihat output terstruktur di Azure Databricks.
| Lapangan | Jenis | Deskripsi |
|---|---|---|
type |
Tali |
diperlukan . Jenis format respons yang ditentukan. Baik text untuk teks yang tidak terstruktur, json_object untuk objek JSON yang tidak terstruktur, atau json_schema untuk objek JSON yang mematuhi skema tertentu. |
json_schema |
JsonSchemaObject |
diperlukan . Skema JSON yang harus dipatuhi jika type diatur ke json_schema |
JsonSchemaObject
Lihat output terstruktur di Azure Databricks.
| Lapangan | Jenis | Deskripsi |
|---|---|---|
name |
Tali | diperlukan . Nama format tanggapan. |
description |
Tali | Deskripsi tentang tujuan format respons, yang digunakan oleh model untuk menentukan cara merespons dalam format tersebut. |
schema |
Objek | diperlukan . Skema untuk format respons, dijelaskan sebagai objek skema JSON. |
strict |
Boolean | Apakah akan mengaktifkan kepatuhan skema yang ketat saat menghasilkan output. Jika diatur ke true, model mengikuti skema yang tepat yang ditentukan dalam bidang skema. Hanya sebagian skema JSON yang didukung ketika strict true |
Respon percakapan
Untuk permintaan non-streaming, responsnya adalah objek penyelesaian chat tunggal. Untuk permintaan streaming, responsnya adalah text/event-stream di mana setiap peristiwa adalah objek gugus penyelesaian. Struktur penyelesaian dan potongan objek tingkat atas hampir identik: hanya choices yang memiliki jenis yang berbeda.
| Lapangan | Jenis | Deskripsi |
|---|---|---|
id |
Tali | Pengidentifikasi unik untuk selesainya obrolan. |
choices |
List[ChatCompletionChoice] atau List[ChatCompletionChunk] (streaming) | Daftar teks penyelesaian obrolan.
n pilihan dikembalikan jika parameter n ditentukan. |
object |
Tali | Jenis objek. Sama dengan "chat.completions" untuk non-streaming atau "chat.completion.chunk" untuk streaming. |
created |
Integer | Waktu penyelesaian obrolan dihasilkan dalam hitungan detik. |
model |
Tali | Versi model yang digunakan untuk menghasilkan respons. |
usage |
Penggunaan | Metadata penggunaan token. Mungkin tidak tersedia dalam respons streaming. |
ChatCompletionChoice
| Lapangan | Jenis | Deskripsi |
|---|---|---|
index |
Integer | Indeks pilihan dalam daftar pilihan yang dihasilkan. |
message |
ChatMessage | Pesan penyelesaian obrolan yang dikembalikan oleh model. Peran ini akan menjadi assistant. |
finish_reason |
Tali | Alasan model berhenti menghasilkan token. |
extra_fields |
Tali | Saat menggunakan model kepemilikan dari penyedia model eksternal, API penyedia mungkin menyertakan metadata tambahan sebagai respons. Databricks memfilter respons ini dan hanya mengembalikan subset bidang asli penyedia.
safetyRating adalah satu-satunya bidang tambahan yang didukung saat ini, lihat dokumentasi Gemini untuk detail selengkapnya. |
ChatCompletionChunk
| Lapangan | Jenis | Deskripsi |
|---|---|---|
index |
Integer | Indeks pilihan dalam daftar pilihan yang dihasilkan. |
delta |
ChatMessage | Bagian pesan penyelesaian obrolan dari respons yang di-streaming dan dihasilkan oleh model. Hanya potongan pertama yang dijamin memiliki role terisi. |
finish_reason |
Tali | Alasan model berhenti menghasilkan token. Hanya potongan terakhir yang akan terisi dengan informasi. |
Embeddings API
Tugas perendaman memetakan rangkaian input menjadi vektor perendaman. Banyak input dapat di-batch bersama-sama di setiap permintaan. Lihat POST /serving-endpoints/{name}/invocations untuk mengkueri parameter titik akhir.
Permintaan penyematan
| Lapangan | Jenis | Deskripsi |
|---|---|---|
input |
String atau Daftar[String] | diperlukan . Teks input yang akan disematkan. Dapat berupa string atau daftar string. |
instruction |
Tali | Instruksi opsional untuk diberikan kepada model embedding. |
dimensions |
Integer | Optional. Jumlah dimensi yang harus dimiliki oleh embedding output yang dihasilkan. Harus menjadi kekuatan 2 mulai dari 32 hingga 1024. Dukungan hanya diberikan untuk databricks-qwen3-embedding-0-6b. |
Instruksi bersifat opsional dan sangat spesifik untuk model. Misalnya, penulis BGE merekomendasikan tidak menggunakan instruksi saat mengindeks blok dan merekomendasikan penggunaan instruksi "Represent this sentence for searching relevant passages:" untuk kueri pengambilan. Penulis Qwen3-Embedding merekomendasikan instruksi khusus tugas seperti "Given a web search query, retrieve relevant passages that answer the query" untuk kueri pengambilan, dan tidak ada instruksi saat menyematkan dokumen pengambilan. Model lain seperti Instructor-XL mendukung berbagai string instruksi.
Tanggapan Embeddings
| Lapangan | Jenis | Deskripsi |
|---|---|---|
id |
Tali | Pengidentifikasi unik untuk embedding. |
object |
Tali | Jenis objek. Sama dengan "list". |
model |
Tali | Nama model embedding yang digunakan untuk membuat embedding. |
data |
EmbeddingObject | Objek penyematan. |
usage |
Penggunaan | Metadata penggunaan token. |
EmbeddingObject
| Lapangan | Jenis | Deskripsi |
|---|---|---|
object |
Tali | Jenis objek. Sama dengan "embedding". |
index |
Integer | Indeks penyematan dalam daftar penyematan yang dihasilkan oleh model. |
embedding |
Daftar[Float] | Vektor penyematan. Setiap model akan mengembalikan vektor ukuran tetap (1024 untuk BGE-Large) |
API Pelengkapan
Tugas penyelesaian teks adalah untuk menghasilkan respons ke satu perintah. Tidak seperti Obrolan, tugas ini mendukung input batch: beberapa perintah independen dapat dikirim dalam satu permintaan. Lihat POST /serving-endpoints/{name}/invocations untuk mengkueri parameter titik akhir.
Permintaan penyelesaian
| Lapangan | Bawaan | Jenis | Deskripsi |
|---|---|---|---|
prompt |
String atau Daftar[String] | diperlukan . Petunjuk untuk model. | |
max_tokens |
null |
null, yang berarti tidak ada batas, atau bilangan bulat yang lebih besar dari nol |
Jumlah maksimum token yang akan dihasilkan. |
stream |
true |
Boolean | Mengirimkan respons ke klien agar memungkinkan hasil parsial untuk permintaan. Jika parameter ini disertakan dalam permintaan, respons dikirim menggunakan Peristiwa yang dikirim server standar. |
temperature |
1.0 |
Mengapung di [0,2] | Suhu pengambilan sampel. 0 adalah nilai deterministik dan lebih tinggi memperkenalkan lebih banyak keacakan. |
top_p |
1.0 |
Mengambang dalam (0,1] | Ambang probabilitas yang digunakan untuk pengambilan sampel nukleus. |
top_k |
null |
null, yang berarti tidak ada batas, atau bilangan bulat yang lebih besar dari nol |
Menentukan jumlah token k yang paling mungkin digunakan untuk pemfilteran k atas. Atur nilai ini ke 1 untuk membuat output deterministik. |
error_behavior |
"error" |
"truncate" atau "error" |
Untuk batas waktu habis dan kesalahan melebihi panjang konteks. Salah satu dari: "truncate" (mengembalikan token sebanyak mungkin) dan "error" (mengembalikan kesalahan). Parameter ini hanya diterima dengan membayar per titik akhir token. |
n |
1 | Bilangan bulat lebih besar dari nol | API mengembalikan n penyelesaian obrolan independen saat n ditentukan. Direkomendasikan untuk beban kerja yang menghasilkan beberapa penyelesaian pada input yang sama untuk efisiensi inferensi tambahan dan penghematan biaya. Hanya tersedia untuk titik akhir dengan throughput yang telah ditentukan. |
stop |
[] | String atau Daftar[String] | Model berhenti menghasilkan token lebih lanjut ketika salah satu urutan dalam stop ditemui. |
suffix |
"" |
Tali | Sebuah string yang ditambahkan pada akhir setiap penyelesaian. |
echo |
false |
Boolean | Mengembalikan prompt beserta hasil penyelesaiannya. |
use_raw_prompt |
true untuk throughput yang disediakan, false untuk bayar per token |
Boolean | Jika true, teruskan prompt langsung ke model tanpa transformasi apa pun. Mengatur default ke true pada titik akhir throughput yang dialokasikan dan false pada titik akhir bayar per token. |
Tanggapan Penyelesaian
| Lapangan | Jenis | Deskripsi |
|---|---|---|
id |
Tali | Identifikasi unik untuk penyelesaian teks. |
choices |
CompletionChoice | Daftar pelengkap teks. Untuk setiap permintaan yang diteruskan, pilihan n dihasilkan jika n ditentukan. Nilai default n adalah 1. |
object |
Tali | Jenis objek. Sama dengan "text_completion" |
created |
Integer | Waktu penyelesaian dihasilkan dalam hitungan detik. |
usage |
Penggunaan | Metadata penggunaan token. |
CompletionChoice
| Lapangan | Jenis | Deskripsi |
|---|---|---|
index |
Integer | Indeks dari petunjuk dalam permintaan. |
text |
Tali | Penyelesaian yang dihasilkan. |
finish_reason |
Tali | Alasan model berhenti menghasilkan token. |