Model fondasi yang dihosting Databricks tersedia di API Model Foundation

Artikel ini menjelaskan model terbuka canggih yang didukung oleh API Model Databricks Foundation.

Nota

Lihat Model fondasi yang didukung pada Mosaic AI Model Serving untuk ketersediaan wilayah model ini dan area fitur yang didukung.

Anda dapat mengirim permintaan kueri ke model ini menggunakan titik akhir bayar per token yang tersedia di ruang kerja Databricks Anda. Lihat Gunakan model fondasi dan tabel model dengan dukungan bayar per token untuk melihat nama titik akhir model yang dapat digunakan.

Selain mendukung model dalam mode bayar per token, API Model Foundation juga menawarkan mode throughput yang disediakan. Databricks merekomendasikan penggunaan throughput terprovisi untuk beban kerja produksi. Mode ini mendukung semua model dalam keluarga arsitektur model, termasuk model yang disempurnakan dan model yang dilatih khusus sebelumnya yang didukung dalam mode bayar per token. Lihat API Model Dasar dengan Kecepatan Penyediaan untuk daftar arsitektur yang didukung.

Anda dapat berinteraksi dengan model-model yang didukung ini menggunakan AI Playground .

Google Gemini 3.1 Flash Lite

Penting

Lihat Ketentuan model yang berlaku untuk Gemini 3.1 Flash Lite.

Model ini dihosting pada titik akhir global dan mengharuskan perutean geografi silang diaktifkan.

Nama titik akhir: databricks-gemini-3-1-flash-lite

Gemini 3.1 Flash Lite adalah model tercepat dan paling hemat biaya dalam seri Gemini 3, dikembangkan dan dilatih oleh Google. Dibangun untuk kecerdasan dalam skala besar, model mendukung input multimodal dengan kemampuan gambar, panggilan fungsi, dan output terstruktur. Gemini 3.1 Flash Lite dioptimalkan untuk penyebaran throughput tinggi dan hemat biaya. Pelajari lebih lanjut tentang Gemini 3.1 Flash Lite.

Seperti halnya model bahasa besar lainnya, output Gemini 3.1 Flash Lite mungkin menghilangkan beberapa fakta dan kadang-kadang menghasilkan informasi palsu. Databricks merekomendasikan penggunaan retrieval augmented generation (RAG) dalam skenario di mana akurasi sangat penting.

Titik akhir ini dihosting oleh Databricks dalam perimeter keamanan Databricks.

Alibaba Cloud Qwen3-Embedding-0.6B

Penting

Model Qwen3-Embedding-0.6B saat ini tersedia dalam Pratinjau Publik.

Nama titik akhir: databricks-qwen3-embedding-0-6b

Qwen3-Embedding-0.6B adalah model penyematan teks ringkas dengan parameter ~600M, yang dirancang untuk tugas semantik seperti pengambilan, pencarian kesamaan, pengklusteran, dan klasifikasi. Ini mengodekan teks menjadi vektor padat yang mewakili arti daripada bentuk permukaan.

Model ini mendukung 100+ bahasa (termasuk kode) dan menangani konteks panjang hingga token ~32K, sehingga cocok untuk menyematkan dokumen panjang. Ini menghasilkan penyematan dengan dimensi yang dapat dikonfigurasi hingga 1024 dan mampu mengenali instruksi, memungkinkan penyesuaian sesuai tugas menggunakan perintah.

Dibangun di atas encoder transformer dan disempurnakan khusus untuk generasi penyematan, Qwen3-Embedding-0.6B menyeimbangkan kualitas penyematan dengan inferensi yang efisien.

Model embedding sangat efektif ketika digunakan bersama dengan LLM untuk kasus penggunaan retrieval augmented generation (RAG). Qwen3-Embedding-0.6B dapat digunakan untuk menemukan cuplikan teks yang relevan dalam potongan besar dokumen yang dapat digunakan dalam konteks LLM.

Instruksi Alibaba Cloud Qwen3-Next 80B A3B

Penting

Model Instruksi A3B Qwen3-Next 80B berada di Pratinjau Umum dan hanya tersedia di wilayah tersebut eastus2 .

Lihat Kelola pratinjau Azure Databricks untuk panduan tentang cara mengaktifkan model ini.

Nama titik akhir: databricks-qwen3-next-80b-a3b-instruct

Qwen3-Next-80B-A3B-Instruct adalah model bahasa besar yang sangat efisien yang dioptimalkan untuk tugas-tugas berikut instruksi yang dibangun dan dilatih oleh Alibaba Cloud. Model ini dirancang untuk menangani konteks ultra-panjang dan unggul dalam alur kerja multi-langkah, pembuatan yang diperkuat dengan pengambilan, serta aplikasi bisnis yang memerlukan output deterministik dengan throughput tinggi.

Seperti halnya model bahasa besar lainnya, keluaran Qwen3-Next 80B A3B Instruct mungkin mengabaikan beberapa fakta dan kadang-kadang menghasilkan informasi yang salah. Databricks merekomendasikan penggunaan retrieval augmented generation (RAG) dalam skenario di mana akurasi sangat penting.

OpenAI GPT OSS 120B

Nama titik akhir: databricks-gpt-oss-120b

GPT OSS 120B adalah model penalaran canggih dengan rantai pemikiran dan tingkat upaya penalaran yang dapat disesuaikan yang dibangun dan dilatih oleh OpenAI. Ini adalah model open-weight unggulan OpenAI dan memiliki jendela konteks token 128K. Model ini dibangun untuk tugas penalaran berkualitas tinggi.

Seperti halnya model bahasa besar lainnya, output GPT OSS 120B dapat menghilangkan beberapa fakta dan kadang-kadang menghasilkan informasi palsu. Databricks merekomendasikan penggunaan retrieval augmented generation (RAG) dalam skenario di mana akurasi sangat penting.

OpenAI GPT OSS 20B

Nama titik akhir: databricks-gpt-oss-20b

GPT OSS 20B adalah model penalaran canggih dan ringan yang dibangun dan dilatih oleh OpenAI. Model ini memiliki jendela konteks sebesar 128K token dan unggul dalam tugas pendamping real-time dan inferensi batch.

Seperti halnya model bahasa besar lainnya, output GPT OSS 20B dapat menghilangkan beberapa fakta dan kadang-kadang menghasilkan informasi palsu. Databricks merekomendasikan penggunaan retrieval augmented generation (RAG) dalam skenario di mana akurasi sangat penting.

Google Gemma 3 12B

Penting

Lihat Ketentuan model yang berlaku untuk persyaratan Gemma 3 dan Kebijakan Penggunaan yang Dapat Diterima.

Nama titik akhir: databricks-gemma-3-12b

Gemma 3 12B adalah model multimodal dan bahasa visi dengan 12 miliar parameter yang dikembangkan oleh Google sebagai bagian dari seri Gemma 3. Gemma 3 memiliki konteks token hingga 128K dan menyediakan dukungan multibahasa untuk lebih dari 140 bahasa. Model ini dirancang untuk menangani input teks dan gambar dan menghasilkan output teks, dan dioptimalkan untuk kasus penggunaan dialog, pembuatan teks, dan tugas pemahaman gambar, termasuk jawaban atas pertanyaan.

Seperti halnya model bahasa besar lainnya, output Gemma 3 dapat menghilangkan beberapa fakta dan kadang-kadang menghasilkan informasi palsu. Databricks merekomendasikan penggunaan retrieval augmented generation (RAG) dalam skenario di mana akurasi sangat penting.

Meta Llama 4 Maverick

Penting

Lihat Ketentuan model yang berlaku untuk Lisensi Komunitas Llama 4 dan Kebijakan Penggunaan yang Dapat Diterima.

Nama titik akhir: databricks-llama-4-maverick

Llama 4 Maverick adalah model bahasa besar canggih yang dibangun dan dilatih oleh Meta. Ini adalah yang pertama dari keluarga model Llama yang menggunakan campuran arsitektur ahli untuk efisiensi komputasi. Llama 4 Maverick mendukung beberapa bahasa dan dioptimalkan untuk kasus penggunaan pemahaman gambar dan teks yang tepat. Saat ini, dukungan Databricks terhadap Llama 4 Maverick terbatas pada kasus penggunaan pemahaman teks. Pelajari lebih lanjut tentang Llama 4 Maverick.

Seperti halnya model bahasa besar lainnya, output Llama 4 dapat menghilangkan beberapa fakta dan kadang-kadang menghasilkan informasi palsu. Databricks merekomendasikan penggunaan retrieval augmented generation (RAG) dalam skenario di mana akurasi sangat penting.

Instruksi Meta Llama 3.3 70B

Penting

Mulai 11 Desember 2024, Meta-Llama-3.3-70B-Instruct menggantikan dukungan untuk Meta-Llama-3.1-70B-Instruct pada titik akhir bayar per token dari API Model Foundation.

Lihat Ketentuan model yang berlaku untuk Lisensi Komunitas LLama 3.3 dan Kebijakan Penggunaan yang Dapat Diterima.

Nama titik akhir: databricks-meta-llama-3-3-70b-instruct

Meta-Llama-3.3-70B-Instruct adalah model bahasa besar canggih dengan konteks 128.000 token yang dibangun dan dilatih oleh Meta. Model ini mendukung beberapa bahasa dan dioptimalkan untuk kasus penggunaan dialog. Pelajari selengkapnya tentang Meta Llama 3.3.

Mirip dengan model bahasa besar lainnya, output Llama-3 dapat menghilangkan beberapa fakta dan kadang-kadang menghasilkan informasi palsu. Databricks merekomendasikan penggunaan retrieval augmented generation (RAG) dalam skenario di mana akurasi sangat penting.

Instruksi Meta Llama 3.1 405B

Penting

Meta-Llama-3.1-405B-Instruct akan dihentikan.

  • Mulai 15 Februari 2026 untuk beban kerja bayar per token.
  • Mulai 15 Mei 2026 untuk beban kerja dengan throughput yang telah ditentukan.

Lihat Model yang sudah dihentikan untuk model penggantian yang direkomendasikan dan panduan tentang cara migrasi selama masa penghentian.

Penting

Penggunaan model ini dengan API Model Foundation dalam Pratinjau Umum. Hubungi tim akun Databricks Anda jika Anda mengalami kegagalan titik akhir atau kesalahan stabilisasi saat menggunakan model ini.

Lihat Ketentuan model yang berlaku untuk Lisensi Komunitas Llama 3.1 dan Kebijakan Penggunaan yang Dapat Diterima.

Nama titik akhir: databricks-meta-llama-3-1-405b-instruct

Meta-Llama-3.1-405B-Instruct adalah model bahasa besar canggih terbesar yang tersedia secara terbuka, dibangun dan dilatih oleh Meta, dan didistribusikan oleh Azure Machine Learning menggunakan Katalog Model AzureML. Penggunaan model ini memungkinkan pelanggan untuk membuka kemampuan baru, seperti penalaran multi-langkah tingkat lanjut dan pembuatan data sintetis berkualitas tinggi. Model ini kompetitif dengan GPT-4-Turbo dalam hal kualitas.

Seperti Meta-Llama-3.1-70B-Instruct, model ini memiliki konteks 128.000 token dan dukungan di sepuluh bahasa. Ini selaras dengan preferensi manusia untuk membantu dan keselamatan, dan dioptimalkan untuk kasus penggunaan dialog. Pelajari selengkapnya tentang model Meta Llama 3.1.

Mirip dengan model bahasa besar lainnya, output Llama-3.1 dapat menghilangkan beberapa fakta dan kadang-kadang menghasilkan informasi palsu. Databricks merekomendasikan penggunaan retrieval augmented generation (RAG) dalam skenario di mana akurasi sangat penting.

Meta Llama 3.1 8B Instruksi

Penting

Lihat Ketentuan model yang berlaku untuk Lisensi Komunitas LLama 3.1 dan Kebijakan Penggunaan yang Dapat Diterima.

Nama titik akhir: databricks-meta-llama-3-1-8b-instruct

Meta-Llama-3.1-8B-Instruct adalah model bahasa besar canggih dengan konteks 128.000 token yang dibangun dan dilatih oleh Meta. Model ini mendukung beberapa bahasa dan dioptimalkan untuk kasus penggunaan dialog. Pelajari lebih lanjut tentang Meta Llama 3.1.

Mirip dengan model bahasa besar lainnya, output Llama-3 dapat menghilangkan beberapa fakta dan kadang-kadang menghasilkan informasi palsu. Databricks merekomendasikan penggunaan retrieval augmented generation (RAG) dalam skenario di mana akurasi sangat penting.

Anthropic Claude Haiku 4.5

Penting

Pelanggan bertanggung jawab untuk memastikan kepatuhan mereka terhadap ketentuan kebijakan penggunaan Anthropic. Lihat juga Perjanjian Databricks Master Cloud Services.

Nama titik akhir: databricks-claude-haiku-4-5

Claude Haiku 4.5 adalah model Anthropic yang tercepat dan paling hemat biaya, memberikan kualitas pengodean yang mendekati standard terdepan dengan kecepatan dan efisiensi yang luar biasa. Ini unggul pada aplikasi real-time dengan latensi rendah termasuk asisten obrolan, agen layanan pelanggan, pair programming, dan pengembangan cepat prototipe. Model ini sangat ideal untuk penyebaran produksi sadar biaya dan sistem agenik yang membutuhkan bantuan AI responsif.

Seperti halnya model bahasa besar lainnya, output Claude Haiku 4.5 dapat menghilangkan beberapa fakta dan kadang-kadang menghasilkan informasi palsu. Databricks merekomendasikan penggunaan retrieval augmented generation (RAG) dalam skenario di mana akurasi sangat penting.

Titik akhir ini dihosting oleh Databricks dalam perimeter keamanan Databricks.

Anthropic Claude Sonnet 4.6

Penting

Pelanggan bertanggung jawab untuk memastikan kepatuhan mereka terhadap ketentuan kebijakan penggunaan Anthropic. Lihat juga Perjanjian Databricks Master Cloud Services.

Nama titik akhir: databricks-claude-sonnet-4-6

Claude Sonnet 4.6 adalah model penalaran hibrid Anthropic yang paling canggih. Ini menawarkan dua mode: respons mendekati instan dan pemikiran yang diperluas untuk penalaran yang lebih dalam berdasarkan kompleksitas tugas. Claude Sonnet 4.6 mengkhususkan diri dalam aplikasi yang membutuhkan keseimbangan throughput praktis dan pemikiran maju seperti agen yang berhadapan langsung dengan pelanggan, alur kerja pengekodean produksi, dan pembuatan konten dalam skala besar.

Seperti halnya model bahasa besar lainnya, output Claude Sonnet 4.6 dapat menghilangkan beberapa fakta dan kadang-kadang menghasilkan informasi palsu. Databricks merekomendasikan penggunaan retrieval augmented generation (RAG) dalam skenario di mana akurasi sangat penting.

Titik akhir ini dihosting oleh Databricks dalam perimeter keamanan Databricks.

Anthropic Claude Sonnet 4.5

Penting

Pelanggan bertanggung jawab untuk memastikan kepatuhan mereka terhadap ketentuan kebijakan penggunaan Anthropic. Lihat juga Perjanjian Databricks Master Cloud Services.

Nama titik akhir: databricks-claude-sonnet-4-5

Claude Sonnet 4.5 adalah model penalaran hibrid Anthropic yang paling canggih. Ini menawarkan dua mode: respons mendekati instan dan pemikiran yang diperluas untuk penalaran yang lebih dalam berdasarkan kompleksitas tugas. Claude Sonnet 4.5 mengkhususkan diri dalam aplikasi yang memerlukan keseimbangan antara throughput praktis dan pemikiran maju, seperti agen yang berinteraksi langsung dengan pelanggan, alur kerja pengodean untuk produksi, dan pembuatan konten dalam skala besar.

Seperti halnya model bahasa besar lainnya, output Claude Sonnet 4.5 dapat menghilangkan beberapa fakta dan kadang-kadang menghasilkan informasi palsu. Databricks merekomendasikan penggunaan retrieval augmented generation (RAG) dalam skenario di mana akurasi sangat penting.

Titik akhir ini dihosting oleh Databricks dalam perimeter keamanan Databricks.

Anthropic Claude Opus 4.7

Penting

Pelanggan bertanggung jawab untuk memastikan kepatuhan mereka terhadap ketentuan kebijakan penggunaan Anthropic. Lihat juga Perjanjian Databricks Master Cloud Services.

Nama titik akhir: databricks-claude-opus-4-7

Claude Opus 4.7 adalah model penalaran hibrid Anthropic yang paling mampu, memajukan seri Opus dengan peningkatan akurasi, efisiensi, dan kemampuan penglihatan yang ditingkatkan. Model ini memberikan performa yang lebih kuat pada tugas ekstraksi kompleks dan penalaran agenik sambil menggunakan token output yang lebih sedikit daripada pendahulunya. Claude Opus 4.7 memiliki 1 juta jendela konteks token dan peningkatan dukungan resolusi gambar, menjadikannya ideal untuk aplikasi perusahaan yang memerlukan analisis mendalam, pemahaman dokumen, dan alur kerja multi-langkah yang canggih.

Seperti halnya model bahasa besar lainnya, output Claude Opus 4.7 dapat menghilangkan beberapa fakta dan kadang-kadang menghasilkan informasi palsu. Databricks merekomendasikan penggunaan retrieval augmented generation (RAG) dalam skenario di mana akurasi sangat penting.

Titik akhir ini dihosting oleh Databricks dalam perimeter keamanan Databricks.

Anthropic Claude Opus 4.6

Penting

Pelanggan bertanggung jawab untuk memastikan kepatuhan mereka terhadap ketentuan kebijakan penggunaan Anthropic. Lihat juga Perjanjian Databricks Master Cloud Services.

Nama titik akhir: databricks-claude-opus-4-6

Claude Opus 4.6 adalah model penalaran hibrid Anthropic yang paling mampu dengan kemampuan berpikir adaptif. Model ini memperkenalkan tingkat upaya maks baru untuk tugas yang paling menuntut, dengan upaya tinggi yang ditetapkan sebagai default untuk performa optimal. Claude Opus 4.6 unggul pada penalaran kompleks, analisis mendalam, pembuatan kode, penelitian, dan alur kerja multi-langkah yang canggih. Ini memiliki jendela konteks token 1 juta, menjadikannya ideal untuk aplikasi perusahaan yang membutuhkan analisis ekstensif dan output komprehensif.

Seperti halnya model bahasa besar lainnya, output Claude Opus 4.6 dapat menghilangkan beberapa fakta dan kadang-kadang menghasilkan informasi palsu. Databricks merekomendasikan penggunaan retrieval augmented generation (RAG) dalam skenario di mana akurasi sangat penting.

Titik akhir ini dihosting oleh Databricks dalam perimeter keamanan Databricks.

Anthropic Claude Opus 4.5

Penting

Pelanggan bertanggung jawab untuk memastikan kepatuhan mereka terhadap ketentuan kebijakan penggunaan Anthropic. Lihat juga Perjanjian Databricks Master Cloud Services.

Nama titik akhir: databricks-claude-opus-4-5

Claude Opus 4.5 adalah model penalaran hibrid Anthropic yang paling mampu, dibangun untuk tugas paling kompleks yang membutuhkan analisis mendalam dan pemikiran yang diperluas. Model ini menggabungkan kemampuan tujuan umum yang kuat dengan penalaran tingkat lanjut, unggul pada pembuatan kode, penelitian, pembuatan konten, dan alur kerja agenik multi-langkah yang canggih. Claude Opus 4.5 mendukung input teks dan visi dengan jendela konteks token 200K, menjadikannya ideal untuk aplikasi perusahaan yang menuntut pemahaman yang luas dan mendalam.

Seperti halnya model bahasa besar lainnya, output Claude Opus 4.5 dapat menghilangkan beberapa fakta dan kadang-kadang menghasilkan informasi palsu. Databricks merekomendasikan penggunaan retrieval augmented generation (RAG) dalam skenario di mana akurasi sangat penting.

Titik akhir ini dihosting oleh Databricks dalam perimeter keamanan Databricks.

Antropik Claude Sonnet 4

Penting

Pelanggan bertanggung jawab untuk memastikan kepatuhan mereka terhadap ketentuan kebijakan penggunaan Anthropic. Lihat juga Perjanjian Databricks Master Cloud Services.

Nama titik akhir: databricks-claude-sonnet-4

Claude Sonnet 4 adalah model penalaran hibrid canggih yang dibangun dan dilatih oleh Anthropic. Model ini menawarkan dua mode: respons mendekati instan dan pemikiran yang diperluas untuk penalaran yang lebih dalam berdasarkan kompleksitas tugas. Claude Sonnet 4 dioptimalkan untuk berbagai tugas seperti pengembangan kode, analisis konten skala besar, dan pengembangan aplikasi agen.

Seperti halnya model bahasa besar lainnya, output Claude Sonnet 4 dapat menghilangkan beberapa fakta dan kadang-kadang menghasilkan informasi palsu. Databricks merekomendasikan penggunaan retrieval augmented generation (RAG) dalam skenario di mana akurasi sangat penting.

Titik akhir ini dihosting oleh Databricks dalam perimeter keamanan Databricks.

Anthropic Claude Opus 4.1

Penting

Pelanggan bertanggung jawab untuk memastikan kepatuhan mereka terhadap ketentuan kebijakan penggunaan Anthropic. Lihat juga Perjanjian Databricks Master Cloud Services.

Nama titik akhir: databricks-claude-opus-4-1

Claude Opus 4.1 adalah model penalaran hibrid canggih yang dibangun dan dilatih oleh Anthropic. Model bahasa besar tujuan umum ini dirancang untuk aplikasi penalaran kompleks dan dunia nyata dalam skala perusahaan. Ini mendukung input teks dan gambar, dengan jendela konteks token 200K dan kemampuan token output 32K. Model ini unggul pada tugas-tugas seperti pembuatan kode, penelitian dan pembuatan konten, dan alur kerja agen multi-langkah tanpa intervensi manusia yang konstan.

Seperti halnya model bahasa besar lainnya, output Claude Opus 4.1 dapat menghilangkan beberapa fakta dan kadang-kadang menghasilkan informasi palsu. Databricks merekomendasikan penggunaan retrieval augmented generation (RAG) dalam skenario di mana akurasi sangat penting.

Titik akhir ini dihosting oleh Databricks dalam perimeter keamanan Databricks.

GTE Large (En)

Nama titik akhir: databricks-gte-large-en

Penyematan Teks Umum (GTE) adalah model penyematan teks yang dapat memetakan teks apa pun ke vektor penyematan dimensi 1024 dan jendela penyematan token 8192. Vektor ini dapat digunakan dalam indeks vektor untuk LLM, dan untuk tugas seperti pengambilan, klasifikasi, jawaban atas pertanyaan, pengklusteran, atau pencarian semantik. Titik akhir ini melayani versi bahasa Inggris dari model dan tidak menghasilkan penyematan yang dinormalisasi.

Model embedding sangat efektif ketika digunakan bersama dengan LLM untuk kasus penggunaan retrieval augmented generation (RAG). GTE dapat digunakan untuk menemukan cuplikan teks yang relevan dalam potongan besar dokumen yang dapat digunakan dalam konteks LLM.

BGE Besar (En)

Nama titik akhir: databricks-bge-large-en

BAAI General Embedding (BGE) adalah model penyematan teks yang dapat memetakan teks apa pun ke vektor penyematan dimensi 1024 dan jendela penyematan token 512. Vektor ini dapat digunakan dalam indeks vektor untuk LLM, dan untuk tugas seperti pengambilan, klasifikasi, jawaban atas pertanyaan, pengklusteran, atau pencarian semantik. Titik akhir ini melayani versi bahasa Inggris dari model dan menghasilkan penyematan yang dinormalisasi.

Model embedding sangat efektif ketika digunakan bersama dengan LLM untuk kasus penggunaan retrieval augmented generation (RAG). BGE dapat digunakan untuk menemukan cuplikan teks yang relevan dalam potongan besar dokumen yang dapat digunakan dalam konteks LLM.

Dalam aplikasi RAG, Anda mungkin dapat meningkatkan performa sistem pengambilan Anda dengan menyertakan parameter instruksi. Penulis BGE merekomendasikan untuk mencoba instruksi "Represent this sentence for searching relevant passages:" untuk penyematan kueri, meskipun dampak performanya bergantung pada domain.

Sumber daya tambahan