AI Runtime

Penting

Runtime AI untuk tugas node tunggal sedang dalam Pratinjau Umum. API pelatihan terdistribusi untuk beban kerja multi-GPU tetap berada di Beta.

Ringkasan Lingkungan Waktu AI

AI Runtime adalah penawaran komputasi di Databricks yang ditujukan untuk beban kerja pembelajaran mendalam , dan menghadirkan dukungan GPU untuk Databricks Tanpa Server. Anda dapat menggunakan AI Runtime untuk melatih dan menyempurnakan model kustom menggunakan kerangka kerja favorit Anda dan mendapatkan efisiensi, performa, dan kualitas canggih. Untuk gambaran umum tentang bagaimana komputasi tanpa server cocok dengan arsitektur Databricks, lihat Arsitektur ruang kerja tanpa server.

Fitur utama

Infrastruktur GPU yang dikelola sepenuhnya — Akses tanpa server dan fleksibel ke GPU dan tidak ada konfigurasi kluster, pemilihan driver, atau kebijakan penskalakan otomatis untuk dikelola.
Runtime yang didedikasikan untuk pembelajaran mendalam — Pilih lingkungan dasar default yang minimal untuk fleksibilitas maksimum atas dependensi atau lingkungan AI berfitur lengkap yang sudah dimuat sebelumnya dengan kerangka pembelajaran mesin (ML) populer.
Terintegrasi secara asli di seluruh notebook, pekerjaan, Unity Catalog, dan MLflow untuk pengembangan, akses data, dan pelacakan eksperimen yang mulus.

Opsi perangkat keras

Akselerator	Terbaik untuk	Multi-GPU (banyak unit pemrosesan grafis)
A10	ML kecil hingga menengah dan tugas pembelajaran mendalam seperti model ML klasik atau menyempurnakan model bahasa yang lebih kecil	No
H100	Beban kerja AI skala besar termasuk melatih atau menyempurnakan model besar-besaran atau menjalankan tugas pembelajaran mendalam tingkat lanjut	Ya (8 GPU)

Kasus penggunaan yang direkomendasikan

Databricks merekomendasikan Runtime AI untuk setiap kasus penggunaan pelatihan model kustom yang melibatkan pembelajaran mendalam, beban kerja klasik skala besar, atau GPU.

Contohnya:

Penyempurnaan LLM (LoRA, QLoRA, penyempurnaan penuh)
Visi komputer (deteksi objek, klasifikasi gambar)
Sistem pemberi rekomendasi berbasis pembelajaran mendalam
Pembelajaran penguatan
Prakiraan rangkaian waktu berbasis pembelajaran mendalam

Persyaratan

Ruang kerja di salah satu wilayah yang didukung Azure berikut ini:
- centralus
- eastus
- eastus2
- northcentralus
- westcentralus
- westus
- westus3

Keterbatasan

AI Runtime hanya mendukung akselerator A10 dan H100.
Runtime AI tidak didukung untuk ruang kerja profil keamanan kepatuhan (seperti HIPAA atau PCI). Pemrosesan data yang diatur tidak didukung.
Menambahkan dependensi menggunakan panel Lingkungan tidak didukung untuk pekerjaan yang dijadwalkan dalam Runtime AI. Instal dependensi secara terprogram menggunakan %pip install di buku catatan Anda sebagai gantinya.
Untuk pekerjaan terjadwal pada Runtime AI, perilaku pemulihan otomatis untuk versi paket yang tidak kompatibel yang terkait dengan buku catatan Anda tidak didukung.
Waktu operasi maksimum untuk beban kerja adalah tujuh hari. Untuk pekerjaan pelatihan model yang melebihi batas ini, terapkan titik pemeriksaan dan mulai ulang pekerjaan setelah runtime maksimum tercapai.
Runtime AI menyediakan akses sesuai permintaan ke sumber daya GPU. Meskipun ini mengarah pada akses yang mudah dan fleksibel ke GPU, mungkin ada periode di mana kapasitas dibatasi atau tidak tersedia di wilayah Anda.
Runtime AI memanfaatkan GPU lintas wilayah dalam kasus tertentu selama saat permintaan tinggi. Mungkin ada biaya egress yang terkait dengan penggunaan tersebut.

Hubungkan ke Runtime AI

Anda dapat menyambungkan ke Runtime AI secara interaktif dari notebook, menjadwalkan notebook sebagai pekerjaan berulang, atau membuat pekerjaan secara terprogram menggunakan Jobs API dan Bundel Aset Databricks. Untuk instruksi langkah demi langkah, lihat Menyambungkan ke Runtime AI.

Menyiapkan lingkungan kerja

AI Runtime menawarkan dua lingkungan Python terkelola: lingkungan dasar default minimal, dan lingkungan AI Databricks berperforma lengkap yang telah dimuat sebelumnya dengan kerangka kerja ML populer seperti PyTorch dan Transformers. Untuk detail tentang memilih lingkungan, perilaku cache, mengimpor modul kustom, dan batasan yang diketahui, lihat Mengatur Lingkungan Anda.

Membaca dalam data

Memahami cara kerja akses data pada Runtime AI sangat penting untuk pengalaman yang lancar. Untuk detailnya, lihat Memuat data pada Runtime AI.

Pelatihan terdistribusi

Penting

Fitur ini ada di Beta. Admin ruang kerja dapat mengontrol akses ke fitur ini dari halaman Pratinjau . Lihat Kelola Pratinjau Azure Databricks.

Runtime AI mendukung pelatihan terdistribusi di beberapa GPU pada simpul tunggal yang tersambung dengan notebook Anda. @distributed Dengan menggunakan dekorator dari serverless_gpu Python API (Beta), Anda dapat meluncurkan beban kerja multi-GPU dengan PyTorch DDP, FSDP, atau DeepSpeed dengan konfigurasi minimal. Untuk detailnya, lihat Beban kerja Multi-GPU.

Pelacakan dan pengamatan eksperimen

Untuk integrasi MLflow, melihat log, dan manajemen titik pemeriksaan model, lihat Pelacakan dan pengamatan eksperimen.

Kode Genie untuk pembelajaran mendalam

Genie Code mendukung beban kerja pembelajaran mendalam pada Runtime AI. Ini dapat membantu menghasilkan kode pelatihan, menyelesaikan kesalahan penginstalan pustaka, menyarankan pengoptimalan, dan men-debug masalah umum. Lihat Menggunakan Kode Genie untuk ilmu data.

Panduan

Untuk migrasi dari beban kerja klasik, contoh notebook, dan pemecahan masalah, lihat Panduan pengguna untuk AI Runtime.

Saran dan Komentar

Apakah halaman ini membantu?

Last updated on 2026-03-21