Bagikan melalui


Panduan pengguna untuk Runtime AI

Penting

Runtime AI untuk tugas node tunggal sedang dalam Pratinjau Umum. API pelatihan terdistribusi untuk beban kerja multi-GPU tetap berada di Beta.

Halaman ini mencakup informasi migrasi, tautan ke contoh buku catatan, dan informasi pemecahan masalah.

Memigrasikan beban kerja GPU klasik ke tanpa server

Jika Anda memindahkan beban kerja pembelajaran mendalam yang ada dari kluster Databricks klasik (dengan Databricks Runtime ML) ke tanpa server (dengan AI Runtime), ikuti langkah-langkah berikut:

  1. Ganti kode yang bergantung pada kluster. Hapus referensi apa pun ke pelatihan terdistribusi berbasis Spark (misalnya, TorchDistributor) dan ganti dengan @distributed dekorator dari serverless_gpu.
  2. Memperbarui pemuatan data. Ganti jalur DBFS langsung dengan jalur volume Katalog Unity (/Volumes/...). Ganti operasi Spark DataFrame lokal dengan Spark Connect.
  3. Instal ulang dependensi. Jangan mengandalkan pustaka ML Runtime Databricks yang telah diinstal sebelumnya. Tambahkan perintah eksplisit %pip install untuk semua paket yang diperlukan.
  4. Memperbarui jalur titik pemeriksaan. Pindahkan titik pemeriksaan dari DBFS atau penyimpanan lokal ke volume Unity Catalog (/Volumes/<catalog>/<schema>/<volume>/...).
  5. Perbarui konfigurasi MLflow. Pastikan nama eksperimen menggunakan jalur absolut dan mengonfigurasi nama eksekusi sehingga dapat dengan mudah dimulai ulang.
  6. Uji secara interaktif terlebih dahulu. Validasi beban kerja Anda di notebook interaktif sebelum menjadwalkannya sebagai pekerjaan.

Melacak penggunaan dan biaya

Anda dapat memantau pengeluaran GPU Runtime AI dengan mengkueri tabel sistem penggunaan yang dapat ditagih (system.billing.usage). Kueri berikut mengembalikan total penggunaan untuk beban kerja GPU tanpa server:

SELECT
  SUM(usage_quantity)
FROM
  system.billing.usage
WHERE
  product_features.serverless_gpu IS NOT NULL

Untuk informasi selengkapnya tentang skema tabel penggunaan yang dapat ditagih, lihat Referensi tabel sistem penggunaan yang dapat ditagih.

Biaya Penggunaan Runtime AI per jam GPU pada SKU Pelatihan Model dengan tarif berikut:

  • H100 sesuai permintaan: $7,00/jam GPU (AS Timur)
  • A10 sesuai permintaan: $4,90/jam GPU (AS Timur)

Contoh buku catatan

Kategori buku catatan contoh berikut ini tersedia untuk membantu Anda memulai:

Kategori Deskripsi
Model Bahasa Besar (LLM) Menyempurnakan model bahasa besar termasuk metode hemat parameter (LoRA, QLoRA)
Visi Komputer Deteksi objek, klasifikasi gambar, dan tugas CV lainnya
Sistem Pemberi Rekomendasi Pembelajaran Mendalam Membangun sistem rekomendasi menggunakan pendekatan pembelajaran mendalam modern seperti model dua menara
ML Klasik Tugas ML tradisional termasuk pelatihan model XGBoost dan prakiraan rangkaian waktu
Pelatihan Terdistribusi Multi-GPU Menskalakan pelatihan di beberapa GPU menggunakan API GPU Tanpa Server

Untuk daftar lengkapnya, lihat Contoh notebook Runtime AI.

Troubleshooting

Kode Genie dapat membantu mendiagnosis dan menyarankan perbaikan untuk kesalahan penginstalan pustaka. Lihat Menggunakan Kode Genie untuk men-debug kesalahan lingkungan komputasi.

ValueError: ukuran numpy.dtype berubah, dapat menunjukkan ketidaksesuaian biner. Diharapkan 96 dari header C, mendapat 88 dari PyObject

Kesalahan biasanya muncul ketika ada ketidakcocokan dalam versi NumPy yang digunakan selama kompilasi paket dependen dan versi NumPy yang saat ini diinstal di lingkungan runtime. Ketidaksesuaian ini sering terjadi karena perubahan dalam API C NumPy dan sangat terlihat dari NumPy 1.x menjadi 2.x. Kesalahan ini menunjukkan bahwa paket Python yang diinstal di buku catatan mungkin telah mengubah versi NumPy.

Solusi yang direkomendasikan:

Periksa versi NumPy dalam runtime dan pastikan versi tersebut kompatibel dengan paket Anda. Lihat catatan rilis Komputasi GPU Tanpa Server untuk lingkungan 4 dan lingkungan 3 untuk informasi tentang pustaka Python yang telah diinstal sebelumnya. Jika Anda memiliki dependensi pada versi NumPy yang berbeda, tambahkan dependensi tersebut ke lingkungan komputasi Anda.

PyTorch tidak dapat menemukan libcudnn saat menginstal obor

Saat Anda menginstal versi yang berbeda dari torch, Anda mungkin melihat kesalahan: ImportError: libcudnn.so.9: cannot open shared object file: No such file or directory. Ini karena torch hanya mencari library cuDNN di jalur lokal.

Solusi yang direkomendasikan:

Instal ulang dependensi dengan menambahkan --force-reinstall saat menginstal torch:

%pip install torch --force-reinstall