Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Penting
Runtime AI untuk tugas node tunggal sedang dalam Pratinjau Umum. API pelatihan terdistribusi untuk beban kerja multi-GPU tetap berada di Beta.
Halaman ini mencakup informasi migrasi, tautan ke contoh buku catatan, dan informasi pemecahan masalah.
Memigrasikan beban kerja GPU klasik ke tanpa server
Jika Anda memindahkan beban kerja pembelajaran mendalam yang ada dari kluster Databricks klasik (dengan Databricks Runtime ML) ke tanpa server (dengan AI Runtime), ikuti langkah-langkah berikut:
- Ganti kode yang bergantung pada kluster. Hapus referensi apa pun ke pelatihan terdistribusi berbasis Spark (misalnya,
TorchDistributor) dan ganti dengan@distributeddekorator dariserverless_gpu. - Memperbarui pemuatan data. Ganti jalur DBFS langsung dengan jalur volume Katalog Unity (
/Volumes/...). Ganti operasi Spark DataFrame lokal dengan Spark Connect. - Instal ulang dependensi. Jangan mengandalkan pustaka ML Runtime Databricks yang telah diinstal sebelumnya. Tambahkan perintah eksplisit
%pip installuntuk semua paket yang diperlukan. - Memperbarui jalur titik pemeriksaan. Pindahkan titik pemeriksaan dari DBFS atau penyimpanan lokal ke volume Unity Catalog (
/Volumes/<catalog>/<schema>/<volume>/...). - Perbarui konfigurasi MLflow. Pastikan nama eksperimen menggunakan jalur absolut dan mengonfigurasi nama eksekusi sehingga dapat dengan mudah dimulai ulang.
- Uji secara interaktif terlebih dahulu. Validasi beban kerja Anda di notebook interaktif sebelum menjadwalkannya sebagai pekerjaan.
Melacak penggunaan dan biaya
Anda dapat memantau pengeluaran GPU Runtime AI dengan mengkueri tabel sistem penggunaan yang dapat ditagih (system.billing.usage). Kueri berikut mengembalikan total penggunaan untuk beban kerja GPU tanpa server:
SELECT
SUM(usage_quantity)
FROM
system.billing.usage
WHERE
product_features.serverless_gpu IS NOT NULL
Untuk informasi selengkapnya tentang skema tabel penggunaan yang dapat ditagih, lihat Referensi tabel sistem penggunaan yang dapat ditagih.
Biaya Penggunaan Runtime AI per jam GPU pada SKU Pelatihan Model dengan tarif berikut:
- H100 sesuai permintaan: $7,00/jam GPU (AS Timur)
- A10 sesuai permintaan: $4,90/jam GPU (AS Timur)
Contoh buku catatan
Kategori buku catatan contoh berikut ini tersedia untuk membantu Anda memulai:
| Kategori | Deskripsi |
|---|---|
| Model Bahasa Besar (LLM) | Menyempurnakan model bahasa besar termasuk metode hemat parameter (LoRA, QLoRA) |
| Visi Komputer | Deteksi objek, klasifikasi gambar, dan tugas CV lainnya |
| Sistem Pemberi Rekomendasi Pembelajaran Mendalam | Membangun sistem rekomendasi menggunakan pendekatan pembelajaran mendalam modern seperti model dua menara |
| ML Klasik | Tugas ML tradisional termasuk pelatihan model XGBoost dan prakiraan rangkaian waktu |
| Pelatihan Terdistribusi Multi-GPU | Menskalakan pelatihan di beberapa GPU menggunakan API GPU Tanpa Server |
Untuk daftar lengkapnya, lihat Contoh notebook Runtime AI.
Troubleshooting
Kode Genie dapat membantu mendiagnosis dan menyarankan perbaikan untuk kesalahan penginstalan pustaka. Lihat Menggunakan Kode Genie untuk men-debug kesalahan lingkungan komputasi.
ValueError: ukuran numpy.dtype berubah, dapat menunjukkan ketidaksesuaian biner. Diharapkan 96 dari header C, mendapat 88 dari PyObject
Kesalahan biasanya muncul ketika ada ketidakcocokan dalam versi NumPy yang digunakan selama kompilasi paket dependen dan versi NumPy yang saat ini diinstal di lingkungan runtime. Ketidaksesuaian ini sering terjadi karena perubahan dalam API C NumPy dan sangat terlihat dari NumPy 1.x menjadi 2.x. Kesalahan ini menunjukkan bahwa paket Python yang diinstal di buku catatan mungkin telah mengubah versi NumPy.
Solusi yang direkomendasikan:
Periksa versi NumPy dalam runtime dan pastikan versi tersebut kompatibel dengan paket Anda. Lihat catatan rilis Komputasi GPU Tanpa Server untuk lingkungan 4 dan lingkungan 3 untuk informasi tentang pustaka Python yang telah diinstal sebelumnya. Jika Anda memiliki dependensi pada versi NumPy yang berbeda, tambahkan dependensi tersebut ke lingkungan komputasi Anda.
PyTorch tidak dapat menemukan libcudnn saat menginstal obor
Saat Anda menginstal versi yang berbeda dari torch, Anda mungkin melihat kesalahan: ImportError: libcudnn.so.9: cannot open shared object file: No such file or directory. Ini karena torch hanya mencari library cuDNN di jalur lokal.
Solusi yang direkomendasikan:
Instal ulang dependensi dengan menambahkan --force-reinstall saat menginstal torch:
%pip install torch --force-reinstall