Gebruikershandleidingen voor AI Runtime

Belangrijk

AI Runtime voor taken met één knooppunt bevindt zich in openbare preview. De gedistribueerde trainings-API voor workloads met meerdere GPU's blijft bèta.

Deze pagina bevat migratiegegevens, koppelingen naar voorbeeldnotitieblokken en informatie over probleemoplossing.

Klassieke GPU-workloads migreren naar serverloos

Als u een bestaande Deep Learning-workload verplaatst van een klassiek Databricks-cluster (met Databricks Runtime ML) naar serverloos (met AI Runtime), voert u de volgende stappen uit:

Vervang clusterafhankelijke code. Verwijder eventuele verwijzingen naar gedistribueerde training op basis van Spark (bijvoorbeeld TorchDistributor) en vervang deze door de @distributed decorator van serverless_gpu.
Bijwerken van het laden van gegevens. Vervang directe DBFS-paden door Unity Catalog-volumespaden (/Volumes/...). Lokale Spark DataFrame-bewerkingen vervangen door Spark Connect.
Installeer afhankelijkheden opnieuw. Vertrouw niet op vooraf geïnstalleerde Databricks Runtime ML-bibliotheken. Voeg expliciete %pip install opdrachten toe voor alle vereiste pakketten.
Controleerpuntpaden bijwerken. Verplaats controlepunten van DBFS of lokale opslag naar Unity Catalog-volumes (/Volumes/<catalog>/<schema>/<volume>/...).
MLflow-configuratie bijwerken. Zorg ervoor dat experimentnamen absolute paden gebruiken en uitvoeringsnamen configureren, zodat ze eenvoudig opnieuw kunnen worden opgestart.
Test eerst interactief. Valideer uw workload in een interactief notitieblok voordat u deze als taak plant.

Gebruik en kosten bijhouden

U kunt uw AI Runtime GPU-uitgaven bewaken door een query uit te voeren op de factureerbare gebruikssysteemtabel (system.billing.usage). De volgende query retourneert het totale gebruik voor serverloze GPU-workloads:

SELECT
  SUM(usage_quantity)
FROM
  system.billing.usage
WHERE
  product_features.serverless_gpu IS NOT NULL

Zie Billable usage system table referentie voor meer informatie over de schema van factureerbaar gebruik.

AI Runtime-kosten per GPU-uur op de Model Training SKU tegen de volgende prijzen:

H100 op aanvraag: $ 7,00/GPU-uur (US - oost)
A10 op aanvraag: $ 4,90/GPU-uur (US - oost)

Voorbeeldnotitieblokken

De volgende categorieën van voorbeeldnotebooks zijn beschikbaar om u op weg te helpen:

Categorie	Beschrijving
Grote taalmodellen (LLM's)	Grote taalmodellen verfijnen, waaronder parametersefficiënte methoden (LoRA, QLoRA)
Computer Vision -	Objectdetectie, afbeeldingsclassificatie en andere CV-taken
Deep Learning-aanbevelingssystemen	Aanbevelingssystemen bouwen met behulp van moderne deep learning-benaderingen zoals modellen met twee torens
Klassieke ML	Traditionele ML-taken, waaronder het trainen van XGBoost-modellen en het voorspellen van tijdreeksen
Gedistribueerde training met meerdere GPU's	Training schalen voor meerdere GPU's met behulp van de serverloze GPU-API

Zie voorbeeldnotebooks voor AI Runtime voor de volledige lijst.

Troubleshooting

Genie Code kan helpen bij het vaststellen en voorstellen van oplossingen voor bibliotheekinstallatiefouten. Zie Genie Code gebruiken om fouten in de rekenomgeving op te sporen.

ValueError: numpy.dtype size changed, wat mogelijk wijst op binaire incompatibiliteit. Verwachte 96 van C-header, kreeg 88 van PyObject

De fout treedt meestal op wanneer er een onjuiste overeenkomst is in de NumPy-versies die worden gebruikt tijdens het compileren van een afhankelijk pakket en de NumPy-versie die momenteel is geïnstalleerd in de runtime-omgeving. Deze incompatibiliteit treedt vaak op vanwege wijzigingen in de C-API van NumPy en is vooral merkbaar van NumPy 1.x tot 2.x. Deze fout geeft aan dat het Python-pakket dat is geïnstalleerd in het notebook mogelijk de NumPy-versie heeft gewijzigd.

Aanbevolen oplossing:

Controleer de NumPy-versie in de runtime en controleer of deze compatibel is met uw pakketten. Zie de releaseopmerkingen voor serverloze GPU Compute voor omgeving 4 en omgeving 3 voor informatie over vooraf geïnstalleerde Python-bibliotheken. Als u een afhankelijkheid hebt van een andere versie van NumPy, voegt u die afhankelijkheid toe aan uw rekenomgeving.

PyTorch kan libcudnn niet vinden tijdens de installatie van torch

Wanneer u een andere versie van torchinstalleert, ziet u mogelijk de volgende fout: ImportError: libcudnn.so.9: cannot open shared object file: No such file or directory. Dit komt doordat torch alleen zoekt naar de cuDNN-bibliotheek in het lokale pad.

Aanbevolen oplossing:

Installeer de afhankelijkheden opnieuw door toe te voegen --force-reinstall bij de installatie torch:

%pip install torch --force-reinstall

Feedback

Is deze pagina nuttig?

Last updated on 2026-03-21