Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Belangrijk
AI Runtime voor taken met één knooppunt bevindt zich in openbare preview. De gedistribueerde trainings-API voor workloads met meerdere GPU's blijft bèta.
Deze pagina bevat migratiegegevens, koppelingen naar voorbeeldnotitieblokken en informatie over probleemoplossing.
Klassieke GPU-workloads migreren naar serverloos
Als u een bestaande Deep Learning-workload verplaatst van een klassiek Databricks-cluster (met Databricks Runtime ML) naar serverloos (met AI Runtime), voert u de volgende stappen uit:
- Vervang clusterafhankelijke code. Verwijder eventuele verwijzingen naar gedistribueerde training op basis van Spark (bijvoorbeeld
TorchDistributor) en vervang deze door de@distributeddecorator vanserverless_gpu. - Bijwerken van het laden van gegevens. Vervang directe DBFS-paden door Unity Catalog-volumespaden (
/Volumes/...). Lokale Spark DataFrame-bewerkingen vervangen door Spark Connect. - Installeer afhankelijkheden opnieuw. Vertrouw niet op vooraf geïnstalleerde Databricks Runtime ML-bibliotheken. Voeg expliciete
%pip installopdrachten toe voor alle vereiste pakketten. - Controleerpuntpaden bijwerken. Verplaats controlepunten van DBFS of lokale opslag naar Unity Catalog-volumes (
/Volumes/<catalog>/<schema>/<volume>/...). - MLflow-configuratie bijwerken. Zorg ervoor dat experimentnamen absolute paden gebruiken en uitvoeringsnamen configureren, zodat ze eenvoudig opnieuw kunnen worden opgestart.
- Test eerst interactief. Valideer uw workload in een interactief notitieblok voordat u deze als taak plant.
Gebruik en kosten bijhouden
U kunt uw AI Runtime GPU-uitgaven bewaken door een query uit te voeren op de factureerbare gebruikssysteemtabel (system.billing.usage). De volgende query retourneert het totale gebruik voor serverloze GPU-workloads:
SELECT
SUM(usage_quantity)
FROM
system.billing.usage
WHERE
product_features.serverless_gpu IS NOT NULL
Zie Billable usage system table referentie voor meer informatie over de schema van factureerbaar gebruik.
AI Runtime-kosten per GPU-uur op de Model Training SKU tegen de volgende prijzen:
- H100 op aanvraag: $ 7,00/GPU-uur (US - oost)
- A10 op aanvraag: $ 4,90/GPU-uur (US - oost)
Voorbeeldnotitieblokken
De volgende categorieën van voorbeeldnotebooks zijn beschikbaar om u op weg te helpen:
| Categorie | Beschrijving |
|---|---|
| Grote taalmodellen (LLM's) | Grote taalmodellen verfijnen, waaronder parametersefficiënte methoden (LoRA, QLoRA) |
| Computer Vision - | Objectdetectie, afbeeldingsclassificatie en andere CV-taken |
| Deep Learning-aanbevelingssystemen | Aanbevelingssystemen bouwen met behulp van moderne deep learning-benaderingen zoals modellen met twee torens |
| Klassieke ML | Traditionele ML-taken, waaronder het trainen van XGBoost-modellen en het voorspellen van tijdreeksen |
| Gedistribueerde training met meerdere GPU's | Training schalen voor meerdere GPU's met behulp van de serverloze GPU-API |
Zie voorbeeldnotebooks voor AI Runtime voor de volledige lijst.
Troubleshooting
Genie Code kan helpen bij het vaststellen en voorstellen van oplossingen voor bibliotheekinstallatiefouten. Zie Genie Code gebruiken om fouten in de rekenomgeving op te sporen.
ValueError: numpy.dtype size changed, wat mogelijk wijst op binaire incompatibiliteit. Verwachte 96 van C-header, kreeg 88 van PyObject
De fout treedt meestal op wanneer er een onjuiste overeenkomst is in de NumPy-versies die worden gebruikt tijdens het compileren van een afhankelijk pakket en de NumPy-versie die momenteel is geïnstalleerd in de runtime-omgeving. Deze incompatibiliteit treedt vaak op vanwege wijzigingen in de C-API van NumPy en is vooral merkbaar van NumPy 1.x tot 2.x. Deze fout geeft aan dat het Python-pakket dat is geïnstalleerd in het notebook mogelijk de NumPy-versie heeft gewijzigd.
Aanbevolen oplossing:
Controleer de NumPy-versie in de runtime en controleer of deze compatibel is met uw pakketten. Zie de releaseopmerkingen voor serverloze GPU Compute voor omgeving 4 en omgeving 3 voor informatie over vooraf geïnstalleerde Python-bibliotheken. Als u een afhankelijkheid hebt van een andere versie van NumPy, voegt u die afhankelijkheid toe aan uw rekenomgeving.
PyTorch kan libcudnn niet vinden tijdens de installatie van torch
Wanneer u een andere versie van torchinstalleert, ziet u mogelijk de volgende fout: ImportError: libcudnn.so.9: cannot open shared object file: No such file or directory. Dit komt doordat torch alleen zoekt naar de cuDNN-bibliotheek in het lokale pad.
Aanbevolen oplossing:
Installeer de afhankelijkheden opnieuw door toe te voegen --force-reinstall bij de installatie torch:
%pip install torch --force-reinstall