Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Belangrijk
AI Runtime voor taken met één knooppunt bevindt zich in openbare preview. De gedistribueerde trainings-API voor workloads met meerdere GPU's blijft bèta.
Overzicht van AI Runtime
AI Runtime is een rekenaanbod voor Databricks dat is bedoeld voor deep learning-workloads en biedt GPU-ondersteuning voor Databricks Serverless. U kunt AI Runtime gebruiken om aangepaste modellen te trainen en af te stemmen met behulp van uw favoriete frameworks en geavanceerde efficiëntie, prestaties en kwaliteit te verkrijgen. Zie Serverloze werkruimtearchitectuur voor een overzicht van hoe serverloze compute in de Databricks-architectuur past.
Belangrijkste kenmerken
- Volledig beheerde GPU-infrastructuur : serverloze, flexibele toegang tot GPU's en geen clusterconfiguratie, stuurprogrammaselectie of beleid voor automatisch schalen om te beheren.
- Een runtime die is toegewezen aan Deep Learning : kies een minimale standaardbasisomgeving voor maximale flexibiliteit ten opzichte van afhankelijkheden of een volledig uitgeruste AI-omgeving die vooraf is geladen met populaire ML-frameworks.
- Nauw geïntegreerd in notebooks, taken, Unity Catalog en MLflow voor naadloze ontwikkeling, toegang tot gegevens en het volgen van experimenten.
Hardwareopties
| Versneller | Geschikt voor | Multi-GPU |
|---|---|---|
| A10 | Kleine tot middelgrote ML- en deep learning-taken zoals klassieke ML-modellen of kleinere taalmodellen verfijnen | No |
| H100 | Grootschalige AI-taken, waaronder het trainen en het fijn-tunen van enorme modellen of het uitvoeren van geavanceerde deep learning-taken. | Ja (8 GPU's) |
Aanbevolen gebruiksvoorbeelden
Databricks raadt AI Runtime aan voor gebruikscases voor aangepaste modeltraining die betrekking hebben op deep learning, workloads op grote schaal, of GPU's.
Voorbeeld:
- nl-NL: LLM fine-tuning (LoRA, QLoRA, volledige fine-tuning)
- Computer Vision (objectdetectie, afbeeldingsclassificatie)
- Op deep learning gebaseerde aanbevelingssystemen
- Bekrachtigend leren
- Prognose van tijdreeksen op basis van Deep Learning
Requirements
- Een werkruimte in een van de volgende door Azure ondersteunde regio's:
centraluseastuseastus2northcentraluswestcentraluswestuswestus3
Beperkingen
- AI Runtime ondersteunt alleen A10- en H100-accelerators.
- AI Runtime wordt niet ondersteund voor werkruimten met een nalevingsprofiel voor beveiliging (zoals HIPAA of PCI). Het verwerken van gereguleerde gegevens wordt niet ondersteund.
- Het toevoegen van afhankelijkheden met behulp van het deelvenster Omgevingen wordt niet ondersteund voor geplande AI Runtime-taken. Installeer afhankelijkheden programmatisch in uw notebook met behulp van
%pip install. - Voor geplande taken in AI Runtime wordt automatisch herstelgedrag voor incompatibele pakketversies die aan uw notebook zijn gekoppeld, niet ondersteund.
- De maximale runtime voor een workload is zeven dagen. Voor modeltrainingstaken die deze limiet overschrijden, implementeert u controlepunten en start u de taak opnieuw zodra de maximale runtime is bereikt.
- AI Runtime biedt on-demand toegang tot GPU-resources. Hoewel dit leidt tot eenvoudige, flexibele toegang tot GPU's, kunnen er perioden zijn waarin de capaciteit wordt beperkt of niet beschikbaar is in uw regio.
- AI Runtime maakt gebruik van GPU's tussen regio's in bepaalde gevallen tijdens momenten van hoge vraag. Er kunnen kosten voor uitgaand verkeer zijn gekoppeld aan dit gebruik.
Verbinding maken met AI Runtime
U kunt interactief verbinding maken met AI Runtime vanuit notebooks, notebooks plannen als terugkerende taken of programmatisch taken maken met behulp van de Jobs-API en Databricks Asset Bundles. Zie Verbinding maken met AI Runtime voor stapsgewijze instructies.
Omgeving instellen
AI Runtime biedt twee beheerde Python-omgevingen: een minimale standaardbasisomgeving en een volledig functionele Databricks AI-omgeving die vooraf is geladen met populaire ML-frameworks, zoals PyTorch en Transformers. Zie Uw omgeving instellen voor meer informatie over het kiezen van een omgeving, het cachinggedrag, het importeren van aangepaste modules en bekende beperkingen.
Gegevens lezen
Inzicht in hoe gegevenstoegang werkt in AI Runtime is essentieel voor een soepele ervaring. Zie Gegevens laden in AI Runtime voor meer informatie.
Gedistribueerde training
Belangrijk
Deze functie bevindt zich in de bètaversie. Werkruimtebeheerders kunnen de toegang tot deze functie beheren vanaf de pagina Previews . Zie Azure Databricks-previews beheren.
AI Runtime ondersteunt gedistribueerde training over meerdere GPU's op het ene knooppunt waarop uw notebook is verbonden. Met behulp van de @distributed decorator van de serverless_gpu Python-API (bèta) kunt u workloads met meerdere GPU's starten met PyTorch DDP, FSDP of DeepSpeed met minimale configuratie. Zie multi-GPU-workload voor meer informatie.
Experimenten bijhouden en waarneembaarheid
Zie Experimenttracking en waarneembaarheid voor MLflow-integratie, het weergeven van logboeken en het beheer van modelcontrolepunten.
Genie Code voor deep learning
Genie Code ondersteunt deep learning-workloads in AI Runtime. Het kan helpen bij het genereren van trainingscode, het oplossen van bibliotheekinstallatiefouten, het voorstellen van optimalisaties en het opsporen van veelvoorkomende problemen. Zie Genie Code gebruiken voor gegevenswetenschap.
Guides
Zie Gebruikershandleidingen voor AI Runtime voor migratie van klassieke workloads, voorbeeldnotebooks en probleemoplossing.