Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of mappen te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen om mappen te wijzigen.
Op deze pagina wordt de Databricks Runtime voor Machine Learning beschreven en vindt u richtlijnen voor het maken van een klassieke rekenresource die deze gebruikt.
Wat is Databricks Runtime voor Machine Learning?
Databricks Runtime voor Machine Learning (Databricks Runtime ML) automatiseert het maken van een rekenresource met vooraf gebouwde machine learning- en deep learning-infrastructuur, waaronder de meest voorkomende ML- en DL-bibliotheken.
Bibliotheken die zijn opgenomen in Databricks Runtime ML
Databricks Runtime ML bevat een verscheidenheid aan populaire ML-bibliotheken. De bibliotheken worden bijgewerkt met elke release om nieuwe functies en oplossingen op te nemen.
Databricks heeft een subset van de ondersteunde bibliotheken aangewezen als bibliotheken met de hoogste laag. Voor deze bibliotheken biedt Databricks een snellere updatefrequentie, waarbij naar de nieuwste pakketreleases wordt bijgewerkt met elke runtimerelease, zolang er geen afhankelijkheidsconflicten zijn. Databricks biedt ook geavanceerde ondersteuning, testen en ingesloten optimalisaties voor bibliotheken van topklasse. Bibliotheken van het hoogste niveau worden alleen toegevoegd of verwijderd bij belangrijke releases.
- Zie de release-opmerkingen van Databricks Runtime ML voor een volledige lijst van topkwaliteit en andere beschikbare bibliotheken.
- Zie Databricks Runtime ML-onderhoudsbeleidvoor informatie over hoe vaak bibliotheken worden bijgewerkt en wanneer bibliotheken worden afgeschaft.
U kunt extra bibliotheken installeren om een aangepaste omgeving te maken voor uw notebook of rekenresource.
- Als u een bibliotheek beschikbaar wilt maken voor alle notebooks die worden uitgevoerd op een rekenresource, maakt u een bibliotheek met rekenbereik. U kunt ook een init-script gebruiken om bibliotheken te installeren tijdens het maken van de berekening.
- Als u een bibliotheek wilt installeren die alleen beschikbaar is voor een specifieke notebooksessie, gebruikt u Python-bibliotheken met een notebookscope.
Een rekenresource maken met Databricks Runtime voor ML
Als u een rekenresource wilt maken die databricks Runtime voor ML gebruikt, schakelt u het selectievakje Machine learning in de rekeninterface maken in. Hiermee wordt de toegangsmodus automatisch ingesteld op Dedicated met uw account als de toegewezen gebruiker. U kunt de rekenresource handmatig toewijzen aan een andere gebruiker of groep in de sectie Geavanceerd van de gebruikersinterface voor het maken van rekenprocessen.
Voor op GPU gebaseerde rekenkracht selecteert u een GPU-ondersteund instancetype in de keuzelijst Worker-type. Zie Ondersteunde exemplaartypenvoor de volledige lijst met ondersteunde GPU-typen.
Photon en Databricks Runtime ML
Wanneer u een rekenresource maakt waarop Databricks Runtime 15.2 ML of hoger wordt uitgevoerd, kunt u ervoor kiezen Om Photon in te schakelen. Photon verbetert de prestaties voor toepassingen met behulp van Spark SQL, Spark DataFrames, kenmerkengineering, GraphFrames en xgboost4j. Het is niet verwacht dat de prestaties voor toepassingen worden verbeterd met behulp van Spark RDD's, Pandas UDF's en niet-JVM-talen zoals Python. Python-pakketten zoals XGBoost, PyTorch en TensorFlow zien dus geen verbetering met Photon.
Spark RDD-API's en Spark MLlib hebben beperkte compatibiliteit met Photon. Wanneer u grote gegevenssets verwerkt met behulp van Spark RDD of Spark MLlib, kunnen er problemen met Spark-geheugen optreden. Bekijk problemen met Spark-geheugen.
Compute-toegangsmodus voor Databricks Runtime ML
Als u toegang wilt krijgen tot gegevens in Unity Catalog op een rekenresource met Databricks Runtime ML, moet u de toegangsmodus instellen op Dedicated. De toegangsmodus wordt automatisch ingesteld in de rekeninterface maken wanneer u het selectievakje Machine learning inschakelt.
Wanneer een rekenresource de toegewezen toegangsmodus heeft, kan de resource worden toegewezen aan één gebruiker of groep. Wanneer de gebruiker is toegewezen aan een groep, worden de machtigingen van de gebruiker automatisch beperkt tot de machtigingen van de groep, zodat de gebruiker de resource veilig kan delen met andere leden van de groep.
Wanneer u de toegewezen toegangsmodus gebruikt, zijn de volgende functies alleen beschikbaar in Databricks Runtime 15.4 LTS ML en hoger:
- fijnmazige toegangscontrole.
- Query's uitvoeren op tabellen die zijn gemaakt met behulp van declaratieve Pijplijnen van Lakeflow Spark, inclusief streamingtabellen en gerealiseerde weergaven.
Modellen trainen
In de volgende resources ziet u hoe u machine learning- en AI-modellen traint op Mozaïek AI en Databricks Runtime voor Machine Learning.
Mozaïek AI Model Training stroomlijnt en samen het proces van het trainen en implementeren van traditionele ML-modellen via AutoML en Foundation Model Fine-tuning workloads.
AutoML
AutoML vereenvoudigt het proces van het toepassen van machine learning op uw gegevenssets door automatisch het beste algoritme en de configuratie van hyperparameters te vinden. AutoML biedt een gebruikersinterface zonder code en een Python-API.
Fijnstelling van het Fundamentele Model
Met Foundation Model Fine-tuning (nu onderdeel van Mosaic AI Model Training) in Azure Databricks kunt u grote taalmodellen (LLM's) aanpassen met behulp van uw eigen gegevens. Dit proces omvat het verfijnen van de training van een bestaand basismodel, waardoor de benodigde gegevens, tijd en rekenresources aanzienlijk worden verminderd in vergelijking met het trainen van een volledig nieuw model. Belangrijke functies zijn onder andere:
- Instructie verfijnen: Pas uw model aan nieuwe taken aan door te trainen op gestructureerde prompt-responsgegevens.
- Vervolgtraining: Verbeter uw model met extra tekstgegevens om nieuwe kennis toe te voegen of richt u op een specifiek domein.
- Chatvoltooiing: Oefen uw model met chatlogs om de conversatievaardigheden te verbeteren.
Voorbeelden van opensource-bibliotheken
Bekijk voorbeelden van machine learning-training uit een groot aantal opensource-machine learning-bibliotheken, waaronder voorbeelden van hyperparameterafstemming met optuna en Hyperopt.
Diep leren
Bekijk voorbeelden en aanbevolen procedures voor gedistribueerde deep learning-training om deep learning-modellen te ontwikkelen en af te stemmen op Azure Databricks.
Aanbevelingen
Meer informatie over het trainen van op deep learning gebaseerde aanbevelingsmodellen in Azure Databricks. In vergelijking met traditionele aanbevelingsmodellen kunnen deep learning-modellen resultaten van hogere kwaliteit bereiken en naar grotere hoeveelheden gegevens schalen.