Databricks Runtime för Machine Learning

Databricks Runtime for Machine Learning (Databricks Runtime ML) automatiserar skapandet av ett kluster som är optimerat för maskininlärning. Databricks Runtime ML-kluster innehåller de mest populära maskininlärningsbiblioteken, till exempel TensorFlow, PyTorch, Keras och XGBoost, och innehåller även bibliotek som krävs för distribuerad utbildning, till exempel Horovod. Användning av Databricks Runtime ML påskyndar skapandet av kluster och säkerställer att de installerade biblioteksversionerna är kompatibla.

Fullständig information om hur du använder Azure Databricks för maskininlärning och djupinlärning finns i Databricks Machine Learning-guiden.

Information om innehållet i varje Databricks Runtime ML-version finns i viktig information.

Databricks Runtime ML bygger på Databricks Runtime. Databricks Runtime 7.3 LTS for Machine Learning bygger till exempel på Databricks Runtime 7.3 LTS. Biblioteken som ingår i databricks-baskörningen visas i viktig information om Databricks Runtime.

Introduktion till Databricks Runtime for Machine Learning

Den här självstudien är utformad för nya användare av Databricks Runtime ML. Det tar cirka 10 minuter att arbeta igenom och visar ett komplett exempel från slutpunkt till slutpunkt på inläsning av tabelldata, träning av en modell, distribuerad hyperparameterjustering och modellinferens. Den illustrerar också hur du använder MLflow API och MLflow Model Registry.

Databricks-självstudieanteckningsbok

Hämta notebook-fil

Bibliotek som ingår i Databricks Runtime ML

Databricks Runtime ML innehåller en mängd populära ML-bibliotek. Biblioteken uppdateras med varje version för att inkludera nya funktioner och korrigeringar.

Azure Databricks har utsett en delmängd av de bibliotek som stöds till bibliotek på den översta nivån. För dessa bibliotek ger Azure Databricks en snabbare uppdateringstakt och uppdaterar till de senaste paketversionerna med varje körningsversion (med undantag för beroendekonflikter). Azure Databricks tillhandahåller även avancerad support, testning och inbäddade optimeringar för bibliotek på den översta nivån.

En fullständig lista över bibliotek på den översta nivån och andra bibliotek som tillhandahålls finns i följande artiklar för varje tillgänglig körning:

Använda Databricks Runtime ML

Förutom de förinstallerade biblioteken skiljer sig Databricks Runtime ML från Databricks Runtime i klusterkonfigurationen och hur du hanterar Python-paket.

Skapa ett kluster med Databricks Runtime ML

När du skapar ett kluster väljer du en Databricks Runtime ML-version i listrutan Databricks Runtime Version. Både CPU- och GPU-aktiverade ML-körningar är tillgängliga.

Välj Databricks Runtime ML

Om du väljer en GPU-aktiverad ML-körning uppmanas du att välja en kompatibel drivrutinstyp och arbetstyp. Inkompatibla instanstyper är nedtonade i listrutorna. GPU-aktiverade instanstyper visas under etiketten GPU-Accelererad .

Viktigt

  • Bibliotek på din arbetsyta som installeras automatiskt i alla kluster kan hamna i konflikt med biblioteken som ingår i Databricks Runtime ML. Innan du skapar ett kluster med Databricks Runtime ML avmarkerar du kryssrutan Installera automatiskt i alla kluster för bibliotek i konflikt. Se viktig information för en lista över bibliotek som ingår i varje version av Databricks Runtime ML.
  • Om du vill komma åt data i Unity Catalog för maskininlärningsarbetsflöden måste du använda ett kluster med en enda användare. Kluster för användarisolering är inte kompatibla med Databricks Runtime ML.

Hantera Python-paket

I Databricks Runtime 9.0 ML och senare används virtualenv-pakethanteraren för att installera Python-paket. Alla Python-paket installeras i en enda miljö: /databricks/python3.

I Databricks Runtime 8.4 ML och nedan används Conda-pakethanteraren för att installera Python-paket. Alla Python-paket installeras i en enda miljö: /databricks/python2 i kluster som använder Python 2 och /databricks/python3 i kluster med Python 3. Det går inte att växla (eller aktivera) Conda-miljöer.

Information om hur du hanterar Python-bibliotek finns i Bibliotek.

Stöd för automatiserad maskininlärning

Databricks Runtime ML innehåller verktyg för att automatisera modellutvecklingsprocessen och hjälpa dig att effektivt hitta den modell som fungerar bäst.

  • AutoML skapar, justerar och utvärderar automatiskt en uppsättning modeller och skapar en Python-anteckningsbok med källkoden för varje körning så att du kan granska, återskapa och ändra koden.
  • Hanterad MLFlow hanterar hela modelllivscykeln från slutpunkt till slutpunkt, inklusive spårning av experimentella körningar, distribution och delning av modeller och underhåll av ett centraliserat modellregister.
  • Hyperopt, utökat med SparkTrials klassen, automatiserar och distribuerar ML-modellparameterjustering.

Begränsningar

Databricks Runtime ML stöds inte på: