Databricks Runtime for Machine Learning

Środowisko Databricks Runtime for Machine Learning (Databricks Runtime ML) automatyzuje tworzenie klastra zoptymalizowanego pod kątem uczenia maszynowego. Klastry uczenia maszynowego środowiska Databricks Runtime obejmują najpopularniejsze biblioteki uczenia maszynowego, takie jak TensorFlow, PyTorch, Keras i XGBoost, a także biblioteki wymagane do trenowania rozproszonego, takie jak Horovod. Korzystanie z usługi Databricks Runtime ML przyspiesza tworzenie klastra i zapewnia, że zainstalowane wersje bibliotek są zgodne.

Aby uzyskać pełne informacje na temat korzystania z usługi Azure Databricks na potrzeby uczenia maszynowego i uczenia głębokiego, zobacz Przewodnik po usłudze Databricks Machine Learning.

Aby uzyskać informacje o zawartości każdej wersji środowiska Databricks Runtime ML, zobacz informacje o wersji.

Usługa Databricks Runtime ML jest oparta na środowisku Databricks Runtime. Na przykład środowisko Databricks Runtime 7.3 LTS for Machine Learning jest oparte na środowisku Databricks Runtime 7.3 LTS. Biblioteki zawarte w podstawowym środowisku Databricks Runtime są wymienione w informacjach o wersji środowiska Databricks Runtime.

Wprowadzenie do środowiska Databricks Runtime na potrzeby uczenia maszynowego

Ten samouczek jest przeznaczony dla nowych użytkowników środowiska Databricks Runtime ML. Trwa to około 10 minut i pokazuje kompletny przykład ładowania danych tabelarycznych, trenowania modelu, dostrajania hiperparametrów rozproszonych i wnioskowania modelu. Pokazano również, jak używać interfejsu API MLflow i rejestru modeli MLflow.

Notes samouczka usługi Databricks

Pobierz notes

Biblioteki zawarte w usłudze Databricks Runtime ML

Usługa Databricks Runtime ML zawiera wiele popularnych bibliotek uczenia maszynowego. Biblioteki są aktualizowane wraz z każdą wersją w celu uwzględnienia nowych funkcji i poprawek.

Usługa Azure Databricks wyznaczyła podzbiór obsługiwanych bibliotek jako biblioteki najwyższego poziomu. W przypadku tych bibliotek usługa Azure Databricks zapewnia szybszą cykl aktualizacji, aktualizując do najnowszych wydań pakietów z każdym wydaniem środowiska uruchomieniowego (konflikty zależności). Usługa Azure Databricks zapewnia również zaawansowaną obsługę, testowanie i osadzone optymalizacje dla bibliotek najwyższej warstwy.

Aby uzyskać pełną listę najlepszych warstw i innych udostępnionych bibliotek, zobacz następujące artykuły dla każdego dostępnego środowiska uruchomieniowego:

Jak używać usługi Databricks Runtime ML

Oprócz wstępnie zainstalowanych bibliotek usługa Databricks Runtime ML różni się od środowiska Databricks Runtime w konfiguracji klastra i sposobu zarządzania pakietami języka Python.

Tworzenie klastra przy użyciu usługi Databricks Runtime ML

Podczas tworzenia klastra wybierz wersję środowiska Databricks Runtime ML z listy rozwijanej Databricks Runtime Version (Wersja środowiska uruchomieniowego usługi Databricks). Dostępne są zarówno środowiska uruchomieniowe uczenia maszynowego z obsługą procesora CPU, jak i procesora GPU.

Wybieranie usługi Databricks Runtime ML

Jeśli wybierzesz środowisko uruchomieniowe uczenia maszynowego z obsługą procesora GPU, zostanie wyświetlony monit o wybranie zgodnego typu sterownika i typu procesu roboczego. Niezgodne typy wystąpień są wyszarywane na listach rozwijanych. Typy wystąpień z obsługą procesora GPU znajdują się na liście na etykiecie przyspieszonej przez procesor GPU .

Ważne

  • Biblioteki w obszarze roboczym, które automatycznie instalują się we wszystkich klastrach , mogą powodować konflikt z bibliotekami zawartymi w usłudze Databricks Runtime ML. Przed utworzeniem klastra za pomocą usługi Databricks Runtime ML wyczyść pole wyboru Zainstaluj automatycznie we wszystkich klastrach dla bibliotek powodujących konflikt. Zapoznaj się z informacjami o wersji , aby zapoznać się z listą bibliotek dołączonych do każdej wersji środowiska Databricks Runtime ML.
  • Aby uzyskać dostęp do danych w usłudze Unity Catalog dla przepływów pracy uczenia maszynowego, należy użyć klastra pojedynczego użytkownika. Klastry izolacji użytkowników nie są zgodne z usługą Databricks Runtime ML.

Zarządzanie pakietami języka Python

W środowisku Databricks Runtime 9.0 ML i nowszym menedżer pakietów virtualenv służy do instalowania pakietów języka Python. Wszystkie pakiety języka Python są instalowane w jednym środowisku: /databricks/python3.

W środowisku Databricks Runtime 8.4 ML i poniżej menedżer pakietów Conda służy do instalowania pakietów języka Python. Wszystkie pakiety języka Python są instalowane w jednym środowisku: /databricks/python2 w klastrach przy użyciu języka Python 2 i /databricks/python3 klastrów przy użyciu języka Python 3. Przełączanie (lub aktywowanie) środowisk Conda nie jest obsługiwane.

Aby uzyskać informacje na temat zarządzania bibliotekami języka Python, zobacz Biblioteki.

Obsługa zautomatyzowanego uczenia maszynowego

Usługa Databricks Runtime ML zawiera narzędzia do automatyzowania procesu tworzenia modeli i ułatwiają efektywne znajdowanie najlepszego modelu.

  • AutoML automatycznie tworzy, dostraja i ocenia zestaw modeli oraz tworzy notes języka Python z kodem źródłowym dla każdego przebiegu, aby można było przeglądać, odtwarzać i modyfikować kod.
  • Zarządzana usługa MLFlow zarządza kompleksową cyklem życia modelu, w tym śledzeniem przebiegów eksperymentalnych, wdrażaniem i udostępnianiem modeli oraz konserwowaniem scentralizowanego rejestru modeli.
  • Funkcja Hyperopt, rozszerzona o klasę SparkTrials , automatyzuje i dystrybuuje dostrajanie parametrów modelu uczenia maszynowego.

Ograniczenia

Usługa Databricks Runtime ML nie jest obsługiwana w następujących systemach: