Udostępnij za pośrednictwem


Databricks Runtime na potrzeby uczenia maszynowego

Na tej stronie opisano środowisko Databricks Runtime for Machine Learning i zawiera wskazówki dotyczące tworzenia klasycznego zasobu obliczeniowego, który go używa.

Co to jest Databricks Runtime dla uczenia maszynowego?

Środowisko Databricks Runtime for Machine Learning (Databricks Runtime ML) automatyzuje tworzenie zasobu obliczeniowego przy użyciu wstępnie utworzonej infrastruktury uczenia maszynowego i uczenia głębokiego, w tym najpopularniejszych bibliotek uczenia maszynowego i bibliotek DLL.

Biblioteki zawarte w środowisku Databricks Runtime ML

Środowisko Databricks Runtime ML zawiera wiele popularnych bibliotek uczenia maszynowego. Biblioteki są aktualizowane wraz z każdą wersją w celu uwzględnienia nowych funkcji i poprawek.

Usługa Databricks wyznaczyła podzbiór obsługiwanych bibliotek jako bibliotek najwyższego poziomu. W przypadku tych bibliotek usługa Databricks zapewnia szybszy cykl aktualizacji, aktualizując do najnowszych wersji pakietów przy każdej wersji środowiska uruchomieniowego, o ile nie występują konflikty zależności. Databricks zapewnia również zaawansowane wsparcie, testowanie i optymalizacje osadzone dla najwyższej klasy bibliotek. Biblioteki najwyższego poziomu są dodawane lub usuwane tylko w przypadku głównych wydań.

Możesz zainstalować dodatkowe biblioteki, aby utworzyć środowisko niestandardowe dla notatnika lub zasobu obliczeniowego.

Tworzenie zasobu obliczeniowego za pomocą środowiska Databricks Runtime dla uczenia maszynowego

Aby utworzyć zasób obliczeniowy używający środowiska Databricks Runtime dla uczenia maszynowego, zaznacz pole wyboru Uczenie maszynowe w interfejsie użytkownika tworzenia zasobów obliczeniowych. Spowoduje to automatyczne ustawienie trybu dostępu dedykowanego dla konta jako dedykowanego użytkownika. Zasób obliczeniowy można przypisać ręcznie do innego użytkownika lub innej grupy w sekcji Zaawansowane w interfejsie użytkownika tworzenia obliczeń.

W przypadku obliczeń opartych na procesorze GPU wybierz typ wystąpienia z obsługą procesora GPU w menu rozwijanym Typ procesu roboczego . Aby uzyskać pełną listę obsługiwanych typów procesorów GPU, zobacz Obsługiwane typy wystąpień.

Photon i Databricks Runtime ML

Podczas tworzenia zasobu obliczeniowego z uruchomionym środowiskiem Databricks Runtime 15.2 ML lub nowszym można włączyć funkcję Photon. Photon zwiększa wydajność aplikacji przy użyciu Spark SQL, Spark DataFrames, inżynierii cech, GraphFrames i xgboost4j. Nie oczekuje się poprawy wydajności aplikacji przy użyciu rdD platformy Spark, funkcji UDF biblioteki Pandas i języków innych niż JVM, takich jak Python. W związku z tym pakiety języka Python, takie jak XGBoost, PyTorch i TensorFlow, nie będą widzieć poprawy w narzędziu Photon.

Interfejsy API RDD platformy Spark i biblioteki MLlib platformy Spark mają ograniczoną zgodność z aplikacją Photon. Podczas przetwarzania dużych zestawów danych przy użyciu rdD platformy Spark lub biblioteki MLlib platformy Spark mogą wystąpić problemy z pamięcią platformy Spark. Zobacz Problemy z pamięcią platformy Spark.

Tryb dostępu obliczeniowego dla środowiska Databricks Runtime ML

Aby uzyskać dostęp do danych w katalogu Unity Catalog na zasobie obliczeniowym z uruchomionym Databricks Runtime ML, należy ustawić tryb dostępu na Dedykowany. Tryb dostępu jest automatycznie ustawiany w interfejsie użytkownika tworzenia zasobów obliczeniowych po zaznaczeniu pola wyboru Uczenie maszynowe .

Gdy zasób obliczeniowy ma tryb dedykowanego dostępu, zasób można przypisać do jednego użytkownika lub grupy. Po przypisaniu do grupy uprawnienia użytkownika automatycznie obniżają zakres uprawnień grupy, umożliwiając użytkownikowi bezpieczne udostępnianie zasobu innym członkom grupy.

W przypadku korzystania z trybu dedykowanego dostępu następujące funkcje są dostępne tylko w środowisku Databricks Runtime 15.4 LTS ML i nowszych wersjach:

  • Szczegółowa kontrola dostępu.
  • Wykonywanie zapytań do tabel utworzonych za pomocą Lakeflow Spark Declarative Pipelines, w tym tabel przesyłania strumieniowego i zmaterializowanych widoków.

Trenowanie modeli

Poniższe zasoby pokazują, jak trenować modele uczenia maszynowego i sztucznej inteligencji na platformie Mosaic AI i Databricks Runtime na potrzeby uczenia maszynowego.

Szkolenie modeli Mosaic AI usprawnia i jednoczy proces trenowania i wdrażania tradycyjnych modeli uczenia maszynowego poprzez zastosowanie obciążeń AutoML i dostrajania modeli bazowych.

zautomatyzowane uczenie maszynowe

Rozwiązanie AutoML upraszcza proces stosowania uczenia maszynowego do zestawów danych, automatycznie wyszukując najlepszy algorytm i konfigurację hiperparametrów. Rozwiązanie AutoML oferuje interfejs użytkownika bez kodu, a także interfejs API języka Python.

Dostrajanie modelu podstawowego

Dostrajanie modelu podstawowego (obecnie część trenowania modelu mozaiki sztucznej inteligencji) w usłudze Azure Databricks umożliwia dostosowywanie dużych modeli językowych (LLMs) przy użyciu własnych danych. Ten proces obejmuje precyzyjne dostrajanie trenowania istniejącego modelu podstawowego, co znacznie zmniejsza ilość wymaganych danych, czasu i zasobów obliczeniowych w porównaniu do trenowania modelu od podstaw. Najważniejsze funkcje obejmują:

  • Dostrajanie instrukcji: Dostosowanie modelu do nowych zadań poprzez trening na ustrukturyzowanych danych z odpowiedziami na monity.
  • Dalsze wstępne szkolenie: rozszerz model dodatkowymi danymi tekstowymi, aby dodać nową wiedzę lub skupić się na określonej domenie.
  • Ukończenie czatu: wytrenuj model w dziennikach czatów, aby poprawić możliwości konwersacji.

Przykłady bibliotek typu open source

Zobacz przykłady trenowania uczenia maszynowego z szerokiej gamy bibliotek uczenia maszynowego typu open source, w tym przykłady dostrajania hiperparametrów przy użyciu optuna i funkcji Hyperopt.

Uczenie głębokie

Zobacz przykłady i najlepsze rozwiązania dotyczące trenowania rozproszonego uczenia głębokiego , aby opracowywać i dostosowywać modele uczenia głębokiego w usłudze Azure Databricks.

Rekomendatory

Dowiedz się, jak trenować modele rekomendacji oparte na uczeniu głębokim w usłudze Azure Databricks. W porównaniu z tradycyjnymi modelami rekomendacji modele uczenia głębokiego mogą osiągać wyniki o wyższej jakości i skalować do większych ilości danych.