Databricks Runtime na potrzeby uczenia maszynowego

Na tej stronie opisano środowisko Databricks Runtime for Machine Learning i zawiera wskazówki dotyczące tworzenia klasycznego zasobu obliczeniowego, który go używa.

Co to jest Databricks Runtime dla uczenia maszynowego?

Środowisko Databricks Runtime for Machine Learning (Databricks Runtime ML) automatyzuje tworzenie zasobu obliczeniowego przy użyciu wstępnie utworzonej infrastruktury uczenia maszynowego i uczenia głębokiego, w tym najpopularniejszych bibliotek uczenia maszynowego i bibliotek DLL.

Biblioteki zawarte w środowisku Databricks Runtime ML

Środowisko Databricks Runtime ML zawiera wiele popularnych bibliotek uczenia maszynowego. Biblioteki są aktualizowane wraz z każdą wersją w celu uwzględnienia nowych funkcji i poprawek.

Usługa Databricks wyznaczyła podzbiór obsługiwanych bibliotek jako bibliotek najwyższego poziomu. W przypadku tych bibliotek usługa Databricks zapewnia szybszy cykl aktualizacji, aktualizując do najnowszych wersji pakietów przy każdej wersji środowiska uruchomieniowego, o ile nie występują konflikty zależności. Databricks zapewnia również zaawansowane wsparcie, testowanie i optymalizacje osadzone dla najwyższej klasy bibliotek. Biblioteki najwyższego poziomu są dodawane lub usuwane tylko w przypadku głównych wydań.

Aby uzyskać pełną listę najwyższej klasy i innych dostępnych bibliotek, zobacz uwagi do wydania dla środowiska Databricks Runtime ML.
Aby uzyskać informacje na temat częstotliwości aktualizowania bibliotek i gdy biblioteki są przestarzałe, zobacz Zasady konserwacji uczenia maszynowego środowiska Databricks Runtime.

Możesz zainstalować dodatkowe biblioteki, aby utworzyć środowisko niestandardowe dla notatnika lub zasobu obliczeniowego.

Aby udostępnić bibliotekę dla wszystkich notesów działających na zasobie obliczeniowym, utwórz bibliotekę o zakresie obliczeniowym. Możesz również użyć skryptu inicjowania , aby zainstalować biblioteki podczas tworzenia zasobów obliczeniowych.
Aby zainstalować bibliotekę dostępną tylko dla określonej sesji notebooka, użyj bibliotek języka Python o zakresie notebooka.

Tworzenie zasobu obliczeniowego za pomocą środowiska Databricks Runtime dla uczenia maszynowego

Aby utworzyć zasób obliczeniowy używający środowiska Databricks Runtime dla uczenia maszynowego, zaznacz pole wyboru Uczenie maszynowe w interfejsie użytkownika tworzenia zasobów obliczeniowych. Spowoduje to automatyczne ustawienie trybu dostępu dedykowanego dla konta jako dedykowanego użytkownika. Zasób obliczeniowy można przypisać ręcznie do innego użytkownika lub innej grupy w sekcji Zaawansowane w interfejsie użytkownika tworzenia obliczeń.

W przypadku obliczeń opartych na procesorze GPU wybierz typ wystąpienia z obsługą procesora GPU w menu rozwijanym Typ procesu roboczego . Aby uzyskać pełną listę obsługiwanych typów procesorów GPU, zobacz Obsługiwane typy wystąpień.

Photon i Databricks Runtime ML

Podczas tworzenia zasobu obliczeniowego z uruchomionym środowiskiem Databricks Runtime 15.2 ML lub nowszym można włączyć funkcję Photon. Photon zwiększa wydajność aplikacji przy użyciu Spark SQL, Spark DataFrames, inżynierii cech, GraphFrames i xgboost4j. Nie oczekuje się poprawy wydajności aplikacji przy użyciu rdD platformy Spark, funkcji UDF biblioteki Pandas i języków innych niż JVM, takich jak Python. W związku z tym pakiety języka Python, takie jak XGBoost, PyTorch i TensorFlow, nie będą widzieć poprawy w narzędziu Photon.

Interfejsy API RDD platformy Spark i biblioteki MLlib platformy Spark mają ograniczoną zgodność z aplikacją Photon. Podczas przetwarzania dużych zestawów danych przy użyciu rdD platformy Spark lub biblioteki MLlib platformy Spark mogą wystąpić problemy z pamięcią platformy Spark. Zobacz Problemy z pamięcią platformy Spark.

Tryb dostępu obliczeniowego dla środowiska Databricks Runtime ML

Aby uzyskać dostęp do danych w katalogu Unity Catalog na zasobie obliczeniowym z uruchomionym Databricks Runtime ML, należy ustawić tryb dostępu na Dedykowany. Tryb dostępu jest automatycznie ustawiany w interfejsie użytkownika tworzenia zasobów obliczeniowych po zaznaczeniu pola wyboru Uczenie maszynowe .

Gdy zasób obliczeniowy ma tryb dedykowanego dostępu, zasób można przypisać do jednego użytkownika lub grupy. Po przypisaniu do grupy uprawnienia użytkownika automatycznie obniżają zakres uprawnień grupy, umożliwiając użytkownikowi bezpieczne udostępnianie zasobu innym członkom grupy.

W przypadku korzystania z trybu dedykowanego dostępu następujące funkcje są dostępne tylko w środowisku Databricks Runtime 15.4 LTS ML i nowszych wersjach:

Trenowanie modeli

Poniższe zasoby pokazują, jak trenować modele uczenia maszynowego i sztucznej inteligencji.

Databricks Model Training usprawnia i ujednolica proces szkolenia oraz wdrażania tradycyjnych modeli ML dzięki funkcjom AutoML i dostrajania modeli bazowych.

zautomatyzowane uczenie maszynowe

Rozwiązanie AutoML upraszcza proces stosowania uczenia maszynowego do zestawów danych, automatycznie wyszukując najlepszy algorytm i konfigurację hiperparametrów. Rozwiązanie AutoML oferuje interfejs użytkownika bez kodu, a także interfejs API języka Python.

Dostrajanie modelu podstawowego

Foundation Model Fine-tuning (obecnie część Databricks Model Training) w usłudze Azure Databricks umożliwia dostosowywanie dużych modeli językowych (LLM-ów) za pomocą własnych danych. Ten proces obejmuje precyzyjne dostrajanie trenowania istniejącego modelu podstawowego, co znacznie zmniejsza ilość wymaganych danych, czasu i zasobów obliczeniowych w porównaniu do trenowania modelu od podstaw. Najważniejsze funkcje obejmują:

Dostrajanie instrukcji: Dostosowanie modelu do nowych zadań poprzez trening na ustrukturyzowanych danych z odpowiedziami na monity.
Dalsze wstępne szkolenie: rozszerz model dodatkowymi danymi tekstowymi, aby dodać nową wiedzę lub skupić się na określonej domenie.
Ukończenie czatu: wytrenuj model w dziennikach czatów, aby poprawić możliwości konwersacji.

Przykłady bibliotek typu open source

Zobacz przykłady trenowania uczenia maszynowego z szerokiej gamy bibliotek uczenia maszynowego typu open source, w tym przykłady dostrajania hiperparametrów przy użyciu optuna i funkcji Hyperopt.

Uczenie głębokie

Zobacz przykłady i najlepsze rozwiązania dotyczące trenowania rozproszonego uczenia głębokiego , aby opracowywać i dostosowywać modele uczenia głębokiego w usłudze Azure Databricks.

Rekomendatory

Dowiedz się, jak trenować modele rekomendacji oparte na uczeniu głębokim w usłudze Azure Databricks. W porównaniu z tradycyjnymi modelami rekomendacji modele uczenia głębokiego mogą osiągać wyniki o wyższej jakości i skalować do większych ilości danych.

Opinia

Czy ta strona była pomocna?

Last updated on 2026-07-10