Udostępnij za pośrednictwem


Sztuczna inteligencja i uczenie maszynowe w usłudze Databricks

W tym artykule opisano narzędzia zapewniane przez usługę Azure Databricks ułatwiające tworzenie i monitorowanie przepływów pracy sztucznej inteligencji i uczenia maszynowego. Na diagramie pokazano, jak te składniki współpracują ze sobą, aby ułatwić wdrożenie procesu tworzenia i wdrażania modelu.

Diagram uczenia maszynowego: Programowanie i wdrażanie modeli w usłudze Databricks

Dlaczego warto używać usługi Databricks do uczenia maszynowego i uczenia głębokiego?

Usługa Azure Databricks umożliwia zaimplementowanie pełnego cyklu życia uczenia maszynowego na jednej platformie z kompleksową obsługą ładu w całym potoku uczenia maszynowego. Usługa Azure Databricks obejmuje następujące wbudowane narzędzia do obsługi przepływów pracy uczenia maszynowego:

Uczenie głębokie w usłudze Databricks

Konfigurowanie infrastruktury dla aplikacji uczenia głębokiego może być trudne.

Środowisko Databricks Runtime for Machine Learning zajmuje się tym za Ciebie, z klastrami, które mają wbudowane wersje najpopularniejszych bibliotek uczenia głębokiego, takich jak TensorFlow, PyTorch i Keras, oraz biblioteki pomocnicze, takie jak Petastorm, Hyperopt i Horovod. Klastry uczenia maszynowego środowiska Databricks Runtime obejmują również wstępnie skonfigurowaną obsługę procesora GPU ze sterownikami i bibliotekami pomocniczymi. Obsługuje również biblioteki, takie jak Ray , aby zrównać przetwarzanie obliczeniowe na potrzeby skalowania przepływów pracy uczenia maszynowego i aplikacji sztucznej inteligencji.

Klastry uczenia maszynowego środowiska Databricks Runtime obejmują również wstępnie skonfigurowaną obsługę procesora GPU ze sterownikami i bibliotekami pomocniczymi. Obsługa modeli mozaiki sztucznej inteligencji umożliwia tworzenie skalowalnych punktów końcowych procesora GPU dla modeli uczenia głębokiego bez dodatkowej konfiguracji.

W przypadku aplikacji uczenia maszynowego usługa Databricks zaleca używanie klastra z uruchomionym środowiskiem Databricks Runtime na potrzeby uczenia maszynowego. Zobacz Tworzenie klastra przy użyciu usługi Databricks Runtime ML.

Aby rozpocząć uczenie głębokie w usłudze Databricks, zobacz:

Duże modele językowe (LLM) i generowanie sztucznej inteligencji w usłudze Databricks

Środowisko Databricks Runtime for Machine Learning zawiera biblioteki, takie jak Hugging Face Transformers i LangChain , które umożliwiają integrację istniejących wstępnie wytrenowanych modeli lub innych bibliotek typu open source z przepływem pracy. Integracja usługi Databricks MLflow ułatwia korzystanie z usługi śledzenia MLflow z potokami przekształcania, modelami i składnikami przetwarzania. Ponadto możesz zintegrować modele OpenAI lub rozwiązania od partnerów, takich jak John Snow Labs , w przepływach pracy usługi Azure Databricks.

Za pomocą usługi Azure Databricks możesz dostosować moduł LLM na danych dla określonego zadania. Dzięki obsłudze narzędzi typu open source, takich jak Hugging Face i DeepSpeed, możesz efektywnie podjąć podstawy LLM i wytrenować je przy użyciu własnych danych, aby poprawić jego dokładność dla określonej domeny i obciążenia. Następnie możesz skorzystać z niestandardowego rozwiązania LLM w aplikacjach generacyjnych sztucznej inteligencji.

Ponadto usługa Databricks udostępnia podstawowe interfejsy API modelu i modele zewnętrzne, które umożliwiają uzyskiwanie dostępu do najnowocześniejszego otwartego modelu i wykonywanie zapytań o nie z poziomu punktu końcowego obsługującego. Korzystając z interfejsów API modelu Foundation, deweloperzy mogą szybko i łatwo tworzyć aplikacje korzystające z wysokiej jakości modelu generowania sztucznej inteligencji bez konieczności utrzymywania własnego wdrożenia modelu.

W przypadku użytkowników sql usługa Databricks udostępnia funkcje sztucznej inteligencji, których analitycy danych SQL mogą używać do uzyskiwania dostępu do modeli LLM, w tym z platformy OpenAI, bezpośrednio w potokach danych i przepływach pracy. Zobacz Funkcje sztucznej inteligencji w usłudze Azure Databricks.

Databricks Runtime for Machine Learning

Środowisko Databricks Runtime dla uczenia maszynowego (Databricks Runtime ML) automatyzuje tworzenie klastra przy użyciu wstępnie utworzonej infrastruktury uczenia maszynowego i uczenia głębokiego, w tym najpopularniejszych bibliotek ML i DL. Aby uzyskać pełną listę bibliotek w każdej wersji środowiska Databricks Runtime ML, zobacz informacje o wersji.

Aby uzyskać dostęp do danych w wykazie aparatu Unity dla przepływów pracy uczenia maszynowego, tryb dostępu dla klastra musi być pojedynczym użytkownikiem (przypisanym). Udostępnione klastry nie są zgodne ze środowiskiem Databricks Runtime na potrzeby uczenia maszynowego. Ponadto środowisko Databricks Runtime ML nie jest obsługiwane w klastrach lub klastrach TableACLs z ustawioną wartością spark.databricks.pyspark.enableProcessIsolation config true.

Tworzenie klastra przy użyciu środowiska Databricks Runtime ML

Podczas tworzenia klastra wybierz wersję uczenia maszynowego środowiska Databricks Runtime z menu rozwijanego Wersja środowiska uruchomieniowego usługi Databricks. Dostępne są zarówno środowiska uruchomieniowe uczenia maszynowego z obsługą procesora CPU, jak i procesora GPU.

Wybieranie usługi Databricks Runtime ML

Jeśli wybierzesz klaster z menu rozwijanego w notesie, wersja środowiska Uruchomieniowego usługi Databricks pojawi się po prawej stronie nazwy klastra:

Wyświetlanie wersji uczenia maszynowego środowiska Databricks Runtime

W przypadku wybrania środowiska uruchomieniowego uczenia maszynowego z obsługą procesora GPU zostanie wyświetlony monit o wybranie zgodnego typu sterownika i typu procesu roboczego. Niezgodne typy wystąpień są wyszarywane w menu rozwijanym. Typy wystąpień z obsługą procesora GPU są wyświetlane na liście w ramach etykiety przyspieszonej procesora GPU.

Uwaga

Aby uzyskać dostęp do danych w wykazie aparatu Unity dla przepływów pracy uczenia maszynowego, tryb dostępu dla klastra musi być pojedynczym użytkownikiem (przypisanym). Udostępnione klastry nie są zgodne ze środowiskiem Databricks Runtime na potrzeby uczenia maszynowego. Aby uzyskać szczegółowe informacje o sposobie tworzenia klastra, zobacz Informacje o konfiguracji obliczeniowej.

Photon i Databricks Runtime ML

Podczas tworzenia klastra procesora CPU z uruchomionym środowiskiem Databricks Runtime 15.2 ML lub nowszym możesz włączyć funkcję Photon. Aplikacja Photon zwiększa wydajność aplikacji przy użyciu platformy Spark SQL, ramek danych Platformy Spark, inżynierii cech, elementów GraphFrames i xgboost4j. Nie oczekuje się poprawy wydajności aplikacji przy użyciu rdD platformy Spark, funkcji UDF biblioteki Pandas i języków innych niż JVM, takich jak Python. W związku z tym pakiety języka Python, takie jak XGBoost, PyTorch i TensorFlow, nie będą widzieć poprawy w narzędziu Photon.

Interfejsy API RDD platformy Spark i biblioteki MLlib platformy Spark mają ograniczoną zgodność z aplikacją Photon. Podczas przetwarzania dużych zestawów danych przy użyciu rdD platformy Spark lub biblioteki MLlib platformy Spark mogą wystąpić problemy z pamięcią platformy Spark. Zobacz Problemy z pamięcią platformy Spark.

Biblioteki zawarte w środowisku Databricks Runtime ML

Środowisko Databricks Runtime ML zawiera wiele popularnych bibliotek uczenia maszynowego. Biblioteki są aktualizowane wraz z każdą wersją w celu uwzględnienia nowych funkcji i poprawek.

Usługa Databricks wyznaczyła podzbiór obsługiwanych bibliotek jako bibliotek najwyższego poziomu. W przypadku tych bibliotek usługa Databricks zapewnia szybszy cykl aktualizacji, aktualizując do najnowszych wersji pakietów przy użyciu każdej wersji środowiska uruchomieniowego (konflikty zależności). Usługa Databricks oferuje również zaawansowaną obsługę, testowanie i optymalizacje osadzone dla bibliotek najwyższego poziomu.

Aby uzyskać pełną listę najwyższej warstwy i innych udostępnionych bibliotek, zobacz informacje o wersji środowiska Databricks Runtime ML.

Następne kroki

Aby rozpocząć pracę, zobacz:

Aby uzyskać zalecany przepływ pracy metodyki MLOps w usłudze Databricks Machine Learning, zobacz:

Aby dowiedzieć się więcej o kluczowych funkcjach usługi Databricks Machine Learning, zobacz: