Pojęcia dotyczące usługi Azure Databricks

Artykuł
10/05/2024

W tym artykule przedstawiono podstawowe pojęcia, które należy zrozumieć, aby efektywnie korzystać z usługi Azure Databricks.

Konta i obszary robocze

W usłudze Azure Databricks obszar roboczy to wdrożenie usługi Azure Databricks w chmurze, które działa jako środowisko dla twojego zespołu w celu uzyskania dostępu do zasobów usługi Databricks. Twoja organizacja może wybrać wiele obszarów roboczych lub tylko jeden, w zależności od potrzeb.

Konto usługi Azure Databricks reprezentuje jedną jednostkę, która może zawierać wiele obszarów roboczych. Konta włączone dla wykazu aparatu Unity mogą służyć do zarządzania użytkownikami i ich dostępem do danych centralnie we wszystkich obszarach roboczych na koncie.

Rozliczenia: jednostki usługi Databricks (DBU)

Opłaty za usługę Azure Databricks są naliczane na podstawie jednostek usługi Databricks (DBU), które są jednostkami możliwości przetwarzania na godzinę na podstawie typu wystąpienia maszyny wirtualnej.

Zobacz stronę cennika usługi Azure Databricks.

Uwierzytelnianie i autoryzacja

W tej sekcji opisano pojęcia, które należy znać podczas zarządzania tożsamościami usługi Azure Databricks i ich dostępem do zasobów usługi Azure Databricks.

User

Unikatowa osoba, która ma dostęp do systemu. Tożsamości użytkowników są reprezentowane przez adresy e-mail. Zobacz Zarządzanie użytkownikami.

Jednostka usługi

Tożsamość usługi do użycia z zadaniami, zautomatyzowanymi narzędziami i systemami, takimi jak skrypty, aplikacje i platformy ciągłej integracji/ciągłego wdrażania. Jednostki usługi są reprezentowane przez identyfikator aplikacji. Zobacz Zarządzanie jednostkami usługi.

Grupuj

Kolekcja tożsamości. Grupy upraszczają zarządzanie tożsamościami, ułatwiając przypisywanie dostępu do obszarów roboczych, danych i innych zabezpieczanych obiektów. Wszystkie tożsamości usługi Databricks można przypisać jako członków grup. Zobacz Zarządzanie grupami.

Lista kontroli dostępu (ACL)

Lista uprawnień dołączonych do obszaru roboczego, klastra, zadania, tabeli lub eksperymentu. Lista ACL określa, którzy użytkownicy lub procesy systemowe otrzymują dostęp do obiektów, a także jakie operacje są dozwolone w zasobach. Każdy wpis w typowej liście ACL określa temat i operację. Zobacz Listy kontroli dostępu.

Osobisty token dostępu (PAT)

Osobisty token dostępu to ciąg używany do uwierzytelniania wywołań interfejsu API REST, połączeń partnerów technologicznych i innych narzędzi. Zobacz Uwierzytelnianie osobistego tokenu dostępu w usłudze Azure Databricks.

Tokeny identyfikatora Entra firmy Microsoft mogą być również używane do uwierzytelniania w interfejsie API REST.

Interfejsy usługi Azure Databricks

W tej sekcji opisano interfejsy uzyskiwania dostępu do zasobów w usłudze Azure Databricks.

INTERFEJS UŻYTKOWNIKA

Interfejs użytkownika usługi Azure Databricks to graficzny interfejs umożliwiający interakcję z funkcjami, takimi jak foldery obszaru roboczego i zawarte w nich obiekty, obiekty danych i zasoby obliczeniowe.

Interfejs API REST

Interfejs API REST usługi Databricks udostępnia punkty końcowe do modyfikowania lub żądania informacji o koncie usługi Azure Databricks i obiektach obszaru roboczego. Zobacz dokumentację konta i dokumentację obszaru roboczego.

SQL REST API

Interfejs API REST SQL umożliwia automatyzowanie zadań na obiektach SQL. Zobacz Interfejs API SQL.

CLI

Interfejs wiersza polecenia usługi Databricks jest hostowany w usłudze GitHub. Interfejs wiersza polecenia jest oparty na interfejsie API REST usługi Databricks.

Zarządzanie danymi

W tej sekcji opisano obiekty logiczne, które przechowują dane, które są wprowadzane do algorytmów uczenia maszynowego i na których są wykonywane analizy. Ponadto opisuje on interfejs użytkownika platformy do eksplorowania obiektów danych i zarządzania nimi.

Unity Catalog

Wykaz aparatu Unity to ujednolicone rozwiązanie do zapewniania ładu dla zasobów danych i sztucznej inteligencji w usłudze Azure Databricks, które zapewnia scentralizowaną kontrolę dostępu, inspekcję, pochodzenie i funkcje odnajdywania danych w obszarach roboczych usługi Databricks. Sprawdź temat Co to jest wykaz Unity?.

Katalog główny systemu plików DBFS.

Ważne

Przechowywanie i uzyskiwanie dostępu do danych przy użyciu instalacji root lub DBFS systemu plików DBFS jest przestarzałym wzorcem i nie jest zalecane przez usługę Databricks. Zamiast tego usługa Databricks zaleca używanie wykazu aparatu Unity do zarządzania dostępem do wszystkich danych. Sprawdź temat Co to jest wykaz Unity?.

Katalog główny systemu plików DBFS jest domyślnie dostępna dla wszystkich użytkowników. Zobacz Co to jest DBFS?.

Eksplorator wykazu

Eksplorator wykazu umożliwia eksplorowanie danych i zasobów sztucznej inteligencji oraz zarządzanie nimi, w tym schematy (bazy danych), tabele, modele, woluminy (dane inne niż tabelaryczne), funkcje i zarejestrowane modele uczenia maszynowego. Służy do znajdowania obiektów danych i właścicieli, rozumienia relacji danych między tabelami oraz zarządzania uprawnieniami i udostępnianiem. Zobacz Co to jest Eksplorator wykazu?.

baza danych

Kolekcja obiektów danych, takich jak tabele lub widoki i funkcje, jest zorganizowana tak, aby można było łatwo uzyskiwać do niej dostęp, zarządzać i aktualizować. Zobacz Co to są schematy w usłudze Azure Databricks?

Table

Reprezentacja danych strukturalnych. Wykonujesz zapytania dotyczące tabel za pomocą interfejsów API apache Spark SQL i Apache Spark. Zobacz Co to jest tabela?.

Tabela delty

Domyślnie wszystkie tabele utworzone w usłudze Azure Databricks to tabele różnicowe. Tabele delty są oparte na projekcie typu open source usługi Delta Lake— strukturze magazynu tabel ACID o wysokiej wydajności w magazynach obiektów w chmurze. Tabela delty przechowuje dane jako katalog plików w magazynie obiektów w chmurze i rejestruje metadane tabeli w magazynie metadanych w katalogu i schemacie.

Dowiedz się więcej o technologiach markowych jako delta.

Magazyn metadanych

Składnik, który przechowuje wszystkie informacje o strukturze różnych tabel i partycji w magazynie danych, w tym informacje o typie kolumny i kolumny, serializatory i deserializatory niezbędne do odczytywania i zapisywania danych oraz odpowiednich plików, w których są przechowywane dane. Zobacz Magazyny metadanych

Każde wdrożenie usługi Azure Databricks ma centralny magazyn metadanych Hive dostępny dla wszystkich klastrów na potrzeby utrwalania metadanych tabel. Możesz również użyć istniejącego zewnętrznego magazynu metadanych Hive.

Zarządzanie obliczeniami

W tej sekcji opisano pojęcia, które należy wiedzieć, aby uruchamiać obliczenia w usłudze Azure Databricks.

Klaster

Zestaw zasobów obliczeniowych i konfiguracji, na których są uruchamiane notesy i zadania. Istnieją dwa typy klastrów: wszystkie przeznaczenie i zadanie. Zobacz Obliczenia.

Klaster ogólnego przeznaczenia jest tworzony przy użyciu interfejsu użytkownika, interfejsu wiersza polecenia lub interfejsu API REST. Działanie klastra ogólnego przeznaczenia można ręcznie przerwać i uruchomić ponownie. Wielu użytkowników może współużytkować takie klastry do interakcyjnej analizy.
Harmonogram zadań usługi Azure Databricks tworzy klaster zadań podczas uruchamiania zadania w nowym klastrze zadań i kończy klaster po zakończeniu zadania. Nie można ponownie uruchomić klastra zadań.

Pula

Zestaw bezczynnych, gotowych do użycia wystąpień, które zmniejszają czas uruchamiania klastra i automatycznego skalowania. Po dołączeniu do puli klaster przydziela jego węzły sterowników i procesów roboczych z puli. Zobacz Dokumentację konfiguracji puli.

Jeśli pula nie ma wystarczających zasobów bezczynnych, aby obsłużyć żądanie klastra, pula rozwija się, przydzielając nowe wystąpienia od dostawcy wystąpień. Po zakończeniu działania dołączonego klastra używane wystąpienia są zwracane do puli i mogą być ponownie używane przez inny klaster.

Środowisko uruchomieniowe usługi Databricks

Zestaw podstawowych składników uruchamianych w klastrach zarządzanych przez usługę Azure Databricks. Zobacz Obliczenia. Usługa Azure Databricks ma następujące środowiska uruchomieniowe:

Środowisko Databricks Runtime obejmuje platformę Apache Spark, ale także dodaje wiele składników i aktualizacji, które znacząco zwiększają użyteczność, wydajność i bezpieczeństwo analizy danych big data.
Środowisko Databricks Runtime for Machine Learning jest oparte na środowisku Databricks Runtime i zapewnia wstępnie utworzoną infrastrukturę uczenia maszynowego zintegrowaną ze wszystkimi możliwościami obszaru roboczego usługi Azure Databricks. Zawiera wiele popularnych bibliotek, w tym TensorFlow, Keras, PyTorch i XGBoost.

Przepływy pracy

Interfejs użytkownika obszaru roboczego Przepływy pracy zawiera wpis w interfejsach użytkownika zadań i potoków DLT, które są narzędziami, które umożliwiają organizowanie i planowanie przepływów pracy.

Stanowiska

Nieinterakcyjny mechanizm organizowania i planowania notesów, bibliotek i innych zadań. Zobacz Planowanie i organizowanie przepływów pracy

Pipelines

Potoki tabel na żywo delty zapewniają deklaratywną strukturę do tworzenia niezawodnych, konserwowalnych i testowalnych potoków przetwarzania danych. Zobacz Co to jest delta live tables?.

Obciążenie

Obciążenie to ilość możliwości przetwarzania potrzebnej do wykonania zadania lub grupy zadań. Usługa Azure Databricks identyfikuje dwa typy obciążeń: inżynierię danych (zadanie) i analizę danych (wszystko przeznaczenie).

Inżynieria danych Obciążenie (zautomatyzowane) jest uruchamiane w klastrze zadań, który tworzy harmonogram zadań usługi Azure Databricks dla każdego obciążenia.
Analiza danych Obciążenie (interaktywne) jest uruchamiane w klastrze ogólnego przeznaczenia. Obciążenia interaktywne zwykle uruchamiają polecenia w notesie usługi Azure Databricks. Jednak uruchomienie zadania w istniejącym klastrze all-purpose jest również traktowane jako obciążenie interakcyjne.

Kontekst wykonywania

Stan środowiska pętli read-eval-print loop (REPL) dla każdego obsługiwanego języka programowania. Obsługiwane języki to Python, R, Scala i SQL.

Inżynieria danych

Narzędzia do inżynierii danych ułatwiają współpracę między analitykami danych, inżynierami danych, analitykami danych i inżynierami uczenia maszynowego.

Obszar roboczy

Obszar roboczy to środowisko służące do uzyskiwania dostępu do wszystkich zasobów usługi Azure Databricks. Obszar roboczy organizuje obiekty (notesy, biblioteki, pulpity nawigacyjne i eksperymenty) w folderach oraz zapewnia dostęp do obiektów danych i zasobów obliczeniowych.

Notes

Internetowy interfejs służący do tworzenia przepływów pracy nauki o danych i uczenia maszynowego, które mogą zawierać polecenia, wizualizacje i tekst narracji. Zobacz Wprowadzenie do notesów usługi Databricks.

Biblioteka

Pakiet kodu dostępny dla notesu lub zadania uruchomionego w klastrze. Środowiska uruchomieniowe usługi Databricks obejmują wiele bibliotek, a także możesz przekazać własne. Zobacz Biblioteki.

Folder Git (dawniej Repos)

Folder, którego zawartość jest współwymiarowa, synchronizując je ze zdalnym repozytorium Git. Foldery Usługi Git usługi Databricks integrują się z usługą Git, aby zapewnić kontrolę źródła i wersji dla projektów.

SI i uczenie maszynowe

Usługa Databricks udostępnia zintegrowane kompleksowe środowisko z usługami zarządzanymi do tworzenia i wdrażania aplikacji sztucznej inteligencji i uczenia maszynowego.

Mozaika AI

Nazwa marki produktów i usług firmy Databricks Mosaic AI Research, zespołu naukowców i inżynierów odpowiedzialnych za największe przełomy w generowaniu sztucznej inteligencji. Produkty mozaiki sztucznej inteligencji obejmują funkcje uczenia maszynowego i sztucznej inteligencji w usłudze Databricks. Zobacz Mozaika Research.

Środowisko uruchomieniowe uczenia maszynowego

Aby ułatwić opracowywanie modeli uczenia maszynowego i sztucznej inteligencji, usługa Databricks udostępnia środowisko Uruchomieniowe usługi Databricks dla uczenia maszynowego, które automatyzuje tworzenie obliczeń przy użyciu wstępnie utworzonej infrastruktury uczenia maszynowego i uczenia głębokiego, w tym najpopularniejszych bibliotek ML i DL. Ma również wbudowaną, wstępnie skonfigurowaną obsługę procesora GPU, w tym sterowniki i biblioteki pomocnicze. Przejdź do informacji o najnowszych wersjach środowiska uruchomieniowego z informacji o wersji środowiska Databricks Runtime i zgodności.

Experiment

Kolekcja platformy MLflow jest uruchamiana na potrzeby trenowania modelu uczenia maszynowego. Zobacz Organizowanie przebiegów trenowania przy użyciu eksperymentów MLflow.

Funkcje

Funkcje są ważnym składnikiem modeli uczenia maszynowego. Magazyn funkcji umożliwia udostępnianie i odnajdywanie funkcji w całej organizacji, a także zapewnia, że ten sam kod obliczeniowy funkcji jest używany do trenowania i wnioskowania modelu. Zobacz Inżynieria funkcji i obsługa.

Modele GenAI

Usługa Databricks obsługuje eksplorację, opracowywanie i wdrażanie modeli generacyjnych sztucznej inteligencji, w tym:

Plac zabaw dla sztucznej inteligencji, środowisko przypominające czat w obszarze roboczym, w którym można testować, monitować i porównywać maszyny LLM. Zobacz Chat with LLMs and prototype GenAI apps using AI Playground (Czat z modułami LLM i prototypowymi aplikacjami GenAI korzystającymi ze środowiska sztucznej inteligencji).
Wbudowany zestaw wstępnie skonfigurowanych modeli podstawowych, dla których można wykonywać zapytania:
- Zobacz Interfejsy API modelu Modelu modelu płatności za token na token.
- Zobacz [Zalecane] Wdrażanie modeli podstawowych z katalogu aparatu Unity dla modeli podstawowych, które można obsłużyć jednym kliknięciem.
Maszyny LLM hostowane przez inne firmy nazywane modelami zewnętrznymi. Te modele mają być używane zgodnie z rzeczywistymi wymaganiami.
Możliwości dostosowywania modelu podstawowego w celu zoptymalizowania jego wydajności dla określonej aplikacji (często nazywanego dostrajaniem). Zobacz Tworzenie modeli mozaiki sztucznej inteligencji, aby zapoznać się z modelami podstawowymi.

Rejestr modeli

Usługa Databricks udostępnia hostowaną wersję rejestru modeli MLflow w katalogu aparatu Unity. Modele zarejestrowane w katalogu aparatu Unity dziedziczą scentralizowaną kontrolę dostępu, pochodzenie i odnajdywanie i dostęp między obszarami roboczymi. Zobacz Zarządzanie cyklem życia modelu w wykazie aparatu Unity.

Obsługa modelu

Usługa Mosaic AI Model Serving udostępnia ujednolicony interfejs do wdrażania modeli sztucznej inteligencji, zarządzania nimi i wykonywania zapytań. Każdy model, który służy, jest dostępny jako interfejs API REST, który można zintegrować z aplikacją internetową lub kliencką. Korzystając z usługi Mosaic AI Model Serving, można wdrażać własne modele, modele podstawowe lub modele innych firm hostowane poza usługą Databricks. Zobacz Obsługa modelu w usłudze Azure Databricks.

Magazynowanie danych

Magazynowanie danych odnosi się do zbierania i przechowywania danych z wielu źródeł, dzięki czemu można je szybko uzyskać w celu uzyskania dostępu do szczegółowych informacji biznesowych i raportowania. Usługa Databricks SQL to kolekcja usług, które zapewniają możliwości magazynowania danych i wydajność istniejących magazynów danych. Zobacz Co to jest magazynowanie danych w usłudze Azure Databricks?.

Query

Zapytanie jest prawidłową instrukcją SQL, która umożliwia interakcję z danymi. Zapytania można tworzyć przy użyciu edytora SQL platformy lub łączyć się przy użyciu łącznika SQL, sterownika lub interfejsu API. Zobacz Uzyskiwanie dostępu do zapisanych zapytań i zarządzanie nimi, aby dowiedzieć się więcej o sposobie pracy z zapytaniami.

SQL Warehouse

Zasób obliczeniowy, na którym są uruchamiane zapytania SQL. Istnieją trzy typy magazynów SQL: klasyczne, pro i bezserwerowe. Usługa Azure Databricks zaleca korzystanie z magazynów bezserwerowych tam, gdzie są dostępne. Zobacz Typy usługi SQL Warehouse, aby porównać dostępne funkcje dla każdego typu magazynu.

Historia zapytań

Lista wykonanych zapytań i ich właściwości wydajności. Historia zapytań umożliwia monitorowanie wydajności zapytań, co ułatwia identyfikowanie wąskich gardeł i optymalizowanie środowisk uruchomieniowych zapytań. Zobacz Historia zapytań.

Wizualizacja

Graficzna prezentacja wyniku uruchomienia zapytania. Zobacz Wizualizacje w notesach usługi Databricks.

Pulpit nawigacyjny

Prezentacja wizualizacji danych i komentarzy. Pulpity nawigacyjne umożliwiają automatyczne wysyłanie raportów do wszystkich użytkowników konta usługi Azure Databricks. Użyj Asystenta usługi Databricks, aby ułatwić tworzenie wizualizacji na podstawie naturalnych monitów o langauge. Zobacz Pulpity nawigacyjne. Pulpit nawigacyjny można również utworzyć na podstawie notesu. Zobacz Pulpity nawigacyjne w notesach.

W przypadku starszych pulpitów nawigacyjnych zobacz Starsze pulpity nawigacyjne.