Pojęcia dotyczące usługi Azure Databricks

W tym artykule przedstawiono zestaw podstawowych pojęć, które należy zrozumieć, aby efektywnie korzystać z usługi Azure Databricks.

Konta i obszary robocze

W usłudze Azure Databricks obszar roboczy to wdrożenie usługi Azure Databricks w chmurze, które działa jako środowisko dla twojego zespołu w celu uzyskania dostępu do zasobów usługi Databricks. Twoja organizacja może wybrać wiele obszarów roboczych lub tylko jeden, w zależności od potrzeb.

Konto usługi Azure Databricks reprezentuje jedną jednostkę, która może zawierać wiele obszarów roboczych. Konta włączone dla wykazu aparatu Unity mogą służyć do zarządzania użytkownikami i ich dostępem do danych centralnie we wszystkich obszarach roboczych na koncie.

Rozliczenia: jednostki usługi Databricks (DBU)

Opłaty za usługę Azure Databricks oparte na jednostkach usługi Databricks (DBU), jednostkach możliwości przetwarzania na godzinę na podstawie typu wystąpienia maszyny wirtualnej.

Zobacz stronę cennika usługi Azure Databricks.

Uwierzytelnianie i autoryzacja

W tej sekcji opisano pojęcia, które należy znać podczas zarządzania tożsamościami usługi Azure Databricks i ich dostępem do zasobów usługi Azure Databricks.

User

Unikatowa osoba, która ma dostęp do systemu. Tożsamości użytkowników są reprezentowane przez adresy e-mail. Zobacz Zarządzanie użytkownikami.

Jednostka usługi

Tożsamość usługi do użycia z zadaniami, zautomatyzowanymi narzędziami i systemami, takimi jak skrypty, aplikacje i platformy ciągłej integracji/ciągłego wdrażania. Jednostki usługi są reprezentowane przez identyfikator aplikacji. Zobacz Zarządzanie jednostkami usługi.

Grupuj

Kolekcja tożsamości. Grupy upraszczają zarządzanie tożsamościami, ułatwiając przypisywanie dostępu do obszarów roboczych, danych i innych zabezpieczanych obiektów. Wszystkie tożsamości usługi Databricks można przypisać jako członków grup. Zobacz Zarządzanie grupami

Lista kontroli dostępu (ACL)

Lista uprawnień dołączonych do obszaru roboczego, klastra, zadania, tabeli lub eksperymentu. Lista ACL określa, którzy użytkownicy lub procesy systemowe otrzymują dostęp do obiektów, a także jakie operacje są dozwolone w zasobach. Każdy wpis w typowej liście ACL określa temat i operację. Zobacz Omówienie kontroli dostępu

Osobisty token dostępu

Nieprzezroczystym ciągiem służy do uwierzytelniania w interfejsie API REST i przez narzędzia w partnerach technologicznych w celu nawiązania połączenia z magazynami SQL. Zobacz Uwierzytelnianie osobistego tokenu dostępu w usłudze Azure Databricks.

Tokeny microsoft Entra ID (dawniej Azure Active Directory) mogą być również używane do uwierzytelniania w interfejsie API REST.

INTERFEJS UŻYTKOWNIKA

Interfejs użytkownika usługi Azure Databricks to graficzny interfejs umożliwiający interakcję z funkcjami, takimi jak foldery obszaru roboczego i zawarte w nich obiekty, obiekty danych i zasoby obliczeniowe.

Nauka o danych i inżynieria

Narzędzia do nauki o danych i inżynierii ułatwiają współpracę między analitykami danych, inżynierami danych i analitykami danych. W tej sekcji opisano podstawowe pojęcia.

Obszar roboczy

Obszar roboczy to środowisko służące do uzyskiwania dostępu do wszystkich zasobów usługi Azure Databricks. Obszar roboczy organizuje obiekty (notesy, biblioteki, pulpity nawigacyjne i eksperymenty) w folderach oraz zapewnia dostęp do obiektów danych i zasobów obliczeniowych.

Notes

Internetowy interfejs służący do tworzenia przepływów pracy nauki o danych i uczenia maszynowego, które mogą zawierać polecenia, wizualizacje i tekst narracji. Zobacz Wprowadzenie do notesów usługi Databricks.

pulpit nawigacyjny

Interfejs, który zapewnia zorganizowany dostęp do wizualizacji. Zobacz Pulpity nawigacyjne w notesach.

Biblioteka

Pakiet kodu dostępny dla notesu lub zadania uruchomionego w klastrze. Środowiska uruchomieniowe usługi Databricks obejmują wiele bibliotek i możesz dodać własne.

Repozytorium

Folder, którego zawartość jest współwymiarowa, synchronizując je ze zdalnym repozytorium Git. Usługa Databricks Repos integruje się z usługą Git, aby zapewnić kontrolę źródła i wersji dla projektów.

Experiment

Kolekcja platformy MLflow jest uruchamiana na potrzeby trenowania modelu uczenia maszynowego. Zobacz Organizowanie przebiegów trenowania przy użyciu eksperymentów MLflow.

Interfejsy usługi Azure Databricks

W tej sekcji opisano interfejsy obsługiwane przez usługę Azure Databricks oprócz interfejsu użytkownika na potrzeby uzyskiwania dostępu do zasobów: interfejs API i wiersza polecenia (CLI).

Interfejs API REST

Usługa Databricks udostępnia dokumentację interfejsu API dla obszaru roboczego i konta.

Interfejs wiersza polecenia

Projekt open source hostowany w usłudze GitHub. Interfejs wiersza polecenia jest oparty na interfejsie API REST usługi Databricks.

Zarządzanie danymi

W tej sekcji opisano obiekty, które przechowują dane, na których wykonujesz analizę i są wprowadzane do algorytmów uczenia maszynowego.

System plików usługi Databricks (DBFS)

Warstwa abstrakcji systemu plików w magazynie obiektów blob. Zawiera katalogi, które mogą zawierać pliki (pliki danych, biblioteki i obrazy) oraz inne katalogi. System DBFS jest automatycznie wypełniany niektórymi zestawami danych, których można użyć do nauki usługi Azure Databricks. Zobacz Co to jest system plików usługi Databricks (DBFS)?.

baza danych

Kolekcja obiektów danych, takich jak tabele lub widoki i funkcje, jest zorganizowana tak, aby można było łatwo uzyskiwać do niej dostęp, zarządzać i aktualizować. Zobacz Co to jest baza danych?

Table

Reprezentacja danych strukturalnych. Wykonujesz zapytania dotyczące tabel za pomocą interfejsów API apache Spark SQL i Apache Spark. Zobacz Co to jest tabela?

Tabela delty

Domyślnie wszystkie tabele utworzone w usłudze Azure Databricks to tabele różnicowe. Tabele delty są oparte na projekcie typu open source usługi Delta Lake— strukturze magazynu tabel ACID o wysokiej wydajności w magazynach obiektów w chmurze. Tabela delty przechowuje dane jako katalog plików w magazynie obiektów w chmurze i rejestruje metadane tabeli w magazynie metadanych w katalogu i schemacie.

Dowiedz się więcej o technologiach markowych jako delta.

Magazyn metadanych

Składnik, który przechowuje wszystkie informacje o strukturze różnych tabel i partycji w magazynie danych, w tym informacje o typie kolumny i kolumny, serializatory i deserializatory niezbędne do odczytu i zapisu danych oraz odpowiednie pliki, w których są przechowywane dane. Zobacz Co to jest magazyn metadanych?

Każde wdrożenie usługi Azure Databricks ma centralny magazyn metadanych Hive dostępny dla wszystkich klastrów na potrzeby utrwalania metadanych tabel. Możesz również użyć istniejącego zewnętrznego magazynu metadanych Hive.

Wizualizacja

Graficzna prezentacja wyniku uruchomienia zapytania. Zobacz Wizualizacje w notesach usługi Databricks.

Zarządzanie obliczeniami

W tej sekcji opisano pojęcia, które należy wiedzieć, aby uruchamiać obliczenia w usłudze Azure Databricks.

Klaster

Zestaw zasobów obliczeniowych i konfiguracji, na których są uruchamiane notesy i zadania. Istnieją dwa typy klastrów: wszystkie przeznaczenie i zadanie. Zobacz Obliczenia.

  • Klaster ogólnego przeznaczenia jest tworzony przy użyciu interfejsu użytkownika, interfejsu wiersza polecenia lub interfejsu API REST. Działanie klastra ogólnego przeznaczenia można ręcznie przerwać i uruchomić ponownie. Wielu użytkowników może współużytkować takie klastry do interakcyjnej analizy.
  • Harmonogram zadań usługi Azure Databricks tworzy klaster zadań podczas uruchamiania zadania w nowym klastrze zadań i przerywa jego działanie po zakończeniu zadania. Nie można ponownie uruchomić klastra zadań.

Pula

Zestaw bezczynnych, gotowych do użycia wystąpień, które zmniejszają czas uruchamiania klastra i automatycznego skalowania. Po dołączeniu do puli klaster przydziela jego węzły sterowników i procesów roboczych z puli. Zobacz Dokumentację konfiguracji puli.

Jeśli pula nie ma wystarczających zasobów bezczynnych, aby obsłużyć żądanie klastra, pula rozwija się, przydzielając nowe wystąpienia od dostawcy wystąpień. Po zakończeniu działania dołączonego klastra używane wystąpienia są zwracane do puli i mogą być ponownie używane przez inny klaster.

Środowisko uruchomieniowe usługi Databricks

Zestaw podstawowych składników uruchamianych w klastrach zarządzanych przez usługę Azure Databricks. Zobacz Compute.* Usługa Azure Databricks ma następujące środowiska uruchomieniowe:

  • Środowisko Databricks Runtime obejmuje platformę Apache Spark, ale także dodaje wiele składników i aktualizacji, które znacząco zwiększają użyteczność, wydajność i bezpieczeństwo analizy danych big data.
  • Środowisko Databricks Runtime for Machine Edukacja jest oparte na środowisku Databricks Runtime i zapewnia wstępnie utworzoną infrastrukturę uczenia maszynowego zintegrowaną ze wszystkimi możliwościami obszaru roboczego usługi Azure Databricks. Zawiera wiele popularnych bibliotek, w tym TensorFlow, Keras, PyTorch i XGBoost.

Przepływy pracy

Struktury do tworzenia i uruchamiania potoków przetwarzania danych:

  • Zadania: nieinterakcyjny mechanizm uruchamiania notesu lub biblioteki natychmiast lub zgodnie z harmonogramem.
  • Delta Live Tables: struktura umożliwiająca tworzenie niezawodnych, konserwowalnych i testowalnych potoków przetwarzania danych.

Zobacz Wprowadzenie do przepływów pracy usługi Azure Databricks.

Obciążenie

Usługa Azure Databricks identyfikuje dwa typy obciążeń podlegających różnym schematom cenowym : inżynieria danych (zadanie) i analiza danych (wszystko przeznaczenie).

  • Inżynieria danych Obciążenie (zautomatyzowane) jest uruchamiane w klastrze zadań, który tworzy harmonogram zadań usługi Azure Databricks dla każdego obciążenia.
  • Analiza danych Obciążenie (interaktywne) jest uruchamiane w klastrze ogólnego przeznaczenia. Obciążenia interaktywne zwykle uruchamiają polecenia w notesie usługi Azure Databricks. Jednak uruchomienie zadania w istniejącym klastrze all-purpose jest również traktowane jako obciążenie interakcyjne.

Kontekst wykonywania

Stan środowiska pętli read-eval-print loop (REPL) dla każdego obsługiwanego języka programowania. Obsługiwane języki to Python, R, Scala i SQL.

Uczenie maszynowe

Usługa Machine Edukacja w usłudze Azure Databricks to zintegrowane kompleksowe środowisko obejmujące usługi zarządzane służące do śledzenia eksperymentów, trenowania modelu, opracowywania funkcji i zarządzania nimi oraz obsługi funkcji i modeli.

Eksperymenty

Główna jednostka organizacji do śledzenia opracowywania modeli uczenia maszynowego. Zobacz Organizowanie przebiegów trenowania przy użyciu eksperymentów MLflow. Eksperymenty organizują, wyświetlają i kontrolują dostęp do poszczególnych zarejestrowanych przebiegów kodu trenowania modelu.

Magazyn funkcji

Scentralizowane repozytorium funkcji. Zobacz Co to jest magazyn funkcji? Magazyn funkcji umożliwia udostępnianie i odnajdywanie funkcji w całej organizacji, a także zapewnia, że ten sam kod obliczeń funkcji jest używany do trenowania i wnioskowania modelu.

Modele i rejestr modeli

Przeszkolony model uczenia maszynowego lub uczenia głębokiego zarejestrowany w rejestrze modeli.

SQL

SQL REST API

Interfejs, który umożliwia automatyzowanie zadań na obiektach SQL. Zobacz Interfejs API SQL.

pulpit nawigacyjny

Prezentacja wizualizacji danych i komentarzy. Zobacz Pulpity nawigacyjne SQL usługi Databricks.

Zapytania SQL

W tej sekcji opisano pojęcia, które należy wiedzieć, aby uruchamiać zapytania SQL w usłudze Azure Databricks.

  • Zapytanie: prawidłowa instrukcja SQL.
  • SQL Warehouse: zasób obliczeniowy, na którym są wykonywane zapytania SQL.
  • Historia zapytań: lista wykonanych zapytań i ich właściwości wydajności.