Pojęcia dotyczące usługi Azure Databricks
W tym artykule przedstawiono zestaw podstawowych pojęć, które należy zrozumieć, aby efektywnie korzystać z usługi Azure Databricks.
Niektóre pojęcia są ogólne dla usługi Azure Databricks, a inne są specyficzne dla środowiska usługi Azure Databricks opartego na osobach:
- Databricks Data Science & Engineering
- Databricks Machine Learning
- Język SQL usługi Databricks
Ogólne pojęcia
W tej sekcji opisano pojęcia i terminy, które mają zastosowanie we wszystkich środowiskach persona opartych na usłudze Azure Databricks.
Obszary robocze
W obszarze roboczym usługi Azure Databricks istnieją dwa znaczenia:
- Wdrożenie usługi Azure Databricks w chmurze, które działa jako ujednolicone środowisko używane przez zespół do uzyskiwania dostępu do wszystkich zasobów usługi Databricks. Twoja organizacja może wybrać wiele obszarów roboczych lub tylko jeden: zależy od Twoich potrzeb.
- Interfejs użytkownika dla środowisk persona opartych na usłudze Databricks. Na przykład "przeglądarka obszaru roboczego" odnosi się do interfejsu użytkownika, który umożliwia przeglądanie notesów, bibliotek i innych plików w środowiskach opartych na osobach.
Rozliczenia
DBU
Opłaty za usługę Azure Databricks są naliczane na podstawie jednostek usługi Databricks (DBU), jednostek możliwości przetwarzania na godzinę na podstawie typu wystąpienia maszyny wirtualnej.
Zobacz stronę cennika usługi Azure Databricks.
Uwierzytelnianie i autoryzacja
W tej sekcji opisano pojęcia, które należy znać podczas zarządzania tożsamościami usługi Azure Databricks i ich dostępem do zasobów usługi Azure Databricks.
Unikatowa osoba, która ma dostęp do systemu. Tożsamości użytkowników są reprezentowane przez adresy e-mail.
Tożsamość usługi do użycia z zadaniami, zautomatyzowanymi narzędziami i systemami, takimi jak skrypty, aplikacje i platformy ciągłej integracji/ciągłego wdrażania. Jednostki usługi są reprezentowane przez identyfikator aplikacji.
Kolekcja tożsamości. Grupy upraszczają zarządzanie tożsamościami, ułatwiając przypisywanie dostępu do obszarów roboczych, danych i innych zabezpieczanych obiektów. Wszystkie tożsamości usługi Databricks można przypisać jako członków grup.
Lista uprawnień dołączonych do obszaru roboczego, klastra, zadania, tabeli lub eksperymentu. Lista ACL określa, którzy użytkownicy lub procesy systemowe mają dostęp do obiektów, a także jakie operacje są dozwolone w zasobach. Każdy wpis w typowej liście ACL określa temat i operację.
Nieprzezroczystych ciąg służy do uwierzytelniania w interfejsie API REST i za pomocą narzędzi w integracji usługi Databricks w celu nawiązania połączenia z usługami SQL Warehouse.
Tokeny usługi Azure Active Directory mogą być również używane do uwierzytelniania w interfejsie API REST.
Databricks Data Science & Engineering
Databricks Data Science & Inżynieria to klasyczne środowisko usługi Azure Databricks do współpracy między analitykami danych, inżynierami danych i analitykami danych. W tej sekcji opisano podstawowe pojęcia, które należy zrozumieć, aby efektywnie pracować w środowisku Databricks Data Science & Engineering.
Workspace
Obszar roboczy to środowisko służące do uzyskiwania dostępu do wszystkich zasobów usługi Azure Databricks. Obszar roboczy organizuje obiekty (notesy, biblioteki, pulpity nawigacyjne i eksperymenty) w folderach i zapewnia dostęp do obiektów danych i zasobów obliczeniowych.
W tej sekcji opisano obiekty zawarte w folderach obszaru roboczego usługi Azure Databricks.
Internetowy interfejs dokumentów zawierających polecenia, wizualizacje i tekst narracji.
Interfejs, który zapewnia zorganizowany dostęp do wizualizacji.
Pakiet kodu dostępny dla notesu lub zadania uruchomionego w klastrze. Środowiska uruchomieniowe usługi Databricks obejmują wiele bibliotek i można dodać własne.
Folder, którego zawartość jest współdzielonego, synchronizując je ze zdalnym repozytorium Git.
Kolekcja platformy MLflow jest uruchamiana na potrzeby trenowania modelu uczenia maszynowego.
Interfejs inżynierii nauki o & danych
W tej sekcji opisano interfejsy obsługiwane przez usługę Azure Databricks na potrzeby uzyskiwania dostępu do zasobów: interfejsu użytkownika, interfejsu API i wiersza polecenia (CLI).
Interfejs użytkownika
Interfejs użytkownika usługi Azure Databricks zapewnia łatwy w użyciu interfejs graficzny do folderów obszaru roboczego i ich zawarte obiekty, obiekty danych i zasoby obliczeniowe.
Istnieją trzy wersje interfejsu API REST: 2.1, 2.0 i 1.2. Interfejsy API REST 2.1 i 2.0 obsługują większość funkcji interfejsu API REST 1.2 i dodatkowe funkcje i są preferowane.
Projekt open source hostowany w usłudze GitHub. Interfejs wiersza polecenia jest oparty na interfejsie API REST (najnowsza wersja).
Zarządzanie danymi w inżynierii nauki o & danych
W tej sekcji opisano obiekty, które przechowują dane, na których wykonujesz analizę i są wprowadzane do algorytmów uczenia maszynowego.
System plików usługi Databricks (DBFS)
Warstwa abstrakcji systemu plików w magazynie obiektów blob. Zawiera katalogi, które mogą zawierać pliki (pliki danych, biblioteki i obrazy) oraz inne katalogi. System dbFS jest automatycznie wypełniany niektórymi zestawami danych , których można użyć do nauki usługi Azure Databricks.
Kolekcja informacji, które są zorganizowane, dzięki czemu można łatwo uzyskiwać do niej dostęp, zarządzać i aktualizować.
Reprezentacja danych strukturalnych. Tabele są odpytywane za pomocą interfejsów API apache Spark SQL i Apache Spark.
Składnik, który przechowuje wszystkie informacje o strukturze różnych tabel i partycji w magazynie danych, w tym informacje o typie kolumny i kolumny, serializatory i deserializatory niezbędne do odczytu i zapisu danych oraz odpowiednie pliki, w których są przechowywane dane. Każde wdrożenie usługi Azure Databricks ma centralny magazyn metadanych Hive dostępny dla wszystkich klastrów na potrzeby utrwalania metadanych tabel. Istnieje również możliwość użycia istniejącego zewnętrznego magazynu metadanych Hive.
Zarządzanie obliczeniami w inżynierii danych &
W tej sekcji opisano pojęcia, które należy wiedzieć, aby uruchamiać obliczenia w usłudze Databricks Data Science & Engineering.
Zestaw zasobów obliczeniowych i konfiguracji, na których są uruchamiane notesy i zadania. Istnieją dwa typy klastrów: wszystkie przeznaczenie i zadanie.
- Klaster ogólnego przeznaczenia jest tworzony przy użyciu interfejsu użytkownika, interfejsu wiersza polecenia lub interfejsu API REST. Działanie klastra ogólnego przeznaczenia można ręcznie przerwać i uruchomić ponownie. Wielu użytkowników może współużytkować takie klastry do interakcyjnej analizy.
- Harmonogram zadań usługi Azure Databricks tworzy klaster zadań po uruchomieniu zadania w nowym klastrze zadań i kończy klaster po zakończeniu zadania. Nie można ponownie uruchomić klastra zadań.
Zestaw bezczynnych, gotowych do użycia wystąpień, które zmniejszają czas uruchamiania klastra i automatycznego skalowania. Po dołączeniu do puli klaster przydziela jego sterownik i węzły robocze z puli. Jeśli pula nie ma wystarczających zasobów bezczynnych, aby uwzględnić żądanie klastra, pula rozszerza się, przydzielając nowe wystąpienia od dostawcy wystąpień. Po zakończeniu działania dołączonego klastra używane wystąpienia są zwracane do puli i mogą być ponownie używane przez inny klaster.
Środowisko uruchomieniowe usługi Databricks
Zestaw podstawowych składników uruchamianych w klastrach zarządzanych przez usługę Azure Databricks. Usługa Azure Databricks oferuje kilka typów środowisk uruchomieniowych:
- Środowisko Databricks Runtime obejmuje platformę Apache Spark, ale także dodaje wiele składników i aktualizacji, które znacznie zwiększają użyteczność, wydajność i bezpieczeństwo analizy danych big data.
- Środowisko Databricks Runtime for Machine Learning jest oparte na środowisku Databricks Runtime i udostępnia gotowe do użycia środowisko do uczenia maszynowego i nauki o danych. Zawiera wiele popularnych bibliotek, w tym TensorFlow, Keras, PyTorch i XGBoost.
- Databricks Light to opakowanie usługi Azure Databricks w środowisku uruchomieniowym platformy Apache Spark open source. Zapewnia ona opcję środowiska uruchomieniowego dla zadań, które nie potrzebują zaawansowanych korzyści z wydajności, niezawodności ani skalowania automatycznego zapewnianych przez środowisko Databricks Runtime. Możesz wybrać usługę Databricks Light tylko wtedy, gdy utworzysz klaster, aby uruchomić zadanie JAR, Python lub spark-submit; nie można wybrać tego środowiska uruchomieniowego dla klastrów, na których są uruchamiane obciążenia zadań interakcyjnych lub notesów.
Struktury do tworzenia i uruchamiania potoków przetwarzania danych:
- Tworzenie, uruchamianie i zarządzanie zadaniami usługi Azure Databricks: nieinterakcyjny mechanizm uruchamiania notesu lub biblioteki natychmiast lub zgodnie z harmonogramem.
- Wprowadzenie do tabel delta Live Tables: struktura umożliwiająca tworzenie niezawodnych, konserwowalnych i testowalnych potoków przetwarzania danych.
Obciążenie
Usługa Azure Databricks identyfikuje dwa typy obciążeń podlegających różnym schematom cenowym : inżynieria danych (zadanie) i analiza danych (wszystko przeznaczenie).
- Inżynieria danych Obciążenie (zautomatyzowane) jest uruchamiane w klastrze zadań , który jest tworzony przez harmonogram zadań usługi Azure Databricks dla każdego obciążenia.
- Analiza danych Obciążenie (interaktywne) jest uruchamiane w klastrze ogólnego przeznaczenia. Obciążenia interaktywne zwykle uruchamiają polecenia w notesie usługi Azure Databricks. Jednak uruchomienie zadania w istniejącym klastrze all-purpose jest również traktowane jako obciążenie interakcyjne.
Kontekst wykonywania
Stan środowiska REPL dla każdego obsługiwanego języka programowania. Obsługiwane języki to Python, R, Scala i SQL.
Databricks Machine Learning
Środowisko databricks Machine Learning rozpoczyna się od funkcji dostępnych w obszarze roboczym Inżynieria nauki & o danych i dodaje funkcjonalność. Ważne pojęcia obejmują:
Główna jednostka organizacji do śledzenia opracowywania modeli uczenia maszynowego. Eksperymenty organizują, wyświetlają i kontrolują dostęp do poszczególnych zarejestrowanych przebiegów kodu trenowania modelu.
Scentralizowane repozytorium funkcji. Magazyn funkcji usługi Databricks umożliwia udostępnianie i odnajdywanie funkcji w całej organizacji, a także zapewnia, że ten sam kod obliczeniowy funkcji jest używany do trenowania i wnioskowania modelu.
Wytrenowany model uczenia maszynowego lub uczenia głębokiego zarejestrowany w rejestrze modeli.
Język SQL usługi Databricks
Usługa SQL usługi Databricks jest kierowana do analityków danych, którzy pracują przede wszystkim z zapytaniami SQL i narzędziami analizy biznesowej. Zapewnia intuicyjne środowisko do uruchamiania zapytań ad hoc i tworzenia pulpitów nawigacyjnych na danych przechowywanych w usłudze Data Lake. Interfejs użytkownika jest zupełnie inny niż w środowiskach inżynierii danych & i usługi Databricks Machine Learning. W tej sekcji opisano podstawowe pojęcia, które należy zrozumieć, aby efektywnie korzystać z usługi Databricks SQL.
Interfejs SQL usługi Databricks
W tej sekcji opisano interfejsy obsługiwane przez usługę Azure Databricks na potrzeby uzyskiwania dostępu do zasobów SQL usługi Databricks: interfejsu użytkownika i interfejsu API.
Interfejs użytkownika: graficzny interfejs pulpitów nawigacyjnych i zapytań, magazynów SQL, historii zapytań i alertów.
Interfejs API REST Interfejs, który umożliwia automatyzowanie zadań w obiektach SQL usługi Databricks.
Zarządzanie danymi w usłudze Databricks SQL
Wizualizacja: graficzna prezentacja wyniku uruchomienia zapytania.
Pulpit nawigacyjny: prezentacja wizualizacji zapytań i komentarzy.
Alert: Powiadomienie, że pole zwrócone przez zapytanie osiągnęło próg.
Zarządzanie obliczeniami w usłudze Databricks SQL
W tej sekcji opisano pojęcia, które należy wiedzieć, aby uruchamiać zapytania SQL w usłudze Databricks SQL.
Zapytanie: prawidłowa instrukcja SQL.
SQL Warehouse: zasób obliczeniowy, na którym są wykonywane zapytania SQL.
Historia zapytań: lista wykonanych zapytań i ich właściwości wydajności.