Notatka
Dostęp do tej strony wymaga autoryzacji. Może spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Na tej stronie opisano konfiguracje potoków bezserwerowych.
Databricks zaleca opracowywanie nowych potoków z wykorzystaniem architektury bezserwerowej. Niektóre obciążenia mogą wymagać skonfigurowania klasycznego środowiska obliczeniowego lub pracy ze starszym magazynem metadanych Hive. Zobacz Konfigurowanie klasycznych obliczeń dla potoków i Używanie Lakeflow Spark Deklaratywnych Potoków ze starszym magazynem metadanych Hive.
Uwaga / Notatka
- Bezserwerowe potoki zawsze używają Unity Catalogu. Zobacz Używanie Unity Catalogu z potokami.
- Aby uzyskać informacje o ograniczeniach obliczeniowych bezserwerowych, zobacz Ograniczenia obliczeniowe bezserwerowe.
- Nie można ręcznie dodać ustawień obliczeniowych w obiekcie
clustersw konfiguracji JSON dla potoku bezserwerowego. Próba wykonania tej czynności powoduje wystąpienie błędu.
- Jeśli musisz użyć połączenia Azure Private Link z bezserwerowymi Deklaratywnymi Potokami Spark Lakeflow, skontaktuj się z przedstawicielem usługi Databricks.
Requirements
- Aby używać potoków bezserwerowych, obszar roboczy musi mieć włączony Unity Catalog.
- Twoja przestrzeń robocza musi znajdować się w regionie obsługującym tryb bezserwerowy.
Zalecana konfiguracja dla potoków bezserwerowych
Ważne
Uprawnienia do tworzenia klastra nie są wymagane do konfigurowania potoków bezserwerowych. Domyślnie wszyscy użytkownicy obszaru roboczego mogą używać potoków bezserwerowych.
Potoki danych bezserwerowe usuwają większość opcji konfiguracji, ponieważ Azure Databricks zarządza całą infrastrukturą. Podczas tworzenia nowego potoku ustawieniem domyślnym jest użycie bezserwerowego. Aby dowiedzieć się, jak skonfigurować potok bezserwerowy, zobacz Konfigurowanie potoków.
Możesz również przekonwertować istniejące potoki skonfigurowane za pomocą Unity Catalog na bezserwerowe. Zobacz , aby skonwertować istniejący pipeline na serverless.
Inne zagadnienia dotyczące konfiguracji
Następujące opcje konfiguracji są również dostępne dla potoków bezserwerowych:
- Możesz wybrać użycie trybu Continuous podczas uruchamiania potoków w środowisku produkcyjnym. Zobacz Tryb wyzwalany vs. ciągły tryb potokowy.
- Dodaj Powiadomienia na potrzeby aktualizacji wiadomości e-mail na podstawie warunków powodzenia lub niepowodzenia. Zobacz Dodaj powiadomienia e-mail dotyczące wydarzeń w potoku.
- Użyj pola Configuration, aby ustawić pary klucz-wartość dla tego strumienia. Te konfiguracje służą dwóm celom:
- Ustaw dowolne parametry, do których można odwoływać się w kodzie źródłowym. Zobacz Używanie parametrów z potokami.
- Skonfiguruj ustawienia pipeline i konfiguracje Spark. Zobacz Dokumentacja właściwości potoku.
- Użyj kanału preview, aby testować Twój potok w kontekście oczekujących zmian środowiska uruchomieniowego Deklaratywnych Potoków Spark platformy Lakeflow oraz wypróbować nowe funkcje.
Zasady użycia bezserwerowego
Ważne
Ta funkcja jest dostępna w publicznej wersji testowej.
Zasady użycia bezserwerowego umożliwiają organizacji stosowanie tagów niestandardowych w przypadku użycia bezserwerowego na potrzeby szczegółowego przypisywania rozliczeń. Po zaznaczeniu pola wyboru bezserwerowego, pojawi się ustawienie zasad budżetu, w którym można wybrać zasady, które mają zostać zastosowane do potoku. Tagi są dziedziczone z zasad użycia bezserwerowego i mogą być edytowane tylko przez administratorów obszaru roboczego.
Uwaga / Notatka
Po przypisaniu zasad użycia bezserwerowego, istniejące pipeline'y nie są automatycznie oznaczane twoją polityką. Jeśli chcesz dołączyć do nich politykę, musisz ręcznie zaktualizować istniejące potoki.
Aby uzyskać więcej informacji na temat zasad użycia bezserwerowych, zobacz Użycie atrybutów z zasadami użycia bezserwerowego.
Wybieranie trybu wydajności
W przypadku wyzwolonych potoków można wybrać bezserwerowy tryb wydajności obliczeniowej przy użyciu ustawienia Zoptymalizowane pod kątem wydajności w harmonogramie potoku. Gdy to ustawienie jest wyłączone, potok używa standardowego trybu wydajności. Standardowy tryb wydajności został zaprojektowany w celu zmniejszenia kosztów obciążeń, w których dopuszczalne jest nieco wyższe opóźnienie uruchamiania. Obciążenia bezserwerowe korzystające ze standardowego trybu wydajności zwykle rozpoczynają się w ciągu od czterech do sześciu minut po wyzwoleniu, w zależności od dostępności obliczeniowej i zoptymalizowanego planowania.
Po włączeniu optymalizacji wydajności potok jest zoptymalizowany pod kątem wydajności, co powoduje szybsze uruchamianie i wykonywanie obciążeń wrażliwych na czas.
Oba tryby używają tej samej jednostki SKU, ale standardowy tryb wydajności zużywa mniej jednostek DBU, odzwierciedlając niższe użycie zasobów obliczeniowych.
Uwaga / Notatka
Aby użyć standardowego trybu wydajności w potokach ciągłych, skontaktuj się z zespołem ds. kont usługi Databricks.
Właściwości potoku bezserwerowego
Oprócz uproszczenia konfiguracji potoki bezserwerowe charakteryzują się następującymi cechami:
- odświeżanie przyrostowe dla zmaterializowanych widoków: aktualizacje zmaterializowanych widoków są odświeżane przyrostowo, gdy jest to możliwe. Odświeżanie przyrostowe ma takie same wyniki jak pełna ponowna kompilacja. Aktualizacja używa pełnego odświeżania, jeśli wyniki nie mogą być obliczane przyrostowo. Zobacz Odświeżanie przyrostowe, aby uzyskać zmaterializowane widoki.
- Przetwarzanie w potokach: aby zwiększyć wykorzystanie, przepływność i zmniejszyć opóźnienie dla obciążeń danych przesyłanych strumieniowo, takich jak pozyskiwanie danych, mikroparte są przetwarzane w potoku. Innymi słowy, zamiast uruchamiać mikropartie sekwencyjnie jak standardowe Strukturalne Przesyłanie Strumieniowe Spark, bezserwerowe Deklaratywne Potoki Spark uruchamiają mikropartie współbieżnie, co zwiększa wykorzystanie zasobów obliczeniowych. Pipelining strumieni jest domyślnie włączone w linii bezserwerowych.
- Skalowanie automatyczne w pionie: deklaratywne potoki bezserwerowej platformy Lakeflow uzupełniają poziome skalowanie automatyczne udostępniane przez usługę Databricks, wprowadzając ulepszone skalowanie automatyczne przez automatyczne przydzielanie najbardziej ekonomicznych typów instancji, które mogą uruchamiać twój potok bez awarii z powodu błędów związanych z brakiem pamięci. Zobacz Co to jest skalowanie automatyczne w pionie?
Przekształcanie istniejącego przepływu pracy, aby używał architektury bezserwerowej
Istniejące potoki skonfigurowane w ramach Unity Catalog można przekonwertować na potoki bezserwerowe. Wykonaj następujące kroki:
- Na pasku bocznym obszaru roboczego Azure Databricks kliknij pozycję Zadania i Potoki.
- Kliknij Nazwę potoku.
- Kliknij przycisk Ustawienia.
- Na prawym pasku bocznym w obszarze Obliczenia kliknij
- Zaznacz pole wyboru obok Serwerless.
- Kliknij przycisk Zapisz.
Ważne
Po włączeniu trybu bezserwerowego wszystkie skonfigurowane ustawienia obliczeniowe dla potoku zostaną usunięte. Jeśli przełączysz potok z powrotem na aktualizacje niebezserwerowe, musisz ponownie skonfigurować żądane ustawienia obliczeniowe w konfiguracji potoku.
Jak sprawdzić zużycie jednostek DBU w potoku bezserwerowym?
Użycie jednostek DBU w ramach bezserwerowych deklaratywnych potoków Lakeflow Spark można znaleźć, wysyłając zapytanie do tabeli rozliczanego użycia, która jest częścią tabel systemowych Azure Databricks. Zobacz Jakie jest zużycie DBU potoku bezserwerowego?.