Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
W tym artykule opisano konfiguracje potoków bezserwerowych.
Databricks zaleca opracowywanie nowych potoków z wykorzystaniem architektury bezserwerowej. Niektóre obciążenia mogą wymagać skonfigurowania klasycznego środowiska obliczeniowego lub pracy ze starszym magazynem metadanych Hive. Zobacz Konfigurowanie klasycznych obliczeń dla potoków i Używanie Lakeflow Spark Deklaratywnych Potoków ze starszym magazynem metadanych Hive.
Uwaga / Notatka
- Bezserwerowe potoki zawsze używają Unity Catalogu. Zobacz Używanie Unity Catalogu z potokami.
- Aby uzyskać informacje o ograniczeniach obliczeniowych bezserwerowych, zobacz Ograniczenia obliczeniowe bezserwerowe.
- Nie można ręcznie dodać ustawień obliczeniowych w obiekcie
clustersw konfiguracji JSON dla potoku bezserwerowego. Próba wykonania tej czynności powoduje wystąpienie błędu.
- Jeśli musisz użyć połączenia usługi Azure Private Link z bezserwerowym potokiem deklaratywnym Spark Lakeflow, skontaktuj się z przedstawicielem Databricks.
Requirements
- Aby używać potoków bezserwerowych, obszar roboczy musi mieć włączony Unity Catalog.
- Twoja przestrzeń robocza musi znajdować się w regionie obsługującym tryb bezserwerowy.
Zalecana konfiguracja dla potoków bezserwerowych
Ważne
Uprawnienia do tworzenia klastra nie są wymagane do konfigurowania potoków bezserwerowych. Domyślnie wszyscy użytkownicy obszaru roboczego mogą używać potoków bezserwerowych.
Bezserwerowe potoki danych usuwają większość opcji konfiguracji, ponieważ Azure Databricks zarządza całą infrastrukturą. Podczas tworzenia nowego potoku ustawieniem domyślnym jest użycie bezserwerowego. Aby dowiedzieć się, jak skonfigurować potok bezserwerowy, zobacz Konfigurowanie potoków.
Możesz również przekonwertować istniejące potoki skonfigurowane za pomocą Unity Catalog na bezserwerowe. Zobacz , aby skonwertować istniejący pipeline na serverless.
Inne zagadnienia dotyczące konfiguracji
Następujące opcje konfiguracji są również dostępne dla potoków bezserwerowych:
- Możesz wybrać użycie trybu Continuous podczas uruchamiania potoków w środowisku produkcyjnym. Zobacz Tryb wyzwalany vs. ciągły tryb potokowy.
- Dodaj Powiadomienia na potrzeby aktualizacji wiadomości e-mail na podstawie warunków powodzenia lub niepowodzenia. Zobacz Dodaj powiadomienia e-mail dotyczące wydarzeń w potoku.
- Użyj pola Configuration, aby ustawić pary klucz-wartość dla tego strumienia. Te konfiguracje służą dwóm celom:
- Ustaw dowolne parametry, do których można odwoływać się w kodzie źródłowym. Zobacz Używanie parametrów z potokami.
- Skonfiguruj ustawienia pipeline i konfiguracje Spark. Zobacz Dokumentacja właściwości potoku.
- Użyj kanału preview, aby testować Twój potok w kontekście oczekujących zmian środowiska uruchomieniowego Deklaratywnych Potoków Spark platformy Lakeflow oraz wypróbować nowe funkcje.
Zasady budżetu bezserwerowego
Ważne
Ta funkcja jest dostępna w publicznej wersji testowej.
Bezserwerowe zasady budżetu umożliwiają organizacji stosowanie tagów niestandardowych dla użytkowania bezserwerowego na potrzeby szczegółowego przypisywania kosztów. Po zaznaczeniu pola wyboru bezserwerowego, pojawi się ustawienie zasad budżetu, w którym można wybrać zasady, które mają zostać zastosowane do potoku. Tagi są dziedziczone z zasad budżetu bezserwerowego i mogą być edytowane tylko przez administratorów obszaru roboczego.
Uwaga / Notatka
Po przypisaniu zasad budżetu bezserwerowego istniejące potoki nie są automatycznie oznaczane zasadami. Jeśli chcesz dołączyć do nich politykę, musisz ręcznie zaktualizować istniejące potoki.
Aby uzyskać więcej informacji na temat zasad budżetu bezserwerowych, zobacz Użycie atrybutów z bezserwerowymi zasadami budżetu.
Wybieranie trybu wydajności
W przypadku wyzwolonych potoków można wybrać bezserwerowy tryb wydajności obliczeniowej przy użyciu ustawienia Zoptymalizowane pod kątem wydajności w harmonogramie potoku. Gdy to ustawienie jest wyłączone, potok używa standardowego trybu wydajności. Standardowy tryb wydajności został zaprojektowany w celu zmniejszenia kosztów obciążeń, w których dopuszczalne jest nieco wyższe opóźnienie uruchamiania. Obciążenia bezserwerowe korzystające ze standardowego trybu wydajności zwykle rozpoczynają się w ciągu od czterech do sześciu minut po wyzwoleniu, w zależności od dostępności obliczeniowej i zoptymalizowanego planowania.
Po włączeniu optymalizacji wydajności potok jest zoptymalizowany pod kątem wydajności, co powoduje szybsze uruchamianie i wykonywanie obciążeń wrażliwych na czas.
Oba tryby używają tej samej jednostki SKU, ale standardowy tryb wydajności zużywa mniej jednostek DBU, odzwierciedlając niższe użycie zasobów obliczeniowych.
Uwaga / Notatka
Aby użyć standardowego trybu wydajności w potokach ciągłych, skontaktuj się z zespołem ds. kont usługi Databricks.
Właściwości potoku bezserwerowego
Oprócz uproszczenia konfiguracji potoki bezserwerowe charakteryzują się następującymi cechami:
- odświeżanie przyrostowe dla zmaterializowanych widoków: aktualizacje zmaterializowanych widoków są odświeżane przyrostowo, gdy jest to możliwe. Odświeżanie przyrostowe ma takie same wyniki jak pełna ponowna kompilacja. Aktualizacja używa pełnego odświeżania, jeśli wyniki nie mogą być obliczane przyrostowo. Zobacz Odświeżanie przyrostowe, aby uzyskać zmaterializowane widoki.
- Przetwarzanie w potokach: aby zwiększyć wykorzystanie, przepływność i zmniejszyć opóźnienie dla obciążeń danych przesyłanych strumieniowo, takich jak pozyskiwanie danych, mikroparte są przetwarzane w potoku. Innymi słowy, zamiast uruchamiać mikropartie sekwencyjnie jak standardowe Strukturalne Przesyłanie Strumieniowe Spark, bezserwerowe Deklaratywne Potoki Spark uruchamiają mikropartie współbieżnie, co zwiększa wykorzystanie zasobów obliczeniowych. Pipelining strumieni jest domyślnie włączone w linii bezserwerowych.
- Skalowanie automatyczne w pionie: deklaratywne potoki bezserwerowej platformy Lakeflow uzupełniają poziome skalowanie automatyczne udostępniane przez usługę Databricks, wprowadzając ulepszone skalowanie automatyczne przez automatyczne przydzielanie najbardziej ekonomicznych typów instancji, które mogą uruchamiać twój potok bez awarii z powodu błędów związanych z brakiem pamięci. Zobacz Co to jest skalowanie automatyczne w pionie?
Przekształcanie istniejącego przepływu pracy, aby używał architektury bezserwerowej
Istniejące potoki skonfigurowane w ramach Unity Catalog można przekonwertować na potoki bezserwerowe. Wykonaj następujące kroki:
- Na pasku bocznym obszaru roboczego usługi Azure Databricks kliknij pozycję Zadania i potoki.
- Kliknij Nazwę potoku.
- Kliknij przycisk Ustawienia.
- Na prawym pasku bocznym w obszarze Obliczenia kliknij
- Zaznacz pole wyboru obok Serwerless.
- Kliknij przycisk Zapisz.
Ważne
Po włączeniu trybu bezserwerowego wszystkie skonfigurowane ustawienia obliczeniowe dla potoku zostaną usunięte. Jeśli przełączysz potok z powrotem na aktualizacje niebezserwerowe, musisz ponownie skonfigurować żądane ustawienia obliczeniowe w konfiguracji potoku.
Jak sprawdzić zużycie jednostek DBU w potoku bezserwerowym?
Użycie jednostek DBU bezserwerowych potoków deklaratywnych platformy Spark w usłudze Lakeflow można znaleźć, wykonując zapytanie dotyczące tabeli rozliczanego użycia, części tabel systemowych usługi Azure Databricks. Zobacz Jakie jest zużycie DBU potoku bezserwerowego?.