Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Ten artykuł zawiera odniesienia do specyfikacji ustawień JSON dla potoku oraz właściwości tabel w Lakeflow Spark Declarative Pipelines. Aby uzyskać więcej informacji na temat używania tych różnych właściwości i konfiguracji, zobacz następujące artykuły:
Konfiguracje potoków
idTyp:
stringUnikatowy identyfikator globalny dla tego pipeline'u. Identyfikator jest przypisywany przez system i nie można go zmienić.
nameTyp:
stringPrzyjazna dla użytkownika nazwa tego potoku. Nazwa może służyć do identyfikowania zadań potoku w interfejsie użytkownika.
configurationTyp:
objectOpcjonalna lista ustawień do dodania do konfiguracji Spark klastra, który będzie uruchamiał potok. Te ustawienia są odczytywane przez środowisko uruchomieniowe deklaratywnych potoków Lakeflow Spark i są dostępne dla zapytań w potokach za pośrednictwem konfiguracji Spark.
Elementy muszą być sformatowane jako pary
key:value.librariesTyp:
array of objectsZbiór plików kodu zawierających kod potoku i wymagane artefakty.
clustersTyp:
array of objectsTablica specyfikacji klastrów do uruchomienia potoku.
Jeśli nie zostanie to określone, potoki będą automatycznie wybierać domyślną konfigurację klastra dla potoku.
developmentTyp:
booleanFlaga wskazująca, czy należy uruchomić potok w trybie
developmentlubproduction.Domyślna wartość to
truenotificationsTyp:
array of objectsOpcjonalny zbiór specyfikacji powiadomień e-mailowych, wysyłanych po zakończeniu aktualizacji potoku, gdy kończy się ona niepowodzeniem z możliwym do ponowienia błędem, niepowodzeniem z błędem, którego nie można ponowić, lub niepowodzeniem procesu.
continuousTyp:
booleanFlaga wskazująca, czy potok ma być uruchomiony w sposób ciągły.
Domyślna wartość to
false.catalogTyp:
stringNazwa domyślnego katalogu dla pipeline'u, w którym publikowane są wszystkie zestawy danych i metadane związane z pipeline'em. Ustawienie tej wartości umożliwia katalog Unity dla potoku.
Jeśli potok pozostanie bez ustawienia, zostanie opublikowany w starszym magazynie metadanych Hive przy użyciu lokalizacji określonej w
storage.W starszym trybie publikowania określa katalog zawierający schemat docelowy, w którym publikowane są wszystkie zestawy danych pochodzące z bieżącego potoku. Zobacz LIVE schema (legacy).
schemaTyp:
stringNazwa domyślnego schematu potoku, w którym wszystkie zestawy danych i metadane potoku są domyślnie publikowane. Zobacz Ustaw katalog docelowy i schemat.
target(starsza wersja)Typ:
stringNazwa schematu docelowego, w którym publikowane są wszystkie zestawy danych zdefiniowane w bieżącym potoku.
Ustawienie
targetzamiastschemaustawia potok na używanie starszego trybu publikowania. Zobacz LIVE schema (legacy).storage(starsza wersja)Typ:
stringLokalizacja w systemie DBFS lub w magazynie w chmurze, w której są przechowywane dane wyjściowe i metadane wymagane do wykonania potoku. Tabele i metadane są przechowywane w podkatalogach tej lokalizacji.
Jeśli ustawienie
storagenie zostanie określone, system będzie domyślnie ustawiać lokalizację wdbfs:/pipelines/.Nie można zmienić ustawienia
storagepo utworzeniu potoku.channelTyp:
stringWersja środowiska uruchomieniowego potoków deklaratywnych platformy Spark Lakeflow do zastosowania. Obsługiwane wartości to:
-
preview, aby przetestować pipeline z nadchodzącymi zmianami w wersji środowiska uruchomieniowego. -
current, aby użyć bieżącej wersji środowiska uruchomieniowego.
Pole
channeljest opcjonalne. Domyślna wartość tocurrent. Usługa Databricks zaleca używanie bieżącej wersji środowiska uruchomieniowego dla obciążeń produkcyjnych.-
editionWpisz
stringWersja produktu Lakeflow Spark Declarative Pipelines do uruchamiania potoku. To ustawienie umożliwia wybranie najlepszej wersji produktu na podstawie wymagań potoku:
-
COREdo uruchamiania obciążeń związanych z przesyłaniem strumieniowym. -
PRO, aby uruchamiać pozyskiwanie strumieniowe i zmienianie obciążeń przechwytywania danych (CDC). -
ADVANCEDdo uruchamiania obciążeń pozyskiwania strumieniowego, obciążeń CDC i obciążeń, które wymagają oczekiwań w celu wymuszenia ograniczeń jakości danych.
Pole
editionjest opcjonalne. Domyślna wartość toADVANCED.-
photonTyp:
booleanFlaga wskazująca, czy używać Co to jest Photon?, aby uruchomić potok. Photon to wysokowydajny silnik Spark w usłudze Azure Databricks. Potoki z obsługą fotonu są rozliczane według innej stawki niż potoki inne niż photon.
Pole
photonjest opcjonalne. Domyślna wartość tofalse.pipelines.maxFlowRetryAttemptsTyp:
intJeśli podczas aktualizacji potoku wystąpi błąd z możliwością ponawiania próby, jest to maksymalna liczba ponownych prób przepływu przed niepowodzeniem aktualizacji potoku
Ustawienie domyślne: dwie próby ponawiania prób. W przypadku wystąpienia niepowodzenia z możliwością ponawiania próby środowisko uruchomieniowe Lakeflow Spark Deklaratywne potoki próbuje uruchomić przepływ trzy razy, w tym oryginalną próbę.
pipelines.numUpdateRetryAttemptsTyp:
intJeśli podczas aktualizacji wystąpi błąd z możliwością ponawiania próby, jest to maksymalna liczba ponownych prób aktualizacji przed trwałym niepowodzeniem aktualizacji. Ponawianie jest uruchamiane jako pełna aktualizacja.
Ten parametr dotyczy tylko potoków działających w trybie produkcyjnym. Ponowne próby nie są podejmowane, jeśli potok działa w trybie programowania lub po uruchomieniu aktualizacji
Validate.Wartość domyślna:
- Pięć z uruchomionych potoków.
- Nieograniczone dla potoków ciągłych.
Właściwości tabeli potoku
Oprócz właściwości tabeli obsługiwanych przez usługę Delta Lakemożna ustawić następujące właściwości tabeli.
pipelines.autoOptimize.zOrderColsUstawienie domyślne: Brak
Opcjonalny ciąg znaków zawierający listę nazw kolumn rozdzielanych przecinkami, według których należy uporządkować tę tabelę. Na przykład
pipelines.autoOptimize.zOrderCols = "year,month"pipelines.reset.allowedUstawienie domyślne:
trueOkreśla, czy pełne odświeżanie jest dozwolone dla tej tabeli.
pipelines.autoOptimize.managedUstawienie domyślne:
trueWłącza lub wyłącza automatycznie zaplanowaną optymalizację tej tabeli.
W przypadku potoków zarządzanych przez optymalizację predykcyjną ta właściwość nie jest używana.
interwał wyzwalania potoków
Można określić interwał czasowy wyzwalania potoku dla całego potoku lub jako część deklaracji zestawu danych. Zobacz Ustawianie interwału wyzwalacza dla potoków ciągłych.
pipelines.trigger.intervalWartość domyślna jest oparta na typie przepływu:
- Pięć sekund dla zapytań przesyłanych strumieniowo.
- Jedna minuta na pełne zapytania, gdy wszystkie dane wejściowe pochodzą ze źródeł Delta.
- Dziesięć minut na wykonanie pełnych zapytań, gdy niektóre źródła danych mogą nie być typu Delta.
Wartość jest liczbą oraz jednostką czasową. Poniżej przedstawiono prawidłowe jednostki czasu:
-
second,seconds -
minute,minutes -
hour,hours -
day,days
Można użyć jednostki pojedynczej lub mnogiej podczas definiowania wartości, na przykład:
{"pipelines.trigger.interval" : "1 hour"}{"pipelines.trigger.interval" : "10 seconds"}{"pipelines.trigger.interval" : "30 second"}{"pipelines.trigger.interval" : "1 minute"}{"pipelines.trigger.interval" : "10 minutes"}{"pipelines.trigger.interval" : "10 minute"}
atrybuty klastra, które nie są konfigurowalne przez użytkownika
Ze względu na to, że "Lakeflow Spark Declarative Pipelines (SDP)" zarządzają cyklem życia klastra, wiele ustawień klastra jest określanych przez system i nie można ich ręcznie skonfigurować ani w konfiguracji potoku, ani w polityce klastra używanej przez potok. W poniższej tabeli wymieniono te ustawienia i przyczyny, których nie można ustawić ręcznie.
cluster_nameSDP ustawia nazwy klastrów wykorzystywanych do aktualizacji procesów potokowych. Tych nazw nie można zastąpić.
data_security_modeaccess_modeTe wartości są automatycznie ustawiane przez system.
spark_versionKlastry SDP działają w niestandardowej wersji środowiska Databricks Runtime, która jest stale aktualizowana w celu uwzględnienia najnowszych funkcji. Wersja platformy Spark jest dołączona do wersji środowiska Databricks Runtime i nie można jej zastąpić.
autotermination_minutesPonieważ SDP zarządza logiką automatycznego zakończenia i ponownego użycia klastra, nie można zastąpić czasu automatycznego zakończenia klastra.
runtime_engineChociaż można kontrolować to pole, włączając usługę Photon w swoim potoku, nie można ustawić tej wartości bezpośrednio.
effective_spark_versionTa wartość jest automatycznie ustawiana przez system.
cluster_sourceTo pole jest ustawiane przez system i jest tylko do odczytu.
docker_imagePonieważ protokół SDP zarządza cyklem życia klastra, nie można użyć niestandardowego kontenera z klastrami potoków.
workload_typeTa wartość jest ustawiana przez system i nie można jej zastąpić.