Uwaga
Dostęp do tej strony wymaga autoryzacji. Może spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Ten artykuł zawiera odniesienie do specyfikacji ustawień JSON i właściwości tabel dla Deklaratywnych Potoków Lakeflow w usłudze Azure Databricks. Aby uzyskać więcej informacji na temat używania tych różnych właściwości i konfiguracji, zobacz następujące artykuły:
Konfiguracje potoków deklaratywnych usługi Lakeflow
Pola |
---|
id Typ: string Unikatowy identyfikator globalny dla tego pipeline'u. Identyfikator jest przypisywany przez system i nie można go zmienić. |
name Typ: string Przyjazna dla użytkownika nazwa tego potoku. Nazwa może służyć do identyfikowania zadań potoku w interfejsie użytkownika. |
configuration Typ: object Opcjonalna lista ustawień do dodania do konfiguracji Spark klastra, który będzie uruchamiał potok. Te ustawienia są odczytywane przez środowisko uruchomieniowe potoków deklaratywnych Lakeflow i dostępne dla zapytań w potokach za pośrednictwem konfiguracji Spark. Elementy muszą być sformatowane jako pary key:value . |
libraries Typ: array of objects Tablica notesów zawierająca kod potoku i wymagane artefakty. |
clusters Typ: array of objects Tablica specyfikacji klastrów do uruchomienia potoku. Jeśli nie zostanie to określone, potoki będą automatycznie wybierać domyślną konfigurację klastra dla potoku. |
development Typ: boolean Flaga wskazująca, czy należy uruchomić potok development lub tryb production .Wartość domyślna to true |
notifications Typ: array of objects Opcjonalny zbiór specyfikacji powiadomień e-mailowych, wysyłanych po zakończeniu aktualizacji potoku, gdy kończy się ona niepowodzeniem z możliwym do ponowienia błędem, niepowodzeniem z błędem, którego nie można ponowić, lub niepowodzeniem procesu. |
continuous Typ: boolean Flaga wskazująca, czy potok ma być uruchomiony w sposób ciągły. Wartość domyślna to false . |
catalog Typ: string Nazwa domyślnego katalogu dla pipeline'u, w którym publikowane są wszystkie zestawy danych i metadane związane z pipeline'em. Ustawienie tej wartości umożliwia katalog Unity dla potoku. Jeśli potok pozostanie bez ustawienia, zostanie opublikowany w starszym magazynie metadanych Hive przy użyciu lokalizacji określonej w storage .W starszym trybie publikowania określa katalog zawierający schemat docelowy, w którym publikowane są wszystkie zestawy danych pochodzące z bieżącego potoku. Zobacz live schema (starsza wersja). |
schema Typ: string Nazwa domyślnego schematu potoku, w którym wszystkie zestawy danych i metadane potoku są domyślnie publikowane. Zobacz Ustaw katalog docelowy i schemat. |
target (starsza wersja)Typ: string Nazwa schematu docelowego, w którym publikowane są wszystkie zestawy danych zdefiniowane w bieżącym potoku. Ustawienie target zamiast schema ustawia potok na używanie starszego trybu publikowania. Zobacz live schema (starsza wersja). |
storage (starsza wersja)Typ: string Lokalizacja w systemie DBFS lub w magazynie w chmurze, w której są przechowywane dane wyjściowe i metadane wymagane do wykonania potoku. Tabele i metadane są przechowywane w podkatalogach tej lokalizacji. Jeśli ustawienie storage nie zostanie określone, system będzie domyślnie ustawiać lokalizację w dbfs:/pipelines/ .Nie można zmienić ustawienia storage po utworzeniu potoku. |
channel Typ: string Wersja środowiska uruchomieniowego potoków deklaratywnych Lakeflow do użycia. Obsługiwane wartości to:
Pole channel jest opcjonalne. Wartość domyślna tocurrent . Usługa Databricks zaleca używanie bieżącej wersji środowiska uruchomieniowego dla obciążeń produkcyjnych. |
edition Wpisz string Wersja produktu Pipelines deklaratywnego usługi Lakeflow w celu uruchomienia potoku. To ustawienie umożliwia wybranie najlepszej wersji produktu na podstawie wymagań potoku:
Pole edition jest opcjonalne. Wartość domyślna toADVANCED . |
photon Typ: boolean Flaga wskazująca, czy używać Co to jest Photon?, aby uruchomić potok. Photon to wysokowydajny silnik Spark w usłudze Azure Databricks. Potoki z obsługą fotonu są rozliczane według innej stawki niż potoki inne niż photon. Pole photon jest opcjonalne. Wartość domyślna to false . |
pipelines.maxFlowRetryAttempts Typ: int Jeśli podczas aktualizacji potoku wystąpi błąd z możliwością ponawiania próby, jest to maksymalna liczba ponownych prób przepływu przed niepowodzeniem aktualizacji potoku Ustawienie domyślne: dwie próby ponawiania prób. W przypadku wystąpienia błędu, który można powtórzyć, środowisko uruchomieniowe Potoków Deklaratywnych Lakeflow podejmuje próbę uruchomienia przepływu trzy razy, wliczając w to oryginalną próbę. |
pipelines.numUpdateRetryAttempts Typ: int Jeśli podczas aktualizacji wystąpi błąd z możliwością ponawiania próby, jest to maksymalna liczba ponownych prób aktualizacji przed trwałym niepowodzeniem aktualizacji. Ponawianie jest uruchamiane jako pełna aktualizacja. Ten parametr dotyczy tylko potoków działających w trybie produkcyjnym. Ponowne próby nie są podejmowane, jeśli potok działa w trybie programowania lub po uruchomieniu aktualizacji Validate .Domyślny:
|
Właściwości tabeli deklaratywnych potoków Lakeflow
Oprócz właściwości tabeli obsługiwanych przez usługę Delta Lakemożna ustawić następujące właściwości tabeli.
Właściwości tabeli |
---|
pipelines.autoOptimize.zOrderCols Ustawienie domyślne: Brak Opcjonalny ciąg znaków zawierający listę nazw kolumn rozdzielanych przecinkami, według których należy uporządkować tę tabelę. Na przykład pipelines.autoOptimize.zOrderCols = "year,month" |
pipelines.reset.allowed Ustawienie domyślne: true Określa, czy pełne odświeżanie jest dozwolone dla tej tabeli. |
pipelines.autoOptimize.managed Ustawienie domyślne: true Włącza lub wyłącza automatycznie zaplanowaną optymalizację tej tabeli. W przypadku potoków zarządzanych przez optymalizację predykcyjną ta właściwość nie jest używana. |
interwał wyzwalania potoków
Można określić interwał czasowy wyzwalania potoku dla całego potoku lub jako część deklaracji zestawu danych. Zobacz Ustawianie interwału wyzwalacza dla potoków ciągłych.
pipelines.trigger.interval |
---|
Wartość domyślna jest oparta na typie przepływu:
Wartość jest liczbą oraz jednostką czasową. Poniżej przedstawiono prawidłowe jednostki czasu:
Można użyć jednostki pojedynczej lub mnogiej podczas definiowania wartości, na przykład:
|
atrybuty klastra, które nie są konfigurowalne przez użytkownika
Ponieważ Lakeflow Declarative Pipelines zarządzają cyklami życia klastra, wiele ustawień klastra jest ustalanych przez Lakeflow Declarative Pipelines i nie można ich ręcznie skonfigurować w konfiguracji potoku ani w polityce klastra używanej przez potok. W poniższej tabeli wymieniono te ustawienia i przyczyny, których nie można ustawić ręcznie.
Pola |
---|
cluster_name Lakeflow Declarative Pipelines ustawia nazwy klastrów używanych do przeprowadzania aktualizacji potoku. Tych nazw nie można zastąpić. |
data_security_mode access_mode Te wartości są automatycznie ustawiane przez system. |
spark_version Deklaratywne klastery potoków Lakeflow pracują na niestandardowej wersji środowiska Databricks Runtime, która jest stale aktualizowana, aby uwzględnić najnowsze funkcje. Wersja platformy Spark jest dołączona do wersji środowiska Databricks Runtime i nie można jej zastąpić. |
autotermination_minutes Ponieważ Deklaratywne Potoki Lakeflow zarządzają automatycznym zakończeniem i logiką ponownego użycia klastra, nie można nadpisać czasu automatycznego zakończenia klastra. |
runtime_engine Chociaż można kontrolować to pole, włączając usługę Photon w swoim potoku, nie można ustawić tej wartości bezpośrednio. |
effective_spark_version Ta wartość jest automatycznie ustawiana przez system. |
cluster_source To pole jest ustawiane przez system i jest tylko do odczytu. |
docker_image Ponieważ Lakeflow Deklaratywne Potoki zarządzają cyklem życia klastra, nie można użyć niestandardowego kontenera z klastrami potoków. |
workload_type Ta wartość jest ustawiana przez system i nie można jej zastąpić. |