Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Dieser Artikel enthält eine Referenz für die Json-Pipeline-Einstellungsspezifikation und Tabelleneigenschaften in Lakeflow Spark Declarative Pipelines. Weitere Informationen zur Verwendung dieser verschiedenen Eigenschaften und Konfigurationen finden Sie in den folgenden Artikeln:
Pipelinekonfigurationen
idTyp:
stringDies ist ein global eindeutiger Bezeichner für diese Pipeline. Der Bezeichner wird vom System zugewiesen und kann nicht geändert werden.
nameTyp:
stringDies ist ein Anzeigename für diese Pipeline. Der Name kann verwendet werden, um Pipelineaufträge auf der Benutzeroberfläche zu identifizieren.
configurationTyp:
objectDies ist eine optionale Liste der Einstellungen, die der Spark-Konfiguration des Clusters hinzugefügt werden sollen, der die Pipeline ausführt. Diese Einstellungen werden von der Runtime der Lakeflow Spark Declarative Pipelines gelesen und stehen für Pipelineabfragen über die Spark-Konfiguration zur Verfügung.
Elemente müssen als
key:value-Paare formatiert werden.librariesTyp:
array of objectsEin Array von Codedateien, die den Pipelinecode und erforderliche Artefakte enthalten.
clustersTyp:
array of objectsDies ist ein Array von Spezifikationen für die Cluster zum Ausführen der Pipeline.
Wenn dies nicht angegeben wird, wählen Pipelines automatisch eine Standardclusterkonfiguration für die Pipeline aus.
developmentTyp:
booleanEin Kennzeichen, das angibt, ob die Pipeline im
development- oderproduction-Modus ausgeführt werden soll.Der Standardwert ist
truenotificationsTyp:
array of objectsEin optionales Array von Spezifikationen für E-Mail-Benachrichtigungen, wenn ein Pipelineupdate abgeschlossen ist, schlägt mit einem wiederholungsfähigen Fehler fehl, schlägt mit einem nicht behebbaren Fehler fehl, oder ein Flow ist fehlerhaft.
continuousTyp:
booleanDies ist ein Flag, das angibt, ob die Pipeline kontinuierlich ausgeführt werden soll.
Der Standardwert ist
false.catalogTyp:
stringDer Name des Standardkatalogs für die Pipeline, in dem alle Datasets und Metadaten für die Pipeline veröffentlicht werden. Durch Festlegen dieses Werts wird der Unity-Katalog für die Pipeline aktiviert.
Wird diese Einstellung nicht festgelegt, veröffentlicht die Pipeline im Legacy-Hive-Metastore unter Verwendung des in
storageangegebenen Speicherorts.Gibt im Legacyveröffentlichungsmodus den Katalog an, der das Zielschema enthält, in dem alle Datasets aus der aktuellen Pipeline veröffentlicht werden. Weitere Informationen finden Sie unter LIVE-Schema (Legacy).
schemaTyp:
stringDer Name des Standardschemas für die Pipeline, in dem standardmäßig alle Datasets und Metadaten für die Pipeline veröffentlicht werden. Siehe Festlegen des Zielkatalogs und des Schemas.
target(Legacy)Typ:
stringDer Name des Zielschemas, in dem alle in der aktuellen Pipeline definierten Datasets veröffentlicht werden.
Wenn Sie
targetanstelle vonschemafestlegen, wird die Pipeline so konfiguriert, dass der legacy-Veröffentlichungsmodus verwendet wird. Weitere Informationen finden Sie unter LIVE-Schema (Legacy).storage(Legacy)Typ:
stringDies ist ein Speicherort im DBFS oder Cloudspeicher, an dem für die Pipelineausführung erforderliche Ausgabedaten und Metadaten gespeichert werden. Tabellen und Metadaten werden in Unterverzeichnissen dieses Speicherorts gespeichert.
Wenn die
storage-Einstellung nicht angegeben ist, verwendet das System standardmäßig einen Speicherort indbfs:/pipelines/.Die
storage-Einstellung kann nach dem Erstellen einer Pipeline nicht mehr geändert werden.channelTyp:
stringDie zu verwendende Version der Laufzeitumgebung für Lakeflow Spark Declarative Pipelines. Die unterstützten Werte sind:
-
preview, um Ihre Pipeline mit anstehenden Änderungen an der Laufzeitversion zu testen. -
current, um die aktuelle Runtimeversion zu verwenden.
Das feld
channelist optional. Der Standardwert istcurrent. Databricks empfiehlt die Verwendung der aktuellen Runtimeversion für Produktionsworkloads.-
editionGeben Sie
stringeinDie Lakeflow Spark Declarative Pipelines-Produktedition zum Ausführen der Pipeline. Mit dieser Einstellung können Sie die beste Produktedition basierend auf den Anforderungen Ihrer Pipeline auswählen:
-
COREzum Ausführen von Workloads zur Streamerfassung -
PROum Streaming-Ingestion- und CDC-Workloads zur Änderungsdatenerfassung auszuführen. -
ADVANCEDzum Ausführen von Streaming-Ingest-Workloads, CDC-Workloads und Workloads, die Anforderungen zur Erzwingung von Datenqualitätsbeschränkungen erfordern.
Das feld
editionist optional. Der Standardwert istADVANCED.-
photonTyp:
booleanDieses Flag gibt an, ob für die Ausführung der Pipeline Was ist Photon? verwendet werden soll. Photon ist die Hochleistungs-Spark-Engine von Azure Databricks. Pipelines mit Photon-Unterstützung werden mit einer anderen Rate als Nicht-Photon-Pipelines abgerechnet.
Das feld
photonist optional. Der Standardwert istfalse.pipelines.maxFlowRetryAttemptsTyp:
intWenn während eines Pipelineupdates ein wiederholungsfähiger Fehler auftritt, ist dies die maximale Anzahl von Versuchen, einen Flow zu wiederholen, bevor ein Pipelineupdate als fehlerhaft betrachtet wird.
Standard: Zwei Wiederholungsversuche. Wenn ein Fehler auftritt, der einen erneuten Versuch erlaubt, versucht die Lakeflow Spark Declarative Pipelines-Laufzeit, den Ablauf insgesamt dreimal auszuführen, einschließlich des ursprünglichen Versuchs.
pipelines.numUpdateRetryAttemptsTyp:
intWenn während eines Updates ein wiederholungsfähiger Fehler auftritt, ist dies die maximale Anzahl von Wiederholungsversuchen, bevor das Update dauerhaft fehlschlägt. Der Wiederholungsversuch wird als vollständiges Update ausgeführt.
Dieser Parameter gilt nur für Pipelines, die im Produktionsmodus ausgeführt werden. Wiederholungen werden nicht versucht, wenn Ihre Pipeline im Entwicklungsmodus ausgeführt wird oder wenn Sie ein
Validate-Update ausführen.Default:
- Fünf für ausgelöste Pipelines.
- Unbegrenzt für fortlaufende Pipelines.
Eigenschaften der Pipelinetabelle
Zusätzlich zu den von Delta Lake unterstützten Tabelleneigenschaften können Sie die folgenden Tabelleneigenschaften festlegen.
pipelines.autoOptimize.zOrderColsStandardwert: Keiner
Eine optionale Zeichenfolge mit einer durch Trennzeichen getrennten Liste von Spaltennamen, nach der diese Tabelle in Z-Reihenfolge geordnet werden soll. Beispiel:
pipelines.autoOptimize.zOrderCols = "year,month"pipelines.reset.allowedStandardwert:
trueSteuert, ob eine vollständige Aktualisierung für diese Tabelle zulässig ist
pipelines.autoOptimize.managedStandardwert:
trueAktiviert oder deaktiviert die automatisch geplante Optimierung dieser Tabelle
Für Pipelines, die von der Vorhersageoptimierung verwaltet werden, wird diese Eigenschaft nicht verwendet.
Triggerintervall für Pipelines
Sie können ein Pipelinetriggerintervall für die gesamte Pipeline oder als Teil einer Datasetdeklaration angeben. Siehe Festlegen des Auslöserintervalls für fortlaufende Pipelines.
pipelines.trigger.intervalDer Standardwert basiert auf dem Flowtyp:
- Fünf Sekunden für Streamingabfragen.
- Eine Minute für vollständige Abfragen, wenn alle Eingabedaten aus Delta-Quellen stammen.
- Zehn Minuten für vollständige Abfragen, wenn einige Datenquellen möglicherweise nicht Delta sind.
Der Wert ist eine Zahl plus der Zeiteinheit. Dies sind die gültigen Zeiteinheiten:
-
second,seconds -
minute,minutes -
hour,hours -
day,days
Sie können die Singular- oder Pluraleinheit verwenden, wenn Sie den Wert definieren, z. B.:
{"pipelines.trigger.interval" : "1 hour"}{"pipelines.trigger.interval" : "10 seconds"}{"pipelines.trigger.interval" : "30 second"}{"pipelines.trigger.interval" : "1 minute"}{"pipelines.trigger.interval" : "10 minutes"}{"pipelines.trigger.interval" : "10 minute"}
Clusterattribute, die nicht von Benutzer*innen festgelegt werden können
Da Lakeflow Spark Declarative Pipelines (SDP) Clusterlebenszyklus verwaltet, werden viele Clustereinstellungen vom System festgelegt und können nicht manuell von Benutzern konfiguriert werden, entweder in einer Pipelinekonfiguration oder in einer Clusterrichtlinie, die von einer Pipeline verwendet wird. In der folgenden Tabelle sind diese Einstellungen aufgeführt und der Grund, warum sie nicht manuell festgelegt werden können.
cluster_nameSDP legt die Namen der Cluster fest, die zum Ausführen von Pipelineupdates verwendet werden. Diese Namen können nicht überschrieben werden.
data_security_modeaccess_modeDiese Werte werden automatisch vom System festgelegt.
spark_versionSDP-Cluster werden auf einer benutzerdefinierten Version von Databricks Runtime ausgeführt, die ständig aktualisiert wird, um die neuesten Features einzuschließen. Die Spark-Version ist mit der Databricks Runtime-Version gebündelt und kann nicht überschrieben werden.
autotermination_minutesDa SDP die automatische Beendigungs- und Wiederverwendungslogik des Clusters verwaltet, kann die automatische Beendigungszeit des Clusters nicht außer Kraft gesetzt werden.
runtime_engineObwohl Sie dieses Feld steuern können, indem Sie Photon für Ihre Pipeline aktivieren, können Sie diesen Wert nicht direkt festlegen.
effective_spark_versionDieser Wert wird automatisch vom System festgelegt.
cluster_sourceDieses Feld wird vom System festgelegt und ist schreibgeschützt.
docker_imageDa SDP den Clusterlebenszyklus verwaltet, können Sie keinen benutzerdefinierten Container mit Pipelineclustern verwenden.
workload_typeDieser Wert wird vom System festgelegt und kann nicht überschrieben werden.