Freigeben über


Referenz zu Pipelineeigenschaften

Dieser Artikel enthält eine Referenz für die Json-Pipeline-Einstellungsspezifikation und Tabelleneigenschaften in Lakeflow Spark Declarative Pipelines. Weitere Informationen zur Verwendung dieser verschiedenen Eigenschaften und Konfigurationen finden Sie in den folgenden Artikeln:

Pipelinekonfigurationen

  • id

    Typ: string

    Dies ist ein global eindeutiger Bezeichner für diese Pipeline. Der Bezeichner wird vom System zugewiesen und kann nicht geändert werden.

  • name

    Typ: string

    Dies ist ein Anzeigename für diese Pipeline. Der Name kann verwendet werden, um Pipelineaufträge auf der Benutzeroberfläche zu identifizieren.

  • configuration

    Typ: object

    Dies ist eine optionale Liste der Einstellungen, die der Spark-Konfiguration des Clusters hinzugefügt werden sollen, der die Pipeline ausführt. Diese Einstellungen werden von der Runtime der Lakeflow Spark Declarative Pipelines gelesen und stehen für Pipelineabfragen über die Spark-Konfiguration zur Verfügung.

    Elemente müssen als key:value-Paare formatiert werden.

  • libraries

    Typ: array of objects

    Ein Array von Codedateien, die den Pipelinecode und erforderliche Artefakte enthalten.

  • clusters

    Typ: array of objects

    Dies ist ein Array von Spezifikationen für die Cluster zum Ausführen der Pipeline.

    Wenn dies nicht angegeben wird, wählen Pipelines automatisch eine Standardclusterkonfiguration für die Pipeline aus.

  • development

    Typ: boolean

    Ein Kennzeichen, das angibt, ob die Pipeline im development- oder production-Modus ausgeführt werden soll.

    Der Standardwert ist true

  • notifications

    Typ: array of objects

    Ein optionales Array von Spezifikationen für E-Mail-Benachrichtigungen, wenn ein Pipelineupdate abgeschlossen ist, schlägt mit einem wiederholungsfähigen Fehler fehl, schlägt mit einem nicht behebbaren Fehler fehl, oder ein Flow ist fehlerhaft.

  • continuous

    Typ: boolean

    Dies ist ein Flag, das angibt, ob die Pipeline kontinuierlich ausgeführt werden soll.

    Der Standardwert ist false.

  • catalog

    Typ: string

    Der Name des Standardkatalogs für die Pipeline, in dem alle Datasets und Metadaten für die Pipeline veröffentlicht werden. Durch Festlegen dieses Werts wird der Unity-Katalog für die Pipeline aktiviert.

    Wird diese Einstellung nicht festgelegt, veröffentlicht die Pipeline im Legacy-Hive-Metastore unter Verwendung des in storage angegebenen Speicherorts.

    Gibt im Legacyveröffentlichungsmodus den Katalog an, der das Zielschema enthält, in dem alle Datasets aus der aktuellen Pipeline veröffentlicht werden. Weitere Informationen finden Sie unter LIVE-Schema (Legacy).

  • schema

    Typ: string

    Der Name des Standardschemas für die Pipeline, in dem standardmäßig alle Datasets und Metadaten für die Pipeline veröffentlicht werden. Siehe Festlegen des Zielkatalogs und des Schemas.

  • target (Legacy)

    Typ: string

    Der Name des Zielschemas, in dem alle in der aktuellen Pipeline definierten Datasets veröffentlicht werden.

    Wenn Sie target anstelle von schema festlegen, wird die Pipeline so konfiguriert, dass der legacy-Veröffentlichungsmodus verwendet wird. Weitere Informationen finden Sie unter LIVE-Schema (Legacy).

  • storage (Legacy)

    Typ: string

    Dies ist ein Speicherort im DBFS oder Cloudspeicher, an dem für die Pipelineausführung erforderliche Ausgabedaten und Metadaten gespeichert werden. Tabellen und Metadaten werden in Unterverzeichnissen dieses Speicherorts gespeichert.

    Wenn die storage-Einstellung nicht angegeben ist, verwendet das System standardmäßig einen Speicherort in dbfs:/pipelines/.

    Die storage-Einstellung kann nach dem Erstellen einer Pipeline nicht mehr geändert werden.

  • channel

    Typ: string

    Die zu verwendende Version der Laufzeitumgebung für Lakeflow Spark Declarative Pipelines. Die unterstützten Werte sind:

    • preview, um Ihre Pipeline mit anstehenden Änderungen an der Laufzeitversion zu testen.
    • current, um die aktuelle Runtimeversion zu verwenden.

    Das feld channel ist optional. Der Standardwert ist current. Databricks empfiehlt die Verwendung der aktuellen Runtimeversion für Produktionsworkloads.

  • edition

    Geben Sie string ein

    Die Lakeflow Spark Declarative Pipelines-Produktedition zum Ausführen der Pipeline. Mit dieser Einstellung können Sie die beste Produktedition basierend auf den Anforderungen Ihrer Pipeline auswählen:

    • CORE zum Ausführen von Workloads zur Streamerfassung
    • PRO um Streaming-Ingestion- und CDC-Workloads zur Änderungsdatenerfassung auszuführen.
    • ADVANCED zum Ausführen von Streaming-Ingest-Workloads, CDC-Workloads und Workloads, die Anforderungen zur Erzwingung von Datenqualitätsbeschränkungen erfordern.

    Das feld edition ist optional. Der Standardwert ist ADVANCED.

  • photon

    Typ: boolean

    Dieses Flag gibt an, ob für die Ausführung der Pipeline Was ist Photon? verwendet werden soll. Photon ist die Hochleistungs-Spark-Engine von Azure Databricks. Pipelines mit Photon-Unterstützung werden mit einer anderen Rate als Nicht-Photon-Pipelines abgerechnet.

    Das feld photon ist optional. Der Standardwert ist false.

  • pipelines.maxFlowRetryAttempts

    Typ: int

    Wenn während eines Pipelineupdates ein wiederholungsfähiger Fehler auftritt, ist dies die maximale Anzahl von Versuchen, einen Flow zu wiederholen, bevor ein Pipelineupdate als fehlerhaft betrachtet wird.

    Standard: Zwei Wiederholungsversuche. Wenn ein Fehler auftritt, der einen erneuten Versuch erlaubt, versucht die Lakeflow Spark Declarative Pipelines-Laufzeit, den Ablauf insgesamt dreimal auszuführen, einschließlich des ursprünglichen Versuchs.

  • pipelines.numUpdateRetryAttempts

    Typ: int

    Wenn während eines Updates ein wiederholungsfähiger Fehler auftritt, ist dies die maximale Anzahl von Wiederholungsversuchen, bevor das Update dauerhaft fehlschlägt. Der Wiederholungsversuch wird als vollständiges Update ausgeführt.

    Dieser Parameter gilt nur für Pipelines, die im Produktionsmodus ausgeführt werden. Wiederholungen werden nicht versucht, wenn Ihre Pipeline im Entwicklungsmodus ausgeführt wird oder wenn Sie ein Validate-Update ausführen.

    Default:

    • Fünf für ausgelöste Pipelines.
    • Unbegrenzt für fortlaufende Pipelines.

Eigenschaften der Pipelinetabelle

Zusätzlich zu den von Delta Lake unterstützten Tabelleneigenschaften können Sie die folgenden Tabelleneigenschaften festlegen.

  • pipelines.autoOptimize.zOrderCols

    Standardwert: Keiner

    Eine optionale Zeichenfolge mit einer durch Trennzeichen getrennten Liste von Spaltennamen, nach der diese Tabelle in Z-Reihenfolge geordnet werden soll. Beispiel: pipelines.autoOptimize.zOrderCols = "year,month"

  • pipelines.reset.allowed

    Standardwert: true

    Steuert, ob eine vollständige Aktualisierung für diese Tabelle zulässig ist

  • pipelines.autoOptimize.managed

    Standardwert: true

    Aktiviert oder deaktiviert die automatisch geplante Optimierung dieser Tabelle

    Für Pipelines, die von der Vorhersageoptimierung verwaltet werden, wird diese Eigenschaft nicht verwendet.

Triggerintervall für Pipelines

Sie können ein Pipelinetriggerintervall für die gesamte Pipeline oder als Teil einer Datasetdeklaration angeben. Siehe Festlegen des Auslöserintervalls für fortlaufende Pipelines.

  • pipelines.trigger.interval

    Der Standardwert basiert auf dem Flowtyp:

    • Fünf Sekunden für Streamingabfragen.
    • Eine Minute für vollständige Abfragen, wenn alle Eingabedaten aus Delta-Quellen stammen.
    • Zehn Minuten für vollständige Abfragen, wenn einige Datenquellen möglicherweise nicht Delta sind.

    Der Wert ist eine Zahl plus der Zeiteinheit. Dies sind die gültigen Zeiteinheiten:

    • second, seconds
    • minute, minutes
    • hour, hours
    • day, days

    Sie können die Singular- oder Pluraleinheit verwenden, wenn Sie den Wert definieren, z. B.:

    • {"pipelines.trigger.interval" : "1 hour"}
    • {"pipelines.trigger.interval" : "10 seconds"}
    • {"pipelines.trigger.interval" : "30 second"}
    • {"pipelines.trigger.interval" : "1 minute"}
    • {"pipelines.trigger.interval" : "10 minutes"}
    • {"pipelines.trigger.interval" : "10 minute"}

Clusterattribute, die nicht von Benutzer*innen festgelegt werden können

Da Lakeflow Spark Declarative Pipelines (SDP) Clusterlebenszyklus verwaltet, werden viele Clustereinstellungen vom System festgelegt und können nicht manuell von Benutzern konfiguriert werden, entweder in einer Pipelinekonfiguration oder in einer Clusterrichtlinie, die von einer Pipeline verwendet wird. In der folgenden Tabelle sind diese Einstellungen aufgeführt und der Grund, warum sie nicht manuell festgelegt werden können.

  • cluster_name

    SDP legt die Namen der Cluster fest, die zum Ausführen von Pipelineupdates verwendet werden. Diese Namen können nicht überschrieben werden.

  • data_security_mode

    access_mode

    Diese Werte werden automatisch vom System festgelegt.

  • spark_version

    SDP-Cluster werden auf einer benutzerdefinierten Version von Databricks Runtime ausgeführt, die ständig aktualisiert wird, um die neuesten Features einzuschließen. Die Spark-Version ist mit der Databricks Runtime-Version gebündelt und kann nicht überschrieben werden.

  • autotermination_minutes

    Da SDP die automatische Beendigungs- und Wiederverwendungslogik des Clusters verwaltet, kann die automatische Beendigungszeit des Clusters nicht außer Kraft gesetzt werden.

  • runtime_engine

    Obwohl Sie dieses Feld steuern können, indem Sie Photon für Ihre Pipeline aktivieren, können Sie diesen Wert nicht direkt festlegen.

  • effective_spark_version

    Dieser Wert wird automatisch vom System festgelegt.

  • cluster_source

    Dieses Feld wird vom System festgelegt und ist schreibgeschützt.

  • docker_image

    Da SDP den Clusterlebenszyklus verwaltet, können Sie keinen benutzerdefinierten Container mit Pipelineclustern verwenden.

  • workload_type

    Dieser Wert wird vom System festgelegt und kann nicht überschrieben werden.