Teilen über


Notebooktask für Aufträge

Verwenden Sie die Notebooktask zum Bereitstellen von Databricks-Notebooks.

Konfigurieren einer Notebook-Aufgabe

Bevor Sie beginnen, müssen Sie ihr Notebook an einem Ort haben, auf den der Benutzer zugreifen kann, der den Job konfiguriert.

Hinweis

Die Job-Benutzeroberfläche zeigt Optionen dynamisch basierend auf anderen konfigurierten Einstellungen an.

So beginnen Sie den Flow zum Konfigurieren einer Notebook-Aufgabe:

  1. Navigieren Sie zur Registerkarte Aufgaben in der Benutzeroberfläche „Jobs“.
  2. Klicken Sie auf "Aufgabe hinzufügen".
  3. Geben Sie einen Namen in das Feld " Vorgangsname " ein.
  4. Wählen Sie im Dropdownmenü Typ die Option Notebook aus.

Konfigurieren der Quelle

Wählen Sie im Dropdown-Menü Quelle einen Speicherort für das Python-Skript mit einer der folgenden Optionen aus.

Arbeitsbereich

Verwenden Sie Arbeitsbereich, um ein im Arbeitsbereich gespeichertes Notebook zu konfigurieren, indem Sie die folgenden Schritte ausführen:

  1. Klicken Sie auf das Feld Pfad. Das Dialogfeld Notebook auswählen wird angezeigt.
  2. Navigieren Sie zum Notebook, klicken Sie auf sie, um die Datei hervorzuheben und klicken Sie dann auf Bestätigen.

Hinweis

Mit dieser Option können Sie eine Aufgabe für ein Notebook konfigurieren, die in einem Ordner „Databricks Git“ gespeichert ist. Databricks empfiehlt die Verwendung der Git-Anbieter-Option und eines Remote-Git-Repositorys für die Versionsverwaltung von Assets, die mit Jobs geplant sind.

Git-Anbieter

Verwenden Sie Git-Anbieter, um ein Notebook zu konfigurieren, das sich in einem Remote-Git-Repository befindet.

Die von der Benutzeroberfläche angezeigten Optionen hängen davon ab, ob Sie bereits einen Git-Anbieter an anderer Stelle konfiguriert haben. Nur ein Git-Remote-Repository kann für alle Aufgaben in einem Job verwendet werden. Siehe Verwenden von Git mit Aufträgen.

Wichtig

Notizbücher, die von Lakeflow-Aufträgen erstellt werden und aus Remote-Git-Repositories ausgeführt werden, sind kurzlebig und es kann nicht darauf vertraut werden, dass sie MLflow-Läufe, Experimente oder Modelle nachverfolgen. Verwenden Sie beim Erstellen eines Notizbuchs aus einem Auftrag ein MLflow-Experiment des Arbeitsbereichs (anstelle eines Notizbuch-MLflow-Experiments), und rufen Sie mlflow.set_experiment("/path/to/experiment") im Arbeitsbereichsnotizbuch auf, bevor Sie MLflow-Tracking-Code ausführen. Weitere Informationen finden Sie unter Verhindern von Datenverlust in MLflow-Experimenten.

Das Feld Pfad wird angezeigt, nachdem Sie eine Git-Referenz konfiguriert haben.

Geben Sie den relativen Pfad für Ihr Notebook ein, z. B. etl/bronze/ingest.py.

Wichtig

Wenn Sie den relativen Pfad eingeben, beginnen Sie nicht mit / oder ./. Wenn der absolute Pfad für das Notebook, auf das Sie zugreifen möchten, beispielsweise /etl/bronze/ingest.py ist, geben Sie etl/bronze/ingest.py im Feld Pfad ein.

Konfigurieren von Rechenressourcen und abhängigen Bibliotheken

  1. Verwenden Sie Compute, um einen Cluster auszuwählen oder zu konfigurieren, der die Logik Ihrem Notebook unterstützt.
  2. Wenn Sie Compute verwenden Serverless , installieren Sie Bibliotheken direkt im Notizbuch, mithilfe des Umgebungsbereichs oder mithilfe von %pip install. Siehe Konfigurieren der serverlosen Umgebung.
  3. Klicken Sie für alle anderen Computekonfigurationen unter Abhängige Bibliotheken auf + Hinzufügen. Der Dialog Abhängige Bibliothek hinzufügen wird angezeigt.
    • Sie können eine vorhandene Bibliothek auswählen oder eine neue Bibliothek hochladen.
    • Sie können nur Bibliotheken verwenden, die an einem Speicherort gespeichert sind, der von Ihren Compute-Konfigurationen unterstützt wird. Siehe Python-Bibliotheksunterstützung.
    • Jede Bibliotheksquelle verfügt über einen anderen Flow zum Auswählen oder Hochladen einer Bibliothek. Siehe Installieren von Bibliotheken.

Abschließen der Job-Konfiguration

  1. (Optional) Konfigurieren Sie Parameter als Schlüssel-Wert-Paare, auf die im Notebook mit dbutils.widgets zugegriffen werden kann. Weitere Informationen finden Sie unter Konfigurieren von Aufgabenparametern.
  2. Klicken Sie auf Aufgabe speichern.

Begrenzungen

Die Gesamtausgabe der Notebookzellen (die kombinierte Ausgabe aller Notebookzellen) unterliegt einer Größenbeschränkung von 20 MB. Außerdem ist die Ausgabe einzelner Zellen auf 8 MB beschränkt. Wenn die Zellausgabe insgesamt 20 MB übersteigt, oder wenn die Ausgabe einer einzelnen Zelle größer als 8 MB ist, wird die Ausführung abgebrochen und als fehlgeschlagen markiert.

Wenn Sie Hilfe benötigen, um die Zellen zu finden, die das Limit (bald) überschreiten, führen Sie das Notebook für einen All-Purpose-Cluster aus, und verwenden Sie diese Technik zur automatischen Notebookspeicherung.