Teilen über


Transformieren von Daten durch Ausführen eines Notebooks

Verwenden Sie die Notizbuchaktivität, um Notizbücher auszuführen, die Sie in Microsoft Fabric als Teil Ihrer Data Factory-Pipelines erstellen. Mit Notizbüchern können Sie Apache Spark-Aufträge ausführen, um Ihre Daten als Teil Ihrer Datenworkflows einzubringen, zu bereinigen oder zu transformieren. Es ist einfach, Ihren Pipelines in Fabric eine Notizbuchaktivität hinzuzufügen, und dieser Leitfaden führt Sie durch jeden Schritt.

Voraussetzungen

Um zu beginnen, müssen die folgenden Voraussetzungen erfüllt sein:

Erstellen einer Notizbuchaktivität

  1. Erstellen Sie eine neue Pipeline in Ihrem Arbeitsbereich.

  2. Suchen Sie im Bereich mit den Pipelineaktivitäten nach „Notebook“, und fügen Sie es der Pipelinecanvas diese Aktivität hinzu.

    Screenshot: Fabric-Benutzeroberfläche mit Aktivitätenbereich und hervorgehobener Notebook-Aktivität.

  3. Wählen Sie die neue Notebook-Aktivität im Canvas aus, wenn sie noch nicht ausgewählt ist.

    Screenshot: Registerkarte „Allgemeine Einstellungen“ der Notebook-Aktivität.

    Informationen zum Konfigurieren der Registerkarte Allgemein finden Sie unter Allgemeine Einstellungen.

Konfigurieren von Notizbucheinstellungen

Wählen Sie die Registerkarte Einstellungen aus.

Wählen Sie unter "Verbindung" die Authentifizierungsmethode für das ausgeführte Notizbuch aus, und geben Sie die erforderlichen Anmeldeinformationen oder Identitätskonfigurationen basierend auf Ihrer Auswahl an:

  • Service Principal (SPN) – Empfohlen für Produktionsszenarien, um eine sichere, automatisierte Ausführung zu gewährleisten, ohne sich auf Benutzeranmeldeinformationen zu verlassen.
  • Workspace Identity (WI) – Ideal für verwaltete Umgebungen, in denen zentrale Identitätsgovernance erforderlich ist.

Wählen Sie ein vorhandenes Notizbuch aus der Dropdownliste " Notizbuch " aus, und geben Sie optional alle Parameter an, die an das Notizbuch übergeben werden sollen.

Screenshot: Hervorgehobene Registerkarte „Notebook-Einstellungen“, auf der ein Notebook ausgewählt werden kann und Parameter festgelegt werden können.

Verwenden der Fabric Workspace Identity (WI) in der Notizbuchaktivität

  1. Erstellen Sie die Arbeitsbereichsidentität Sie müssen WI in Ihrem Arbeitsbereich aktivieren (dies kann einen Moment dauern, bis es geladen wird). Erstellen Sie eine Arbeitsbereichsidentität in Ihrem Fabric-Arbeitsbereich. Sehen Sie sich die Dokumente für Arbeitsbereichsidentität an.

  2. Aktivieren von Einstellungen auf Mandantenebene Aktivieren Sie im Fabric-Verwaltungsportal die folgende Mandanteneinstellung: Dienstprinzipale können öffentliche Fabric-APIs aufrufen. Diese Einstellung ist erforderlich, damit die Arbeitsbereichsidentität erfolgreich authentifiziert werden kann. Sehen Sie sich die Dokumente zum Aktivieren der Dienstprinzipalauthentifizierung für Administrator-APIs an.

  3. Gewähren von Arbeitsbereichsberechtigungen für die Arbeitsbereichsidentität Öffnen Sie den Arbeitsbereich, wählen Sie "Zugriff verwalten" aus, und weisen Sie der Arbeitsbereichsidentität Berechtigungen zu. Der Mitwirkendezugriff ist für die meisten Szenarien ausreichend. Sehen Sie sich die Dokumentation zu Benutzern Zugriff auf Arbeitsbereiche gewähren an.

Sitzungstag festlegen

Um den Zeitaufwand für die Ausführung Ihres Notebookauftrags zu minimieren, können Sie optional ein Sitzungstag festlegen. Durch Festlegen des Sitzungstags wird Spark angewiesen, vorhandene Spark-Sitzungen wiederzuverwenden, wodurch die Startzeit minimiert wird. Jeder beliebige Zeichenfolgenwert kann für das Sitzungstag verwendet werden. Wenn keine Sitzung vorhanden ist, wird mithilfe des Tagwerts ein neues erstellt.

Screenshot der Registerkarte „Notebookeinstellungen“, auf der die Registerkarte hervorgehoben wird, auf der das Sitzungstag hinzugefügt werden soll.

Hinweis

Um das Sitzungstag verwenden zu können, muss der Modus „Hohe Parallelität“ für die Pipeline, die mehrere Notebooks ausführt, aktiviert sein. Diese Option finden Sie unter dem Modus „Hohe Parallelität“ für Spark-Einstellungen unter den Arbeitsbereichseinstellungen

Screenshot der Registerkarte „Arbeitsbereichseinstellungen“ mit Hervorhebung der Registerkarte, auf welcher der Modus für hohe Parallelität für Pipelines mit mehreren Notebooks aktiviert werden soll.

Speichern und Ausführen oder Planen der Pipeline

Wechseln Sie oben im Pipeline-Editor zur Registerkarte Start, und wählen Sie die Schaltfläche „Speichern“ aus, um Ihre Pipeline zu speichern. Wählen Sie Ausführen aus, um sie direkt auszuführen, oder Planen, um sie zu planen. Sie können hier auch den Ausführungsverlauf anzeigen oder andere Einstellungen konfigurieren.

Screenshot: Die Registerkarte „Start“ im Pipeline-Editor mit den hervorgehobenen Schaltflächen „Name“, „Speichern“, „Ausführen“ und „Planen“ der Registerkarte.