Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Wenn Sie einen Notebookschritt in einer Pipeline ausführen, wird eine Apache Spark-Sitzung gestartet und zum Ausführen der vom Notebook übermittelten Abfragen verwendet. Wenn Sie den Modus für hohe Parallelität für Pipelines aktivieren, werden Ihre Notebooks automatisch in die vorhandenen Spark-Sitzungen verpackt.
Dadurch erhalten Sie die Sitzungsfreigabefunktion für alle Notebooks innerhalb einer einzigen Benutzergrenze. Das System packt automatisch alle Notebooks in einer vorhandenen Sitzung mit hoher Parallelität.
Hinweis
Die Sitzungsfreigabe mit dem Modus für hohe Parallelität liegt immer innerhalb einer einzelnen Benutzergrenze. Um eine einzelne Spark-Sitzung gemeinsam nutzen zu können, müssen die Notebooks über übereinstimmende Spark-Konfigurationen verfügen. Sie sollten Teil desselben Arbeitsbereichs sein und dasselbe Standard-Lakehouse und dieselben Bibliotheken gemeinsam nutzen.
Bedingungen für die Sitzungsfreigabe
Damit Notebooks eine einzelne Spark-Sitzung freigeben können, müssen sie:
- Vom/von der selben Benutzer*in ausgeführt werden.
- Über das gleiche Standardlakehouse verfügen. Notebooks ohne Standardlakehouse können Sitzungen mit anderen Notebooks teilen, die nicht über ein Standardlakehouse verfügen.
- Dieselben Spark-Computekonfigurationen aufweisen.
- Dieselben Bibliothekspakete auf aufweisen. Du kannst unterschiedliche Inlinebibliotheksinstallationen als Teil von Notebookzellen verwenden und die Sitzung weiterhin mit Notebooks teilen, die unterschiedliche Bibliotheksabhängigkeiten aufweisen.
Konfigurieren des Modus für hohe Parallelität
Fabric-Arbeitsbereichsadministratoren können den Modus für hohe Parallelität für Pipelines mithilfe der Arbeitsbereichseinstellungen aktivieren. Führen Sie die folgenden Schritte aus, um das Feature für hohe Parallelität zu konfigurieren:
Wählen Sie die Option "Arbeitsbereichseinstellungen" in Ihrem Fabric-Arbeitsbereich aus.
Navigieren Sie zum Abschnitt Data Engineering/Science unter Spark-Einstellungen und hohe Parallelität.
Aktivieren Sie im Abschnitt Hohe Parallelität die Einstellung Für das Ausführen von mehreren Notizbüchern in einer Pipeline.
Wenn Sie die Option „Hohe Parallelität“ aktivieren, können alle Notebooksitzungen, die von Pipelines als Sitzung mit hoher Parallelität ausgelöst werden, aktiviert werden.
Das System packt die eingehenden Notebooksitzungen automatisch auf aktive Sitzungen mit hoher Parallelität. Wenn keine aktiven Sitzungen mit hoher Parallelität vorhanden sind, wird eine neue Sitzung mit hoher Parallelität erstellt, und die übermittelten gleichzeitigen Notebooks werden in die neue Sitzung gepackt.
Verwenden des Sitzungstags im Notebook zum Gruppieren gemeinsamer Sitzungen
Navigieren Sie zu Ihrem Arbeitsbereich, wählen Sie die Schaltfläche " Neues Element " aus, und erstellen Sie eine neue Datenpipeline.
Navigieren Sie im Menüband zur Registerkarte Aktivitäten und fügen Sie eine Notebook-Aktivität hinzu.
Geben Sie in Erweiterte Einstellungen einen beliebigen Zeichenfolgenwert für die Eigenschaft Sitzungstag an.
Nachdem das Sitzungstag hinzugefügt wurde, verwendet die Notebookfreigabe dieses Tag als übereinstimmendes Kriterium, um alle Notebooks mit demselben Sitzungstag zu bündeln.
Hinweis
Um die Leistung zu optimieren, kann eine einzelne Sitzung mit hoher Gleichzeitigkeit Ressourcen mit bis zu 5 Notizbüchern teilen, die durch denselben Sitzungs-Tag identifiziert werden. Wenn mehr als fünf Notizbücher mit demselben Schlagwort übermittelt werden, erstellt das System automatisch eine neue Sitzung mit hoher Parallelverarbeitungsfähigkeit, um die nachfolgenden Notizbuchschritte zu verwalten. Dies ermöglicht eine effiziente Skalierung und einen Lastenausgleich, indem die Workload über mehrere Sitzungen verteilt wird.
Überwachen und Debuggen von Notebooks, die durch Pipelines ausgelöst werden
Die Überwachung und das Debuggen kann schwierig sein, wenn mehrere Notebooks innerhalb einer freigegebenen Sitzung ausgeführt werden. Im Modus für hohe Parallelität wird die Protokolltrennung bereitgestellt, sodass Sie Protokolle von Spark-Ereignissen für jedes einzelne Notebook nachverfolgen können.
Wenn die Sitzung in Bearbeitung oder im Status abgeschlossen ist, können Sie den Sitzungsstatus anzeigen, indem Sie zum Menü "Ausführen " navigieren und die Option "Alle Läufe" auswählen.
Dadurch öffnet sich der Ausführungsverlauf des Notizbuchs mit der Liste der aktuellen aktiven und vergangenen Spark-Sessions.
Durch Auswählen einer Sitzung können Sie auf die Überwachungsdetailseite zugreifen, in der eine Liste aller Spark-Aufträge angezeigt wird, die innerhalb dieser Sitzung ausgeführt werden.
Bei einer Sitzung mit hoher Parallelität können Sie die Aufträge und die zugehörigen Protokolle aus verschiedenen Notebooks mithilfe der Registerkarte Verwandtes Notebook identifizieren, auf der das Notebook angezeigt wird, aus dem dieser Auftrag ausgeführt wurde.
Zugehöriger Inhalt
- Weitere Informationen zum Modus für hohe Parallelität in Microsoft Fabric finden Sie im Modus "Hohe Parallelität" in Apache Spark for Fabric.
- Erste Schritte mit dem Modus für hohe Parallelität für Notizbücher finden Sie unter Konfigurieren des Modus für hohe Parallelität für Fabric-Notizbücher.