Verwaltungseinstellungen für Spark-Arbeitsbereiche in Microsoft Fabric

Gilt für: Datentechnik und Data Science in Microsoft Fabric

Wenn Sie einen Arbeitsbereich in Microsoft Fabric erstellen, wird automatisch ein Starterpool erstellt, der diesem Arbeitsbereich zugeordnet ist. Dank der vereinfachten Einrichtung in Microsoft Fabric brauchen Sie die Knoten- oder Computergrößen nicht auszuwählen, da diese Optionen für Sie im Hintergrund behandelt werden. Diese Konfiguration bietet eine schnellere (5–10 Sekunden) Spark-Sitzungsstarterfahrung für Benutzer, um den Einstieg zu erleichtern und Ihre Spark-Aufträge in vielen gängigen Szenarien auszuführen, ohne sich um die Einrichtung der Compute kümmern zu müssen. Für erweiterte Szenarien mit bestimmten Computeanforderungen können Benutzer einen benutzerdefinierten Spark-Pool erstellen und die Knoten auf der Grundlage ihrer Leistungsanforderungen dimensionieren.

Wichtig

Microsoft Fabric befindet sich in der Vorschauphase.

Um Änderungen an den Spark-Einstellungen in einem Arbeitsbereich vorzunehmen, sollten Sie über die Administratorrolle für diesen Arbeitsbereich verfügen. Weitere Informationen dazu finden Sie unter Rollen in Arbeitsbereichen.

So verwalten Sie die Spark-Einstellungen für den Pool, der Ihrem Arbeitsbereich zugeordnet ist:

  1. Wechseln Sie zu den Arbeitsbereichseinstellungen in Ihrem Arbeitsbereich, und wählen Sie die Option Datentechnik/Wissenschaft aus, um das Menü zu erweitern:

    Screenshot: Position der Auswahlmöglichkeit „Datentechnik“ im Menü der Arbeitsbereicheinstellungen.

  2. Die Spark Compute-Option wird im linken Menü angezeigt:

  3. Konfigurieren Sie die vier Einstellungsoptionen, die Sie auf dieser Seite ändern können: Standardpool für Arbeitsbereich, Laufzeitversion, Automatisches Nachverfolgen von Machine Learning-Experimenten und -Modellen und Spark-Eigenschaften.

Hinweis

Wenn Sie den Standardpool in einen benutzerdefinierten Spark-Pool ändern, müssen Sie in diesem Fall möglicherweise einen längeren Sitzungsstart (ca. 3 Minuten) hinnehmen.

Standardpool für Arbeitsbereich

Es gibt zwei Optionen:

  • Starterpool: Prähydrierte Livecluster werden für eine schnellere Erfahrung automatisch erstellt. Diese Cluster haben eine mittlere Größe. Derzeit wird zu Auswertungszwecken ein Starterpool mit 10 Knoten bereitgestellt.

  • Benutzerdefinierter Spark-Pool: Sie können die Knoten skalieren, automatisch skalieren und Executors gemäß den Anforderungen Ihres Spark-Auftrags dynamisch zuordnen. Um einen benutzerdefinierten Spark-Pool zu erstellen, sollte der Kapazitätsadministrator die Option Angepasste Arbeitsbereichspools im Abschnitt Spark Compute der Kapazitätsadministrator-Einstellungen aktivieren. Weitere Informationen finden Sie unter Spark Compute-Einstellungen für Fabric-Kapazitäten.

Administratoren können benutzerdefinierte Spark-Pools basierend auf ihren Computeanforderungen erstellen, indem sie die Option Neuer Pool auswählen.

Screenshot: Optionen zum Erstellen von benutzerdefinierten Pools.

Microsoft Fabric Spark unterstützt Einzelknotencluster, sodass Benutzer eine Mindestknotenkonfiguration von 1 auswählen können. In diesem Fall werden Treiber und Executor auf einem einzelnen Knoten ausgeführt. Diese Einzelknotencluster bieten wiederherstellbare Hochverfügbarkeit bei Knotenausfällen und eine bessere Auftragssicherheit für Workloads mit geringeren Computeanforderungen. Sie können ferner die Option für die automatische Skalierung für Ihre benutzerdefinierten Spark-Pools aktivieren oder deaktivieren. Wenn die automatische Skalierung aktiviert ist, ruft der Pool neue Knoten innerhalb des vom Benutzer angegebenen maximalen Knotenlimits ab, um die Leistung zu verbessern, und beendet sie nach der Auftragsausführung.

Sie können auch die Option für die dynamische Zuweisung von Executors auswählen, um automatisch innerhalb des maximalen Grenzwerts die optimale Anzahl von Executors zu poolen, die auf der Grundlage des Datenvolumens angegeben wird, um eine bessere Leistung zu erzielen.

Screenshot: Optionen für die Erstellung von benutzerdefinierten Pools für automatische Skalierung und dynamische Zuteilung.

Erfahren Sie mehr über Spark Compute for Fabric.

Laufzeitversion

Sie können wählen, welche Spark-Version Sie für den Arbeitsbereich verwenden möchten. Derzeit ist die Spark-Version 3.2 verfügbar.

Screenshot: Auswählen der Runtimeversion

Automatische Protokollierung für Machine Learning-Modelle und -Experimente

Administratoren können jetzt die automatische Protokollierung für ihre Machine Learning-Modelle und -Experimente aktivieren. Diese Option erfasst automatisch die Werte von Eingabeparametern, Ausgabemetriken und Ausgabeelementen eines Machine Learning-Modells, während es trainiert wird.

Weitere Informationen zur automatischen Protokollierung

Spark-Eigenschaften

Apache Spark weist viele Einstellungen auf, die Sie angeben können, um die Umgebung für Ihre Szenarien zu optimieren. Sie können diese Eigenschaften über die Benutzeroberfläche festlegen, indem Sie die Option Hinzufügen auswählen. Wählen Sie im Dropdownmenü ein Element aus, und geben Sie den Wert ein.

Screenshot: Auswählen von „Hinzufügen“

Sie können Elemente löschen, indem Sie die Elemente und dann die Schaltfläche Löschen auswählen. Alternativ können Sie das Symbol „Löschen“ neben jedem Element auswählen, das Sie löschen möchten.

Screenshot: Auswählen von „Löschen“.

Nächste Schritte