Verwaltungseinstellungen für Spark-Arbeitsbereiche in Microsoft Fabric

Gilt für: Datentechnik und Data Science in Microsoft Fabric

Wenn Sie einen Arbeitsbereich in Microsoft Fabric erstellen, wird automatisch ein Starterpool erstellt, der diesem Arbeitsbereich zugeordnet ist. Dank der vereinfachten Einrichtung in Microsoft Fabric brauchen Sie die Knoten- oder Computergrößen nicht auszuwählen, da diese Optionen für Sie im Hintergrund behandelt werden. Diese Konfiguration bietet eine schnellere (5–10 Sekunden) Spark-Sitzungsstarterfahrung für Benutzer, um den Einstieg zu erleichtern und Ihre Spark-Aufträge in vielen gängigen Szenarien auszuführen, ohne sich um die Einrichtung der Compute kümmern zu müssen. Für erweiterte Szenarien mit bestimmten Computeanforderungen können Benutzer einen benutzerdefinierten Spark-Pool erstellen und die Knoten auf der Grundlage ihrer Leistungsanforderungen dimensionieren.

Um Änderungen an den Spark-Einstellungen in einem Arbeitsbereich vorzunehmen, sollten Sie über die Administratorrolle für diesen Arbeitsbereich verfügen. Weitere Informationen dazu finden Sie unter Rollen in Arbeitsbereichen.

So verwalten Sie die Spark-Einstellungen für den Pool, der Ihrem Arbeitsbereich zugeordnet ist:

  1. Wechseln Sie zu den Arbeitsbereichseinstellungen in Ihrem Arbeitsbereich, und wählen Sie die Option Datentechnik/Wissenschaft aus, um das Menü zu erweitern:

    Screenshot showing where to select Data Engineering in the Workspace settings menu.

  2. Die Spark Compute-Option wird im linken Menü angezeigt:

    Gif showing different sections of the spark compute in workspace settings.

    Hinweis

    Wenn Sie den standardmäßigen Startpool in einen benutzerdefinierten Spark-Pool ändern, dauert der Sitzungsstart unter Umständen länger (ca. drei Minuten).

Pool

Standardpool für den Arbeitsbereich

Sie können den automatisch erstellten Startpool verwenden oder benutzerdefinierte Pools für den Arbeitsbereich erstellen.

  • Startpool: Zur Beschleunigung Ihrer Erfahrung werden automatisch vorab aufgefüllte Livepools erstellt. Diese Cluster haben eine mittlere Größe. Der Startpool wird auf eine Standardkonfiguration festgelegt, die auf der erworbenen Fabric-Kapazitäts-SKU basiert. Administrator*innen können die maximale Anzahl von Knoten und Executors basierend auf ihren Skalierungsanforderungen für Spark-Workloads anpassen. Weitere Informationen finden Sie unter Konfigurieren von Startpools

  • Benutzerdefinierter Spark-Pool: Sie können die Knoten skalieren, automatisch skalieren und Executors gemäß den Anforderungen Ihres Spark-Auftrags dynamisch zuordnen. Um einen benutzerdefinierten Spark-Pool zu erstellen, sollte der Kapazitätsadministrator die Option Angepasste Arbeitsbereichspools im Abschnitt Spark Compute der Kapazitätsadministrator-Einstellungen aktivieren.

Hinweis

Die Steuerung auf Kapazitätsebene für angepasste Arbeitsbereichspools ist standardmäßig aktiviert. Weitere Informationen finden Sie unter Spark Compute-Einstellungen für Fabric-Kapazitäten.

Administratoren können benutzerdefinierte Spark-Pools basierend auf ihren Computeanforderungen erstellen, indem sie die Option Neuer Pool auswählen.

Screenshot showing custom pool creation options.

Microsoft Fabric Spark unterstützt Einzelknotencluster, sodass Benutzer eine Mindestknotenkonfiguration von 1 auswählen können. In diesem Fall werden Treiber und Executor auf einem einzelnen Knoten ausgeführt. Diese Einzelknotencluster bieten wiederherstellbare Hochverfügbarkeit bei Knotenausfällen und eine bessere Auftragssicherheit für Workloads mit geringeren Computeanforderungen. Sie können ferner die Option für die automatische Skalierung für Ihre benutzerdefinierten Spark-Pools aktivieren oder deaktivieren. Wenn die automatische Skalierung aktiviert ist, ruft der Pool neue Knoten innerhalb des vom Benutzer angegebenen maximalen Knotenlimits ab, um die Leistung zu verbessern, und beendet sie nach der Auftragsausführung.

Sie können auch die Option für die dynamische Zuweisung von Executors auswählen, um automatisch innerhalb des maximalen Grenzwerts die optimale Anzahl von Executors zu poolen, die auf der Grundlage des Datenvolumens angegeben wird, um eine bessere Leistung zu erzielen.

Screenshot showing custom pool creation options for autoscaling and dynamic allocation.

Erfahren Sie mehr über Spark Compute for Fabric.

  • Anpassen der Computekonfiguration für Elemente: Arbeitsbereichsadministrator*innen können Benutzer*innen das Anpassen von Computekonfigurationen (Eigenschaften auf Sitzungsebene, einschließlich Kern und Arbeitsspeicher für Treiber/Executor) für einzelne Elemente wie Notebooks und Spark-Auftragsdefinitionen mithilfe einer Umgebung ermöglichen.

Screenshot showing switch to customize compute for items.

Wenn die Einstellung durch den Arbeitsbereichsadministrator bzw. durch die Arbeitsbereichsadministratorin deaktiviert wird, werden der Standardpool und die zugehörigen Computekonfigurationen für alle Umgebungen im Arbeitsbereich verwendet.

Environment

Die Umgebung bietet flexible Konfigurationen zum Ausführen Ihrer Spark-Aufträge (Notebooks, Spark-Auftragsdefinitionen). In einer Umgebung können Sie Computeeigenschaften konfigurieren, eine andere Runtime auswählen und Bibliothekspaketabhängigkeiten basierend auf Ihren Workloadanforderungen einrichten.

Auf der Registerkarte „Umgebung“ können Sie die Standardumgebung festlegen. Sie können wählen, welche Spark-Version Sie für den Arbeitsbereich verwenden möchten.

Fabric-Arbeitsbereichsadministrator*innen können eine Umgebung als Standardumgebung für Arbeitsbereiche auswählen.

Sie können auch eine neue Umgebung über das Dropdownmenü Umgebung erstellen.

Environment creation through attachment dropdown in WS setting

Wenn Sie die Option für die Standardumgebung deaktivieren, haben Sie die Möglichkeit, die Version der Fabric-Runtime aus den in der Dropdownliste verfügbaren Runtimeversionen auszuwählen.

Screenshot showing where to select runtime version.

Erfahren Sie mehr über Spark-Runtimes

Hohe Parallelität

Im Modus für hohe Parallelität können Benutzer*innen Spark-Sitzungen in Fabric Spark für Datentechnik- und Data Science-Workloads gemeinsam nutzen. Für die Ausführung eines Elements (etwa eines Notebooks) wird eine Spark-Sitzung verwendet. Ist diese Option aktiviert, können Benutzer*innen eine einzelne Spark-Sitzung für mehrere Notebooks freigeben.

Screenshot showing high concurrency settings page.

Weitere Informationen zu hoher Parallelität in Fabric Spark finden Sie hier

Automatische Protokollierung für Machine Learning-Modelle und -Experimente

Administratoren können jetzt die automatische Protokollierung für ihre Machine Learning-Modelle und -Experimente aktivieren. Diese Option erfasst automatisch die Werte von Eingabeparametern, Ausgabemetriken und Ausgabeelementen eines Machine Learning-Modells, während es trainiert wird. Weitere Informationen zur automatischen Protokollierung.

Screenshot showing autolog settings page.