Was ist Apache Spark-Compute in Microsoft Fabric?

2025-07-03

Gilt für:✅ Datentechnik und Data Science in Microsoft Fabric

Microsoft Fabric Datentechnik- und Data Science-Umgebungen werden auf einer vollständig verwalteten Apache Spark-Computeplattform ausgeführt. Diese Plattform wurde entwickelt, um unvergleichliche Geschwindigkeit und Effizienz zu bieten. Mit Starterpools können Sie eine schnelle Initialisierung der Apache Spark-Sitzung erwarten, in der Regel innerhalb von 5 bis 10 Sekunden, und das ohne manuelle Einrichtung. Darüber hinaus erhalten Sie die Flexibilität, Apache Spark-Pools gemäß Ihren spezifischen Anforderungen an Datentechnik und Data Science anzupassen. Die Plattform ermöglicht eine optimierte und maßgeschneiderte Analyseerfahrung. Kurz gesagt ist ein Startpool eine schnelle Möglichkeit, vorkonfigurierte Spark zu verwenden, während ein Spark-Pool Anpassungen und Flexibilität bietet.

Starterpools

Starterpools sind eine schnelle und einfache Möglichkeit, Spark innerhalb von Sekunden auf der Microsoft Fabric-Plattform zu verwenden. Sie können Spark-Sitzungen sofort verwenden, anstatt darauf zu warten, dass Spark die Knoten für Sie eingerichtet hat. Das hilft Ihnen, mehr mit Daten zu erledigen und schneller Erkenntnisse zu erhalten.

Abbildung einer Tabelle einer Starterpoolkonfiguration.

Starterpools verfügen über Apache Spark-Cluster mit Sitzungen, die immer aktiviert sind und für Ihre Anforderungen bereit sind. Sie verwenden mittlere Knoten, die entsprechend den Anforderungen Ihres Spark-Auftrags dynamisch hochskaliert werden.

Abbildung des allgemeinen Konzepts von Starterpools.

Wenn Sie einen Starterpool ohne zusätzliche Bibliotheksabhängigkeiten oder benutzerdefinierte Spark-Eigenschaften verwenden, beginnt Ihre Sitzung in der Regel in 5 bis 10 Sekunden. Dieser schnelle Start ist möglich, da der Cluster bereits ausgeführt wird und keine Bereitstellungszeit erfordert.

Hinweis

Startpools werden nur für mittlere Knotengrößen unterstützt, und die Auswahl anderer Knotengrößen oder das Anpassen von Computekonfigurationen führt zu einer On-Demand-Sitzungsstarterfahrung, die zwischen 2 und 5 Minuten dauern kann.

Es gibt jedoch mehrere Szenarien, in denen Ihre Sitzung möglicherweise länger dauert, bis sie startet.

Sie verfügen über benutzerdefinierte Bibliotheken oder Spark-Eigenschaften
Wenn Sie Bibliotheken oder benutzerdefinierte Einstellungen in Ihrer Umgebung konfiguriert haben, muss Spark die Sitzung personalisieren, sobald sie erstellt wurde. Dieser Vorgang kann je nach Anzahl und Größe der Bibliotheksabhängigkeiten etwa 30 Sekunden bis 5 Minuten zu Ihrer Startzeit hinzufügen.
Starterpools in Ihrer Region sind vollständig ausgelastet
In seltenen Fällen können die Starterpools einer Region aufgrund von hohem Datenverkehr vorübergehend ausgelastet sein. In diesem Fall dreht Fabric einen neuen Cluster , um Ihre Anforderung aufzunehmen, was etwa 2 bis 5 Minuten dauert. Sobald der neue Cluster verfügbar ist, wird die Sitzung gestartet. Wenn Sie auch benutzerdefinierte Bibliotheken installieren müssen, müssen Sie die zusätzlichen 30 Sekunden zu 5 Minuten hinzufügen, die für die Personalisierung erforderlich sind.
Erweiterte Netzwerk- oder Sicherheitsfeatures (private Links oder verwaltete VNets)
Wenn Ihr Arbeitsbereich Netzwerkfunktionen wie private Mandantenlinks oder verwaltete VNets enthält, werden Starter Pools nicht unterstützt. In diesem Fall muss Fabric einen Cluster bei Bedarf erstellen, der ihrer Sitzungsstartzeit 2 bis 5 Minuten hinzufügt. Wenn Sie auch Bibliotheksabhängigkeiten haben, kann dieser Personalisierungsschritt erneut 30 Sekunden bis 5 Minuten hinzufügen.

Im Folgenden sind einige Beispielszenarien aufgeführt, um mögliche Startzeiten zu veranschaulichen:

Szenario	Typische Startzeit
Standardeinstellungen, keine Bibliotheken	5 – 10 Sekunden
Standardeinstellungen + Bibliotheksabhängigkeiten	5 – 10 Sekunden + 30 Sekunden – 5 Minuten (für bibliothekseinrichtung)
Hoher Datenverkehr in der Region, keine Bibliotheken	2 – 5 Minuten
Hohe Datenverkehrs- und Bibliotheksabhängigkeiten	2 – 5 Minuten + 30 Sekunden – 5 Minuten (für Bibliotheken)
Netzwerksicherheit (private Links/VNet), keine Bibliotheken	2 – 5 Minuten
Netzwerksicherheit + Bibliotheksabhängigkeiten	2 – 5 Minuten + 30 Sekunden – 5 Minuten (für Bibliotheken)

Im Hinblick auf Abrechnung und Kapazitätsnutzung wird Ihnen der Kapazitätsverbrauch in Rechnung gestellt, wenn Sie mit der Ausführung Ihrer Notebook- oder Apache Spark-Auftragsdefinition beginnen. Leerlaufzeiten der Cluster im Pool werden Ihnen nicht in Rechnung gestellt.

Wenn beispielsweise ein Notebookauftrag an einen Starterpool übermittelt wird, wird Ihnen nur der Zeitraum in Rechnung gestellt, in dem die Notebooksitzung aktiv ist. Die abgerechnete Zeit schließt nicht die Leerlaufzeit oder die Zeit ein, die zum Personalisieren der Sitzung mit dem Spark-Kontext erforderlich ist. Weitere Informationen erhalten Sie, indem Sie erfahren, wie man Starter-Pools in Fabric konfiguriert.

Spark-Pools

Ein Spark-Pool ist eine Möglichkeit, Spark mitzuteilen, welche Art von Ressourcen Sie für Ihre Datenanalyseaufgaben benötigen. Sie können Ihrem Spark-Pool einen Namen geben und auswählen, wie viele und wie große Knoten (die Computer, die die Arbeit erledigen) Sie verwenden möchten. Sie können Spark außerdem mitteilen, wie die Anzahl der Knoten angepasst werden soll, je nachdem, wie viel Arbeit Sie haben. Das Erstellen eines Spark-Pools ist kostenlos. Sie zahlen nur, wenn Sie einen Spark-Auftrag im Pool ausführen, und dann richtet Spark die Knoten für Sie ein.

Wenn Sie Ihren Spark-Pool nach Ablauf Ihrer Sitzung 2 Minuten lang nicht verwenden, wird die Zuordnung Ihres Spark-Pools aufgehoben. Dieser Standardzeitraum für den Sitzungsablauf ist auf 20 Minuten festgelegt, und Sie können ihn bei Bedarf ändern. Wenn Sie Arbeitsbereichsadministrator sind, können Sie auch benutzerdefinierte Spark-Pools für Ihren Arbeitsbereich erstellen und sie als Standardoption für andere Benutzer festlegen. Auf diese Weise können Sie Zeit sparen und vermeiden, dass bei jeder Ausführung eines Notebook- oder Spark-Auftrags ein neuer Spark-Pool eingerichtet wird. Der Start benutzerdefinierter Spark-Pools dauert etwa drei Minuten, da Spark die Knoten aus Azure abrufen muss.

Sie können sogar Spark-Pools mit einem einzelnen Knoten erstellen, indem Sie die Mindestanzahl von Knoten auf 1 festlegen. In diesem Fall werden Treiber und Executor auf einem einzelnen Knoten ausgeführt, der wiederherstellbare Hochverfügbarkeit bietet und für kleine Workloads geeignet ist.

Die Größe und Anzahl der Knoten, die Sie in Ihrem benutzerdefinierten Spark-Pool betreiben können, hängt von Ihrer Microsoft Fabric-Kapazität ab. Die Kapazität ist ein Maß dafür, wie viel Rechenleistung Sie in Azure verwenden können. Sie können sich das etwa so vorstellen, dass zwei Apache Spark-VCores (eine Einheit der Rechenleistung für Spark) einer Kapazitätseinheit entsprechen.

Hinweis

In Apache Spark haben Benutzer zwei virtuelle Apache Spark-Kerne für jede Kapazitätseinheit, die sie als Teil ihrer SKU reservieren. Eine Kapazitätseinheit entspricht zwei virtuellen Spark-Kernen. Somit gilt F64 => 128 virtuelle Spark-Kerne, worauf ein 3-facher Burstfaktor angewendet wird, was insgesamt 384 virtuelle Spark-Kerne ergibt.

Beispielsweise verfügt eine Fabric-Kapazitäts-SKU F64 über 64 Kapazitätseinheiten, was 384 virtuellen Spark-Kernen entspricht (64 × 2 × 3-fachem Burstfaktor). Sie können diese virtuellen Spark-Kerne verwenden, um Knoten unterschiedlicher Größe für Ihren benutzerdefinierten Spark-Pool zu erstellen, solange die Gesamtanzahl der virtuellen Spark-Kerne 384 nicht überschreitet.

Die Abrechnung von Spark-Pools entspricht der von Starter-Pools, bei denen Sie nicht für die von Ihnen erstellten benutzerdefinierten Spark-Pools bezahlen, es sei denn, Sie haben eine aktive Spark-Sitzung erstellt, um eine Notebook- oder Spark-Auftragsdefinition auszuführen. Ihnen wird nur die Zeit in Rechnung gestellt, die Ihre Aufträge ausgeführt werden. Zeiten wie die Clustererstellung und die Belegungsfreigabe nach Abschluss des Auftrags werden nicht in Rechnung gestellt.

Wenn Sie beispielsweise einen Notebookauftrag an einen benutzerdefinierten Spark-Pool übermitteln, wird Ihnen nur der Zeitraum in Rechnung gestellt, in dem die Sitzung aktiv ist. Die Abrechnung für diese Notebooksitzung endet, sowie die Spark-Sitzung beendet wird oder abgelaufen ist. Die Zeit zum Abrufen von Clusterinstanzen aus der Cloud oder die Zeit zum Initialisieren des Spark-Kontexts wird Ihnen nicht in Rechnung gestellt.

Mögliche benutzerdefinierte Poolkonfigurationen für F64 basierend auf dem vorherigen Beispiel. Kleinere Knotengrößen verteilen die Kapazität auf mehr Knoten, sodass die maximale Anzahl an Knoten höher ist. Während größere Knoten ressourcenreich sind, sind weniger Knoten erforderlich:

Fabric-Kapazitäts-SKU	Kapazitätseinheiten	Max. virtuelle Spark-Kerne mit Burst-Faktor	Knotengröße	Maximale Knotenanzahl
F64	64	384	Klein	96
F64	64	384	Mittelstufe	48
F64	64	384	Groß	24
F64	64	384	XL	12
F64	64	384	XX-Large	6

Hinweis

Zum Erstellen benutzerdefinierter Pools benötigen Sie Administratorberechtigungen für den Arbeitsbereich. Außerdem muss der Microsoft Fabric-Kapazitätsadministrator Berechtigungen erteilen, damit Arbeitsbereichsadministratoren die Größe ihrer benutzerdefinierten Spark-Pools anpassen können. Weitere Informationen finden Sie unter "Erste Schritte mit benutzerdefinierten Spark-Pools in Fabric".

Knoten

Eine Instanz eines Apache Spark-Pools besteht aus einem Hauptknoten und Workerknoten, zum Beginn mit mindestens einem Knoten in einer Spark-Instanz. Der Hauptknoten führt zusätzliche Verwaltungsdienste wie Livy, YARN Resource Manager, Zookeeper und den Apache Spark-Treiber aus. Auf allen Knoten werden Dienste wie Node Agent und YARN Node Manager ausgeführt. Auf allen Workerknoten wird der Apache Spark Executor-Dienst ausgeführt.

Knotengrößen

Ein Spark-Pool kann mit Knotengrößen definiert werden, die von einem kleinen Serverknoten (mit 4 virtuellen Kernen und 32 GB Arbeitsspeicher) bis hin zu einem doppelten extra großen Serverknoten (mit 64 virtuellen Kernen und 512 GB Arbeitsspeicher pro Knoten) reichen. Die Knotengrößen können nach der Poolerstellung geändert werden. Dabei muss die aktive Sitzung jedoch neu gestartet werden.

Größe	Virtueller Kern	Arbeitsspeicher
Klein	4	32 GB
Mittelstufe	8	64 GB
Groß	16	128 GB
XL	32	256 GB
XX-Large	64	512 GB

Hinweis

Die Knotengrößen „X-Large“ und „XX-Large“ sind nur für Fabric-SKUs zulässig, die keine Testversionen sind.

Automatische Skalierung

Mit der Autoskalierung für Apache Spark-Pools können Sie Computeressourcen basierend auf dem Aktivitätsumfang automatisch hoch- bzw. herunterskalieren. Wenn das Feature für die Autoskalierung aktiviert ist, legen Sie die minimale und die maximale Anzahl der zu skalierenden Knoten fest. Wenn Sie das Feature zur Autoskalierung deaktivieren, bleibt die Anzahl der festgelegten Knoten unverändert. Sie können diese Einstellung nach der Poolerstellung ändern, Sie müssen die Instanz jedoch möglicherweise neu starten.

Hinweis

Standardmäßig ist spark.yarn.executor.decommission.enabled auf „true“ festgelegt. Dies ermöglicht das automatische Herunterfahren von nicht genutzten Nodes, um die Computereffizienz zu optimieren. Wenn eine weniger aggressive Herunterskalierung bevorzugt wird, kann diese Konfiguration auf „false“ festgelegt werden.

Dynamische Zuteilung

Die dynamische Zuordnung ermöglicht es der Apache Spark-Anwendung, mehr Executors anzufordern, wenn die Aufgaben die Last überschreiten, die von den aktuellen Executors verarbeitet werden kann. Außerdem werden die Executors freigegeben, wenn die Aufträge abgeschlossen sind und die Spark-Anwendung in den Leerlaufzustand wechselt. Unternehmensbenutzer*innen fällt es oftmals schwer, die Executorkonfigurationen zu optimieren, da diese sich in den verschiedenen Phasen eines Spark-Auftragsausführungsprozesses erheblich unterscheiden. Diese Konfigurationen hängen zudem von der Menge der verarbeiteten Daten ab, die sich von Zeit zu Zeit ändert. Sie können die Option für die dynamische Zuordnung von Executors als Teil der Poolkonfiguration aktivieren. Dies ermöglicht die automatische Zuordnung von Executors zur Spark-Anwendung auf der Grundlage der im Spark-Pool verfügbaren Knoten.

Wenn Sie die dynamische Zuordnungsoption für jede übermittelte Spark-Anwendung aktivieren, reserviert das System Executors während des Schritts zur Auftragsübermittlung basierend auf den minimalen Knoten. Sie geben die maximale Anzahl von Knoten an, um Szenarien mit automatischer Skalierung erfolgreich zu unterstützen.

Freigeben über

Was ist Apache Spark-Compute in Microsoft Fabric?

Starterpools

Spark-Pools

Knoten

Knotengrößen

Automatische Skalierung

Dynamische Zuteilung

Zugehöriger Inhalt

Feedback

Zusätzliche Ressourcen