Konfigurieren von Ressourcenprofilen in Microsoft Fabric

Gilt für:✅ Fabric Data Engineering und Data Science

Ressourcenprofile in Fabric Data Engineering helfen Ihnen, optimierte Spark-Computekonfigurationen ohne manuelle Optimierung zu erhalten. Sie beschreiben Ihre Arbeitsauslastung, indem Sie einen primären Anwendungsfall, ein Datenvolumen und einige andere allgemeine Eingaben auswählen. Das System 'Fabric' erstellt dann basierend auf bewährten Methoden und internen Leistungsdaten eine empfohlene Konfiguration, einschließlich Knotengrößen, Autoskaleneinstellungen und Laufzeitversion.

Gründe für die Verwendung von Ressourcenprofilen

Ressourcenprofile bieten Folgendes:

  • Optimiert von Anfang an: Ihre erste Spark-Sitzung verwendet Computing-Ressourcen, die für Ihre Workload abgestimmt sind – kein iteratives Benchmarking erforderlich.
  • Konsistenz: Alle Spark-Aufträge im Arbeitsbereich verwenden dieselbe leistungsorientierte Konfiguration.
  • Bessere Preisleistung: Ressourcen in der richtigen Größe reduzieren Den Abfall und verbessern den Durchsatz.
  • Geringerer Betriebsaufwand: Weniger Optimierungszyklen und weniger Unterstützungseskalationen.

Voraussetzungen

Zum Konfigurieren von Ressourcenprofilen müssen Sie über die Administratorrolle für den Arbeitsbereich verfügen.

Konfigurieren eines Ressourcenprofils

So konfigurieren Sie ein Ressourcenprofil für Ihren Arbeitsbereich:

  1. Wechseln Sie zu Ihrem Arbeitsbereich, und wählen Sie "Arbeitsbereichseinstellungen" aus.

  2. Erweitern Sie "Data Engineering/Science " im linken Bereich, und wählen Sie dann "Spark"-Einstellungen aus.

  3. Um eine empfohlene Computekonfiguration zur Optimierung der Ressourcennutzung zu erhalten, wählen Sie unter "Optimieren für Ihren Anwendungsfall" die Option " Erste Schritte" aus.

    Screenshot der Schaltfläche

  4. Geben Sie auf der Seite "Optimieren für Ihren Anwendungsfall " die folgenden Eingaben an:

    • Primärer Anwendungsfall: Wählen Sie entweder Medallion-Ebene oder Aufgabenbasiert aus und wählen Sie dann eine spezifische Option aus dem Dropdown-Menü. Medaillenschichtoptionen sind Bronze, Silber oder Gold. Aufgabenbasierte Optionen sind "Leseoptimiert" oder "Schreiboptimiert". Anleitungen zum Auswählen eines Anwendungsfalles finden Sie unter "Primäre Anwendungsfallreferenz".
    • Typisches Datenvolume: Wählen Sie ein Volume aus der Dropdownliste aus: Bis zu 1 GB, 10 GB, 100 GB, 1 TB oder über 1 TB.
    • Maximale Kapazitätseinheiten (CU): Verwenden Sie den Schieberegler, um den maximalen CU-Grenzwert für den Spark-Pool festzulegen.
  5. Wählen Sie "Empfehlung abrufen" aus.

    Screenshot der Schaltfläche zum Abrufen von Empfehlungen.

    Fabric generiert eine optimierte Konfiguration basierend auf Ihren Eingaben.

  6. Überprüfen Sie die Empfehlung. Die Empfehlung enthält Werte für zwei Kategorien:

    • Sparkpool: Pooltyp, Knotenfamilie, Knotengröße, Autoskalierung und dynamische Executorzuweisung.
    • Umgebung: Laufzeitversion, Spark-Treiberkerne und Arbeitsspeicher, Spark-Executorkerne, Arbeitsspeicher und Instanzen.

    Screenshot der empfohlenen Konfiguration für den ausgewählten Anwendungsfall, einschließlich Ressourcenprofil, Knoteneinstellungen und Laufzeitversion.

    Wenn Sie Ihre Eingaben anpassen möchten, wählen Sie den Pfeil "Zurück" aus, um zur vorherigen Seite zurückzukehren, ihre Auswahl zu aktualisieren, und wählen Sie dann erneut "Empfehlung abrufen " aus.

  7. Geben Sie einen Spark-Poolnamen und eine Umgebung für die Konfiguration ein, und wählen Sie dann "Übernehmen" aus, um ihn im Arbeitsbereich zu speichern.

    Screenshot der Schaltfläche zum Anwenden von Empfehlungen

Nachdem Sie ein Ressourcenprofil angewendet haben, erstellt Fabric einen benutzerdefinierten Spark-Pool mit den empfohlenen Einstellungen.

Hinweis

Wenn Ihr Arbeitsbereich noch nicht über einen benutzerdefinierten Pool verfügt, wird der neue Pool automatisch als Standardpool für den Arbeitsbereich festgelegt. Wenn Ihr Arbeitsbereich bereits über einen Standardpool verfügt, müssen Sie in den Spark-Arbeitsbereichseinstellungen manuell zum neuen Pool wechseln. Aktive Sitzungen sind nicht betroffen, bis sie neu gestartet werden.

Primäre Anwendungsfallreferenz

Verwenden Sie die folgenden Anleitungen, um die richtige Primäre Anwendungsfalleingabe auszuwählen, wenn Sie ein Ressourcenprofil konfigurieren:

Medaillonschicht

Wählen Sie Medallion-Ebene aus, wenn Ihre Datenpipeline dem Medallion-Architekturmuster folgt, in dem daten durch Bronze (roh), Silber (gereinigt) und Gold (kuratiert) verschoben werden. Jede Option ist auf die typischen Lese-/Schreibeigenschaften dieser Phase abgestimmt.

Anwendungsfall Wann verwenden
Bronze Erfassung von Rohdaten, hoher Schreibdurchsatz, verschiedene Formate
Silber Reinigung und Anreicherung, ausgewogener Lese-/Schreibzugriff mit moderaten Verknüpfungen
Gold Aggregierung und Berichterstellung, optimiert für Analysen und Power BI

Vorgangsbasiert

Wählen Sie auf Aufgaben basierend aus, wenn Ihre Arbeitsauslastung nicht dem Medaillon-Muster folgt oder wenn sie von einem einzigen Zugriffsmuster dominiert wird. Verwenden Sie diese Option beispielsweise für eigenständige ETL-Aufträge, interaktive Analysenotizbücher oder Streamingpipelinen.

Anwendungsfall Wann verwenden
Lesen optimiert Häufige Lese- und Abfragen, interaktive Notizbücher
Schreiben optimiert Datenverarbeitung mit hohem Volumen, ETL-Pipelines, Streaming

Ressourcenprofile automatisch aktualisieren

Ressourcenprofile unterstützen eine Funktion für die automatische Aktualisierung, mit der Ihre Spark-Computekonfiguration auf die neuesten Optimierungen von Fabric abgestimmt bleibt. Wenn die automatische Aktualisierung aktiviert ist, wendet Fabric workloadspezifische Spark-Eigenschaften basierend auf Ihrem Ressourcenprofiltyp an, ohne dass eine manuelle Optimierung erforderlich ist.

Konfigurationen für automatische Updates

Fabric stellt drei Profile für automatische Updates bereit, die jeweils für ein bestimmtes Workloadmuster abgestimmt sind:

Leseintensiv für Spark-Workloads

Festlegen über spark.fabric.resourceProfile.readHeavyForSparkAutoUpdate:

{
    "spark.databricks.delta.optimizeWrite.enabled": "true",
    "spark.databricks.delta.optimizeWrite.partitioned.enabled": "true",
    "spark.databricks.delta.optimizeWrite.binSize": "128"
}

Verwenden Sie dieses Profil, wenn Ihre Arbeitslast hauptsächlich aus Spark-Lesevorgängen besteht und der Bedarf an Schreiboptimierung moderat ist.

Leseintensive Arbeitslasten für Power BI

Festlegen über spark.fabric.resourceProfile.readHeavyForPBIAutoUpdate:

{
    "spark.sql.parquet.vorder.default": "true",
    "spark.databricks.delta.optimizeWrite.enabled": "true",
    "spark.databricks.delta.optimizeWrite.binSize": "1g"
}

Verwenden Sie dieses Profil, wenn Ihre Daten in erster Linie von Power BI genutzt werden. V-Order ist für eine optimale DirectLake-Leistung aktiviert, und eine größere Bin-Größe erzeugt weniger, größere Dateien, die für analytische Lesevorgänge geeignet sind.

Workloads mit vielen Schreibvorgängen

Festlegen über spark.fabric.resourceProfile.writeHeavyAutoUpdate:

{
    "spark.sql.parquet.vorder.default": "false",
    "spark.databricks.delta.optimizeWrite.binSize": "128",
    "spark.databricks.delta.optimizeWrite.partitioned.enabled": "true"
}

Verwenden Sie dieses Profil, wenn Ihre Arbeitslast schreibintensiv ist (z. B. Datenaufnahme in hohem Volumen oder ETL). V-Order ist deaktiviert, um den Schreibaufwand zu reduzieren und optimierte Schreibvorgänge mit Partitionierung sind für ein effizientes Dateilayout aktiviert.

Funktionsweise der automatischen Aktualisierung

Wenn ein Ressourcenprofil mit automatischer Aktualisierung angewendet wird:

  1. Fabric wählt die entsprechende Konfiguration für automatische Updates basierend auf Ihrem primären Anwendungsfall und Workloadtyp aus.
  2. Die Spark-Eigenschaften werden automatisch auf neue Sitzungen im Arbeitsbereich angewendet.
  3. Aktive Sitzungen sind nicht betroffen, bis sie neu gestartet werden.

Hinweis

Automatische Aktualisierungskonfigurationen optimieren das Schreibverhalten und das Dateilayout von Delta Lake innerhalb der Grenzen Ihrer ursprünglichen Profileingaben. Sie ändern ihre Poolgröße, Die Knotenkonfiguration oder die Einstellungen für die automatische Skalierung nicht.

Konfigurationsreferenz

Setting Angewendete Eigenschaften Wann verwenden
spark.fabric.resourceProfile.readHeavyForSparkAutoUpdate Optimierter Schreibvorgang aktiviert, partitionierter Schreibvorgang, Bin-Größe: 128 MB Leselastige Spark-Analysen
spark.fabric.resourceProfile.readHeavyForPBIAutoUpdate V-Order aktiviert, optimiertes Schreiben, 1-GB-Bin-Größe Leseintensives Power BI/DirectLake
spark.fabric.resourceProfile.writeHeavyAutoUpdate V-Order deaktiviert, Schreibvorgang optimieren, Bin-Größe 128 MB, partitioniert Schreibintensive Datenaufnahme und ETL