Freigeben über


Konfigurieren von Ressourcenprofilkonfigurationen in Microsoft Fabric

Microsoft Fabric unterstützt jetzt vordefinierte Spark-Ressourcenprofile– eine einfache und leistungsstarke Möglichkeit für Datentechniker, Spark-Konfigurationen basierend auf Workloadanforderungen zu optimieren. Mit diesen Profilen können Benutzer schnell bewährte Methoden für allgemeine Muster wie leseintensive, schreibintensive oder hybride Workloads mithilfe eines auf Eigenschaftenbehältern basierenden Ansatzes anwenden.

Ganz gleich, ob Sie Terabyte Streamingdaten aufnehmen oder Hochleistungsanalyseabfragen ausführen, Ressourcenprofile bieten einen schnellen Weg zur Leistung, ohne dass eine manuelle Spark-Optimierung erforderlich ist.

Vorteile von Ressourcenprofilen

  • Leistung als Standard – Wenden Sie bewährte, workloadoptimierte Spark-Einstellungen von Anfang an an.
  • Flexibilität – Auswählen oder Anpassen von Profilen basierend auf Ihren Erfassungs- und Abfragemustern.
  • Fein abgestimmte Spark-Konfigurationen – Vermeiden Sie Versuche und Irrtümer bei der Optimierung und reduzieren Sie den Betriebsaufwand.

Hinweis

  • Alle neuen Fabric-Arbeitsbereiche werden jetzt standardmäßig auf das writeHeavy-Profil festgelegt, um eine optimale Erfassungsleistung zu erzielen. Dazu gehören Standardkonfigurationen, die auf ETL- und Streamingdatenworkflows im großen Maßstab zugeschnitten sind.
  • Wenn das writeHeavy-Profil verwendet wird, ist VOrder standardmäßig deaktiviert und muss manuell aktiviert werden.

Verfügbare Ressourcenprofile

Die folgenden Profile werden derzeit in Microsoft Fabric unterstützt:

Profil Anwendungsfall Konfigurationseigenschaft
readHeavyForSpark Optimiert für Spark-Workloads mit häufigen Lesevorgängen spark.fabric.resourceProfile = readHeavyForSpark
readHeavyForPBI Optimiert für Power BI-Abfragen in Delta-Tabellen spark.fabric.resourceProfile = readHeavyForPBI
writeHeavy Optimiert für sehr häufige Erfassungs- und Schreibvorgänge spark.fabric.resourceProfile = writeHeavy
custom Vollständig benutzerdefinierte Konfiguration spark.fabric.resourceProfile = custom

Standardkonfigurationswerte für jedes Profil

Ressourcenprofil Konfigurationen
writeHeavy {"spark.sql.parquet.vorder.default": "false", "spark.databricks.delta.optimizeWrite.enabled": "false", "spark.databricks.delta.optimizeWrite.binSize": "128", "spark.databricks.delta.optimizeWrite.partitioned.enabled": "true", "spark.databricks.delta.stats.collect": "false"}
readHeavyForPBI {"spark.sql.parquet.vorder.default": "true", "spark.databricks.delta.optimizeWrite.enabled": "true", "spark.databricks.delta.optimizeWrite.binSize": "1g"}
readHeavyForSpark {"spark.databricks.delta.optimizeWrite.enabled": "true", "spark.databricks.delta.optimizeWrite.partitioned.enabled": "true", "spark.databricks.delta.optimizeWrite.binSize": "128"}
custom (z. B. fastIngestProfile) Vollständig benutzerdefinierte Einstellungen. Beispiel: {"spark.sql.shuffle.partitions": "800", "spark.sql.adaptive.enabled": "true", "spark.serializer": "org.apache.spark.serializer.KryoSerializer"}

Tipp

Sie können Ihr benutzerdefiniertes Profil mit einem aussagekräftigen Namen benennen, der Ihr Workloadmuster widerspiegelt, z. B. fastIngestProfile oder lowLatencyAnalytics.

Konfigurieren von Ressourcenprofilen

Sie können Ressourcenprofile in Microsoft Fabric mit zwei verschiedenen Methoden konfigurieren:

1. Konfigurieren von Ressourcenprofilen mithilfe von Umgebungen

Sie können das Standardmäßige Spark-Ressourcenprofil auf Umgebungsebenedefinieren. Bei Anwendung wird das ausgewählte Profil automatisch für alle Spark-Aufträge innerhalb der Umgebung verwendet, es sei denn, es wird außer Kraft gesetzt.

Schritte:

  1. Navigieren Sie zu Ihrem Fabric-Arbeitsbereich.
  2. Bearbeiten oder eine neue Umgebung erstellen.
  3. Legen Sie unter Spark-Konfigurationendie folgende Eigenschaft fest.
  4. spark.fabric.resourceProfile = writeHeavy oder readHeavyForPBI oder readHeavyForSpark, oder Sie können Ihren eigenen Profilnamen auswählen und mit Konfigurationen basierend auf Ihren Anforderungen anpassen.
  5. Sie können ein vorhandenes Profil auswählen und auch die Standardwerte ändern, z. B. "readHeavyForSpark" auswählen und die Binsize von 128 auf 256 erhöhen.

2. Konfigurieren von Ressourcenprofilen zur Laufzeit mit spark.conf.set

Sie können das Standardressourcenprofil auch bei der Ausführung des Notizbuchs oder von Spark-Aufträgen außer Kraft setzen, indem Sie:

spark.conf.set("spark.fabric.resourceProfile", "readHeavyForSpark")

Dieser Ansatz bietet die Laufzeitflexibilität, um das Verhalten basierend auf Auftragslogik, Zeitplanung oder Workloadtyp zu ändern, sodass unterschiedliche Profile für verschiedene Teile eines Notebooks möglich sind.

Hinweis

Wenn sowohl Umgebungs- als auch Laufzeitkonfigurationen festgelegt sind, haben Laufzeiteinstellungen Vorrang.

Was geschieht standardmäßig?

Standardmäßig werden alle neu erstellten Arbeitsbereiche in Microsoft Fabric auf das writeHeavy Profil festgelegt. Dadurch wird Folgendes sichergestellt:

  • Effiziente Verarbeitung von Datenerfassungspipelines
  • Optimierter Durchsatz für Batch- und Streamingaufträge
  • Bessere sofort einsatzbereite Leistung für gängige ETL-Workloads

Wenn sich Ihre Workload unterscheidet (z. B. interaktive Abfragen, Dashboard-Bereitstellung), können Sie die Standardeinstellungen auf Umgebungsebene aktualisieren oder während der Ausführung dynamisch außer Kraft setzen.

⚠– Wichtig:
In allen neuen Fabric-Arbeitsbereichen VOrder ist standardmäßig (spark.sql.parquet.vorder.default=false) deaktiviert.
Diese Standardkonfiguration ist für schreibintensive Datenverarbeitungs-Workloads optimiert und ermöglicht eine höhere Leistung während der Aufnahme und Transformation in großem Umfang.

Für leseoptimierte Szenarien (z. B. Power BI-Dashboards oder interaktive Spark-Abfragen) sollten Sie erwägen, zu den readHeavyforSpark- oder readHeavyForPBI-Ressourcenprofilen zu wechseln oder die Eigenschaften zu ändern, indem Sie VOrder aktivieren, um die Abfrageleistung bei Power BI- und Data Warehouse-Arbeitslasten zu verbessern.