Computekonfigurationsreferenz

Artikel
10/11/2024

In diesem Artikel werden die verfügbaren Konfigurationseinstellungen in der Benutzeroberfläche „Compute erstellen“ erläutert. Die meisten Benutzer erstellen Computeressourcen mithilfe ihrer zugewiesenen Richtlinien, wodurch die konfigurierbaren Einstellungen begrenzt sind. Wenn eine bestimmte Einstellung auf der Benutzeroberfläche nicht angezeigt wird, liegt dies daran, dass es die von Ihnen ausgewählte Richtlinie nicht erlaubt, diese Einstellung zu konfigurieren.

Die in diesem Artikel beschriebenen Konfigurationen und Verwaltungstools gelten sowohl für Allzweck- als auch für Auftragscomputes. Weitere Überlegungen zum Konfigurieren von Auftragscomputes finden Sie unter Konfigurieren von Compute für Aufträge.

Erstellen einer neuen All-Purpose Compute-Ressource

Weitere Informationen zum Erstellen einer neuen all-Purpose Compute-Ressource:

Wählen Sie auf der Randleiste des Arbeitsbereichs Compute aus.
Wählen Sie die Schaltfläche Compute erstellen.
Konfigurieren Sie die Computeressource.
Klicken Sie auf Compute erstellen.

Die neue Computeressource wird automatisch gestartet und kann schnell verwendet werden.

Richtlinien

Bei Richtlinien handelt es sich um eine Reihe von Regeln, mit denen die Konfigurationsoptionen eingeschränkt werden, die Benutzern beim Erstellen von Computeressourcen zur Verfügung stehen. Benutzer ohne die Berechtigung zur uneingeschränkten Clustererstellung können Computeressourcen nur anhand der gewährten Richtlinien erstellen.

Um Computeressourcen gemäß einer Richtlinie zu erstellen, wählen Sie im Dropdownmenü Richtlinie eine Richtlinie aus.

Standardmäßig haben alle Benutzer*innen Zugriff auf die Personal Compute-Richtlinie, mit der sie Einzelcomputer-Computeressourcen erstellen können. Wenn Sie Zugriff auf persönliche Compute oder zusätzliche Richtlinien benötigen, wenden Sie sich an Ihren Arbeitsbereichsadministrator.

Compute mit einem einzelnen Knoten oder mehreren Knoten

Je nach Richtlinie können Sie zwischen dem Erstellen einer Einzelknoten-Computeressource oder einer Computeressource mit mehreren Knoten wählen.

Einzelknotencomputes sind für Aufträge vorgesehen, die kleine Datenmengen oder nicht verteilte Workloads wie maschinelle Lernbibliotheken mit nur einem Knoten verwenden. Multiknoten-Compute sollte für größere Aufträge mit verteilten Workloads verwendet werden.

Eigenschaften eines einzelnen Knotens

Eine Einzelknoten-Computeressource hat die folgenden Eigenschaften:

Führt Spark lokal aus
Der Treiber fungiert sowohl als Master als auch als Worker ohne Workerknoten.
Sie erzeugt einen Executor-Thread pro logischem Kern in der Computeressource, abzüglich eines Kerns für den Treiber.
Speichert alle stderr, stdout und log4j-Protokollausgaben im Treiberprotokoll.
Sie kann nicht in eine Computeressource mit mehreren Knoten konvertiert werden.

Auswählen eines einzelnen oder mehrerer Knoten

Berücksichtigen Sie Ihren Anwendungsfall, wenn Sie sich zwischen einer Computeressource mit einem einzelnen Knoten oder mit mehreren Knoten entscheiden:

Die Verarbeitung großer Datenmengen erschöpft die Ressourcen einer Einzelknoten-Computeressource. Für diese Workloads empfiehlt Databricks die Verwendung einer Computeressource mit mehreren Knoten.
Einzelknoten-Compute ist nicht für die Freigabe konzipiert. Wenn die Computeressource freigegeben werden muss, empfiehlt Databricks zur Vermeidung von Ressourcenkonflikten die Verwendung einer Computeressource mit mehreren Knoten.
Eine Computeressource mit mehreren Knoten kann nicht auf 0 Worker skaliert werden. Verwenden Sie stattdessen eine Einzelknoten-Computeressource.
Einzelknoten-Compute ist nicht mit der Prozessisolation kompatibel.
Die GPU-Planung ist bei Einzelknotenberechnungen nicht aktiviert.
Bei einem Einzelknoten-Compute kann Spark keine Parquet-Dateien mit einer UDT-Spalte lesen. Die folgende Fehlermeldung wird angezeigt:
```
The Spark driver has stopped unexpectedly and is restarting. Your notebook will be automatically reattached.
```
Deaktivieren Sie den nativen Parquet-Reader, um dieses Problem zu beheben:
```
spark.conf.set("spark.databricks.io.parquet.nativeReader.enabled", False)
```

Zugriffsmodi

Der Zugriffsmodus ist ein Sicherheitsfeature, das bestimmt, wer ein Compute verwenden kann und auf welche Ressourcen und Daten diese Person über die Computeressource zugreifen kann. Jede Computeressource in Azure Databricks verfügt über einen Zugriffsmodus.

Databricks empfiehlt, den Modus für den gemeinsamen Zugriff für alle Workloads zu verwenden. Verwenden Sie den Einzelbenutzerzugriffsmodus nur, wenn Ihre erforderliche Funktionalität nicht vom Modus für den freigegebenen Zugriff unterstützt wird.

Zugriffsmodus	Für Benutzer*innen sichtbar	UC-Unterstützung	Unterstützte Sprachen	Notizen
Einzelner Benutzer	Always	Ja	Python, SQL, Scala, R	Kann nur einem einzigen Benutzer/einer einzigen Benutzerin zugewiesen und von ihm/ihr verwendet werden. Wird in einigen Arbeitsbereichen als "Zugewiesener" Zugriff bezeichnet.
Shared	Immer (Premium-Plan erforderlich)	Ja	Python (in Databricks Runtime 11.3 LTS und höher), SQL, Scala (in Unity Catalog-fähigen Computes mit Databricks Runtime 13.3 LTS und höher)	Kann von mehreren Benutzerinnen mit Datenisolation unter Benutzerinnen verwendet werden.
Keine Isolation, freigegeben	Administratoren können diesen Zugriffsmodus ausblenden, indem sie auf der Seite mit Verwaltungseinstellungen die Benutzerisolation erzwingen.	No	Python, SQL, Scala, R	Es gibt eine entsprechende Einstellung auf Kontoebene für freigegebene Computes ohne Isolation.
Benutzerdefiniert	Ausgeblendet (Für alle neuen Computes)	No	Python, SQL, Scala, R	Diese Option wird nur angezeigt, wenn Sie über eine vorhandene Computeressource ohne einen bestimmten Zugriffsmodus verfügen.

Sie können für eine vorhandene Computeressource ein Upgrade durchführen, um die Anforderungen von Unity Catalog zu erfüllen. Legen Sie dazu den Zugriffsmodus auf Einzelbenutzer oder Gemeinsam fest. Ausführliche Informationen zu den Funktionen, die von jedem dieser Zugriffsmodi in Unity Catalog-fähigen Arbeitsbereichen unterstützt werden, finden Sie unter Einschränkungen des Computezugriffsmodus für Unity Catalog.

Hinweis

In Databricks Runtime 13.3 LTS und höher werden Initialisierungsskripts und -bibliotheken von allen Zugriffsmodi unterstützt. Anforderungen und Supportebenen variieren. Siehe Wo können Initialisierungsskripts installiert? und Bibliotheken im Clusterumfang.

Databricks Runtime-Versionen

Bei Databricks Runtime handelt es sich um die Gruppe von Kernkomponenten, die in Ihren Computeressourcen ausgeführt werden. Wählen Sie die Laufzeit im Dropdownmenü Databricks Runtime Version aus. Ausführliche Informationen zu bestimmten Databricks Runtime-Versionen finden Sie unter Versionshinweise zu Databricks Runtime-Versionen und -Kompatibilität. Alle Versionen enthalten Apache Spark. Databricks empfiehlt Folgendes:

Verwenden Sie für Allzweck-Compute die aktuellste Version, um sicherzustellen, dass Sie die neuesten Optimierungen und die aktuellste Kompatibilität zwischen Ihrem Code und den vorinstallierten Paketen haben.
Bei Auftragscomputes, auf denen betriebsbereite Workloads ausgeführt werden, sollten Sie die LTS-Version von Databricks Runtime (Long Term Support, Langfristige Unterstützung) verwenden. Die Verwendung der LTS-Version stellt sicher, dass keine Kompatibilitätsprobleme bestehen und Ihr Workload vor dem Upgrade gründlich getestet werden kann.
Für Data Science- und Machine Learning-Anwendungsfälle sollten Sie Databricks Runtime ML-Version in Betracht ziehen.

Verwenden von Photon-Beschleunigung

Photon ist in Computes mit Databricks Runtime 9.1 LTS und höher standardmäßig aktiviert.

Zum Aktivieren oder Deaktivieren der Photon-Beschleunigung aktivieren Sie das Kontrollkästchen Photon-Beschleunigung verwenden. Weitere Informationen zu Photon finden Sie unter Was ist Photon?.

Worker- und Treiberknotentypen

Eine Computeressource besteht aus einem Treiberknoten und null oder mehr Workerknoten. Sie können separate Cloudanbieter-Instanztypen für den Treiber- und den Workerknoten auswählen, auch wenn der Treiberknoten standardmäßig denselben Instanztyp verwendet wie der Workerknoten. Es gibt verschiedene Familien von Instanztypen für unterschiedliche Anwendungsfälle, z. B. speicherintensive oder rechenintensive Workloads.

Sie können auch einen Pool auswählen, der als Worker- oder Treiberknoten verwendet werden soll. Verwenden Sie nur einen Pool mit Spotinstanzen als Workertyp. Wählen Sie einen separaten On-Demand-Treibertyp aus, um zu verhindern, dass Ihr Treiber zurückgefordert wird. Siehe Verbinden mit Pools.

Workertyp

Bei Compute mit mehreren Knoten führen Workerknoten die Spark-Executors und weitere Dienste aus, die für den ordnungsgemäßen Betrieb der Computeressource erforderlich sind. Wenn Sie Ihre Workload mit Spark verteilen, erfolgt die gesamte verteilte Verarbeitung auf Workerknoten. Azure Databricks führt einen Executor pro Workerknoten aus. Daher werden die Begriffe „Executor“ und „Worker“ im Kontext der Databricks-Architektur synonym verwendet.

Tipp

Zum Ausführen eines Spark-Auftrags benötigen Sie mindestens einen Workerknoten. Bei einer Computeressource ohne Worker können Sie Spark-fremde Befehle auf dem Treiberknoten ausführen, Spark-Befehle schlagen jedoch fehl.

IP-Adressen der Workerknoten

Azure Databricks startet Workerknoten mit jeweils zwei privaten IP-Adressen. Die primäre private IP-Adresse des Knotens hostet den internen Datenverkehr von Azure Databricks. Die sekundäre private IP-Adresse wird vom Spark-Container für die clusterinterne Kommunikation verwendet. Mit diesem Modell kann Azure Databricks eine Isolation zwischen mehreren Computeressourcen im gleichen Arbeitsbereich bieten.

Treibertyp

Der Treiberknoten behält die Zustandsinformationen aller Notebooks bei, die an die Computeressource angefügt sind. Der Treiberknoten behält außerdem den SparkContext bei, interpretiert alle Befehle, die Sie über ein Notebook oder eine Bibliothek auf der Computeressource ausführen, und führt den Apache Spark-Master aus, der mit den Spark-Executors koordiniert wird.

Der Standardwert für den Treiberknotentyp entspricht dem Workerknotentyp. Sie können einen größeren Treiberknoten mit mehr Arbeitsspeicher wählen, wenn Sie umfangreiche Daten von Spark-Workern erfassen (collect()) und im Notebook analysieren möchten.

Tipp

Da der Treiberknoten alle Zustandsinformationen der angefügten Notebooks verwaltet, sollten Sie sicherstellen, nicht verwendete Notebooks vom Treiberknoten abzukoppeln.

GPU-Instanztypen

Für rechenintensive Aufgaben, die eine hohe Leistung erfordern (z. B. Aufgaben im Zusammenhang mit Deep Learning), unterstützt Azure Databricks Computeressourcen, die mit Grafikprozessoren (Graphics Processing Units, GPUs) beschleunigt werden. Weitere Informationen finden Sie unter GPU-fähige Computes.

Azure Confidential Computing-VMs

Azure Confidential Computing-VM-Typen verhindern nicht autorisierten Zugriff auf Daten, während sie verwendet werden. Dies gilt auch für den Cloudbetreiber. Dieser VM-Typ ist für stark regulierte Branchen und Regionen sowie für Unternehmen mit vertraulichen Daten in der Cloud von Vorteil. Weitere Informationen zu vertraulichem Computing von Azure finden Sie unter Azure Confidential Computing.

Um Ihre Workloads mithilfe von Azure Confidential Computing-VMs auszuführen, wählen Sie aus den VM-Typen der DC- oder EC-Serie in den Dropdownlisten der Worker- und Treiberknoten aus. Weitere Informationen finden Sie unter Azure Confidential VM-Optionen.

Spot-Instanzen

Um Kosten zu sparen, können Sie sich für die Verwendung von Spot-Instanzen, auch bekannt als Azure Spot-VMs, entscheiden, indem Sie das Kontrollkästchen Spot-Instanzen aktivieren.

Spot konfigurieren

Die erste Instanz ist immer bedarfsgesteuert (der Treiberknoten ist immer bedarfsgesteuert), nachfolgende Instanzen sind Spot-Instanzen.

Wenn Instanzen aufgrund der Nichtverfügbarkeit entfernt werden, versucht Azure Databricks, neue Spotinstanzen zu erwerben, um die entfernten Instanzen zu ersetzen. Wenn Spotinstanzen nicht abgerufen werden können, werden On-Demand-Instanzen bereitgestellt, um die entfernten Instanzen zu ersetzen. Dieser On-Demand-Failback wird nur für Spot-Instanzen unterstützt, die vollständig erworben wurden und ausgeführt werden. Spot-Instanzen, die während des Setups fehlschlagen, werden nicht automatisch ersetzt.

Wenn vorhandenen Computeressourcen neue Knoten hinzugefügt werden, versucht Azure Databricks außerdem, Spot-Instanzen für diese Knoten abzurufen.

Aktivieren der automatischen Skalierung

Wenn die Option Autoskalierung aktivieren aktiviert ist, können Sie eine Mindest- und Höchstanzahl von Workern für die Computeressource angeben. Databricks wählt anschließend die für die Ausführung des Auftrags erforderliche Anzahl von Workern aus.

Um die Mindest- und Höchstanzahl von Workern festzulegen, zwischen denen Ihre Computeressource automatisch skaliert wird, verwenden Sie die Felder Mindestzahl von Workern und Höchstzahl von Workern neben der Dropdownliste Workertyp.

Wenn Sie die automatische Skalierung nicht aktivieren, müssen Sie im Feld Worker neben der Dropdownliste Workertyp eine feste Anzahl von Workern angeben.

Hinweis

Wenn die Computeressource ausgeführt wird, wird auf der Seite „Computedetails“ die Anzahl zugeordneter Worker angezeigt. Sie können die Anzahl von zugewiesenen Workern mit der Workerkonfiguration vergleichen und bei Bedarf Anpassungen vornehmen.

Vorteile der automatischen Skalierung

Bei der automatischen Skalierung weist Azure Databricks die Worker dynamisch neu zu, um die Merkmale Ihres Auftrags zu berücksichtigen. Bestimmte Abschnitte Ihrer Pipeline können rechenintensiver sein als andere, und Databricks fügt während dieser Phasen Ihres Auftrags automatisch zusätzliche Worker hinzu (und entfernt sie, wenn sie nicht mehr benötigt werden).

Durch die automatische Skalierung kann eine hohe Auslastung einfacher erreicht werden, weil Sie das Compute nicht passend zu einer Workload bereitstellen müssen. Dies gilt insbesondere für Workloads, deren Anforderungen sich im Laufe der Zeit ändern (z. B. die Erkundung eines Datasets im Laufe eines Tages), aber auch für einmalige Workloads mit kürzerer Laufzeit, deren Bereitstellungsanforderungen unbekannt sind. Die automatische Skalierung bietet somit zwei Vorteile:

Workloads können im Vergleich zu einer unterdimensionierten Computeressource mit fester Größe schneller ausgeführt werden.
Durch die automatische Skalierung können die Gesamtkosten im Vergleich zu einer Computeressource mit fester Größe gesenkt werden.

Abhängig von der festen Größe der Computeressource und der Workload bietet Ihnen die automatische Skalierung einen oder beide dieser Vorteile. Die Computegröße kann unter die ausgewählte Mindestanzahl von Workern sinken, wenn der Cloudanbieter Instanzen beendet. In diesem Fall versucht Azure Databricks fortlaufend, Instanzen erneut bereitzustellen, um die Mindestanzahl an Workern aufrecht zu erhalten.

Hinweis

Die automatische Skalierung steht für spark-submit-Aufträge nicht zur Verfügung.

Hinweis

Die automatische Computeskalierung hat Einschränkungen beim Herunterskalieren der Clustergröße für strukturierten Streaming-Workloads. Databricks empfiehlt die Verwendung von Delta Live-Tabellen mit erweiterter automatischer Skalierung für Streaming-Workloads. Weitere Informationen finden Sie unter Optimieren der Clusternutzung von Delta Live Tables-Pipelines mit verbesserter automatischer Skalierung.

Verhalten der automatischen Skalierung

Arbeitsbereich im Premium-Plan verwendet optimierte automatische Skalierung. Arbeitsbereiche im Standardtarif verwenden die standardmäßige automatische Skalierung.

Die optimierte automatische Skalierung weist die folgenden Merkmale auf:

Die Skalierung erfolgt in 2 Schritten vom Mindestwert zum Höchstwert.
Selbst wenn sich die Computeressource nicht im Leerlauf befindet, kann sie durch Überprüfung des Status der Shuffledatei herunterskaliert werden.
Das Herunterskalieren erfolgt basierend auf einem Prozentsatz der aktuellen Knoten.
Bei Job Compute wird herunterskaliert, wenn die Computeressource in den letzten 40 Sekunden unterausgelastet war.
Bei All-Purpose Compute wird herunterskaliert, wenn die Computeressource in den letzten 150 Sekunden unterausgelastet war.
Die Spark-Konfigurationseigenschaft spark.databricks.aggressiveWindowDownS gibt an, wie häufig (in Sekunden) ein Compute Skalierungsentscheidungen trifft. Das Erhöhen dieses Werts führt dazu, dass ein Compute langsamer herunterskaliert wird. Der Höchstwert lautet 600.

Die standardmäßige automatische Skalierung wird in Arbeitsbereichen im Standardtarif verwendet. Die standardmäßige automatische Skalierung weist die folgenden Merkmale auf:

Beginnt mit dem Hinzufügen von 8 Knoten. Anschließend wird er exponentiell hochskaliert, wobei so viele Schritte wie nötig ausgeführt werden, um das Maximum zu erreichen.
Es wird herunterskaliert, wenn 90% der Knoten 10 Minuten lang nicht ausgelastet sind und sich das Compute mindestens 30 Sekunden lang im Leerlauf befindet.
Der Cluster wird exponentiell herunterskaliert, beginnend mit 1 Knoten.

Automatische Skalierung mit Pools

Berücksichtigen Sie Folgendes, wenn Sie Ihre Computeressource an einen Pool anfügen:

Stellen Sie sicher, dass die angeforderte Computegröße kleiner oder gleich der Mindestanzahl von Instanzen im Leerlauf für den Pool ist. Wenn sie größer ist, entspricht die Startzeit des Computes einem Compute, der keinen Pool verwendet.
Stellen Sie sicher, dass die maximale Computegröße kleiner oder gleich der maximalen Kapazität des Pools ist. Wenn sie größer ist, kann das Compute nicht erstellt werden.

Beispiel für die automatische Skalierung

Wenn Sie eine statische Computeressource für die automatische Skalierung neu konfigurieren, passt Azure Databricks die Größe der Computeressource sofort innerhalb der Mindest- und Höchstgrenzen an und startet dann die automatische Skalierung. Die folgende Tabelle veranschaulicht anhand eines Beispiels, was mit einer Computeressource mit einer bestimmten Anfangsgröße geschieht, wenn Sie sie für die automatische Skalierung zwischen fünf und zehn Knoten neu konfigurieren.

Ursprüngliche Größe	Größe nach der Neukonfiguration
6	6
12	10
3	5

Automatische Skalierung des lokalen Speichers aktivieren

Es ist oft schwierig abzuschätzen, wie viel Speicherplatz auf dem Datenträger ein bestimmter Auftrag beanspruchen wird. Damit Sie beim Erstellen Ihres Computes nicht selbst schätzen müssen, wie viele GB an verwaltetem Speicherplatz Sie an Ihr Compute anfügen müssen, aktiviert Azure Databricks automatisch für alle Azure Databricks-Compute die automatische Skalierung des lokalen Speichers.

Bei der automatischen Skalierung des lokalen Speichers überwacht Azure Databricks die Menge an freiem Speicherplatz, die auf den Spark-Workern Ihres Computes verfügbar ist. Wenn der Speicherplatz eines Workers knapp wird, fügt Databricks automatisch einen neuen verwalteten Datenträger an den Worker an, bevor der Speicherplatz aufgebraucht ist. Datenträger werden bis zu einer Obergrenze von 5 TB Gesamtspeicherplatz pro VM angefügt (einschließlich des anfänglichen lokalen Speichers der VM).

Die an eine VM angefügten verwalteten Datenträger werden nur getrennt, wenn die VM an Azure zurückgegeben wird. Das heißt, verwaltete Datenträger werden nie von einer VM abgekoppelt, solange sie Teil eines ausgeführten Computes sind. Zum Herunterskalieren der Nutzung von verwalteten Datenträgern empfiehlt Azure Databricks die Verwendung dieser Funktion in einem Compute, das mit automatischer Computeskalierung oder automatischer Beendigung konfiguriert ist.

Verschlüsselung lokaler Datenträger

Wichtig

Dieses Feature befindet sich in der Public Preview.

Einige Instanztypen, die Sie zum Ausführen von Computes verwenden, verfügen möglicherweise über lokal angefügte Datenträger. Azure Databricks kann Shuffledaten oder kurzlebige Daten auf diesen lokal angefügten Datenträgern speichern. Um sicherzustellen, dass alle ruhenden Daten für sämtliche Speichertypen (auch Shuffledaten, die vorübergehend auf den lokalen Datenträgern Ihrer Computeressource gespeichert werden) verschlüsselt werden, können Sie die Verschlüsselung der lokalen Datenträger aktivieren.

Wichtig

Ihre Workloads werden möglicherweise langsamer ausgeführt, da sich das Lesen und Schreiben verschlüsselter Daten auf und von lokalen Volumes auf die Leistung auswirkt.

Wenn die Verschlüsselung lokaler Datenträger aktiviert ist, generiert Azure Databricks lokal einen Verschlüsselungsschlüssel, der für jeden Computeknoten eindeutig ist und zum Verschlüsseln aller auf lokalen Datenträgern gespeicherten Daten verwendet wird. Der Schlüssel ist nur lokal für den jeweiligen Computeknoten gültig und wird zusammen mit dem Computeknoten selbst zerstört. Während seiner Lebensdauer befindet sich der Schlüssel zur Ver- und Entschlüsselung im Arbeitsspeicher und wird verschlüsselt auf dem Datenträger gespeichert.

Zum Aktivieren der Verschlüsselung lokaler Datenträger müssen Sie die Cluster-API verwenden. Legen Sie während der Computeerstellung oder -bearbeitung enable_local_disk_encryption auf true fest.

Automatische Beendigung

Sie können die automatische Beendigung für ein Compute festlegen. Geben Sie während der Computeerstellung einen Inaktivitätszeitraum in Minuten an, nach dem die Computeressource beendet werden soll.

Wenn die Differenz zwischen der aktuellen Zeit und der letzten Befehlsausführung auf der Computeressource größer als der angegebene Inaktivitätszeitraum ist, beendet Azure Databricks diese Computeressource automatisch. Weitere Informationen zur Computebeendigung finden Sie im Abschnitt zum Beenden einer Computeressource.

Spark-Konfiguration

Um Spark-Aufträge zu optimieren, können Sie benutzerdefinierte Spark-Konfigurationseigenschaften bereitstellen.

Klicken Sie auf der Seite „Computekonfiguration“ auf die Umschaltfläche Erweiterte Optionen.
Klicken Sie auf die Registerkarte Spark.

Geben Sie in der Spark-Konfiguration die Konfigurationseigenschaften als ein Schlüssel-Wert-Paar pro Zeile ein.

Wenn Sie ein Compute mit der Cluster-API konfigurieren, legen Sie Spark-Eigenschaften im Feld spark_conf in der API zum Erstellen von Clustern oder der API zum Aktualisieren der Cluster fest.

Um Spark-Konfigurationen in Computes zu erzwingen, können Administratoren Computerichtlinien verwenden.

Abrufen einer Spark-Konfigurationseigenschaft aus einem Geheimnis

Databricks empfiehlt, vertrauliche Informationen wie Kennwörter nicht als Klartext, sondern in einem Geheimnis zu speichern. Verwenden Sie die folgende Syntax, um auf ein Geheimnis in der Spark-Konfiguration zu verweisen:

spark.<property-name> {{secrets/<scope-name>/<secret-name>}}

Verwenden Sie beispielsweise folgenden Code, um eine Spark-Konfigurationseigenschaft namens password auf den Wert des in secrets/acme_app/password gespeicherten Geheimnisses festzulegen:

spark.password {{secrets/acme-app/password}}

Weitere Informationen finden Sie unter Syntax zum Verweisen auf Geheimnisse in einer Spark-Konfigurationseigenschaft oder -Umgebungsvariable.

SSH-Zugriff auf Compute

Aus Sicherheitsgründen ist der SSH-Port in Azure Databricks standardmäßig geschlossen. Informationen zum Aktivieren des SSH-Zugriffs auf Ihre Spark-Cluster finden Sie unter SSH-Verbindung mit dem Treiberknoten.

Hinweis

SSH kann nur aktiviert werden, wenn Ihr Arbeitsbereich in Ihrem eigenen virtuellen Azure-Netzwerk bereitgestellt wird.

Umgebungsvariablen

Konfigurieren Sie benutzerdefinierte Umgebungsvariablen, auf die Sie über Initialisierungsskripts, die auf der Computeressource ausgeführt werden, zugreifen können. Databricks bietet auch vordefinierte Umgebungsvariablen, die Sie in Initialisierungsskripts verwenden können. Sie können diese vordefinierten Umgebungsvariablen nicht außer Kraft setzen.

Klicken Sie auf der Seite „Computekonfiguration“ auf die Umschaltfläche Erweiterte Optionen.
Klicken Sie auf die Registerkarte Spark.
Legen Sie die Umgebungsvariablen im Feld Umgebungsvariablen fest.

Sie können auch Umgebungsvariablen mithilfe des Felds spark_env_vars in der API zum Erstellen von Clustern oder der API zum Aktualisieren der Cluster festlegen.

Computeprotokollübermittlung

Beim Erstellen eines Computes können Sie einen Speicherort angeben, an dem die Protokolle für den Spark-Treiberknoten, die Workerknoten und die Ereignisse bereitgestellt werden. Protokolle werden alle fünf Minuten übermittelt und stündlich am ausgewählten Ziel archiviert. Wenn eine Computeressource beendet wird, garantiert Azure Databricks die Bereitstellung aller bis zu diesem Zeitpunkt erstellten Protokolle.

Das Ziel der Protokolle hängt von der cluster_id der Computeressource ab. Wenn das angegebene Ziel dbfs:/cluster-log-delivery lautet, werden die Computeprotokolle für 0630-191345-leap375 in dbfs:/cluster-log-delivery/0630-191345-leap375 bereitgestellt.

So konfigurieren Sie den Speicherort für die Protokollbereitstellung

Klicken Sie auf der Seite „Compute“ auf den Umschalter Erweiterte Optionen.
Klicken Sie auf die Registerkarte Protokollierung.
Wählen Sie einen Zieltyp aus.
Geben Sie den Computeprotokollpfad ein.

Hinweis

Dieses Feature ist auch in der REST-API verfügbar. Weitere Informationen finden Sie unter Cluster-API.

Freigeben über

Computekonfigurationsreferenz

Erstellen einer neuen All-Purpose Compute-Ressource

Richtlinien

Compute mit einem einzelnen Knoten oder mehreren Knoten

Eigenschaften eines einzelnen Knotens

Auswählen eines einzelnen oder mehrerer Knoten

Zugriffsmodi

Databricks Runtime-Versionen

Verwenden von Photon-Beschleunigung

Worker- und Treiberknotentypen

Workertyp

IP-Adressen der Workerknoten

Treibertyp

GPU-Instanztypen

Azure Confidential Computing-VMs

Spot-Instanzen

Aktivieren der automatischen Skalierung

Vorteile der automatischen Skalierung

Verhalten der automatischen Skalierung

Automatische Skalierung mit Pools

Beispiel für die automatische Skalierung

Automatische Skalierung des lokalen Speichers aktivieren

Verschlüsselung lokaler Datenträger

Automatische Beendigung

Tags

Spark-Konfiguration

Abrufen einer Spark-Konfigurationseigenschaft aus einem Geheimnis

SSH-Zugriff auf Compute

Umgebungsvariablen

Computeprotokollübermittlung

Feedback

Zusätzliche Ressourcen