Computekonfigurationsreferenz

In diesem Artikel werden alle Konfigurationseinstellungen erläutert, die unter „Compute-Benutzeroberfläche erstellen“ verfügbar sind. Die meisten Benutzenden erstellen Compute mithilfe ihrer zugewiesenen Richtlinien, wodurch die konfigurierbaren Einstellungen begrenzt werden. Wenn eine bestimmte Einstellung auf der Benutzeroberfläche nicht angezeigt wird, liegt dies daran, dass es die von Ihnen ausgewählte Richtlinie nicht erlaubt, diese Einstellung zu konfigurieren.

Die in diesem Artikel beschriebenen Konfigurationen und Verwaltungstools gelten sowohl für Allzweck- als auch für Auftragscomputes. Weitere Überlegungen zum Konfigurieren von Auftragscomputes finden Sie unter Verwenden von Azure Databricks, die mit Ihren Aufträgen berechnet werden.

Richtlinien

Bei Richtlinien handelt es sich um eine Reihe von Regeln, mit denen die Konfigurationsoptionen eingeschränkt werden, die Benutzer beim Erstellen eines Computes zur Verfügung stehen. Wenn Benutzer nicht über die uneingeschränkte Berechtigung zum Erstellen von Clustern verfügen, können sie Computes nur mithilfe der gewährten Richtlinien erstellen.

Um einen Compute gemäß einer Richtlinie zu erstellen, wählen Sie eine Richtlinie aus dem Dropdownmenü Richtlinie aus.

Standardmäßig haben alle Benutzer*innen Zugriff auf die Personal Compute-Richtlinie, mit der sie Einzelcomputer-Computeressourcen erstellen können. Wenn Sie Zugriff auf persönliche Compute oder zusätzliche Richtlinien benötigen, wenden Sie sich an Ihren Arbeitsbereichsadministrator.

Compute mit einem einzelnen Knoten oder mehreren Knoten

Je nach Richtlinie können Sie zwischen dem Erstellen eines Einzelknoten-Computes oder eines Mehrfachknoten-Computes wählen.

Einzelknotencomputes sind für Aufträge vorgesehen, die kleine Datenmengen oder nicht verteilte Workloads wie maschinelle Lernbibliotheken mit nur einem Knoten verwenden. Multiknoten-Compute sollte für größere Aufträge mit verteilten Workloads verwendet werden.

Eigenschaften eines einzelnen Knotens

Ein Einzelknotencompute verfügt über die folgenden Eigenschaften:

  • Führt Spark lokal aus
  • Der Treiber fungiert sowohl als Master als auch als Worker ohne Workerknoten.
  • Erzeugt einen Executor-Thread pro logischem Kern in der Recheneinheit, abzüglich eines Kerns für den Treiber.
  • Speichert alle stderr, stdout und log4j-Protokollausgaben im Treiberprotokoll.
  • Kann nicht in einen Mehrfachknotencompute konvertiert werden.

Auswählen eines einzelnen oder mehrerer Knoten

Berücksichtigen Sie den Anwendungsfall bei der Entscheidung zwischen einem Einzelknoten- oder Mehrfachknotencompute:

  • Die Verarbeitung großer Datenmengen erschöpft die Ressourcen einer Einzelknotenberechnung. Für diese Workloads empfiehlt Databricks die Anwendung eines Mehrfachknotencomputes.

  • Einzelknotenberechnungen sind nicht für die Freigabe konzipiert. Um Ressourcenkonflikte zu vermeiden, empfiehlt Databricks die Anwendung eines Mehrfachknotencomputes, wenn der Compute freigegeben werden muss.

  • Eine Mehrfachknotenberechnung kann nicht auf 0 Worker skaliert werden. Verwenden Sie stattdessen eine Einzelknotenberechnung.

  • Einzelknotenberechnungen sind nicht mit der Prozessisolation kompatibel.

  • Die GPU-Planung ist bei Einzelknotenberechnungen nicht aktiviert.

  • Bei Einzelknotenberechnungen kann Spark keine Parquet-Dateien mit einer UDT-Spalte lesen. Die folgende Fehlermeldung wird angezeigt:

    The Spark driver has stopped unexpectedly and is restarting. Your notebook will be automatically reattached.
    

    Deaktivieren Sie den nativen Parquet-Reader, um dieses Problem zu beheben:

    spark.conf.set("spark.databricks.io.parquet.nativeReader.enabled", False)
    

Zugriffsmodi

Der Zugriffsmodus ist ein Sicherheitsfeature, das bestimmt, wer ein Compute verwenden kann und auf welche Daten diese Person über das Compute zugreifen kann. Jeder Compute in Azure Databricks verfügt über einen Zugriffsmodus.

Hinweis

Databricks empfiehlt, den Modus für den gemeinsamen Zugriff für alle Workloads zu verwenden. Verwenden Sie nur den Einzelbenutzerzugriffsmodus, wenn Ihre erforderliche Funktionalität nicht vom Modus für den freigegebenen Zugriff unterstützt wird.

Zugriffsmodus Für Benutzer*innen sichtbar UC-Unterstützung Unterstützte Sprachen Notizen
Einzelner Benutzer Always Ja Python, SQL, Scala, R Kann nur einem einzigen Benutzer/einer einzigen Benutzerin zugewiesen und von ihm/ihr verwendet werden.
Shared Immer (Premium-Plan erforderlich) Ja Python (in Databricks Runtime 11.3 LTS und höher), SQL, Scala (in Unity Catalog-fähigen Computes mit Databricks Runtime 13.3 LTS und höher) Kann von mehreren Benutzer*innen mit Datenisolation unter Benutzer*innen verwendet werden.
Keine Isolation, freigegeben Administratoren können diesen Zugriffsmodus ausblenden, indem sie auf der Seite mit Verwaltungseinstellungen die Benutzerisolation erzwingen. No Python, SQL, Scala, R Es gibt eine entsprechende Einstellung auf Kontoebene für freigegebene Computes ohne Isolation.
Benutzerdefiniert Ausgeblendet (Für alle neuen Computes) No Python, SQL, Scala, R Diese Option wird nur angezeigt, wenn Sie über vorhandene Computes ohne einen bestimmten Zugriffsmodus verfügen.

Sie können für einen vorhandenen Compute ein Upgrade durchführen, um die Anforderungen von Unity Catalog zu erfüllen. Legen Sie dazu den Zugriffsmodus auf Einzelbenutzer oder Benutzerisolation fest.

Hinweis

In Databricks Runtime 13.3 LTS und höher werden Initialisierungsskripts und -bibliotheken für alle Zugriffsmodi unterstützt. Anforderungen und Support variieren. Siehe Wo können Initialisierungsskripts installiert? und Bibliotheken im Clusterumfang.

Databricks Runtime-Versionen

Bei Databricks Runtime handelt es sich um die Gruppe von Kernkomponenten, die in Ihren Computeressourcen ausgeführt werden. Wählen Sie die Laufzeit im Dropdownmenü Databricks Runtime Version aus. Ausführliche Informationen zu bestimmten Databricks Runtime-Versionen finden Sie unter Versionshinweise zu Databricks Runtime-Versionen und -Kompatibilität. Alle Versionen enthalten Apache Spark. Databricks empfiehlt Folgendes:

  • Verwenden Sie für Allzweck-Compute die aktuellste Version, um sicherzustellen, dass Sie die neuesten Optimierungen und die aktuellste Kompatibilität zwischen Ihrem Code und den vorinstallierten Paketen haben.
  • Bei Auftragscomputes, auf denen betriebsbereite Workloads ausgeführt werden, sollten Sie die LTS-Version von Databricks Runtime (Long Term Support, Langfristige Unterstützung) verwenden. Die Verwendung der LTS-Version stellt sicher, dass keine Kompatibilitätsprobleme bestehen und Ihr Workload vor dem Upgrade gründlich getestet werden kann.
  • Für Data Science- und Machine Learning-Anwendungsfälle sollten Sie Databricks Runtime ML-Version in Betracht ziehen.

Verwenden von Photon-Beschleunigung

Photon ist in Computes mit Databricks Runtime 9.1 LTS und höher standardmäßig aktiviert.

Zum Aktivieren oder Deaktivieren der Photon-Beschleunigung aktivieren Sie das Kontrollkästchen Photon-Beschleunigung verwenden. Weitere Informationen zu Photon finden Sie unter Was ist Photon?.

Worker- und Treiberknotentypen

Ein Compute besteht aus einem Treiberknoten und null oder mehr Workerknoten. Sie können separate Cloudanbieter-Instanztypen für den Treiber- und den Workerknoten auswählen, auch wenn der Treiberknoten standardmäßig denselben Instanztyp verwendet wie der Workerknoten. Es gibt verschiedene Familien von Instanztypen für unterschiedliche Anwendungsfälle, z. B. speicherintensive oder rechenintensive Workloads.

Sie können auch einen Pool auswählen, der als Worker- oder Treiberknoten verwendet werden soll. Siehe Was sind Azure Databricks-Pools?.

Workertyp

In Computes mit Mehrfach-Workerknoten führen die Spark-Executors und weitere Dienste aus, die für den ordnungsgemäßen Betrieb des Computes erforderlich sind. Wenn Sie Ihre Workload mit Spark verteilen, erfolgt die gesamte verteilte Verarbeitung auf Workerknoten. Azure Databricks führt einen Executor pro Workerknoten aus. Daher werden die Begriffe „Executor“ und „Worker“ im Kontext der Databricks-Architektur synonym verwendet.

Tipp

Zum Ausführen eines Spark-Auftrags benötigen Sie mindestens einen Workerknoten. In einem Compute ohne Worker können Spark-fremde Befehle auf dem Treiberknoten ausgeführt werden, aber für Spark-Befehle kommt es zu Fehlern.

IP-Adressen der Workerknoten

Azure Databricks startet Workerknoten mit jeweils zwei privaten IP-Adressen. Die primäre private IP-Adresse des Knotens hostet den internen Datenverkehr von Azure Databricks. Die sekundäre private IP-Adresse wird vom Spark-Container für die clusterinterne Kommunikation verwendet. Mit diesem Modell kann Azure Databricks Isolation zwischen mehreren Computes im gleichen Arbeitsbereich bieten.

Treibertyp

Der Treiberknoten verwaltet die Zustandsinformationen zu allen an den Compute angefügten Notebooks. Der Treiberknoten verwaltet außerdem den SparkContext, interpretiert alle Befehle, die Sie aus einem Notebook oder einer Bibliothek auf dem Compute ausführen, und führt den Apache Spark-Master aus, der mit den Spark-Executors koordiniert wird.

Der Standardwert für den Treiberknotentyp entspricht dem Workerknotentyp. Sie können einen größeren Treiberknoten mit mehr Arbeitsspeicher wählen, wenn Sie umfangreiche Daten von Spark-Workern erfassen (collect()) und im Notebook analysieren möchten.

Tipp

Da der Treiberknoten alle Zustandsinformationen der angefügten Notebooks verwaltet, sollten Sie sicherstellen, nicht verwendete Notebooks vom Treiberknoten abzukoppeln.

GPU-Instanztypen

Für rechenintensive Aufgaben, die eine hohe Leistung erfordern, beispielsweise im Zusammenhang mit Deep Learning, unterstützt Azure Databricks Computes, die mit Grafikprozessoren (GPUs) beschleunigt werden. Weitere Informationen finden Sie unter GPU-fähige Computes.

Azure Confidential Computing-VMs

Azure Confidential Computing-VM-Typen verhindern nicht autorisierten Zugriff auf Daten, während sie verwendet werden. Dies gilt auch für den Cloudbetreiber. Dieser VM-Typ ist für stark regulierte Branchen und Regionen sowie für Unternehmen mit vertraulichen Daten in der Cloud von Vorteil. Weitere Informationen zu vertraulichem Computing von Azure finden Sie unter Azure Confidential Computing.

Um Ihre Workloads mithilfe von Azure Confidential Computing-VMs auszuführen, wählen Sie aus den VM-Typen der DC- oder EC-Serie in den Dropdownlisten der Worker- und Treiberknoten aus. Weitere Informationen finden Sie unter Azure Confidential VM-Optionen.

Spot-Instanzen

Um Kosten zu sparen, können Sie sich für die Verwendung von Spot-Instanzen, auch bekannt als Azure Spot-VMs, entscheiden, indem Sie das Kontrollkästchen Spot-Instanzen aktivieren.

Spot konfigurieren

Die erste Instanz ist immer bedarfsgesteuert (der Treiberknoten ist immer bedarfsgesteuert), nachfolgende Instanzen sind Spot-Instanzen.

Wenn Instanzen aufgrund der Nichtverfügbarkeit entfernt werden, versucht Azure Databricks, neue Spotinstanzen zu erwerben, um die entfernten Instanzen zu ersetzen. Wenn Spotinstanzen nicht abgerufen werden können, werden On-Demand-Instanzen bereitgestellt, um die entfernten Instanzen zu ersetzen. Wenn neue Knoten zum vorhandenen Compute hinzugefügt werden, versucht Azure Databricks außerdem, Spotinstanzen für diese Knoten zu erwerben.

Aktivieren der automatischen Skalierung

Wenn die Option Automatische Skalierung aktivieren aktiviert ist, können Sie eine minimale und maximale Anzahl von Workern für den Compute angeben. Databricks wählt anschließend die für die Ausführung des Auftrags erforderliche Anzahl von Workern aus.

Um die minimale und maximale Anzahl von Workern festzulegen, zwischen denen Ihr Compute automatisch skaliert wird, verwenden Sie die Felder Mindestzahl von Workern und Höchstzahl von Workern neben der Dropdownliste Workertyp.

Wenn Sie die automatische Skalierung nicht aktivieren, geben Sie eine feste Anzahl von Workern in das Feld Workers neben der Dropdownliste Worker type ein.

Hinweis

Wenn das Compute ausgeführt wird, zeigt die Seite „Computedetails“ die Anzahl der zugeordneten Mitarbeiter an. Sie können die Anzahl von zugewiesenen Workern mit der Workerkonfiguration vergleichen und bei Bedarf Anpassungen vornehmen.

Vorteile der automatischen Skalierung

Bei der automatischen Skalierung weist Azure Databricks die Worker dynamisch neu zu, um die Merkmale Ihres Auftrags zu berücksichtigen. Bestimmte Abschnitte Ihrer Pipeline können rechenintensiver sein als andere, und Databricks fügt während dieser Phasen Ihres Auftrags automatisch zusätzliche Worker hinzu (und entfernt sie, wenn sie nicht mehr benötigt werden).

Durch die automatische Skalierung kann eine hohe Auslastung einfacher erreicht werden, weil Sie das Compute nicht passend zu einer Workload bereitstellen müssen. Dies gilt insbesondere für Workloads, deren Anforderungen sich im Laufe der Zeit ändern (z. B. die Erkundung eines Datasets im Laufe eines Tages), aber auch für einmalige Workloads mit kürzerer Laufzeit, deren Bereitstellungsanforderungen unbekannt sind. Die automatische Skalierung bietet somit zwei Vorteile:

  • Workloads können schneller ausgeführt werden als mit einem unterdimensionierten Compute mit fester Größe.
  • Durch die automatische Skalierung können die Gesamtkosten im Vergleich zu einem Compute mit fester Größe gesenkt werden.

Abhängig von der festen Größe des Computes und der Workload bietet Ihnen die automatische Skalierung einen oder beide dieser Vorteile. Die Computegröße kann unter die ausgewählte Mindestanzahl von Workern sinken, wenn der Cloudanbieter Instanzen beendet. In diesem Fall versucht Azure Databricks fortlaufend, Instanzen erneut bereitzustellen, um die Mindestanzahl an Workern aufrecht zu erhalten.

Hinweis

Die automatische Skalierung steht für spark-submit-Aufträge nicht zur Verfügung.

Hinweis

Die automatische Computeskalierung hat Einschränkungen beim Herunterskalieren der Clustergröße für strukturierten Streaming-Workloads. Databricks empfiehlt die Verwendung von Delta Live-Tabellen mit erweiterter automatischer Skalierung für Streaming-Workloads. Weitere Informationen finden Sie unter Was ist die erweiterte automatische Skalierung.

Verhalten der automatischen Skalierung

Der Arbeitsbereich in den Tarifen „Premium” und „Enterprise” verwendet eine optimierte automatische Skalierung. Arbeitsbereiche im Standardtarif verwenden die standardmäßige automatische Skalierung.

Die optimierte automatische Skalierung weist die folgenden Merkmale auf:

  • Die Skalierung erfolgt in 2 Schritten vom Mindestwert zum Höchstwert.
  • Selbst wenn sich das Compute nicht im Leerlauf befindet, kann es durch Überprüfung des Status der Shuffledatei herunterskaliert werden.
  • Das Herunterskalieren erfolgt basierend auf einem Prozentsatz der aktuellen Knoten.
  • Auftragscomputes werden per Skalierung verkleinert, wenn das Compute in den letzten 40 Sekunden nicht ausgelastet war.
  • Allzweckcomputes werden per Skalierung verkleinert, wenn das Compute in den letzten 150 Sekunden nicht ausgelastet war.
  • Die Spark-Konfigurationseigenschaft spark.databricks.aggressiveWindowDownS gibt an, wie häufig (in Sekunden) ein Compute Skalierungsentscheidungen trifft. Das Erhöhen dieses Werts führt dazu, dass ein Compute langsamer herunterskaliert wird. Der Höchstwert lautet 600.

Die standardmäßige automatische Skalierung wird in Arbeitsbereichen im Standardtarif verwendet. Die standardmäßige automatische Skalierung weist die folgenden Merkmale auf:

  • Die Skalierung beginnt mit dem Hinzufügen von 8 Knoten. Anschließend wird er exponentiell hochskaliert, wobei so viele Schritte wie nötig ausgeführt werden, um das Maximum zu erreichen.
  • Es wird herunterskaliert, wenn 90% der Knoten 10 Minuten lang nicht ausgelastet sind und sich das Compute mindestens 30 Sekunden lang im Leerlauf befindet.
  • Der Cluster wird exponentiell herunterskaliert, beginnend mit 1 Knoten.

Automatische Skalierung mit Pools

Wenn Sie Ihr Compute an einen Pool anfügen, berücksichtigen Sie Folgendes:

  • Stellen Sie sicher, dass die angeforderte Computegröße kleiner oder gleich der Mindestanzahl von Instanzen im Leerlauf für den Pool ist. Wenn sie größer ist, entspricht die Startzeit des Computes einem Compute, der keinen Pool verwendet.
  • Stellen Sie sicher, dass die maximale Computegröße kleiner oder gleich der maximalen Kapazität des Pools ist. Wenn sie größer ist, kann das Compute nicht erstellt werden.

Beispiel für die automatische Skalierung

Wenn Sie einen statischen Compute in ein automatisch skalierendes umkonfigurieren, passt Azure Databricks die Größe des Computes sofort innerhalb der Mindest- und Höchstgrenzen an und startet dann die automatische Skalierung. Die folgende Tabelle veranschaulicht beispielsweise, was mit Computes einer bestimmten Ausgangsgröße geschieht, wenn Sie ein Compute für die automatische Skalierung zwischen 5 und 10 Knoten neu konfigurieren.

Ursprüngliche Größe Größe nach der Neukonfiguration
6 6
12 10
3 5

Automatische Skalierung des lokalen Speichers aktivieren

Es ist oft schwierig abzuschätzen, wie viel Speicherplatz auf dem Datenträger ein bestimmter Auftrag beanspruchen wird. Damit Sie beim Erstellen Ihres Computes nicht selbst schätzen müssen, wie viele GB an verwaltetem Speicherplatz Sie an Ihr Compute anfügen müssen, aktiviert Azure Databricks automatisch für alle Azure Databricks-Compute die automatische Skalierung des lokalen Speichers.

Bei der automatischen Skalierung des lokalen Speichers überwacht Azure Databricks die Menge an freiem Speicherplatz, die auf den Spark-Workern Ihres Computes verfügbar ist. Wenn der Speicherplatz eines Workers knapp wird, fügt Databricks automatisch einen neuen verwalteten Datenträger an den Worker an, bevor der Speicherplatz aufgebraucht ist. Datenträger werden bis zu einer Obergrenze von 5 TB Gesamtspeicherplatz pro VM angefügt (einschließlich des anfänglichen lokalen Speichers der VM).

Die an eine VM angefügten verwalteten Datenträger werden nur getrennt, wenn die VM an Azure zurückgegeben wird. Das heißt, verwaltete Datenträger werden nie von einer VM abgekoppelt, solange sie Teil eines ausgeführten Computes sind. Zum Herunterskalieren der Nutzung von verwalteten Datenträgern empfiehlt Azure Databricks die Verwendung dieser Funktion in einem Compute, das mit automatischer Computeskalierung oder automatischer Beendigung konfiguriert ist.

Verschlüsselung lokaler Datenträger

Wichtig

Dieses Feature befindet sich in der Public Preview.

Einige Instanztypen, die Sie zum Ausführen von Computes verwenden, verfügen möglicherweise über lokal angefügte Datenträger. Azure Databricks kann Shuffledaten oder kurzlebige Daten auf diesen lokal angefügten Datenträgern speichern. Um sicherzustellen, dass alle ruhenden Daten für sämtliche Speichertypen – auch Shuffledaten, die vorübergehend auf den lokalen Datenträgern Ihres Computes gespeichert werden – verschlüsselt werden, können Sie die Verschlüsselung der lokalen Datenträger aktivieren.

Wichtig

Ihre Workloads werden möglicherweise langsamer ausgeführt, da sich das Lesen und Schreiben verschlüsselter Daten auf und von lokalen Volumes auf die Leistung auswirkt.

Wenn die Verschlüsselung lokaler Datenträger aktiviert ist, generiert Azure Databricks lokal einen Verschlüsselungsschlüssel, der für jeden Computeknoten eindeutig ist und zum Verschlüsseln aller auf lokalen Datenträgern gespeicherten Daten verwendet wird. Der Schlüssel ist nur lokal für den jeweiligen Computeknoten gültig und wird zusammen mit dem Computeknoten selbst zerstört. Während seiner Lebensdauer befindet sich der Schlüssel zur Ver- und Entschlüsselung im Arbeitsspeicher und wird verschlüsselt auf dem Datenträger gespeichert.

Zum Aktivieren der Verschlüsselung lokaler Datenträger müssen Sie die Cluster-API verwenden. Legen Sie während der Computeerstellung oder -bearbeitung enable_local_disk_encryption auf true fest.

Automatische Beendigung

Sie können die automatische Beendigung für ein Compute festlegen. Während der Computeerstellung können Sie einen Inaktivitätszeitraum in Minuten angeben, nach dem das Compute beendet werden soll.

Wenn der Unterschied zwischen der aktuellen Zeit und der letzten Ausführung des Befehls im Compute größer als der angegebene Inaktivitätszeitraum ist, beendet Azure Databricks dieses Compute automatisch. Weitere Informationen zur Computebeendigung finden Sie unter Beenden eines Computes.

Ausführliche Informationen zum Zusammenspiel von Pool- und Computetagtypen finden Sie unter Überwachen der Nutzung mithilfe von Tags

So fügen Sie Ihrem Compute Tags hinzu:

  1. Fügen Sie im Abschnitt Tags ein Schlüssel-Wert-Paar für jedes benutzerdefinierte Tag hinzu.
  2. Klicken Sie auf Hinzufügen.

Tags

Mit Tags können Sie die Kosten von Cloudressourcen, die von verschiedenen Gruppen in Ihrer Organisation genutzt werden, problemlos überwachen. Sie können Tags als Schlüssel-Wert-Paare angeben, wenn Sie ein Compute erstellen, und Azure Databricks wendet diese Tags auf Cloudressourcen wie VMs und Datenträgervolumes sowie auf DBU-Nutzungsberichte an.

Bei Computes, die aus Pools gestartet werden, werden die benutzerdefinierten Computetags nur auf DBU-Nutzungsberichte angewendet und nicht an Cloudressourcen weitergegeben.

Spark-Konfiguration

Um Spark-Aufträge zu optimieren, können Sie benutzerdefinierte Spark-Konfigurationseigenschaften bereitstellen.

  1. Klicken Sie auf der Seite „Computekonfiguration“ auf die Umschaltfläche Erweiterte Optionen.

  2. Klicken Sie auf die Registerkarte Spark.

    Spark-Konfiguration

    Geben Sie in der Spark-Konfiguration die Konfigurationseigenschaften als ein Schlüssel-Wert-Paar pro Zeile ein.

Wenn Sie ein Compute mit der Cluster-API konfigurieren, legen Sie Spark-Eigenschaften im Feld spark_conf in der API zum Erstellen von Clustern oder der API zum Aktualisieren der Cluster fest.

Um Spark-Konfigurationen in Computes zu erzwingen, können Administratoren Computerichtlinien verwenden.

Abrufen einer Spark-Konfigurationseigenschaft aus einem Geheimnis

Databricks empfiehlt, vertrauliche Informationen wie Kennwörter nicht als Klartext, sondern in einem Geheimnis zu speichern. Verwenden Sie die folgende Syntax, um auf ein Geheimnis in der Spark-Konfiguration zu verweisen:

spark.<property-name> {{secrets/<scope-name>/<secret-name>}}

Verwenden Sie beispielsweise folgenden Code, um eine Spark-Konfigurationseigenschaft namens password auf den Wert des in secrets/acme_app/password gespeicherten Geheimnisses festzulegen:

spark.password {{secrets/acme-app/password}}

Weitere Informationen finden Sie unter Syntax zum Verweisen auf Geheimnisse in einer Spark-Konfigurationseigenschaft oder -Umgebungsvariable.

SSH-Zugriff auf Compute

Aus Sicherheitsgründen ist der SSH-Port in Azure Databricks standardmäßig geschlossen. Informationen zum Aktivieren des SSH-Zugriffs auf Ihre Spark-Cluster finden Sie unter SSH-Verbindung mit dem Treiberknoten.

Hinweis

SSH kann nur aktiviert werden, wenn Ihr Arbeitsbereich in Ihrem eigenen virtuellen Azure-Netzwerk bereitgestellt wird.

Umgebungsvariablen

Sie können benutzerdefinierte Umgebungsvariablen konfigurieren, auf die Sie über Initialisierungsskripts zugreifen können, die in einem Compute ausgeführt werden. Databricks bietet auch vordefinierte Umgebungsvariablen, die Sie in Initialisierungsskripts verwenden können. Sie können diese vordefinierten Umgebungsvariablen nicht außer Kraft setzen.

  1. Klicken Sie auf der Seite „Computekonfiguration“ auf die Umschaltfläche Erweiterte Optionen.

  2. Klicken Sie auf die Registerkarte Spark.

  3. Legen Sie die Umgebungsvariablen im Feld Umgebungsvariablen fest.

    Feld für Umgebungsvariablen

Sie können auch Umgebungsvariablen mithilfe des Felds spark_env_vars in der API zum Erstellen von Clustern oder der API zum Aktualisieren der Cluster festlegen.

Computeprotokollübermittlung

Beim Erstellen eines Computes können Sie einen Speicherort angeben, an dem die Protokolle für den Spark-Treiberknoten, die Workerknoten und die Ereignisse bereitgestellt werden. Protokolle werden alle fünf Minuten übermittelt und stündlich am ausgewählten Ziel archiviert. Wenn ein Compute beendet wird, garantiert Azure Databricks die Bereitstellung aller bis zur Beendigung des Computes erstellten Protokolle.

Das Ziel der Protokolle hängt von der Compute-cluster_id ab. Wenn das angegebene Ziel dbfs:/cluster-log-delivery lautet, werden die Computeprotokolle für 0630-191345-leap375 in dbfs:/cluster-log-delivery/0630-191345-leap375 bereitgestellt.

So konfigurieren Sie den Speicherort für die Protokollbereitstellung

  1. Klicken Sie auf der Seite „Compute“ auf den Umschalter Erweiterte Optionen.
  2. Klicken Sie auf die Registerkarte Protokollierung.
  3. Wählen Sie einen Zieltyp aus.
  4. Geben Sie den Computeprotokollpfad ein.

Hinweis

Dieses Feature ist auch in der REST-API verfügbar. Weitere Informationen finden Sie unter Cluster-API.