Compute

Artikel
05/28/2024

Azure Databricks-Compute bezieht sich auf die Auswahl an Computingressourcen, die im Azure Databricks-Arbeitsbereich verfügbar sind. Benutzende benötigen Zugriff auf Compute, um Data Engineering-, Data Science- und Datenanalyse-Workloads auszuführen, z. B. ETL-Pipelines, Streaming-Analysen, Ad-hoc-Analysen und maschinelles Lernen.

Benutzende können entweder eine Verbindung mit vorhandenem Compute herstellen oder ein neues Compute erstellen, wenn sie über die entsprechenden Berechtigungen verfügen.

Sie können das Compute anzeigen, auf das Sie Zugriff haben, indem Sie den Abschnitt Compute des Arbeitsbereichs verwenden:

Allzweckbasierte Computeseite im Databricks-Arbeitsbereich

Computetypen

Dies sind die In Azure Databricks verfügbaren Computetypen:

Serverlose Berechnung für Notebooks (Public Preview):On-demand, skalierbarer Compute, der zum Ausführen von SQL- und Python-Code in Notebooks verwendet wird.
Serverlose Berechnung für Workflows (Public Preview):ON-demand, skalierbarer Compute, der zum Ausführen Ihrer Databricks-Aufträge verwendet wird, ohne Infrastruktur zu konfigurieren und bereitzustellen.
All-Purpose Compute: Bereitgestellter Compute, der zum Analysieren von Daten in Notebooks verwendet wird. Sie können diese Computeressource mithilfe der Benutzeroberfläche, der CLI oder der REST-API erstellen, beenden und neu starten.
Auftragsberechnung: Bereitgestellter Compute, der zum Ausführen automatisierter Aufträge verwendet wird. Der Azure Databricks-Auftragsplaner erstellt automatisch eine Auftragsberechnung, wenn ein Auftrag für die Ausführung auf einer neuen Berechnung konfiguriert ist. Die Computeressource wird beendet, wenn der Auftrag abgeschlossen ist. Sie können eine Auftragsberechnung nicht neu starten. Weitere Informationen finden Sie unter Verwenden von Azure Databricks-Compute mit Ihren Aufträgen.
Instanzpools: Computeressource mit einsatzbereiten Instanzen im Leerlauf, die verwendet werden, um die Start- und Autoskalierungsdauer zu reduzieren. Sie können diese Computeressource mithilfe der Benutzeroberfläche, der CLI oder der REST-API erstellen.
Serverlose SQL-Warehouses: Elastische Rechenleistung auf Abruf zur Ausführung von SQL-Befehlen für Datenobjekte im SQL-Editor oder in interaktiven Notebooks. Sie können SQL-Warehouses mithilfe der Benutzeroberfläche, der CLI oder der REST-API erstellen.
Klassische SQL-Warehouses: Zum Ausführen von SQL-Befehlen für Datenobjekte im SQL-Editor oder in interaktiven Notebooks verwendet Sie können SQL-Warehouses mithilfe der Benutzeroberfläche, der CLI oder der REST-API erstellen.

In den Artikeln in diesem Abschnitt wird beschrieben, wie Sie mit Computeressourcen auf der Azure Databricks-Benutzeroberfläche arbeiten. Weitere Methoden finden Sie unter Welche ist die Databricks-Befehlszeilenschnittstelle? sowie unter Databricks REST-API-Referenz.

Databricks Runtime

Bei Databricks Runtime handelt es sich um die Gruppe von Kernkomponenten, die in Ihren Computeressourcen ausgeführt werden. Die Databricks-Runtime ist eine konfigurierbare Einstellung in allen Funktionen, die in SQL-Warehouses berechnet, aber automatisch ausgewählt werden.

Jede Databricks Runtime-Version enthält Updates zur Verbesserung der Benutzerfreundlichkeit, Leistung und Sicherheit von Big Data-Analysen. Databricks Runtime in Ihrer Computeressource fügt viele Features hinzu, u. a.:

Delta Lake, eine Speicherebene der nächsten Generation, die auf Apache Spark aufbaut und ACID-Transaktionen, optimierte Layouts und Indizes sowie Verbesserungen der Ausführungsengine zum Erstellen von Datenpipelines bietet. Siehe Was ist Delta Lake?.
Installierte Java-, Scala-, Python- und R-Bibliotheken
Ubuntu und die zugehörigen Systembibliotheken
GPU-Bibliotheken für GPU-fähige Cluster
Azure Databricks-Dienste, die sich in andere Komponenten der Plattform integrieren lassen, z. B. Notebooks, Aufträge und Clusterverwaltung

Informationen zum Inhalt der einzelnen Runtimeversionen finden Sie in den Versionshinweisen.

Laufzeitversionsverwaltung

Databricks Runtime-Versionen werden regelmäßig veröffentlicht:

Long Term Support-Versionen werden durch einen LTS-Qualifizierer dargestellt (z. B. 3.5 LTS). Für jede Hauptversion deklarieren wir eine „kanonische“ Featureversion, für die wir drei volle Jahre Support bieten. Weitere Informationen finden Sie unter Supportlebenszyklus für Databricks Runtime.
Hauptversionen werden durch eine Erhöhung der Versionsnummer vor dem Dezimalpunkt dargestellt (z. B. der Sprung von 3.5 auf 4.0). Sie werden veröffentlicht, wenn es größere Änderungen gibt, von denen einige möglicherweise nicht abwärtskompatibel sind.
Featureversionen werden durch eine Erhöhung der Versionsnummer nach dem Dezimalpunkt dargestellt (z. B. der Sprung von 3.4 auf 3.5). Jede Hauptversion enthält mehrere Featurereleases. Featurereleases sind immer abwärtskompatibel mit früheren Releases innerhalb ihrer Hauptversion.

Was ist serverloses Computing?

Das serverlose Computing verbessert Produktivität, Kosteneffizienz und Zuverlässigkeit auf folgende Weise:

Produktivität: Cloudressourcen werden von Azure Databricks verwaltet. Dies reduziert den Verwaltungsaufwand und bietet sofortiges Computing, um die Benutzerproduktivität zu verbessern.
Effizienz: Das serverlose Computing ermöglicht das schnelle Starten und Skalieren, minimiert Leerlaufzeiten und stellt sicher, dass Sie nur für das von Ihnen verwendete Computing bezahlen.
Zuverlässigkeit: Beim serverlosen Computing werden Kapazitätsbehandlung, Sicherheit, Patchen und Upgrades automatisch verwaltet, sodass Sie sich weniger Sorgen um Sicherheitsrichtlinien und Kapazitätsengpässe machen müssen.

Was sind serverlose SQL Warehouses?

Databricks SQL bietet optimale Preise und Leistung mit serverlosen SQL Warehouses. Zu den wichtigsten Vorteilen von serverlosen Warehouses gegenüber Pro- und klassischen Modellen gehören:

Sofortiges und elastisches Compute: Vermeidet das Warten auf Infrastrukturressourcen und verhindert die übermäßige Bereitstellung von Ressourcen während der Nutzungsspitzen. Eine intelligente Workloadverwaltung übernimmt die Skalierung dynamisch. Weitere Informationen zur intelligenten Workloadverwaltung und zu anderen serverlosen Features finden Sie unter SQL Warehouse-Typen.
Minimaler Verwaltungsaufwand: Kapazitätsverwaltung, Patchen, Upgrades und Leistungsoptimierung werden von Azure Databricks durchgeführt. Dies vereinfacht Vorgänge und führt zu vorhersagbaren Preisen.
Niedrigere Gesamtkosten (TCO): Die automatische Bereitstellung und Skalierung von Ressourcen nach Bedarf trägt dazu bei, die übermäßige Bereitstellung zu vermeiden und die Leerlaufzeiten zu reduzieren und damit die Gesamtkosten zu senken.

Freigeben über