Azure Databricks für Scala-Entwickler

2025-01-02

Dieser Artikel enthält einen Leitfaden für die Entwicklung von Notebooks und Aufträgen in Azure Databricks mithilfe der Sprache „Scala“. Der erste Abschnitt enthält Links zu Tutorials für allgemeine Workflows und Aufgaben. Der zweite Abschnitt enthält Links zu APIs, Bibliotheken und wichtigen Tools.

Ein grundlegender Workflow für die ersten Schritte ist:

Importieren Sie Code, und führen Sie ihn mithilfe eines interaktiven Databricks-Notebooks aus: Importieren Sie entweder Ihren eigenen Code aus Dateien oder Git-Repositorys, oder verwenden Sie eines der Tutorials unten.
Führen Sie Ihren Code in einem Cluster aus: Erstellen Sie entweder einen eigenen Cluster, oder stellen Sie sicher, dass Sie über Berechtigungen verfügen, einen freigegebenen Cluster zu verwenden. Fügen Sie Ihr Notebook in den Cluster an, und führen Sie das Notebook aus.

Darüber hinaus können Sie zu spezifischeren Themen verzweigen:

Arbeiten mit größeren Datasets mithilfe von Apache Spark
Hinzufügen von Visualisierungen
Automatisieren Ihrer Workload als Auftrag
Entwickeln in integrierten Entwicklungsumgebungen

Anleitungen

In den folgenden Tutorials finden Sie Beispielcode und Notebooks, um gängige Workflows kennenzulernen. Eine Anleitung zum Importieren von Notebookbeispielen in Ihren Arbeitsbereich finden Sie unter Importieren eines Notebooks.

Tutorial: Laden und Transformieren von Daten mithilfe von Apache Spark-DataFrames
Unter Tutorial: Delta Lake finden Sie Beispiele für Scala.
Unter Verwenden von XGBoost in Azure Databricks finden Sie ein Scala-Beispiel.

Verweis

In den folgenden Unterabschnitten finden Sie die wichtigsten Features und Tipps, die Ihnen den Einstieg in die Entwicklung in Azure Databricks mit Scala erleichtern.

Scala-API

Diese Links bieten eine Einführung in und einen Verweis auf die Apache Spark Scala-API.

Verwalten von Code mit Notebooks und Databricks-Git-Ordnern

Databricks-Notebooks unterstützen Scala. Diese Notebooks bieten ähnliche Funktionen wie Jupyter, jedoch mit Ergänzungen wie integrierten Visualisierungen unter Verwendung von Big Data, Apache Spark-Integrationen für das Debugging und die Leistungsüberwachung sowie MLflow-Integrationen für die Nachverfolgung von Machine Learning-Experimenten. Beginnen Sie mit dem Importieren eines Notebooks. Sobald Sie Zugriff auf einen Cluster haben, können Sie ein Notebook an den Cluster anfügen und das Notebook ausführen.

Tipp

Starten Sie den Kernel neu, um den Status Ihres Notebooks zurückzusetzen. Für Jupyter-Benutzer entspricht die Option "Kernel neu starten" in Jupyter dem Trennen und Erneuten Anfügen eines Notizbuchs in Databricks. Um den Kernel in einem Notebook neu zu starten, klicken Sie in der Notebook-Symbolleiste auf die Computeauswahl, und bewegen Sie den Mauszeiger über den angefügten Cluster oder das SQL-Warehouse in der Liste, um ein Seitenmenü anzuzeigen. Wählen Sie Trennen und wieder anfügen aus. Dadurch wird das Notebook von Ihrem Cluster getrennt und wieder angefügt, wodurch der Prozess neu gestartet wird.

Mit Databricks-Git-Ordnern können Benutzende Notebooks und andere Dateien mit Git-Repositorys synchronisieren. Databricks-Git-Ordner helfen bei der Versionsverwaltung von Code und der Zusammenarbeit und können den Import eines vollständigen Repositorys von Code in Azure Databricks, die Anzeige früherer Notebook-Versionen und die Integration mit der IDE-Entwicklung vereinfachen. Beginnen Sie mit dem Klonen eines Remote-Git-Repositorys. Sie können dann Notebooks mit dem Repository-Klon öffnen oder erstellen, einem Cluster das Notebook anfügen und das Notebook ausführen.

Cluster und Bibliotheken

Azure Databricks-Compute bietet Computeverwaltung für Cluster beliebiger Größe: von Clustern mit nur einem Knoten bis hin zu großen Clustern. Sie können die Clusterhardware und die Bibliotheken Ihren Anforderungen entsprechend anpassen. Data Scientists beginnen ihre Arbeit in der Regel entweder mit dem Erstellen eines Clusters oder mit der Verwendung eines vorhandenen freigegebenen Clusters. Sobald Sie Zugriff auf einen Cluster haben, können Sie ein Notebook an den Cluster anfügen oder einen Auftrag im Cluster ausführen.

Für kleine Workloads, die nur einzelne Knoten benötigen, können Datenanalysten Einzelknotencompute verwenden, um Kosten zu sparen.
Ausführliche Tipps finden Sie in den Empfehlungen für die Computekonfiguration.
Administratoren können Clusterrichtlinien einrichten, um die Erstellung von Clustern zu vereinfachen und zu steuern.

Azure Databricks-Cluster verwenden eine Databricks Runtime-Komponente, die viele beliebte Bibliotheken vorgefertigt zur Verfügung stellt, darunter Apache Spark, Delta Lake und mehr. Sie können auch zusätzliche Bibliotheken von Drittanbietern oder benutzerdefinierte Bibliotheken installieren, die mit Notebooks und Aufträgen verwendet werden.

Beginnen Sie mit den Standardbibliotheken in Versionshinweise zu Databricks Runtime-Versionen und -Kompatibilität. Eine vollständige Liste der vorinstallierten Bibliotheken finden Sie unter Versionshinweise zu Databricks Runtime-Versionen und -Kompatibilität.
Sie können auch Scala-Bibliotheken in einem Cluster installieren.
Weitere Informationen finden Sie unter Installieren von Bibliotheken.

Visualisierungen

Azure Databricks Scala-Notebooks verfügen über integrierte Unterstützung für viele Arten von Visualisierungen. Sie können auch Legacy-Visualisierungen verwenden:

Interoperabilität

In diesem Abschnitt werden die Funktionen beschrieben, die die Interoperabilität zwischen Scala und SQL unterstützen.

Aufträge

Sie können Scala-Workloads als geplante oder ausgelöste Aufträge in Azure Databricks automatisieren. Aufträge können Notebooks und JAR-Dateien ausführen.

Ausführliche Informationen zum Erstellen eines Auftrags über die Benutzeroberfläche finden Sie unter Konfigurieren und Bearbeiten von Lakeflow-Aufträgen.
Mit den Databricks SDKs können Sie Aufträge programmgesteuert erstellen, bearbeiten und löschen.
Die Databricks CLI bietet eine komfortable Befehlszeilenschnittstelle zum Aufrufen von Aufträgen.

IDEs, Entwicklertools und SDKs

Neben der Entwicklung von Scala-Code innerhalb von Azure Databricks Notebooks können Sie auch extern mithilfe von integrierten Entwicklungsumgebungen (IDEs) wie IntelliJ IDEA entwickeln. Um die Arbeit zwischen externen Entwicklungsumgebungen und Azure Databricks zu synchronisieren, gibt es mehrere Möglichkeiten:

Code: Sie können den Code mithilfe von Git synchronisieren. Weitere Informationen finden Sie unter Git-Integration für Databricks-Git-Ordner.
Bibliotheken und Aufträge: Sie können Bibliotheken extern erstellen und in Azure Databricks hochladen. Diese Bibliotheken können in Azure Databricks-Notebooks importiert werden, oder Sie können sie verwenden, um Aufträge zu erstellen. Siehe Installieren von Bibliotheken und Lakeflow-Aufträgen.
Remotecomputerausführung: Sie können den Code von Ihrer lokalen IDE aus zur interaktiven Entwicklung und zum Testen ausführen. Die IDE kann mit Azure Databricks kommunizieren, um umfangreiche Berechnungen auf Azure Databricks-Clustern auszuführen. Sie können beispielsweise IntelliJ IDEA mit Databricks Connect verwenden.

Databricks stellt verschiedene SDKs bereit, die die Automatisierung und Integration mit externen Tools unterstützen. Sie können die Databricks SDKs verwenden, um Ressourcen wie Cluster und Bibliotheken, Code und andere Objekte im Arbeitsbereich, Workloads und Aufträge sowie vieles mehr zu verwalten. Weitere Informationen finden Sie unter Databricks SDKs.

Weitere Informationen zu IDEs, Entwicklertools und SDKs finden Sie unter Lokale Entwicklungstools.

Zusätzliche Ressourcen

Die Databricks Academy bietet eigenverantwortliche und Präsenzkurse zu vielen Themen.

Freigeben über

Azure Databricks für Scala-Entwickler

Anleitungen

Verweis

Scala-API

Verwalten von Code mit Notebooks und Databricks-Git-Ordnern

Cluster und Bibliotheken

Visualisierungen

Interoperabilität

Aufträge

IDEs, Entwicklertools und SDKs

Zusätzliche Ressourcen

Feedback

Zusätzliche Ressourcen