Freigeben über


Entwickeln mit Databricks

Databricks-Entwickelnde umfassen wissenschaftliche Fachkräfte für Daten, technische Fachkräfte für Daten, Data Analysts, Machine Learning-Techniker sowie technische Fachkräfte für DevOps und MLOps. Alle erstellen Lösungen und Integrationen, um Databricks für ihre spezifischen Anforderungen zu erweitern und anzupassen. Zusätzlich zu den vielen im Arbeitsbereich verfügbaren Databricks-APIs und Datentechnikfeatures gibt es auch viele Tools zum Herstellen einer Verbindung mit Databricks und zur lokalen Entwicklung, die Entwicklerbenutzende von Databricks unterstützen.

Dieser Artikel enthält eine Übersicht über APIs und Tools, die für Databricks-Entwicklerbenutzende verfügbar sind.

Beginnen mit dem Programmieren im Arbeitsbereich

Die Entwicklung im Arbeitsbereich ist eine hervorragende Möglichkeit, sich schnell mit Databricks-APIs vertraut zu machen. Databricks unterstützt Python, SQL, Scala, R und andere entwicklungsorientierte Features im Arbeitsbereich, einschließlich hilfreicher Tools und Dienstprogramme.

Hier sind einige Möglichkeiten zum Beginnen:

  • Lesen Sie eine Übersicht, und suchen Sie Links zu Tutorials für verschiedene Szenarios für Python, Scala und R. Eine Tabelle mit Tools, die in verschiedenen Sprachen unterstützt werden, finden Sie unter Sprachenübersicht.
  • Durchsuchen Sie die SQL-Sprachreferenz, um sich den vollen Umfang der Funktionen anzusehen.
  • Arbeiten Sie das folgende Tutorial in Python, Scala oder R durch, um eine Einführung in Spark-APIs zu erhalten: Tutorial: Laden und Transformieren von Daten mithilfe von Apache Spark DataFrames. Weitere einfache Beispiele für PySpark befinden sich in PySpark-Grundlagen.
  • Durchsuchen Sie die verfügbare Referenzdokumentation, einschließlich der REST-API-Referenz, die eine gute Übersicht über Databricks-Objekte bietet, die auch mit anderen Tools erstellt und geändert werden können.
  • Installieren Sie das Python-SDK in einem Notebook, und schreiben Sie eine einfache Funktion.
  • Verschieben Sie einige Dateien mithilfe der Databricks Utilitiesfs-Befehle, um sich mit der Verwendung der dbutils-Hilfsprogramme zum Bearbeiten der Databricks-Umgebung vertraut zu machen.

Erstellen von benutzerdefinierten Apps und Lösungen

Azure Databricks bietet Tools für Arbeitsbereiche und lokale Entwicklung. Im Arbeitsbereich können Sie Apps mithilfe der Benutzeroberfläche erstellen, Daten sind in Unity Catalog-Volumes und Arbeitsbereichsdateien leicht zugänglich, Nur-Arbeitsbereichfeatures wie Databricks Assistant zum Debuggen sind verfügbar, andere Funktionen wie Notebooks sind vollständig verfügbar, und die Quellcodeverwaltung ist mit Git-Ordnern verfügbar.

Alternativ können Sie benutzerdefinierte Lösungen mithilfe einer IDE auf Ihrem lokalen Computer entwickeln, um die volle Funktionalität einer umfassenden Entwicklungsumgebung zu nutzen. Die lokale Entwicklung unterstützt eine breitere Palette von Sprachen, was bedeutet, dass sprachabhängige Features wie Debugging und Testframeworks verfügbar sind, um größere Projekte sowie direkten Zugriff auf die Quellcodeverwaltung zu unterstützen.

Empfehlungen zur Toolverwendung finden Sie unter Welches Entwicklertool sollte ich verwenden?.

Merkmal Beschreibung
Authentifizieren und Autorisieren Konfigurieren Sie die Authentifizierung und Autorisierung für Ihre Tools, Skripts und Apps für die Arbeit mit Azure Databricks.
Databricks-Apps Erstellen Sie sichere Daten und benutzerdefinierte KI-Anwendungen auf der Databricks-Plattform, die Sie für andere Benutzende freigeben können.
Databricks-Erweiterung für Visual Studio Code Stellen Sie eine Verbindung zu Ihren Azure Databricks Remote-Arbeitsbereichen über Visual Studio Code her, für eine einfache Konfiguration Ihrer Verbindung zum Databricks-Arbeitsbereich sowie eine Benutzeroberfläche zum Verwalten von Databricks-Ressourcen.
PyCharm-Databricks-Plug-In Konfigurieren Sie eine Verbindung mit einem Databricks-Remotearbeitsbereich, und führen Sie Dateien auf Databricks-Clustern aus PyCharm aus. Dieses Plug-In wird von JetBrains in Partnerschaft mit Databricks entwickelt und bereitgestellt.
Databricks-SDKs Automatisieren Sie Ihre Interaktionen mit Databricks mithilfe eines SDK, anstatt die REST-APIs direkt aufzurufen. Die SDKs sind auch im Arbeitsbereich verfügbar.

Verbindung zu Databricks herstellen

Die Verbindung mit Databricks ist ein notwendiger Teil vieler Integrationen und Lösungen, und Databricks bietet eine große Auswahl an Verbindungstools, aus denen Sie wählen können. Die folgende Tabelle enthält Tools zum Verbinden Ihrer Entwicklungsumgebung und Prozesse mit Ihrem Azure Databricks-Arbeitsbereich und Ihren Ressourcen.

Merkmal Beschreibung
Databricks Connect Stellen Sie eine Verbindung mit Azure Databricks mithilfe gängiger integrierter Entwicklungsumgebungen (IDEs) wie PyCharm, IntelliJ IDEA, Eclipse, RStudio und JupyterLab her.
Databricks-Erweiterung für Visual Studio Code Einfache Konfiguration Ihrer Verbindung mit einem Databricks-Arbeitsbereich und einer Benutzeroberfläche zum Verwalten von Databricks-Ressourcen.
SQL-Treiber und -Tools Stellen Sie eine Verbindung mit Azure Databricks her, um SQL-Befehle und -Skripts auszuführen, programmgesteuert mit Azure Databricks zu interagieren und Azure Databricks SQL-Funktionen in Anwendungen zu integrieren, die in gängigen Sprachen wie Python, Go, JavaScript und TypeScript geschrieben wurden.

Tipp

Sie können auch viele gängige andere Tools von Drittanbietern mit Clustern und SQL-Warehouses verbinden, um auf Daten in Azure Databricks zuzugreifen. Siehe Technologiepartner.

Verwalten von Infrastruktur und Ressourcen

Entwickler und Datentechniker können aus den folgenden Tools wählen, um die Bereitstellung und Verwaltung von Infrastruktur und Ressourcen zu automatisieren. Diese Tools unterstützen sowohl einfache als auch komplizierte CI/CD-Pipelineszenarien.

Empfehlungen zur Toolverwendung finden Sie unter Welches Entwicklertool sollte ich verwenden?.

Merkmal Beschreibung
Databricks-Befehlszeilenschnittstelle (CLI) Greifen Sie auf die Azure Databricks-Funktionalitäten mithilfe der Databricks -Befehlszeilenschnittstelle (Command-Line Interface, CLI) zu. Die CLI umschließt die Databricks-REST-API. Statt REST-API-Aufrufe direkt mithilfe von curl oder Postman zu senden, können Sie die Databricks CLI verwenden, um mit Databricks zu interagieren. Verwenden Sie die CLI von einem lokalen Terminal aus, oder verwenden Sie sie aus dem Arbeitsbereich Web-Terminal.
Databricks-Ressourcenbundles Definieren und verwalten Sie Databricks-Ressourcen und Ihre CI/CD-Pipeline mithilfe von branchenüblichen Entwicklungs-, Test- und Bereitstellungsverfahren für Ihre Daten- und KI-Projekte unter Verwendung von Databricks Asset Bundles, einer Funktion der Databricks CLI.
Databricks Terraform-Anbieter und Terraform CDKTF für Databricks Stellen Sie die Azure Databricks-Infrastruktur und -Ressourcen mithilfe von Terraform bereit.
CI/CD-Tools Integrieren Sie gängige CI/CD-Systeme und -Frameworks wie GitHub Actions, Jenkins und Apache Airflow.

Zusammenarbeiten und Freigeben von Code

Unter vielen anderen Features für die Zusammenarbeit im Arbeitsbereich unterstützt Databricks speziell Entwicklerbenutzende, die mit diesen Features im Arbeitsbereich zusammenarbeiten und Code freigeben möchten:

Merkmal Beschreibung
UDFs Entwickeln Sie UDFs (benutzerdefinierte Funktionen), um Code wiederzuverwenden und freizugeben.
Git-Ordner Konfigurieren Sie Git-Ordner für Versions- und Quellcodeverwaltungsbeiträge zu Ihren Databricks-Projektdateien.

Interagieren mit der Databricks-Entwicklercommunity

Databricks verfügt über eine aktive Entwicklercommunity, die von den folgenden Programmen und Ressourcen unterstützt wird: