Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Databricks-Entwickelnde umfassen wissenschaftliche Fachkräfte für Daten, technische Fachkräfte für Daten, Data Analysts, Machine Learning-Techniker sowie technische Fachkräfte für DevOps und MLOps. Alle erstellen Lösungen und Integrationen, um Databricks für ihre spezifischen Anforderungen zu erweitern und anzupassen. Zusätzlich zu den vielen im Arbeitsbereich verfügbaren Databricks-APIs und Datentechnikfeatures gibt es auch viele Tools zum Herstellen einer Verbindung mit Databricks und zur lokalen Entwicklung, die Entwicklerbenutzende von Databricks unterstützen.
Dieser Artikel enthält eine Übersicht über APIs und Tools, die für Databricks-Entwicklerbenutzende verfügbar sind.
Beginnen mit dem Programmieren im Arbeitsbereich
Die Entwicklung im Arbeitsbereich ist eine hervorragende Möglichkeit, sich schnell mit Databricks-APIs vertraut zu machen. Databricks unterstützt Python, SQL, Scala, R und andere entwicklungsorientierte Features im Arbeitsbereich, einschließlich hilfreicher Tools und Dienstprogramme.
Hier sind einige Möglichkeiten zum Beginnen:
- Lesen Sie eine Übersicht, und suchen Sie Links zu Tutorials für verschiedene Szenarios für Python, Scala und R. Eine Tabelle mit Tools, die in verschiedenen Sprachen unterstützt werden, finden Sie unter Sprachenübersicht.
- Durchsuchen Sie die SQL-Sprachreferenz, um sich den vollen Umfang der Funktionen anzusehen.
- Arbeiten Sie das folgende Tutorial in Python, Scala oder R durch, um eine Einführung in Spark-APIs zu erhalten: Tutorial: Laden und Transformieren von Daten mithilfe von Apache Spark DataFrames. Weitere einfache Beispiele für PySpark befinden sich in PySpark-Grundlagen.
- Durchsuchen Sie die verfügbare Referenzdokumentation, einschließlich der REST-API-Referenz, die eine gute Übersicht über Databricks-Objekte bietet, die auch mit anderen Tools erstellt und geändert werden können.
- Installieren Sie das Python-SDK in einem Notebook, und schreiben Sie eine einfache Funktion.
- Verschieben Sie einige Dateien mithilfe der Databricks Utilities
fs-Befehle, um sich mit der Verwendung derdbutils-Hilfsprogramme zum Bearbeiten der Databricks-Umgebung vertraut zu machen.
Erstellen von benutzerdefinierten Apps und Lösungen
Azure Databricks bietet Tools für Arbeitsbereiche und lokale Entwicklung. Im Arbeitsbereich können Sie Apps mithilfe der Benutzeroberfläche erstellen, Daten sind in Unity Catalog-Volumes und Arbeitsbereichsdateien leicht zugänglich, Nur-Arbeitsbereichfeatures wie Databricks Assistant zum Debuggen sind verfügbar, andere Funktionen wie Notebooks sind vollständig verfügbar, und die Quellcodeverwaltung ist mit Git-Ordnern verfügbar.
Alternativ können Sie benutzerdefinierte Lösungen mithilfe einer IDE auf Ihrem lokalen Computer entwickeln, um die volle Funktionalität einer umfassenden Entwicklungsumgebung zu nutzen. Die lokale Entwicklung unterstützt eine breitere Palette von Sprachen, was bedeutet, dass sprachabhängige Features wie Debugging und Testframeworks verfügbar sind, um größere Projekte sowie direkten Zugriff auf die Quellcodeverwaltung zu unterstützen.
Empfehlungen zur Toolverwendung finden Sie unter Welches Entwicklertool sollte ich verwenden?.
| Merkmal | Beschreibung |
|---|---|
| Authentifizieren und Autorisieren | Konfigurieren Sie die Authentifizierung und Autorisierung für Ihre Tools, Skripts und Apps für die Arbeit mit Azure Databricks. |
| Databricks-Apps | Erstellen Sie sichere Daten und benutzerdefinierte KI-Anwendungen auf der Databricks-Plattform, die Sie für andere Benutzende freigeben können. |
| Databricks-Erweiterung für Visual Studio Code | Stellen Sie eine Verbindung zu Ihren Azure Databricks Remote-Arbeitsbereichen über Visual Studio Code her, für eine einfache Konfiguration Ihrer Verbindung zum Databricks-Arbeitsbereich sowie eine Benutzeroberfläche zum Verwalten von Databricks-Ressourcen. |
| PyCharm-Databricks-Plug-In | Konfigurieren Sie eine Verbindung mit einem Databricks-Remotearbeitsbereich, und führen Sie Dateien auf Databricks-Clustern aus PyCharm aus. Dieses Plug-In wird von JetBrains in Partnerschaft mit Databricks entwickelt und bereitgestellt. |
| Databricks-SDKs | Automatisieren Sie Ihre Interaktionen mit Databricks mithilfe eines SDK, anstatt die REST-APIs direkt aufzurufen. Die SDKs sind auch im Arbeitsbereich verfügbar. |
Verbindung zu Databricks herstellen
Die Verbindung mit Databricks ist ein notwendiger Teil vieler Integrationen und Lösungen, und Databricks bietet eine große Auswahl an Verbindungstools, aus denen Sie wählen können. Die folgende Tabelle enthält Tools zum Verbinden Ihrer Entwicklungsumgebung und Prozesse mit Ihrem Azure Databricks-Arbeitsbereich und Ihren Ressourcen.
| Merkmal | Beschreibung |
|---|---|
| Databricks Connect | Stellen Sie eine Verbindung mit Azure Databricks mithilfe gängiger integrierter Entwicklungsumgebungen (IDEs) wie PyCharm, IntelliJ IDEA, Eclipse, RStudio und JupyterLab her. |
| Databricks-Erweiterung für Visual Studio Code | Einfache Konfiguration Ihrer Verbindung mit einem Databricks-Arbeitsbereich und einer Benutzeroberfläche zum Verwalten von Databricks-Ressourcen. |
| SQL-Treiber und -Tools | Stellen Sie eine Verbindung mit Azure Databricks her, um SQL-Befehle und -Skripts auszuführen, programmgesteuert mit Azure Databricks zu interagieren und Azure Databricks SQL-Funktionen in Anwendungen zu integrieren, die in gängigen Sprachen wie Python, Go, JavaScript und TypeScript geschrieben wurden. |
Tipp
Sie können auch viele gängige andere Tools von Drittanbietern mit Clustern und SQL-Warehouses verbinden, um auf Daten in Azure Databricks zuzugreifen. Siehe Technologiepartner.
Verwalten von Infrastruktur und Ressourcen
Entwickler und Datentechniker können aus den folgenden Tools wählen, um die Bereitstellung und Verwaltung von Infrastruktur und Ressourcen zu automatisieren. Diese Tools unterstützen sowohl einfache als auch komplizierte CI/CD-Pipelineszenarien.
Empfehlungen zur Toolverwendung finden Sie unter Welches Entwicklertool sollte ich verwenden?.
| Merkmal | Beschreibung |
|---|---|
| Databricks-Befehlszeilenschnittstelle (CLI) | Greifen Sie auf die Azure Databricks-Funktionalitäten mithilfe der Databricks -Befehlszeilenschnittstelle (Command-Line Interface, CLI) zu. Die CLI umschließt die Databricks-REST-API. Statt REST-API-Aufrufe direkt mithilfe von curl oder Postman zu senden, können Sie die Databricks CLI verwenden, um mit Databricks zu interagieren. Verwenden Sie die CLI von einem lokalen Terminal aus, oder verwenden Sie sie aus dem Arbeitsbereich Web-Terminal. |
| Databricks-Ressourcenbundles | Definieren und verwalten Sie Databricks-Ressourcen und Ihre CI/CD-Pipeline mithilfe von branchenüblichen Entwicklungs-, Test- und Bereitstellungsverfahren für Ihre Daten- und KI-Projekte unter Verwendung von Databricks Asset Bundles, einer Funktion der Databricks CLI. |
| Databricks Terraform-Anbieter und Terraform CDKTF für Databricks | Stellen Sie die Azure Databricks-Infrastruktur und -Ressourcen mithilfe von Terraform bereit. |
| CI/CD-Tools | Integrieren Sie gängige CI/CD-Systeme und -Frameworks wie GitHub Actions, Jenkins und Apache Airflow. |
Zusammenarbeiten und Freigeben von Code
Unter vielen anderen Features für die Zusammenarbeit im Arbeitsbereich unterstützt Databricks speziell Entwicklerbenutzende, die mit diesen Features im Arbeitsbereich zusammenarbeiten und Code freigeben möchten:
| Merkmal | Beschreibung |
|---|---|
| UDFs | Entwickeln Sie UDFs (benutzerdefinierte Funktionen), um Code wiederzuverwenden und freizugeben. |
| Git-Ordner | Konfigurieren Sie Git-Ordner für Versions- und Quellcodeverwaltungsbeiträge zu Ihren Databricks-Projektdateien. |
Interagieren mit der Databricks-Entwicklercommunity
Databricks verfügt über eine aktive Entwicklercommunity, die von den folgenden Programmen und Ressourcen unterstützt wird:
- Databricks-MVPs: Dieses Programm erkennt Communitymitglieder, wissenschaftliche Fachkräfte für Daten, technische Fachkräfte für Daten, Entwickelnde und Open-Source-Enthusiasten an, die über die Daten- und KI-Community hinausgehen. Weitere Informationen finden Sie unter Databricks-MVPs.
- Schulung: Databricks bietet Lernmodule für Apache Spark-Entwickelnde, Generative KI-Fachkräfte, Technische Fachkräfte für Daten und viele mehr.
- Community: In der Databricks-Community und der Apache Spark-Community ist eine Fülle an Wissen verfügbar.