Freigeben über


Verwenden von Eclipse mit PyDev und Databricks Connect für Python

Hinweis

In diesem Artikel wird Databricks Connect für Databricks Runtime 13.0 und höher behandelt.

In diesem Artikel wird beschrieben, wie Databricks Connect für Scala und Eclipse mit PyDev verwendet wird. Mit Databricks Connect können Sie beliebte IDEs, Notebookserver und andere benutzerdefinierte Anwendungen mit Azure Databricks-Clustern verbinden. Weitere Informationen finden Sie unter Was ist Databricks Connect?.

Hinweis

Bevor Sie beginnen, Databricks Connect zu verwenden, müssen Sie den Databricks Connect-Client einrichten.

Um Databricks Connect und Eclipse mit PyDev zu verwenden, befolgen Sie diese Anweisungen.

  1. Starten Sie Eclipse.
  2. Erstellen eines Projekts: Klicken Sie auf Datei > Neu > Projekt > PyDev > PyDev-Projekt, und klicken Sie dann auf Weiter.
  3. Geben Sie einen Projektnamen an.
  4. Geben Sie für Project-Inhalte den Pfad zu Ihrer virtuellen Python-Umgebung an.
  5. Klicken Sie auf Bitte konfigurieren Sie einen Interpreter, bevor Sie fortfahren.
  6. Klicken Sie auf Manuelles konfigurieren.
  7. Klicken Sie Neu > Suche nach ausführbarer python/pypy-Datei.
  8. Browsen Sie zum vollständigen Pfad zum Python-Interpreter, der in der virtuellen Umgebung referenziert ist, wählen Sie diesen aus, und klicken Sie dann auf Öffnen.
  9. Klicken Sie im Dialogfeld Interpreter auswählen auf OK.
  10. Klicken Sie im Dialogfeld Auswahl erforderlich auf OK.
  11. Klicken Sie im Dialogfeld Einstellungen auf Übernehmen und Schließen.
  12. Klicken Sie im Dialogfeld PyDev-Projekt auf Fertig stellen.
  13. Klicken Sie auf Perspektive öffnen.
  14. Fügen Sie dem Projekt eine Python-Codedatei (.py) hinzu, die entweder den Beispielcode oder Ihren eigenen Code enthält. Wenn Sie eigenen Code verwenden, müssen Sie mindestens DatabricksSession initialisieren, wie im Beispielcode gezeigt.
  15. Legen Sie bei geöffneter Python-Codedatei alle Breakpoints fest, an denen der Code während der Ausführung angehalten werden soll.
  16. Wählen Sie zum Ausführen des Codes Ausführen > Ausführen aus. Der gesamte Python-Code wird lokal ausgeführt, während der gesamte PySpark-Code, einschließlich DataFrame-Vorgängen, im Cluster im Azure Databricks-Remotearbeitsbereich ausgeführt wird. Die Ausführungsantworten werden an den lokalen Aufrufer zurückgesendet.
  17. Wählen Sie zum Debuggen des Codes Ausführen > Debuggen aus. Der gesamte Python-Code wird lokal debuggt, während der gesamte PySpark-Code weiterhin im Cluster im Azure Databricks-Remotearbeitsbereich ausgeführt wird. Der Kerncode der Spark-Engine kann nicht direkt vom Client aus debuggt werden.

Genauere Anweisungen zum Ausführen und Debuggen finden Sie unter Ausführen eines Programms.