Uso de PyCharm con Databricks Connect para Python

Artículo
04/22/2024

Nota:

En este artículo se trata Databricks Connect para Databricks Runtime 13.0 y versiones posteriores.

En este artículo se explica cómo usar Databricks Connect para Python con PyCharm. Databricks Connect le permite conectar los clústeres de Azure Databricks a entornos de desarrollo integrado populares, servidores de cuadernos y otras aplicaciones personalizadas. Consulte ¿Qué es Databricks Connect?

Nota:

Antes de empezar a usar Databricks Connect, es necesario configurar el cliente de Databricks Connect.

IntelliJ IDEA Ultimate también proporciona compatibilidad de complementos para PyCharm con Python. Para más información, consulte Complemento de Python para IntelliJ IDEA Ultimate.

Si quiere usar Databricks Connect con PyCharm y Python, siga estas instrucciones para venv o Poetry. Este artículo se ha probado con PyCharm Community Edition 2023.3.5. Si usa una versión o edición diferente de PyCharm, las instrucciones siguientes pueden variar.

Uso de PyCharm con venv y Databricks Connect para Python

Inicie PyCharm.
Cree un proyecto: haga clic en File > New Project.
En el cuadro de diálogoNuevo proyecto, haga clic en Pure Python.
En Ubicación, haga clic en el icono de carpeta y, a continuación, seleccione la ruta de acceso al entorno virtual existente venv que creó en Instalar Databricks Connect para Python.
Para Tipo de intérprete, haga clic en Entorno personalizado.
En Entorno, seleccione Seleccionar existente.
En Tipo, seleccione Python.
Para Ruta de acceso, use el icono de carpeta o la lista desplegable para seleccionar la ruta de acceso al intérprete de Python en el entorno virtual existente venv.

Sugerencia

El intérprete de Python para un entorno virtual de venv se instala normalmente en </path-to-venv>/bin. Para obtener más información, consulte venv.
Haga clic en OK.
Haga clic en Crear.
Agregue al proyecto un archivo de código de Python (.py) que contenga el código de ejemplo o su propio código. Si usa su propio código, como mínimo debe inicializar DatabricksSession, como se muestra en el código de ejemplo.
Con el archivo de código de Python abierto, establezca los puntos de interrupción en los que quiera que se detenga el código cuando se ejecuta.
Para ejecutar el código, haga clic en Ejecución > Ejecutar. Todo el código de Python se ejecuta localmente, mientras que todo el código de PySpark que involucra operaciones de DataFrame se ejecuta en el clúster en el área de trabajo remota de Azure Databricks y las respuestas de ejecución se envían de vuelta al autor de la llamada local.
Para depurar el código, haga clic en Ejecución > Depurar. Todo el código de Python se depura localmente, mientras que todo el código de PySpark continúa ejecutándose en el clúster en el área de trabajo remota de Azure Databricks. El código principal del motor de Spark no se puede depurar directamente desde el cliente.
Siga las instrucciones que aparecen en pantalla para empezar a ejecutar o depurar el código.

Para obtener instrucciones de ejecución y depuración más específicas, consulte Ejecución sin configuración previa y Depuración.

Uso de PyCharm con Poetry y Databricks Connect para Python

Inicie PyCharm.
Cree un proyecto: haga clic en File > New Project.
1. En el cuadro de diálogoNuevo proyecto, haga clic en Pure Python.
En Ubicación, haga clic en el icono de carpeta y, a continuación, seleccione la ruta de acceso al entorno virtual existente de Poetry que creó en Instalar Databricks Connect para Python.
Para Tipo de intérprete, haga clic en Entorno personalizado.
En Entorno, seleccione Seleccionar existente.
En Tipo, seleccione Python.
Para Ruta de acceso, use el icono de carpeta o la lista desplegable para seleccionar la ruta de acceso al intérprete de Python en el entorno virtual de Poetry existente.

Sugerencia

Asegúrese de seleccionar la ruta de acceso al intérprete de Python. No seleccione la ruta de acceso al ejecutable de Poetry.

Para obtener información sobre dónde está instalada la versión del sistema del intérprete de Python, consulte Cómo incorporar Python a la ruta de acceso.
Haga clic en OK.
Haga clic en Crear.
Agregue al proyecto un archivo de código de Python (.py) que contenga el código de ejemplo o su propio código. Si usa su propio código, como mínimo debe inicializar DatabricksSession, como se muestra en el código de ejemplo.
Con el archivo de código de Python abierto, establezca los puntos de interrupción en los que quiera que se detenga el código cuando se ejecuta.
Para ejecutar el código, haga clic en Ejecución > Ejecutar. Todo el código de Python se ejecuta localmente, mientras que todo el código de PySpark que involucra operaciones de DataFrame se ejecuta en el clúster en el área de trabajo remota de Azure Databricks y las respuestas de ejecución se envían de vuelta al autor de la llamada local.
Para depurar el código, haga clic en Ejecución > Depurar. Todo el código de Python se depura localmente, mientras que todo el código de PySpark continúa ejecutándose en el clúster en el área de trabajo remota de Azure Databricks. El código principal del motor de Spark no se puede depurar directamente desde el cliente.
Siga las instrucciones que aparecen en pantalla para empezar a ejecutar o depurar el código.

Para obtener instrucciones de ejecución y depuración más específicas, consulte Ejecución sin configuración previa y Depuración.

Compartir a través de

Uso de PyCharm con Databricks Connect para Python

Uso de PyCharm con venv y Databricks Connect para Python

Uso de PyCharm con Poetry y Databricks Connect para Python

Recursos adicionales