Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Nota:
En este artículo se describe Databricks Connect para Databricks Runtime 13.3 LTS y versiones posteriores.
Databricks Connect permite conectarse al proceso de Databricks desde un entorno de desarrollo local fuera de Databricks. Después, puede desarrollar, depurar y probar el código directamente desde el IDE antes de mover el código a un cuaderno o trabajo en Databricks. Consulte ¿Qué es Databricks Connect?
Portabilidad
Para realizar la transición del desarrollo local a la implementación a Databricks sin problemas, todas las API de Databricks Connect están disponibles en cuadernos de Databricks como parte del entorno de ejecución de Databricks correspondiente. Esto le permite ejecutar el código en un cuaderno de Databricks sin cambios en el código.
Comportamiento de DatabricksSession
El comportamiento de DatabricksSession difiere ligeramente al usar Databricks Connect en un entorno de desarrollo local y en cuadernos y trabajos en el área de trabajo de Databricks.
Comportamiento del entorno de desarrollo local
Al ejecutar código localmente dentro de un IDE fuera de Databricks, DatabricksSession.builder.getOrCreate() obtiene la sesión de Spark existente para la configuración proporcionada si existe o crea una nueva sesión de Spark si no existe.
DatabricksSession.builder.create() siempre crea una nueva sesión de Spark. Los parámetros de conexión como host, tokeny cluster_id se rellenan desde el código fuente, las variables de entorno o el .databrickscfg archivo de perfiles de configuración.
En otras palabras, cuando se ejecuta con Databricks Connect, el código siguiente crea dos sesiones independientes:
spark1 = DatabricksSession.builder.create()
spark2 = DatabricksSession.builder.create()
Comportamiento del área de trabajo de Databricks
Cuando se ejecuta código en un cuaderno o trabajo en el área de trabajo de Databricks, DatabricksSession.builder.getOrCreate() devuelve la sesión de Spark predeterminada (también accesible a través de la spark variable) cuando se usa sin ninguna configuración adicional. La spark variable está preconfigurada para conectarse a la instancia de proceso a la que está asociado el cuaderno o el trabajo. Se crea una nueva sesión de Spark si se establecen parámetros de conexión adicionales, por ejemplo, mediante DatabricksSession.builder.clusterId(...).getOrCreate() o DatabricksSession.builder.serverless().getOrCreate().
DatabricksSession.builder.create() requiere parámetros de conexión explícitos en un cuaderno, como DatabricksSession.builder.clusterId(...).create(), de lo contrario, devuelve un [UNSUPPORTED] error.
Es posible usar Databricks Connect para conectarse a los recursos de cómputo de Databricks que no están vinculados al notebook o al trabajo mediante remote(), que acepta una configuración kwargs o los métodos de configuración individuales, como host() o token(). En estos casos, se crea una nueva sesión para el proceso al que se hace referencia, de forma similar a cuando se usa fuera de un cuaderno o trabajo de Databricks.
Nota:
En el caso de los cuadernos que se ejecutan en un proceso sin servidor, las consultas agotan el tiempo de espera después de 9000 segundos. Puede personalizarlo estableciendo la propiedad spark.databricks.execution.timeoutde configuración de Spark . Consulte Establecimiento de las propiedades de configuración de Spark en Azure Databricks.