Leer en inglés

Compartir a través de


Desarrollo en Databricks

Los usuarios desarrolladores de Databricks incluyen a científicos de datos, ingenieros de datos, analistas de datos, ingenieros de aprendizaje automático, así como a ingenieros de DevOps y MLOps, todos ellos construyendo soluciones e integraciones para ampliar y personalizar Databricks según sus necesidades específicas. Además de las muchas API de Databricks y las características de ingeniería de datos disponibles en el área de trabajo, también hay muchas herramientas para conectarse a Databricks y desarrollar localmente que admitan a los usuarios desarrolladores de Databricks.

En este artículo se proporciona información general sobre las API y las herramientas disponibles para los usuarios desarrolladores de Databricks.

Inicio de la codificación en el área de trabajo

Desarrollar en el área de trabajo es una excelente manera de familiarizarse rápidamente con las API de Databricks. Databricks admite Python, SQL, Scala, R y otras características centradas en el desarrollador en el área de trabajo, incluyendo herramientas y utilidades que resultan útiles.

Aquí se muestran algunas maneras de comenzar:

Creación de aplicaciones y soluciones personalizadas

Azure Databricks proporciona herramientas para el desarrollo en espacio de trabajo y local. En el área de trabajo, puede crear aplicaciones mediante la interfaz de usuario. Los datos son fácilmente accesibles en los volúmenes del Catálogo de Unity y en los archivos del área de trabajo. Las características exclusivas del área de trabajo, como el Asistente de Databricks para la depuración, están disponibles. Además, otras funcionalidades, tales como los cuadernos, están completamente equipadas, y el control de código fuente está disponible con carpetas de Git.

Como alternativa, desarrolle soluciones personalizadas con un IDE en la máquina local para aprovechar la funcionalidad completa de un entorno de desarrollo enriquecido. El desarrollo local admite una amplia gama de lenguajes, lo que significa que las características dependientes del lenguaje, como los entornos de depuración y prueba, están disponibles para apoyar proyectos más grandes, junto con el acceso directo al control de versiones.

Para obtener recomendaciones de uso de herramientas, consulte ¿Qué herramienta de desarrollador debería usar?.

Característica Descripción
Autenticación y autorización Configure la autenticación y la autorización para que las herramientas, scripts y aplicaciones funcionen con Azure Databricks.
Aplicaciones de Databricks Cree aplicaciones personalizadas de inteligencia artificial y datos seguros en la plataforma de Databricks, que se podrán compartir con otros usuarios.
Extensión de Databricks para Visual Studio Code Conéctese a las áreas de trabajo remotas de Azure Databricks desde Visual Studio Code para facilitar la configuración de la conexión al área de trabajo de Databricks y una interfaz de usuario para administrar recursos de Databricks.
Extensión PyCharm Databricks Configure una conexión a un área de trabajo de Databricks remota y ejecute archivos en clústeres de Databricks desde PyCharm. Este complemento se desarrolla y proporciona por JetBrains en colaboración con Databricks.
SDK de Databricks Automatice las interacciones con Databricks mediante un SDK, en lugar de llamar directamente a las API de REST. Los SDK también están disponibles en el área de trabajo.
- SDK de Databricks para Python
- SDK de Databricks para Go
- SDK de Databricks para Java
- SDK de Databricks para R

Conexión a Databricks

La conexión a Databricks es un componente necesario de muchas integraciones y soluciones, y Databricks proporciona una gran selección de herramientas de conexión entre las que elegir. En la tabla siguiente, se proporcionan herramientas para conectar el entorno de desarrollo y los procesos a los recursos y al área de trabajo de Azure Databricks.

Característica Descripción
Conexión de Databricks Conéctese a Azure Databricks con entornos de desarrollo integrados (IDE) populares, como PyCharm, IntelliJ IDEA, Eclipse, RStudio y JupyterLab.
Extensión de Databricks para Visual Studio Code Configuración sencilla de la conexión al área de trabajo de Databricks y una interfaz de usuario para administrar los recursos de Databricks.
Herramientas y controladores de SQL Conéctese a Azure Databricks para ejecutar scripts y comandos SQL, interactuar mediante programación con Azure Databricks e integrar la funcionalidad de SQL de Azure Databricks en aplicaciones escritas en lenguajes populares, como Python, Go, JavaScript y TypeScript.

Sugerencia

Es posible conectar también muchas herramientas conocidas adicionales de terceros a clústeres y almacenes de SQL para acceder a los datos de Azure Databricks. Consulte Partners de tecnología.

Administración de la infraestructura y los recursos

Los desarrolladores e ingenieros de datos que creen canalizaciones de CI/CD para automatizar el aprovisionamiento y la administración de infraestructura y recursos podrán elegir entre las siguientes herramientas, que admiten escenarios de canalización más sencillos y complicados.

Para obtener recomendaciones de uso de herramientas, consulte ¿Qué herramienta de desarrollador debería usar?.

Característica Descripción
CLI de Databricks Acceda a la funcionalidad de Azure Databricks mediante la interfaz de la línea de comandos (CLI) de Databricks. La CLI encapsula la API de REST de Databricks, por lo que, en lugar de enviar llamadas a la API de REST directamente mediante curl o Postman, use la CLI de Databricks para interactuar con Databricks. Use la CLI desde un terminal local o úsela desde el área de trabajo del terminal web.
Conjuntos de recursos de Databricks Defina y administre recursos de Databricks y la canalización de CI/CD mediante los procedimientos recomendados de desarrollo, pruebas e implementación estándar del sector para proyectos de datos e inteligencia artificial con los Paquetes de activos de Databricks, una funcionalidad de la CLI de Databricks.
Proveedor de Databricks Terraform y Terraform CDKTF para Databricks Aprovisione la infraestructura y los recursos de Azure Databricks con Terraform.
Herramientas de CI/CD Integre marcos y sistemas de CI/CD populares, como Acciones de GitHub, Jenkins y Apache Airflow.

Colaboración y uso compartido de código

Entre muchas otras características de colaboración del área de trabajo, Databricks permite específicamente que los usuarios desarrolladores colaboren y compartan código en el área de trabajo con estas características:

Característica Descripción
UDF Desarrolle UDF (funciones definidas por el usuario) para reutilizar y compartir código.
Carpetas de Git Configure las carpetas de Git para el control de versiones y de código fuente en los archivos de proyecto de Databricks.

Interactuar con la comunidad de desarrolladores de Databricks

Databricks tiene una comunidad de desarrolladores activa, que es compatible con los siguientes programas y recursos:

  • MVPs de Databricks: este programa reconoce a los miembros de la comunidad, científicos de datos, ingenieros de datos, desarrolladores y entusiastas del código abierto que van más allá en la comunidad de datos e inteligencia artificial. Para obtener más información, vea MVP de Databricks.
  • Entrenamiento: Databricks proporciona módulos de aprendizaje para desarrolladores de Apache Spark, ingenieros de IA generativa, ingenieros de datos, etc.
  • Community: Una gran cantidad de conocimientos está disponible en la comunidad de Databricks y la comunidad de Apache Spark .