Los usuarios desarrolladores de Databricks incluyen a científicos de datos, ingenieros de datos, analistas de datos, ingenieros de aprendizaje automático, así como a ingenieros de DevOps y MLOps, todos ellos construyendo soluciones e integraciones para ampliar y personalizar Databricks según sus necesidades específicas. Además de las muchas API de Databricks y las características de ingeniería de datos disponibles en el área de trabajo, también hay muchas herramientas para conectarse a Databricks y desarrollar localmente que admitan a los usuarios desarrolladores de Databricks.
En este artículo se proporciona información general sobre las API y las herramientas disponibles para los usuarios desarrolladores de Databricks.
Inicio de la codificación en el área de trabajo
Desarrollar en el área de trabajo es una excelente manera de familiarizarse rápidamente con las API de Databricks. Databricks admite Python, SQL, Scala, R y otras características centradas en el desarrollador en el área de trabajo, incluyendo herramientas y utilidades que resultan útiles.
Aquí se muestran algunas maneras de comenzar:
Lea información general y busque vínculos de tutoriales para varios escenarios para Python, Scala y R. Para obtener una tabla de herramientas admitidas en varios idiomas, consulte Introducción a los idiomas.
Navegue por la documentación de referencia disponible, incluida la referencia de la API de REST que ofrece una buena perspectiva de los objetos de Databricks que también se pueden crear y modificar con otras herramientas.
Instale el SDK de Python en un cuaderno y escriba una función sencilla.
Mueva algunos archivos con los comandos Utilidades de Databricksfs para familiarizarse con el uso de las utilidades de dbutils para manipular el entorno de Databricks.
Creación de aplicaciones y soluciones personalizadas
Azure Databricks proporciona herramientas para el desarrollo en espacio de trabajo y local. En el área de trabajo, puede crear aplicaciones mediante la interfaz de usuario. Los datos son fácilmente accesibles en los volúmenes del Catálogo de Unity y en los archivos del área de trabajo. Las características exclusivas del área de trabajo, como el Asistente de Databricks para la depuración, están disponibles. Además, otras funcionalidades, tales como los cuadernos, están completamente equipadas, y el control de código fuente está disponible con carpetas de Git.
Como alternativa, desarrolle soluciones personalizadas con un IDE en la máquina local para aprovechar la funcionalidad completa de un entorno de desarrollo enriquecido. El desarrollo local admite una amplia gama de lenguajes, lo que significa que las características dependientes del lenguaje, como los entornos de depuración y prueba, están disponibles para apoyar proyectos más grandes, junto con el acceso directo al control de versiones.
Cree aplicaciones personalizadas de inteligencia artificial y datos seguros en la plataforma de Databricks, que se podrán compartir con otros usuarios.
Conéctese a las áreas de trabajo remotas de Azure Databricks desde Visual Studio Code para facilitar la configuración de la conexión al área de trabajo de Databricks y una interfaz de usuario para administrar recursos de Databricks.
Configure una conexión a un área de trabajo de Databricks remota y ejecute archivos en clústeres de Databricks desde PyCharm. Este complemento se desarrolla y proporciona por JetBrains en colaboración con Databricks.
La conexión a Databricks es un componente necesario de muchas integraciones y soluciones, y Databricks proporciona una gran selección de herramientas de conexión entre las que elegir. En la tabla siguiente, se proporcionan herramientas para conectar el entorno de desarrollo y los procesos a los recursos y al área de trabajo de Azure Databricks.
Conéctese a Azure Databricks para ejecutar scripts y comandos SQL, interactuar mediante programación con Azure Databricks e integrar la funcionalidad de SQL de Azure Databricks en aplicaciones escritas en lenguajes populares, como Python, Go, JavaScript y TypeScript.
Sugerencia
Es posible conectar también muchas herramientas conocidas adicionales de terceros a clústeres y almacenes de SQL para acceder a los datos de Azure Databricks. Consulte Partners de tecnología.
Administración de la infraestructura y los recursos
Los desarrolladores e ingenieros de datos que creen canalizaciones de CI/CD para automatizar el aprovisionamiento y la administración de infraestructura y recursos podrán elegir entre las siguientes herramientas, que admiten escenarios de canalización más sencillos y complicados.
Acceda a la funcionalidad de Azure Databricks mediante la interfaz de la línea de comandos (CLI) de Databricks. La CLI encapsula la API de REST de Databricks, por lo que, en lugar de enviar llamadas a la API de REST directamente mediante curl o Postman, use la CLI de Databricks para interactuar con Databricks. Use la CLI desde un terminal local o úsela desde el área de trabajo del terminal web.
Defina y administre recursos de Databricks y la canalización de CI/CD mediante los procedimientos recomendados de desarrollo, pruebas e implementación estándar del sector para proyectos de datos e inteligencia artificial con los Paquetes de activos de Databricks, una funcionalidad de la CLI de Databricks.
Entre muchas otras características de colaboración del área de trabajo, Databricks permite específicamente que los usuarios desarrolladores colaboren y compartan código en el área de trabajo con estas características:
Configure las carpetas de Git para el control de versiones y de código fuente en los archivos de proyecto de Databricks.
Interactuar con la comunidad de desarrolladores de Databricks
Databricks tiene una comunidad de desarrolladores activa, que es compatible con los siguientes programas y recursos:
MVPs de Databricks: este programa reconoce a los miembros de la comunidad, científicos de datos, ingenieros de datos, desarrolladores y entusiastas del código abierto que van más allá en la comunidad de datos e inteligencia artificial. Para obtener más información, vea MVP de Databricks.
Obtenga información sobre cómo puede interactuar con el área de trabajo de Azure Machine Learning. Puede usar Azure Machine Learning Studio, el SDK de Python (v2) o la CLI de Azure (v2).
Cree soluciones de un extremo a otro en Microsoft Azure para crear Azure Functions, implementar y administrar aplicaciones web, desarrollar soluciones que usen Azure Storage, etc.