Apache Spark en Azure Databricks

2025-05-30

Apache Spark se encuentra en el centro de la plataforma de inteligencia de datos de Azure Databricks y es la tecnología que impulsa los clústeres de proceso y los almacenes de SQL. Azure Databricks es una plataforma optimizada para Apache Spark que proporciona una plataforma eficaz y sencilla para ejecutar cargas de trabajo de Apache Spark.

¿Qué relación tiene Apache Spark con Azure Databricks?

La empresa Databricks fue fundada por los creadores originales de Apache Spark. Como proyecto de software de código abierto, Apache Spark tiene colaboradores de muchas empresas líderes, como Databricks.

Databricks continúa desarrollando y lanzando características en Apache Spark. Databricks Runtime, que impulsa Azure Databricks, incluye optimizaciones adicionales y características propietarias que se basan en y amplían Apache Spark, incluido Photon, una capa de ejecución optimizada que se puede usar junto con Spark. Databricks Photon está diseñado para trabajar con y mejorar el rendimiento de las cargas de trabajo de Apache Spark. Photon mejora el rendimiento de Spark mediante la vectorización de consultas y otras operaciones, lo que permite una ejecución más rápida de las operaciones de SQL y DataFrame API.

¿Cómo está optimizado Databricks para Apache Spark?

En Apache Spark, todas las operaciones se definen como transformaciones o acciones.

Transformaciones: agregar cierta lógica de procesamiento al plan. Algunos ejemplos incluyen la lectura de datos, combinaciones, agregaciones y conversión de tipos.
Actions: desencadena la lógica de procesamiento para evaluar y generar un resultado. Algunos ejemplos son las escrituras, la visualización o la vista previa de los resultados, el almacenamiento en caché manual o la obtención del recuento de filas.

Apache Spark usa un modelo de ejecución diferida, lo que significa que ninguna de las lógicas definidas por una colección de operaciones se evalúa hasta que se desencadena una acción. Para evitar la evaluación innecesaria de la lógica, use solo acciones para guardar los resultados en una tabla de destino.

Dado que las acciones representan un cuello de botella de procesamiento para optimizar la lógica, Azure Databricks ha agregado numerosas optimizaciones sobre las que ya están presentes en Apache Spark para garantizar una ejecución lógica óptima. Estas optimizaciones consideran todas las transformaciones desencadenadas por una acción determinada a la vez y buscan el plan óptimo en función del diseño físico de los datos. El almacenamiento en caché manual de datos o la devolución de resultados en versión preliminar en canalizaciones de producción pueden interrumpir estas optimizaciones y provocar aumentos en el costo y la latencia.

¿Cómo funciona Apache Spark en Azure Databricks?

Cuando implementa un clúster de proceso o almacén de SQL en Azure Databricks, Apache Spark se configura e implementa en máquinas virtuales. No es necesario configurar ni inicializar un contexto de Spark o una sesión de Spark, ya que Azure Databricks los administra.

¿Puedo usar Azure Databricks sin usar Apache Spark?

Sí. Azure Databricks admite una variedad de cargas de trabajo e incluye bibliotecas de código abierto en Databricks Runtime. Databricks SQL usa Photon en segundo plano, pero los usuarios finales pueden usar la sintaxis de Spark SQL para crear y consultar objetos de base de datos con Photon.

Databricks Runtime para Machine Learning está optimizado para cargas de trabajo de ML y muchos científicos de datos usan bibliotecas de código abierto principales como TensorFlow y SciKit Learn mientras trabajan en Azure Databricks. Puede usar trabajos para programar cargas de trabajo arbitrarias en los recursos de proceso implementados y administrados por Azure Databricks.

¿Por qué usar Apache Spark en Azure Databricks?

La plataforma Databricks proporciona un entorno seguro y colaborativo para desarrollar e implementar soluciones empresariales que se escalan con su negocio. Los empleados de Databricks incluyen muchos de los mantenedores y usuarios de Apache Spark más conocidos del mundo. La empresa desarrolla y publica continuamente nuevas optimizaciones para garantizar que los usuarios puedan acceder al entorno más rápido para ejecutar Apache Spark.

¿Cómo puedo obtener más información sobre el uso de Apache Spark en Azure Databricks?

Para empezar a trabajar con Apache Spark en Azure Databricks, ¡comencemos ahora! El tutorial de DataFrames de Apache Spark le guía a través de la carga y transformación de datos en Python, R o Scala. Consulte Tutorial: Carga y transformación de datos mediante DataFrames de Apache Spark.

Para más información sobre la compatibilidad del lenguaje Python, R y Scala en Spark, consulte PySpark en Azure Databricks, sparklyr y Azure Databricks para desarrolladores de Scala, así como en Referencia para las API de Apache Spark.