Compartir vía


Introducción a Apache Spark

Apache Spark es la tecnología que potencia los clústeres de proceso y los almacenes de SQL en Azure Databricks.

En esta página se proporciona información general sobre la documentación de esta sección.

Comienza

Empiece a trabajar con Apache Spark en Databricks.

Tema Description
Apache Spark en Azure Databricks Obtenga respuestas a las preguntas más frecuentes sobre Apache Spark en Azure Databricks.
Tutorial: Carga y transformación de datos mediante DataFrames de Apache Spark Siga una guía paso a paso para trabajar con DataFrames de Spark en Python, R o Scala para cargar y transformar datos.
Conceptos básicos de PySpark Obtenga información sobre los conceptos básicos del uso de PySpark mediante ejemplos sencillos.

Recursos adicionales

Explore otras funcionalidades y documentación de Spark.

Tema Description
Comparación de Spark Connect con Spark classic Obtenga información sobre las diferencias clave entre Spark Connect y Spark Clásico en el comportamiento de ejecución y análisis para evitar problemas inesperados de comportamiento y rendimiento al migrar código.
Establecimiento de las propiedades de configuración de Spark en Azure Databricks Establezca las propiedades de configuración de Spark para personalizar la configuración en el entorno de proceso y optimizar el rendimiento.
Structured Streaming Lea una introducción a Structured Streaming, un motor de procesamiento casi en tiempo real.
Diagnóstico de problemas de costo y rendimiento mediante la interfaz de usuario de Spark Aprenda a usar la interfaz de usuario de Spark para el ajuste de rendimiento, depuración y optimización de costos de los trabajos de Spark.
Uso de Apache Spark MLlib en Azure Databricks Aprendizaje automático distribuido mediante Spark MLlib e integración con marcos populares de ML.

API de Spark

Trabaje con Spark con su lenguaje de programación preferido.

Tema Description
Referencia de las API de Apache Spark Introducción a la referencia de API para Apache Spark, incluidos vínculos a referencia para las operaciones de Spark SQL, DataFrames y RDD en los lenguajes admitidos.
PySpark Use Python con Spark, incluidos los conceptos básicos de PySpark, los orígenes de datos personalizados y las optimizaciones específicas de Python.
API de Pandas en Spark Aproveche la sintaxis de Pandas familiar con la escalabilidad de Spark para el procesamiento de datos distribuidos.
R para Spark Trabaje con R y Spark mediante SparkR y sparklyr para la computación y análisis de datos estadísticos.
Scala para Spark Cree aplicaciones spark de alto rendimiento mediante Scala con las API nativas de Spark y la seguridad de tipos.