Introducción
Azure Databricks ofrece una plataforma altamente escalable para el análisis y procesamiento de datos mediante Apache Spark.
Spark es una plataforma flexible que admite muchos lenguajes de programación y API diferentes. La mayoría de las tareas de procesamiento y análisis de datos se pueden realizar mediante la API dataframe, que es lo que se explicará en este módulo.
En este módulo aprenderá a:
- Describir los elementos clave de la arquitectura de Apache Spark.
- Cree y configure un clúster de Spark.
- Describir los casos de uso de Spark.
- Use Spark para procesar y analizar los datos almacenados en archivos.
- Use Spark para visualizar los datos.