Compartir a través de


Análisis de datos exploratorios en Azure Databricks: herramientas y técnicas

En este artículo se describen las herramientas y técnicas para el análisis exploratorio de datos (EDA) en Azure Databricks.

¿Qué es EDA y por qué resulta útil?

El análisis exploratorio de datos (EDA) incluye métodos para explorar conjuntos de datos para resumir sus características principales e identificar cualquier problema con los datos. Con métodos estadísticos y visualizaciones, puede obtener información sobre un conjunto de datos para determinar su preparación para el análisis e informar sobre las técnicas que se deben aplicar para la preparación de datos. EDA también puede influir en los algoritmos que elija aplicar para entrenar modelos de ML.

¿Cuáles son las herramientas de EDA en Azure Databricks?

Azure Databricks tiene herramientas de análisis y visualización integradas en Databricks SQL y en Databricks Runtime. Para obtener una lista ilustrada de los tipos de visualizaciones disponibles en Azure Databricks, consulte Tipos de visualización.

EDA en Databricks SQL

Estos son algunos artículos útiles sobre las herramientas de visualización y exploración en Databricks SQL:

EDA en Databricks Runtime

Databricks Runtime proporciona un entorno precompilado que ya tiene instaladas bibliotecas de exploración de datos populares. Puede ver la lista de las bibliotecas integradas en las notas de la versión.

Además, en los siguientes artículos se muestran ejemplos de herramientas de visualización en Databricks Runtime:

En un cuaderno de Python de Databricks, puede combinar SQL y Python para explorar los datos. Cuando ejecuta código en una celda de lenguaje SQL de un un cuaderno de Python, los resultados se ponen automáticamente a disposición como DataFrame de Python. Para obtener más información, consulte Exploración de los resultados de las celdas SQL en cuadernos de Python.