Tutorial: Análisis de datos de Apache Spark mediante Power BI en HDInsight
En este tutorial, aprenderá a utilizar Microsoft Power BI para visualizar datos en un clúster de Apache Spark en Azure HDInsight.
En este tutorial, aprenderá a:
- Visualizar datos de Spark mediante Power BI
Si no tiene una suscripción a Azure, cree una cuenta gratuita antes de empezar.
Prerrequisitos
Completar el artículo Tutorial: Carga de datos y ejecución de consultas en un clúster de Apache Spark en Azure HDInsight.
Opcional: Suscripción de evaluación de Power BI.
Comprobación de los datos
La instancia de Jupyter Notebook que creó en el tutorial anterior incluye código para crear una tabla hvac
. Esta tabla se basa en el archivo CSV en todos los clústeres de Spark de HDInsight en \HdiSamples\HdiSamples\SensorSampleData\hvac\hvac.csv
. Use el siguiente procedimiento para comprobar los datos.
Del cuaderno de Jupyter Notebook, pegue el siguiente código y presione MAYÚS + ENTRAR. El código comprueba la existencia de las tablas.
%%sql SHOW TABLES
El resultado tendrá una apariencia similar a la siguiente:
Si ha cerrado el bloc de notas antes de iniciar este tutorial,
hvactemptable
se limpia, por lo que no se incluye en los resultados. Desde las herramientas de BI, solo se puede acceder a las tablas de Hive almacenadas en Metastore (indicadas como False en la columna isTemporary). En este tutorial, se conecta a la tabla hvac que ha creado.Pegue el siguiente código en una celda vacía y presione MAYÚS + ENTRAR. El código comprueba los datos de la tabla.
%%sql SELECT * FROM hvac LIMIT 10
El resultado tendrá una apariencia similar a la siguiente:
En el menú File (Archivo) del cuaderno, seleccione Close and Halt (Cerrar y detener). Cierre el cuaderno para liberar los recursos.
Visualización de los datos
En esta sección, se usa Power BI para crear visualizaciones, informes y paneles de datos a partir de los datos de clúster de Spark.
Creación de un informe en Power BI Desktop
Los primeros pasos para trabajar con Spark pasan por conectarse al clúster de Power BI Desktop, cargar datos del clúster y crear una visualización básica basada en dichos datos.
Abra Power BI Desktop. Cierre la pantalla de presentación inicial si se abre.
En la pestaña Inicio, vaya a Obtener datos>Más... .
Escriba
Spark
en el cuadro de búsqueda, seleccione Azure HDInsight Spark y, luego, seleccione Conectar.Escriba la dirección URL del clúster (en el formulario
mysparkcluster.azurehdinsight.net
) en el cuadro de texto Servidor.En Modo de conectividad de datos, seleccione DirectQuery. Después, seleccione Aceptar.
Puede usar cualquier modo de conectividad de datos con Spark. Si usa DirectQuery, los cambios se reflejan en los informes sin tener que actualizar el conjunto de datos completo. Si importa los datos, deberá actualizar el conjunto de datos para ver los cambios. Para obtener más información sobre cómo y cuándo se debe usar DirectQuery, consulte Uso de DirectQuery en Power BI.
Escriba la información de la cuenta de inicio de sesión de HDInsight y seleccione Conectar. El nombre de cuenta predeterminado es admin.
Seleccione la tabla
hvac
, espere para obtener una vista previa de los datos y seleccione Cargar.Power BI Desktop tiene toda la información necesaria para conectarse a los datos de carga y al clúster de Spark desde la tabla
hvac
. La tabla y las columnas que la forman se muestran en el panel Campos.Visualice la variación entre la temperatura objetivo y la real para cada edificio:
En el panel VISUALIZACIONES, seleccione Gráfico de áreas.
Arrastre el campo BuildingID a Eje y arrastre los campos ActualTemp y TargetTemp a Valor.
El diagrama tiene el siguiente aspecto:
De manera predeterminada, la visualización muestra la suma de ActualTemp y TargetTemp. Seleccione la flecha abajo junto a ActualTemp y TragetTemp en el panel Visualizaciones; puede ver que Suma se ha seleccionado.
Seleccione las flechas abajo junto a ActualTemp y TragetTemp en el panel Visualizaciones, seleccione Media para obtener un promedio de temperaturas reales y objetivo para cada edificio.
La visualización de datos debe parecerse a la que se muestra en la captura de pantalla. Mueva el cursor sobre la visualización para obtener información sobre herramientas con datos relevantes.
Vaya a Archivo>Guardar, escriba el nombre
BuildingTemperature
para el archivo y, a continuación, seleccione Guardar.
Publicar el informe en el servicio Power BI (opcional)
El servicio Power BI le permite compartir informes y paneles a través de su organización. En esta sección, primero publica el conjunto de datos y el informe. A continuación, puede anclar el informe a un panel. Los paneles suelen usarse para centrarse en un subconjunto de datos de un informe. Solo tiene una visualización del informe, pero sigue siendo útil seguir los pasos.
Abra Power BI Desktop.
Desde la pestaña Inicio, seleccione Publicar.
Seleccione un área de trabajo en la que publicar el conjunto de datos y el informe, y seleccione Seleccionar. En la siguiente imagen, está seleccionado el valor predeterminado Mi área de trabajo.
Después de que la publicación se haya realizado correctamente, seleccione Abrir 'BuildingTemperature.pbix' en Power BI.
En el servicio Power BI, seleccione Escribir credenciales.
Seleccione Editar credenciales.
Escriba la información de la cuenta de inicio de sesión de HDInsight y seleccione Iniciar sesión. El nombre de cuenta predeterminado es admin.
En el panel izquierdo, vaya a Áreas de trabajo>Mi área de trabajo>INFORMES y seleccione BuildingTemperature.
También verá BuildingTemperature en el panel izquierdo, debajo de CONJUNTOS DE DATOS.
Ahora el objeto visual creado en Power BI Desktop está disponible en el servicio Power BI.
Mantenga el cursor sobre la visualización y seleccione el icono de anclaje en la esquina superior derecha.
Seleccione "Nuevo panel", escriba el nombre
Building temperature
y después seleccione Anclar.En el informe, seleccione Ir al panel.
El objeto visual se ancla al panel. Puede agregar otros elementos visuales al informe y anclarlos al mismo panel. Para más información acerca de los informes y paneles, consulte Informes de Power BI y Paneles de Power BI.
Limpieza de recursos
Después de completar el tutorial, puede ser conveniente eliminar el clúster. Con HDInsight, los datos se almacenan en Azure Storage, por lo que puede eliminar un clúster de forma segura cuando no se esté usando. Los clústeres de HDInsight se cobran aunque no se estén usando. Como en muchas ocasiones los cargos por el clúster son mucho más elevados que los cargos por el almacenamiento, desde el punto de vista económico tiene sentido eliminar clústeres cuando no se usen.
Para eliminar un clúster, consulte Eliminación de un clúster de HDInsight con el explorador, PowerShell o la CLI de Azure.
Pasos siguientes
En este tutorial, ha aprendido a utilizar Microsoft Power BI para visualizar datos en un clúster de Apache Spark en Azure HDInsight. Vaya al siguiente artículo para saber cómo crear una aplicación de Machine Learning.