Exploración del proceso de análisis de datos

Completado

El análisis de datos es el proceso de recopilar, transformar y presentar datos para realizar una toma de decisiones fundamentada. El desarrollo de una solución de análisis comienza antes de implicar cualquier tecnología, con un ejercicio de recopilación de requisitos. A partir de ahí, el proceso continúa con la ingesta, el procesamiento y la exploración de los datos. Tras el análisis y la implementación de soluciones, se solicitan comentarios de la empresa. Por último, la solución de análisis se optimiza y el proceso comienza de nuevo. El proceso de análisis no termina nunca.

Steps in the data anlytics process portrayed in a circular process, beginning with requirements gathering, then data ingestion and processing, the data exploration, then data analysis, then deploy analytics solution, then request and process feedback, and finally optimize solution. Arrow indicates that process begins again.

Aquí, aprenderá los pasos que se incluyen en el proceso de análisis de datos.

Recopilación de requisitos

Los equipos de datos trabajan con la empresa para entender las necesidades empresariales y los resultados previstos de un proyecto de análisis. La recopilación de requisitos incluye la identificación de los aspectos siguientes:

  • ¿Cuáles son las preguntas empresariales clave?
  • ¿Cuáles son los datos disponibles? ¿Responderán los datos disponibles a las necesidades empresariales o es necesario recopilar más datos?
  • ¿Cuáles son las dimensiones esenciales? ¿Cómo querrán las partes interesadas segmentar y cortar los datos?
  • ¿Cuáles son los indicadores clave de rendimiento o las métricas de rendimiento?
  • ¿Cómo consumirán los usuarios el análisis?
  • ¿Cuál es la frecuencia de la ingesta de datos?
  • ¿Cuál es la frecuencia de creación de informes?

Es un malentendido frecuente pensar que un equipo de datos pueda extraer información de volúmenes de datos sin haber analizado ninguna de las preguntas anteriores. Un equipo de datos no podrá determinar el tipo de análisis adecuado ni la solución correcta sin haber seguido un proceso estructurado de recopilación de requisitos.

La recopilación de requisitos puede adoptar diversas formas en función de la estructura del equipo, la velocidad y el volumen de los datos, así como el tipo de análisis requerido.

Ingesta y procesamiento de datos

Con los requisitos recopilados de la empresa, un equipo de datos comenzará a ingerir y transformar los datos.

Entre los servicios de datos de Azure disponibles para la ingesta y la transformación se incluyen, entre otros, Azure Cosmos DB, Azure SQL Database, Azure Synapse Analytics, Azure Databricks, Azure Data Lake, Azure Event Hubs y Azure Stream Analytics.

Los ingenieros de datos suelen ser los responsables de la ingesta y la transformación iniciales de los datos. Después, los datos se muestran a otros miembros del equipo de datos para su exploración y análisis. Los servicios de datos de Azure que usan normalmente los científicos de datos y los analistas de datos empresariales pueden limitarse a bases de datos o lagos de datos específicos.

Los términos Extracción, transformación y carga (ETL) o Extracción, carga y transformación (ELT) hacen referencia al proceso de ingesta y procesamiento de los datos.

Nota:

Obtenga más información sobre el proceso ETL.

Exploración de datos

La exploración de datos es el esfuerzo por comprender con qué está trabajando y cómo esos datos pueden responder a las necesidades de la empresa. La exploración de datos se puede realizar con muchas herramientas distintas. En un nivel básico, el equipo de datos puede usar Excel para examinar el contenido de un archivo .csv y ver el número de registros o las variables específicas que tienen que explorar. Cada miembro del equipo de datos puede generar perfiles de datos en una herramienta diferente. Un analista puede generar perfiles de los datos mediante Power Query en Power BI, mientras que un científico de datos puede usar Apache Spark en Azure Synapse.

La exploración de los datos ayuda a informarse sobre los pasos necesarios de limpieza y transformación de los datos, lo cual puede comunicarse a su vez al ingeniero de datos para incorporarlo en la solución de análisis.

El analista también puede comenzar la creación de prototipos de paneles o informes en la fase de exploración de los datos. Entender la forma en que la empresa quiere ver y usar los resultados del análisis ayudará a dar forma al prototipo, junto con las tendencias y la información que se descubran durante la exploración de los datos.

Análisis de datos

Una vez que se hayan explorado los datos, puede comenzar su análisis. El análisis puede ser descriptivo, predictivo, prescriptivo o incluso cognitivo y puede realizarse en muchas herramientas distintas. Los resultados deben responder a las necesidades empresariales identificadas y, tras la revisión inicial, es probable que den lugar a más preguntas y análisis.

Hay una diferencia entre un análisis único y una solución de análisis. Ambos tienen su lugar y la necesidad de aplicar uno u otro se determinará durante el proceso de recopilación de requisitos.

Implementación de una solución de análisis

Los resultados se presentarán a las partes interesadas en una herramienta de visualización de datos o de creación de informes como Microsoft Power BI, donde las personas pueden interactuar con los resultados del análisis y usarlos para la toma de decisiones.

Las consideraciones clave en la implementación de una solución de análisis ayudarán a determinar las herramientas, licencias y permisos adecuados que se necesitan para que los datos lleguen a manos de todo aquel que los necesite. El acceso a la información oportuna dará lugar, en última instancia, a una toma de decisiones basada en datos.

Solicitud y proceso de comentarios

La implementación de una solución de análisis puede parecer una línea de meta, pero es importante entender las respuestas a algunas preguntas clave.

  • ¿Se usa el producto de los datos?
  • ¿Responde el análisis realmente a las necesidades empresariales?
  • ¿Existen problemas técnicos imprevistos con la solución?
  • ¿Es accesible el producto de los datos?
  • ¿Qué nuevas preguntas empresariales plantea este análisis?

Los usuarios que utilizan la solución de análisis son sus clientes y, si el producto que ha creado no responde adecuadamente a sus necesidades, queda trabajo pendiente.

Hay varios medios para solicitar comentarios. El primer lanzamiento de una solución puede requerir reuniones de revisión periódicas, mientras que la supervisión de las métricas de uso de un proyecto en curso ayudará a comprender el uso a lo largo del tiempo e incluso las áreas de la solución que son útiles o no.

Optimización de la solución

La implementación de los comentarios de los usuarios es un primer paso lógico para optimizar la solución de análisis. También puede haber oportunidades para eliminar la latencia del proceso, por ejemplo, garantizar que la actualización de los datos se produzca en el tiempo asignado. La optimización también puede significar un reflejo más preciso de las necesidades del usuario mediante el retoque del diseño visual o la garantía de que los objetos visuales del informe se representen rápidamente.

Empezar de nuevo

El proceso de análisis es cíclico por naturaleza. A menudo, la exposición de datos e información da lugar a solicitudes para ampliar el análisis, lo que a su vez lleva a más comentarios y así sucesivamente. En un equipo de datos grande, el proceso de análisis puede producirse en sprints breves, donde distintos miembros del equipo trabajan simultáneamente para lograr pequeños objetivos antes de avanzar al siguiente paso del proceso. En equipos más pequeños, una persona puede actuar en varios roles, lo cual daría un aspecto distinto al proceso.

Independientemente de cómo sea el proceso, la comunicación es un componente crítico a lo largo de este. Los miembros del equipo de datos deben comunicarse entre sí y dialogar con la empresa para asegurarse de que el desarrollo de la solución responda a las necesidades empresariales y a otro tipo de necesidades que puedan plantear los datos.