Compartir vía


¿Qué es la preparación de datos?

SE APLICA A: Azure Data Factory Azure Synapse Analytics

Sugerencia

Pruebe Data Factory en Microsoft Fabric, una solución de análisis todo en uno para empresas. Microsoft Fabric abarca todo, desde el movimiento de datos hasta la ciencia de datos, el análisis en tiempo real, la inteligencia empresarial y los informes. Obtenga información sobre cómo iniciar una nueva evaluación gratuita.

La preparación de datos implica transformar y reformatar los datos desde su origen para que sean más adecuados y útiles para varias aplicaciones posteriores.

Las organizaciones deben poder explorar sus datos empresariales críticos para prepararlos y manejarlos con el fin de proporcionar un análisis preciso de los datos complejos que crecen cada día. La preparación de datos es necesaria para que las organizaciones puedan usar los datos en diversos procesos empresariales y reducir el plazo de amortización.

Data Factory permite preparar datos sin código a escala de la nube de forma iterativa mediante Power Query. Data Factory se integra con Power Query Online y permite que las funciones M de Power Query estén disponibles como actividades de canalización.

Además, Data Factory traduce el código M generado por el editor de mashup de Power Query Online en código de Spark para la ejecución a escala de la nube. Para ello, traduce M en flujos de datos de Azure Data Factory. Trabajar con datos usando Power Query y flujos de datos es especialmente útil para los ingenieros de datos o "integradores ciudadanos de datos".

Casos de uso

Exploración y preparación rápidas de datos interactivos

Varios ingenieros de datos e integradores de datos de ciudadanos pueden explorar y preparar interactivamente conjuntos de datos a escala de nube. Con el aumento del volumen, la variedad y la velocidad de los datos en los lagos de datos, los usuarios necesitan una manera eficaz de explorar y preparar los conjuntos de datos. Por ejemplo, puede que necesite crear un conjunto de datos que "tenga toda la información demográfica de los clientes para los nuevos clientes desde 2017". No está mapeando a un destino conocido. Está explorando, limpiando y transformando los conjuntos de datos para que cumplan con un requisito antes de publicarlos en el lago de datos. La manipulación de datos se utiliza a menudo en escenarios de análisis menos formales. Los conjuntos de datos preparados se pueden usar para realizar transformaciones y operaciones de aprendizaje automático de nivel inferior.

Preparación de datos ágil sin código

Los integradores de datos de los ciudadanos invierten más del 60 % de su tiempo en buscar y preparar los datos. Buscan hacerlo sin código para mejorar la productividad operativa. Permitir a los integradores de datos de ciudadanos enriquecer, dar forma y publicar datos mediante herramientas conocidas, como Power Query Online, de forma escalable mejora drásticamente su productividad. La tarea de limpieza y transformación en Azure Data Factory permite que el conocido editor de mashup de Power Query Online consiga que los integradores de datos de ciudadanos corrijan errores rápidamente, estandaricen datos y generen datos de alta calidad para respaldar las decisiones empresariales.

Exploración y validación de datos

Analice visualmente los datos sin código para quitar los valores atípicos y las anomalías, y hacer que cumplan con una forma para el análisis rápido.

Fuentes admitidas

Conector Formato de datos Tipo de autenticación
Azure Blob Storage CSV, Parquet, Excel Clave de cuenta, Principal de servicio, MSI
Azure Data Lake Storage Gen1 CSV, Parquet, Excel Principal de servicio, MSI
Azure Data Lake Storage Gen2 CSV, Parquet, Excel Clave de cuenta, Service Principal, MSI
Azure SQL Database - Autenticación SQL, MSI, entidad de servicio
Azure Synapse Analytics - Autenticación SQL, MSI, Principal de Servicio

Editor de mashup

Cuando se crea una actividad de Power Query, todos los conjuntos de datos de origen se convierten en consultas de conjuntos de datos y se colocan en la carpeta ADFResource. De forma predeterminada, UserQuery apuntará a la primera consulta del conjunto de datos. Todas las transformaciones deben realizarse en UserQuery, ya que no se admiten ni se conservan los cambios en las consultas del conjunto de datos. Actualmente no se admiten las opciones para cambiar el nombre o agregar y eliminar consultas.

Manipulación de datos

Actualmente no se admiten todas las funciones de Power Query M para la manipulación de datos, a pesar de estar disponibles durante la edición. Al compilar las actividades de Power Query, aparecerá el siguiente mensaje de error si no se admite una función:

The Power Query Spark Runtime does not support the function

Para obtener más información sobre las transformaciones admitidas, vea Funciones de transformación de datos de Power Query.

Obtenga información sobre cómo crear una combinación de Power Query para la limpieza y transformación de datos.