Transformación de origen en flujos de datos de asignación

SE APLICA A: Azure Data Factory Azure Synapse Analytics

Sugerencia

Pruebe Data Factory en Microsoft Fabric, una solución de análisis todo en uno para empresas. Microsoft Fabric abarca todo, desde el movimiento de datos hasta la ciencia de datos, el análisis en tiempo real, la inteligencia empresarial y los informes. Obtenga información sobre cómo iniciar una nueva evaluación gratuita.

Los flujos de datos están disponibles en las canalizaciones Azure Data Factory y Azure Synapse. Este artículo se aplica a los flujos de datos de asignación. Si carece de experiencia con las transformaciones, consulte el artículo de introducción Transformación de datos mediante flujos de datos de asignación.

Una transformación de origen configura el origen de datos para el flujo de datos. Al diseñar flujos de datos, el primer paso será siempre configurar una transformación de origen. Para agregar un origen, seleccione el cuadro Agregar origen en el lienzo de Data Flow.

Cada flujo de datos requiere al menos una transformación de origen, pero puede agregar tantos orígenes como sea necesario para completar las transformaciones de datos. Puede combinar esos orígenes con una transformación de combinación, búsqueda o unión.

Cada transformación de origen se asocia exactamente con un conjunto de datos o servicio vinculado. El conjunto de datos define la forma y la ubicación de los datos que quiere escribir o leer. Si va a utilizar un conjunto de datos basado en archivos, puede usar caracteres comodín y listas de archivos en el origen para trabajar con más de un archivo a la vez.

Conjuntos de datos en línea

La primera decisión que se toma al crear una transformación de origen es si la información de origen se define dentro de un objeto de conjunto de datos o dentro de la transformación de origen. La mayoría de los formatos están disponibles solo en una opción o en la otra. Para obtener información sobre cómo usar un conector específico, consulte el documento adecuado del conector.

Cuando un formato se admita tanto en la opción en línea como en un objeto de conjunto de datos, existen ventajas para ambos. Los objetos de conjunto de datos son entidades reutilizables que se pueden usar en otros flujos de datos y actividades, como en la copia. Estas entidades reutilizables son especialmente útiles cuando se usa un esquema protegido. Los conjuntos de datos no se basan en Spark. En ocasiones, es posible que necesite reemplazar determinados valores o la proyección del esquema en la transformación de origen.

Se recomiendan los conjuntos de datos en línea cuando se usan esquemas flexibles, instancias de origen único u orígenes con parámetros. Si el origen contiene muchos parámetros, los conjuntos de datos en línea permiten no crear un objeto "ficticio". Los conjuntos de datos en línea se basan en Spark y sus propiedades son nativas para el flujo de datos.

Para usar un conjunto de datos en línea, seleccione el formato que desee en el selector Tipo de origen. En lugar de seleccionar un conjunto de datos de origen, seleccione el servicio vinculado al que desea conectarse.

Opciones del esquema

Dado que un conjunto de datos insertado se define dentro del flujo de datos, no hay un esquema definido asociado al conjunto de datos insertado. En la pestaña Proyección, puede importar el esquema de datos de origen y almacenar ese esquema como una proyección de origen. En esta pestaña, encontrará un botón "Opciones de esquema" que le permite definir el comportamiento del servicio de detección de esquemas de ADF.

  • Usar esquema proyectado: esta opción es útil cuando tiene un gran número de archivos de origen que ADF examina como origen. El comportamiento predeterminado de ADF es detectar el esquema de cada archivo de origen. Pero si ya tiene una proyección predefinida almacenada en la transformación de origen, puede establecerla en true y ADF omite la detección automática de cada esquema. Con esta opción activada, la transformación de origen puede leer todos los archivos de forma mucho más rápida, aplicando el esquema predefinido a cada archivo.
  • Permitir desfase de esquema: active el desfase de esquema para que el flujo de datos permita nuevas columnas que aún no están definidas en el esquema de origen.
  • Validar esquema: al establecer esta opción, se producirá un error en el flujo de datos si alguna columna y tipo definido en la proyección no coincide con el esquema detectado de los datos de origen.
  • Inferir tipos de columnas desviadas: cuando ADF identifica nuevas columnas desviadas, esas nuevas columnas se convierten al tipo de datos apropiado mediante la inferencia de tipos automática de ADF.

Captura de pantalla que muestra la opción Insertado seleccionada.

Base de datos del área de trabajo (solo áreas de trabajo de Synapse)

En áreas de trabajo de Azure Synapse, hay una opción adicional en las transformaciones de origen de flujo de datos, denominada Workspace DB. Esto le permite elegir directamente una base de datos de área de trabajo de cualquier tipo disponible como datos de origen sin necesidad de servicios vinculados ni conjuntos de datos adicionales. Las bases de datos creadas mediante las plantillas de base de datos de Azure Synapse también son accesibles al seleccionar Base de datos del área de trabajo.

Captura de pantalla en la que se muestra Workspace DB seleccionado

Tipos de orígenes admitidos

El flujo de datos de asignación sigue un enfoque de extracción, carga y transformación (ELT) y funciona con conjuntos de datos de un almacenamiento provisional que están todos en Azure. Actualmente, se pueden usar los siguientes conjuntos de datos en una transformación de origen.

Conector Formato Conjunto de datos/insertado
Amazon S3 Avro
Texto delimitado
Delta
Excel
JSON
ORC
Parquet
XML
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
Appfigures (versión preliminar) -/✓
Asana (versión preliminar) -/✓
Azure Blob Storage Avro
Texto delimitado
Delta
Excel
JSON
ORC
Parquet
XML
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
Azure Cosmos DB para NoSQL ✓/-
Azure Data Lake Storage Gen1 Avro
Texto delimitado
Excel
JSON
ORC
Parquet
XML
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
Azure Data Lake Storage Gen2 Avro
Common Data Model
Texto delimitado
Delta
Excel
JSON
ORC
Parquet
XML
✓/✓
-/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
Azure Database for MySQL ✓/✓
Azure Database para PostgreSQL ✓/✓
Azure Data Explorer ✓/✓
Azure SQL Database ✓/✓
Instancia administrada de Azure SQL ✓/✓
Azure Synapse Analytics ✓/✓
data.world (versión preliminar) -/✓
Dataverse ✓/✓
Dynamics 365 ✓/✓
Dynamics CRM ✓/✓
Hojas de cálculo de Google (versión preliminar) -/✓
Hive -/✓
Quickbase (versión preliminar) -/✓
SFTP Avro
Texto delimitado
Excel
JSON
ORC
Parquet
XML
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
Smartsheet (versión preliminar) -/✓
Snowflake ✓/✓
SQL Server ✓/✓
REST ✓/✓
TeamDesk (versión preliminar) -/✓
Twilio (versión preliminar) -/✓
Zendesk (versión preliminar) -/✓

La configuración específica de estos conectores se encuentra en la pestaña Source options (Opciones de origen). La información y algunos ejemplos de script de flujo de datos sobre esta configuración se encuentran en la documentación del conector.

Las canalizaciones de Azure Data Factory y Synapse tienen acceso a más de 90 conectores nativos. Para incluir datos de esos otros orígenes en el flujo de datos, use la herramienta de actividad de copia para cargar esos datos en una de las áreas de almacenamiento provisional compatibles.

Configuración de origen

Una vez que haya agregado un origen, configúrelo mediante la pestaña Configuración de origen. Aquí puede elegir o crear el conjunto de datos al que apunta el origen. También puede seleccionar las opciones de muestreo y esquema para los datos.

Los valores de desarrollo de los parámetros del conjunto de datos se pueden configurar en la configuración de depuración. (Requiere que esté activado el modo Depuración)

Captura de pantalla que muestra la pestaña Configuración de origen.

Nombre de la secuencia de salida: El nombre de la transformación de origen.

Tipo de origen: Elija si desea utilizar un conjunto de datos en línea o un objeto de conjunto de datos existente.

Probar conexión: pruebe si el servicio Spark del flujo de datos puede conectarse correctamente al servicio vinculado que se usa en el conjunto de datos de origen. El modo de depuración debe estar activado para habilitar esta característica.

Desfase de esquema: el desfase de esquema es la capacidad del servicio de administrar de forma nativa esquemas flexibles de los flujos de datos sin necesidad de definir explícitamente cambios en las columnas.

  • Active la casilla Permitir desfase de esquema si las columnas de origen cambian a menudo. Esta opción permite que todos los campos de origen entrantes fluyan hasta el receptor a través de las transformaciones.

  • Al seleccionar Inferir tipos de columnas desfasadas, se indica a Data Factory que detecte y defina los tipos de datos para cada nueva columna detectada. Con esta característica desactivada, todas las columnas desfasadas son de tipo cadena.

Validar esquema: si se selecciona Validar esquema, el flujo de datos no se puede ejecutar si los datos de origen entrantes no coinciden con el esquema definido del conjunto de datos.

Skip line count (Número de líneas para omitir): el campo Skip line count (Número de líneas para omitir) especifica el número de líneas que se van a omitir al principio del conjunto de datos.

Muestreo: Habilite el muestreo para limitar el número de filas del origen. Use esta configuración al probar o muestrear datos del origen con fines de depuración. Esto resulta muy útil cuando se ejecutan flujos de datos en modo de depuración desde una canalización.

Para validar si el origen está configurado correctamente, active el modo de depuración y capture una vista previa de los datos. Para más información, consulte Modo de depuración.

Nota:

Cuando el modo de depuración está activado, la configuración de límite de filas en la configuración de depuración sobrescribe la configuración de muestreo en el origen durante la vista previa de datos.

Opciones de origen

La pestaña Source options (Opciones de origen) contiene la configuración específica del conector y el formato elegidos. Para obtener más información y ejemplos, consulte la documentación del conector pertinente. Esto incluye detalles como el nivel de aislamiento de los orígenes de datos que lo admiten (como servidores SQL Server locales, Bases de datos de Azure SQL e instancias administradas de Azure SQL) y otras configuraciones específicas del origen de datos.

Proyección

Al igual que los esquemas en los conjuntos de datos, la proyección de un origen define las columnas, los tipos y los formatos de datos de los datos de origen. Para la mayoría de los tipos de conjuntos de datos, como SQL y Parquet, la proyección en un origen se corrige para que refleje el esquema definido en un conjunto de datos. Cuando los archivos de origen no están fuertemente tipados (por ejemplo, archivos .csv sin formato en lugar de archivos Parquet), puede definir los tipos de datos de cada campo en la transformación de origen.

Captura de pantalla que muestra la configuración en la pestaña Proyección.

Si el archivo de texto no tiene ningún esquema definido, seleccione Detectar tipo de datos para que el servicio muestree e infiera los tipos de datos. Seleccione Definir formato predeterminado para detectar automáticamente los formatos de datos predeterminados.

Reset schema (Restablecer esquema) restablece la proyección a la definición del conjunto de datos de referencia.

Sobrescribir esquema permite modificar los tipos de datos proyectados en el origen, sobrescribiendo los tipos de datos definidos por el esquema. Como alternativa, puede modificar los tipos de datos de columna en una transformación de columna derivada de un nivel inferior. Use una transformación de selección para modificar los nombres de columna.

Importar esquema

Seleccione Importar esquema de la pestaña Proyección para usar un clúster de depuración activo para crear una proyección de esquema. Está disponible en todos los tipos de origen. La importación del esquema aquí invalida la proyección definida en el conjunto de datos. El objeto del conjunto de datos no se cambiará.

La importación del esquema resulta útil en los conjuntos de datos como Avro y Azure Cosmos DB, que admiten estructuras de datos complejas que no requieren la existencia de definiciones de esquemas en el conjunto de datos. Para los conjuntos de datos en línea, la importación del esquema es la única manera de hacer referencia a los metadatos de columna sin desfase de esquema.

Optimización de la transformación de origen

La pestaña Optimizar permite la edición de la información de partición en cada paso de la transformación. En la mayoría de los casos, Usar partición actual optimiza la estructura de partición ideal para una fuente.

Si está leyendo desde un origen de Azure SQL Database, es probable que la partición de Origen personalizada lea los datos más rápido. El servicio lee consultas grandes mediante la realización de conexiones a la base de datos en paralelo. Esta creación de particiones de origen se puede realizar en una columna o mediante una consulta.

Captura de pantalla que muestra la configuración de la partición de origen.

Para más información sobre la optimización en Mapping Data Flow, consulte la pestaña de optimización.

Comience a compilar el flujo de datos con una transformación de columna derivada y una transformación de selección.