Editar

Share via


Preguntas más frecuentes de Azure Data Factory

SE APLICA A: Azure Data Factory Azure Synapse Analytics

Sugerencia

Pruebe Data Factory en Microsoft Fabric, una solución de análisis todo en uno para empresas. Microsoft Fabric abarca todo, desde el movimiento de datos hasta la ciencia de datos, el análisis en tiempo real, la inteligencia empresarial y los informes. Obtenga información sobre cómo iniciar una nueva evaluación gratuita.

Este artículo ofrece respuestas a las preguntas más frecuentes sobre Azure Data Factory.

¿Qué es Azure Data Factory?

Data Factory es un servicio ETL de integración de datos basado en la nube y completamente administrado que automatiza el movimiento y la transformación de los datos. Al igual que las máquinas de una fábrica transforman las materias primas en productos acabados, Azure Data Factory organiza los servicios existentes que recopilan datos sin procesar y los transforman en información lista para utilizar.

Con Azure Data Factory, puede crear flujos de trabajo controlados por datos para mover datos entre almacenes de datos locales y en la nube. Además, puede procesar y transformar los datos con los flujos de datos. ADF también admite motores de proceso externos para transformaciones codificadas a mano mediante servicios de proceso como Azure HDInsight, Azure Databricks y el entorno de ejecución de integración de SQL Server Integration Services (SSIS).

Con Data Factory, puede ejecutar el procesamiento de datos en un servicio en la nube basado en Azure o en su propio entorno de proceso autohospedado, como SSIS, SQL Server u Oracle. Después de crear una canalización que realice la acción que necesita, puede programarla para que se ejecute periódicamente (por ejemplo, cada hora, diaria o semanalmente), programar una ventana de tiempo o desencadenarla a partir de la aparición de un evento. Para más información, consulte Introducción a Azure Data Factory.

Consideraciones sobre cumplimiento y seguridad

Azure Data Factory está certificado para una variedad de certificaciones de cumplimiento, como SOC 1, 2, 3, HIPAA BAA y HITRUST. Puede encontrar una lista completa y creciente de certificaciones aquí. Se pueden encontrar copias digitales para informes de auditoría y certificaciones de cumplimiento en el Centro de confianza del servicio.

Escala y flujos de control

Para admitir los diferentes patrones y flujos de integración en el almacenamiento de datos actual, Data Factory habilita un modelo de canalización de datos flexible. Esto conlleva paradigmas de programación de flujo de control total, que incluyen la ejecución condicional, la bifurcación en canalizaciones de datos y la capacidad de pasar explícitamente los parámetros dentro y entre estos flujos. El flujo de control también abarca la transformación de datos mediante la distribución de actividades a motores de ejecución externos y las funcionalidades de flujo de datos que incluyen el movimiento de datos a escala mediante la actividad de copia.

Data Factory proporciona la libertad de modelar cualquier estilo de flujo necesario para la integración de datos y que se puede enviar a petición o varias veces según una programación. Estos son algunos de los flujos habituales que permite este modelo:

  • Flujos de control:
    • Las actividades se pueden encadenar juntas en una secuencia dentro de una canalización.
    • Las actividades se pueden bifurcar dentro de una canalización.
    • Parámetros:
      • Los parámetros se pueden definir en la canalización y los argumentos se pueden pasar al invocar la canalización a petición o desde un desencadenador.
      • Las actividades pueden consumir los argumentos que se pasan a la canalización.
    • Paso a estado personalizado:
      • Los resultados de la actividad, incluido el estado, se pueden usar en una posterior actividad de la canalización.
    • Contenedores de bucle:
      • La actividad foreach iterará en una colección especificada de actividades en un bucle.
  • Flujos basados en el desencadenador:
    • Las canalizaciones se pueden desencadenar a petición, por hora de reloj, o bien en respuesta a temas de Event Grid
  • Flujos delta:
    • Los parámetros se pueden usar para definir el límite máximo de la copia delta al mover tablas de dimensiones o de referencia desde un almacén relacional de forma local o en la nube para cargar los datos en Data Lake.

Para más información, consulte el Tutorial: Flujos de control.

Datos transformados a escala con canalizaciones sin código

La nueva experiencia de herramientas basadas en explorador proporciona la creación e implementación de canalizaciones sin código con una experiencia actual, interactiva y basada en la web.

Para los desarrolladores de datos visuales y los ingenieros de datos, la interfaz de usuario web de Data Factory es el entorno de desarrollo sin código que usará para crear canalizaciones. Está totalmente integrado con el repositorio de Git de Visual Studio Codespace y proporciona integración de CI/CD y desarrollo iterativo con opciones de depuración.

Variados SDK multiplataforma para usuarios avanzados

Data Factory V2 proporciona un conjunto más completo de SDK que se pueden usar para crear, administrar y supervisar canalizaciones mediante su IDE favorito, como son:

  • SDK de Python
  • CLI de PowerShell
  • SDK DE C#

Los usuarios también pueden usar las API REST documentadas para interactuar con Data Factory V2.

Desarrollo y depuración iterativos mediante herramientas visuales

Las herramientas visuales de Azure Data Factory le permiten realizar un desarrollo y depuración iterativos. Puede crear canalizaciones y realizar series de pruebas con la funcionalidad Depurar en el lienzo de la canalización sin escribir ni una sola línea de código. Puede ver los resultados de las series de pruebas en la ventana Salida del lienzo de la canalización. Después de realizar correctamente una serie de pruebas, puede agregar más actividades a la canalización y continuar con la depuración de manera iterativa. También puede cancelar las series de pruebas una vez que están en curso.

No es necesario que publique los cambios en el servicio Data Factory antes de seleccionar Depurar. Esto resulta útil en escenarios en los que se desea garantizar que los cambios o nuevas adiciones funcionarán según lo esperado antes de actualizar los flujos de trabajo de la factoría de datos en entornos de desarrollo, pruebas o producción.

Capacidad de Implementación de paquetes SSIS en Azure

Si desea mover las cargas de trabajo de SSIS, puede crear una instancia de Data Factory y aprovisionar una instancia de Integration Runtime para la integración de SSIS en Azure. Un entorno de ejecución de integración de SSIS de Azure es un clúster totalmente administrado de máquinas virtuales de Azure (nodos) que se dedican a ejecutar los paquetes SSIS en la nube. Para obtener instrucciones paso a paso, vea el tutorial Implementación de paquetes SSIS en Azure.

SDK

Si es un usuario avanzado y busca una interfaz programática, Data Factory le proporciona un amplio conjunto de SDK que puede usar para crear, administrar o supervisar canalizaciones mediante su IDE favorito. Entre los lenguajes compatibles se incluye: .NET, PowerShell, Python y REST.

Supervisión

Puede supervisar las factorías de datos mediante PowerShell, SDK o las herramientas de supervisión visual de la interfaz de usuario del explorador. Puede supervisar y administrar a petición flujos personalizados basados en desencadenadores y controlados por tiempo de una manera eficaz. Cancele tareas que ya existen, vea los errores de un solo vistazo, explore en profundidad para obtener mensajes de error detallados y depure los problemas, todo ello desde un único panel sin cambios de contexto y sin tener que desplazarse entre pantallas.

Nuevas características de SSIS en Data Factory

Desde el lanzamiento inicial de la versión preliminar pública en 2017, Data Factory ha agregado las siguientes características para SSIS:

  • Compatibilidad con tres configuraciones o variantes más de Azure SQL Database para hospedar los paquetes o proyectos de la base de datos SSIS (SSISDB):
  • SQL Database con puntos de conexión de servicio de red virtual
  • Instancia administrada de SQL
  • Grupo elástico
  • Compatibilidad con una red virtual de Azure Resource Manager en una red virtual clásica que caerá en desuso en el futuro, lo que le permite insertar o unir su entorno de ejecución de integración de Azure-SSIS a una red virtual que esté configurada para SQL Database con acceso a puntos de conexión de servicio de red virtual, Instancias administradas o datos locales. Para más información, consulte también Unión de una instancia de Integration Runtime de SSIS de Azure a una red virtual.
  • Compatibilidad con la autenticación de Microsoft Entra y de SQL para conectarse a SSISDB, lo que le permite usar la autenticación de Microsoft Entra con la identidad administrada de Data Factory para los recursos de Azure
  • Compatibilidad para usar su propia licencia de SQL Server para conseguir ahorros sustanciales de costos con la opción Ventaja híbrida de Azure
  • Compatibilidad con la edición Enterprise del entorno de ejecución de integración de Azure-SSIS que le permite usar características avanzadas o premium, una interfaz de configuración personalizada para instalar componentes o extensiones adicionales y un ecosistema de terceros. Para más información, consulte también Enterprise Edition, Custom Setup, and 3rd Party Extensibility for SSIS in ADF (Enterprise Edition, instalación personalizada y extensibilidad de terceros para SSIS en ADF).
  • Una integración más profunda de SSIS en Data Factory que le permite invocar o desencadenar actividades de primera clase de ejecución de paquetes SSIS en canalizaciones de Data Factory y programarlas mediante SSMS. Para más información, consulte también Modernize and extend your ETL/ELT workflows with SSIS activities in ADF pipelines (Modernización y ampliación de los flujos de trabajo ETL/ETL con actividades de SSIS en las canalizaciones de ADF)

¿Qué es el entorno de ejecución de integración?

El entorno de ejecución de integración es la infraestructura de proceso que Azure Data Factory usa para proporcionar las siguientes funcionalidades de integración de datos en diversos entornos de red:

  • Movimiento de datos: Para el movimiento de datos, el entorno de ejecución de integración mueve los datos entre los almacenes de origen y de destino e incluye funcionalidad de conectores integrados, conversión de formato, asignación de columnas y transferencia de datos eficaz y escalable.
  • Flujo de datos: para el flujo de datos, ejecute una instancia de Data Flow en un entorno de proceso de Azure administrado.
  • Distribución de actividades: Para la transformación, permite ejecutar paquetes SSIS de forma nativa.
  • Ejecución de paquetes SSIS: El entorno de ejecución de integración ejecuta de forma nativa paquetes SSIS en un entorno de proceso de Azure administrado. También permite distribuir y supervisar actividades de transformación que se ejecutan en una gran variedad de servicios de proceso, como Azure HDInsight, Azure Machine Learning, Azure SQL Database y SQL Server.

Puede implementar una o varias instancias del entorno de ejecución de integración, según sea necesario para mover y transformar los datos. El entorno de ejecución de integración se puede ejecutar en una red de Azure pública o en una red privada (local, Azure Virtual Network o en la nube privada virtual de Amazon Web Services [VPC]). En Data Factory, una actividad define la acción que se realizará. Un servicio vinculado define un almacén de datos o un servicio de proceso de destino. Una instancia de Integration Runtime proporciona el puente entre la actividad y los servicios vinculados. La actividad o el servicio vinculado hace referencia a él, y proporciona el entorno de proceso donde se ejecuta la actividad o desde donde se distribuye. De esta manera, la actividad puede realizarse en la región más cercana posible al almacén de datos o servicio de proceso de destino de la manera con mayor rendimiento, a la vez que se satisfacen las necesidades de seguridad y cumplimiento.

Se pueden crear entornos de ejecución de integración vinculados en la experiencia de usuario de Azure Data Factory mediante el centro de administración y cualquier actividad, conjunto de datos o flujo de datos que haga referencia a ellos. Para más información, consulte Integration Runtime en Azure Data Factory.

¿Cuál es el límite del número de Integration Runtimes?

No hay ningún límite estricto acerca del número de instancias de Integration Runtime que puede tener en una factoría de datos. Sin embargo, existe un límite acerca del número de núcleos de máquina virtual que Integration Runtime puede usar por suscripción para la ejecución de paquetes SSIS. Para más información, consulte los Límites de Data Factory.

¿Cuáles son los conceptos de nivel superior de Azure Data Factory?

Una suscripción de Azure puede tener una o varias instancias de Azure Data Factory (o factorías de datos). Azure Data Factory contiene cuatro componentes principales que funcionan juntos como plataforma en la que pueda crear flujos de trabajo orientados a datos con pasos para moverlos y transformarlos.

Procesos

Una factoría de datos puede tener una o más canalizaciones. Una canalización es una agrupación lógica de actividades para realizar una unidad de trabajo. Juntas, las actividades de una canalización realizan una tarea. Por ejemplo, una canalización puede contener un grupo de actividades que ingiere datos de un blob de Azure y luego ejecuta una consulta de Hive en un clúster de HDInsight para particionar los datos. La ventaja es que puede usar una canalización para administrar las actividades como un conjunto en lugar de tener que administrar individualmente cada actividad. Puede encadenar juntas las actividades en una canalización para hacerlas funcionar de forma secuencial o puede hacerlas funcionar de forma independiente en paralelo.

Flujos de datos

Los flujos de datos son objetos que se compilan visualmente en Data Factory que transforman los datos a escala de los servicios Spark de back-end. No es necesario saber programar ni conocer los elementos internos de Spark. Solo tiene que diseñar su intención de transformación de datos mediante gráficos (asignación) u hojas de cálculo (actividad de Power Query).

Actividades

Las actividades representan un paso del procesamiento en una canalización. Por ejemplo, puede utilizar una actividad de Copia para copiar datos de un almacén de datos a otro. De igual forma, puede usar una actividad de Hive, que ejecuta una consulta de Hive en un clúster de Azure HDInsight para transformar o analizar los datos. Data Factory admite tres tipos de actividades: actividades de movimiento de datos, actividades de transformación de datos y actividades de control.

Conjuntos de datos

Los conjuntos de datos representan las estructuras de datos de los almacenes de datos que simplemente apuntan o hacen referencia a los datos que desea utilizar en sus actividades como entradas o salidas.

Servicios vinculados

Los servicios vinculados son muy similares a las cadenas de conexión que definen la información de conexión necesaria para que Data Factory se conecte a recursos externos. Considérelos de esta forma: un servicio vinculado define la conexión al origen de datos y un conjunto de datos representa la estructura de los datos. Por ejemplo, un servicio vinculado de Azure Storage especifica la cadena de conexión para conectarse a la cuenta de Azure Storage. Además, un conjunto de datos de Azure Blob especifica el contenedor de blobs y la carpeta que contiene los datos.

Los servicios vinculados tienen dos fines en Data Factory:

  • Para representar un almacén de datos que incluye, entre otros, una instancia de SQL Server, una instancia de base de datos de Oracle, un recurso compartido de archivos o una cuenta de Azure Blob Storage. Para obtener una lista de almacenes de datos compatibles, consulte Actividad de copia en Azure Data Factory.
  • Para representar un recurso de proceso que puede hospedar la ejecución de una actividad. Por ejemplo, la actividad HDInsight Hive se ejecuta en un clúster de Hadoop para HDInsight. Para ver una lista de actividades de transformación y de entornos de proceso admitidos, consulte el artículo Transformar datos en Azure Data Factory.

Desencadenadores

Los desencadenadores representan unidades de procesamiento que determinan cuándo se pone en marcha una ejecución de canalización. Existen diferentes tipos de desencadenadores para diferentes tipos de eventos.

Ejecuciones de la canalización

Una ejecución de una canalización es una instancia de la ejecución de la canalización. Normalmente, crea instancias de una ejecución de canalización al pasar argumentos a los parámetros definidos en la canalización. Puede pasar los argumentos manualmente o dentro de la definición del desencadenador.

Parámetros

Los parámetros son pares clave-valor en una configuración de solo lectura. Defina parámetros en una canalización y pase los argumentos para los parámetros definidos durante la ejecución de un contexto de ejecución. El contexto de ejecución se crea mediante un desencadenador o desde una canalización que ejecuta manualmente. Las actividades dentro de la canalización consumen los valores de parámetro.

Un conjunto de datos es un parámetro fuertemente tipado y una entidad que puede reutilizar o a la que puede hacer referencia. Una actividad puede hacer referencia a conjuntos de datos y puede consumir las propiedades definidas en la definición del conjunto de datos.

Un servicio vinculado también es un parámetro fuertemente tipado que contiene información de conexión a un almacén de datos o a un entorno de proceso. También es una entidad que puede reutilizar o a la que puede hacer referencia.

Flujos de control

Los flujos de control organizan actividades de canalización que incluyen el encadenamiento de actividades en una secuencia, la creación de ramas, los parámetros que define en el nivel de canalización y los argumentos que pasa al invocar la canalización a petición o desde un desencadenador. Los flujos de control incluyen además el paso a un estado personalizado y contenedores de bucle (es decir, los iteradores Para cada).

Para más información sobre los conceptos de Data Factory, consulte los siguientes artículos:

¿Qué es el modelo de precios de Data Factory?

Consulte los detalles de precios de Azure Data Factory para obtener información al respecto.

¿Cómo puedo mantenerme actualizado con información acerca de Data Factory?

Para ver la información más actualizada acerca de Azure Data Factory, vaya a los sitios siguientes:

Inmersión técnica profunda

¿Cómo puedo programar una canalización?

Puede usar el desencadenador de programador o el desencadenador de ventana de tiempo para programar una canalización. El desencadenador utiliza una programación del calendario del reloj, que puede programar canalizaciones periódicamente o mediante patrones periódicos basados en calendarios (por ejemplo, semanalmente los lunes a las 6:00 p.m. y los jueves a las 9:00 p.m.). Para obtener más información, consulte Desencadenadores y ejecución de la canalización.

¿Puedo pasar parámetros a una ejecución de canalización?

Sí, los parámetros son conceptos de primera clase de nivel superior en Data Factory. Puede definir parámetros en el nivel de canalización y pasar argumentos al ejecutar la canalización a petición o mediante un desencadenador.

¿Puedo definir valores predeterminados para los parámetros de la canalización?

Sí. Puede definir valores predeterminados para los parámetros de las canalizaciones.

¿Una actividad de una canalización puede consumir los argumentos que se pasan a una ejecución de canalización?

Sí. Cada actividad dentro de la canalización puede utilizar el valor del parámetro que se pasa a la canalización y que se ejecuta con la construcción de @parameter.

¿Puede utilizarse una propiedad de salida de actividad en otra actividad?

Sí. Un resultado de la actividad se puede utilizar en una actividad posterior con la construcción de @activity.

¿Cómo puedo controlar correctamente los valores NULL en una salida de actividad?

Puede usar la construcción de @coalesce en las expresiones para controlar correctamente los valores NULL.

¿Cuántas actividades de canalización se pueden ejecutar simultáneamente?

Se permite un máximo de 50 actividades de canalización simultáneas. La actividad de canalización número 51 se pondrá en cola hasta que haya un hueco libre. Se permitirá un máximo de 800 actividades externas simultáneas, las que excedan de este límite se pondrán en cola de la misma manera.

Asignación de flujos de datos

Necesito ayuda para solucionar mi lógica de flujo de datos. ¿Qué información tengo que proporcionar para obtener ayuda?

Cuando Microsoft facilite ayuda o solucione problemas con relación a flujos de datos, proporcione los archivos auxiliares de la canalización de ADF. Este archivo ZIP contiene el script de código subyacente de su gráfico de flujo de datos. En la interfaz de usuario de ADF, seleccione ... junto a la canalización y después Descargar archivos auxiliares.

¿Cómo accedo a los datos con los otros 90 tipos de conjunto de datos en Data Factory?

Actualmente, la característica de flujo de datos de asignación permite los archivos de texto delimitados, de Azure SQL Database y Azure Synapse Analytics desde Azure Blob Storage o Azure Data Lake Storage Gen2 y los archivos Parquet desde Blob Storage o Data Lake Storage Gen2 de forma nativa para el origen y el receptor.

Utilice la actividad de copia para almacenar provisionalmente los datos desde cualquiera de los demás conectores y, a continuación, ejecutar una actividad de Data Flow para transformar los datos después de haberlos almacenado provisionalmente. Por ejemplo, la canalización se copiará en primer lugar al almacenamiento de blobs y, a continuación, una actividad de Data Flow utilizará un conjunto de datos del origen para transformar los datos.

¿Está disponible el entorno de ejecución de integración autohospedado para flujos de datos?

El entorno de ejecución de integración autohospedado es una construcción de canalización de ADF que se puede usar con la actividad de copia para adquirir o trasladar datos hacia orígenes locales o receptores de datos basados en máquinas virtuales, y desde estos. Las máquinas virtuales que se usan para un IR autohospedado también se pueden colocar en la misma red virtual que los almacenes de datos protegidos para acceder a esos almacenes de datos desde ADF. Con los flujos de datos logrará estos mismos resultados finales pero mediante Azure IR con red virtual administrada en su lugar.

¿El motor de proceso de flujo de datos atiende a varios inquilinos?

Los clústeres nunca se comparten. Garantizamos el aislamiento de cada trabajo ejecutado en las ejecuciones en producción. En caso de los escenarios de depuración, una persona obtiene un clúster, lo inicia y todos los depuradores irán a él.

¿Hay alguna manera de escribir atributos en Cosmos DB en el mismo orden que se especifica en el receptor en el flujo de datos de ADF?

Para Cosmos DB, el formato subyacente de cada documento es un objeto JSON, que es un conjunto desordenado de pares nombre-valor, por lo que el orden no se puede reservar.

¿Por qué un usuario no puede usar la vista previa de datos en los flujos de datos?

Debe comprobar los permisos para el rol personalizado. Hay varias acciones implicadas en la vista previa de datos del flujo de datos. Empiece por comprobar el tráfico de red durante la depuración en el explorador. Siga todas las acciones; para más información, consulte la información sobre el proveedor de recursos.

En ADF, ¿puedo calcular el valor de una nueva columna a partir de una columna existente de la asignación?

Puede usar la transformación de derivación en el flujo de datos de asignación para crear una nueva columna en la lógica que desee. Para crear una columna derivada, puede generar una nueva columna o actualizar una existente. En el cuadro de texto Columna, especifique la columna que está creando. Para reemplazar una columna existente en el esquema, puede usar la lista desplegable de columnas. Para generar la expresión de la columna derivada, seleccione el cuadro de texto Escribir expresión. Puede empezar a escribir la expresión o abrir el generador de expresiones para crear la lógica.

¿Por qué la vista previa del flujo de datos de asignación da error con el tiempo de espera de la puerta de enlace?

Pruebe a usar un clúster más grande y aprovechar los límites de fila de la configuración de depuración en un valor más pequeño para reducir el tamaño de la salida de depuración.

¿Cómo se puede parametrizar el nombre de columna en el flujo de datos?

El nombre de columna se puede parametrizar de forma similar a otras propiedades. Al igual que en la columna derivada, el cliente puede usar $ColumnNameParam = toString(byName($myColumnNameParamInData)). Estos parámetros se pueden pasar desde la ejecución de la canalización hasta los flujos de datos.

Asesoramiento del flujo de datos sobre TTL y los costos

Este documento de solución de problemas puede ayudar a resolver sus problemas: Guía de optimización y rendimiento de los flujos de datos de asignación: período de vida

Limpieza y transformación de datos de Power Query

¿En qué regiones se admite la limpieza y transformación de datos?

Data Factory está disponible en las siguientes regiones. La Power Query está disponible en todas las regiones de flujo de datos. Si la característica no está disponible en su región, póngase en contacto con el soporte técnico.

¿Qué diferencia hay entre el flujo de datos de asignación y la actividad de Power Query (limpieza y transformación de datos)?

Los flujos de datos de asignación proporcionan una manera de transformar los datos a escala sin necesidad de programar. Puede diseñar un trabajo de transformación de datos en el lienzo de flujos de datos realizando una serie de transformaciones. Comience realice todas las transformaciones que desee en el origen y, después, continúe con los pasos de transformación de datos. Complete el flujo de datos con un receptor para enviar los resultados a un destino. El flujo de datos de asignación es excelente para asignar y transformar datos con esquemas conocidos y desconocidos en los receptores y orígenes.

La limpieza y transformación de datos de Power Query permite realizar tareas ágiles de preparación y exploración de datos mediante el editor de mashup de Power Query Online a gran escala, a través de la ejecución de Spark. Con el aumento de los lagos de datos, a veces solo necesita explorar un conjunto de datos o crear un conjunto de datos en el lago. No está asignando a un destino conocido.

Tipos de SQL admitidos

La limpieza y transformación de datos de Power Query admite los siguientes tipos de datos en SQL. Obtendrá un error de validación para usar un tipo de datos que no se admite.

  • short
  • double
  • real
  • FLOAT
  • char
  • nchar
  • varchar
  • NVARCHAR
  • integer
  • int
  • bit
  • boolean
  • SMALLINT
  • TINYINT
  • bigint
  • long
  • text
  • date
  • datetime
  • datetime2
  • smalldatetime
  • timestamp
  • UNIQUEIDENTIFIER
  • Xml

Para obtener instrucciones paso a paso para crear una factoría de datos, consulte los siguientes tutoriales: