Ingesta de datos en el almacén

Esto se aplica a:✅ almacén en Microsoft Fabric

El almacén de Microsoft Fabric ofrece herramientas integradas de ingesta de datos que permiten a los usuarios ingerir datos en almacenes a escala mediante experiencias sin código o enriquecidas con código.

Decidir qué herramienta de ingesta de datos usar

Para decidir qué opción de ingesta de datos usar, puede utilizar los criterios siguientes:

Use la instrucción COPY (Transact-SQL) para operaciones de ingesta de datos enriquecidas con código, para obtener el mayor rendimiento de ingesta de datos posible, o bien cuando necesite agregar la ingesta de datos como parte de una lógica de Transact-SQL.
- Para empezar, consulte Ingesta de datos mediante la instrucción COPY.
- El Warehouse también admite la instrucción tradicional BULK INSERT, que es sinonónimo de COPY INTO, con las opciones de carga clásicas.
- La instrucción COPY en Warehouse admite orígenes de datos de cuentas de almacenamiento de Azure y carpetas de OneLake lakehouse. Las fuentes de OneLake son actualmente una función en fase de prueba.
Use pipelines para flujos de trabajo de ingesta de datos sólidos, sin código o de poco código, que se ejecuten repetidamente, según una programación o que impliquen grandes volúmenes de datos.
- Para empezar, consulte Ingesta de datos en el almacenamiento mediante canalizaciones.
- Mediante canalizaciones, puede organizar flujos de trabajo sólidos para una experiencia completa de extracción, transformación y carga (ETL) que incluye actividades para ayudar a preparar el entorno de destino, ejecutar instrucciones Transact-SQL personalizadas, realizar búsquedas o copiar datos de un origen a un destino.
Use flujos de datos para una experiencia sin código que permita transformaciones personalizadas a los datos de origen antes de ingerirlos.
- Para empezar, consulte Ingesta de datos mediante un flujo de datos.
- Estas transformaciones incluyen (pero no se limitan a) cambiar los tipos de datos, agregar o quitar columnas, o bien usar funciones para generar columnas calculadas.
Utiliza la ingesta de T-SQL para experiencias ricas en código, para crear tablas nuevas o actualizar las existentes con datos fuente dentro del mismo espacio de trabajo o almacenamiento externo.
- Para empezar, consulte Ingesta de datos en el almacenamiento mediante Transact-SQL.
- Puede usar características de Transact-SQL como INSERT...SELECT, SELECT INTO o CREATE TABLE AS SELECT (CTAS) para leer datos de tablas que hacen referencia a otros almacenes, casas de lago o bases de datos replicadas dentro del mismo espacio de trabajo, o para leer datos de la función OPENROWSET que hace referencia a archivos en cuentas de almacenamiento externas de Azure.
- También puede escribir consultas entre bases de datos entre almacenes diferentes en el área de trabajo de Fabric.

Orígenes y formatos de datos admitidos

La ingesta de datos para el almacén de Microsoft Fabric ofrece un gran número de formatos de datos y orígenes que se pueden usar. Cada una de las opciones descritas incluye su propia lista de tipos de conectores de datos y formatos de datos admitidos.

Para la ingesta de T-SQL, los orígenes de datos de tabla deben estar dentro del mismo área de trabajo de Microsoft Fabric y los orígenes de datos de archivos deben estar en Azure Data Lake o Azure Blob Storage. Las consultas se pueden realizar mediante la nomenclatura de tres partes o la función OPENROWSET para los datos de origen. Los orígenes de datos de tabla pueden hacer referencia a conjuntos de datos de Delta Lake, mientras que OPENROWSET() puede hacer referencia a archivos Parquet, CSV o JSONL en Azure Data Lake o Azure Blob Storage.

Por ejemplo, supongamos que hubiera dos almacenes denominados Inventario y Ventas en un área de trabajo. Una consulta como la siguiente crea una nueva tabla en el almacén de inventario con el contenido de una tabla en el almacén de inventario, unido a una tabla en el almacén de ventas y con archivos externos que contienen información del cliente:

CREATE TABLE Inventory.dbo.RegionalSalesOrders
AS
SELECT 
    s.SalesOrders,
    i.ProductName,
    c.CustomerName
FROM Sales.dbo.SalesOrders s
JOIN Inventory.dbo.Products i
    ON s.ProductID = i.ProductID
JOIN OPENROWSET( BULK 'abfss://<container>@<storage>.dfs.core.windows.net/<customer-file>.csv' ) AS c
    ON s.CustomerID = c.CustomerID
WHERE s.Region = 'West region';

Note

La lectura de datos mediante OPENROWSET puede ser más lenta que consultar datos de una tabla. Si planea acceder repetidamente a los mismos datos externos, considere la posibilidad de ingerirlos en una tabla dedicada para mejorar el rendimiento y la eficacia de las consultas.

La instrucción COPY (Transact-SQL) admite actualmente los formatos de archivo PARQUET y .csv. Para orígenes de datos, actualmente se admiten Azure Data Lake Storage (ADLS) Gen2 y Azure Blob Storage.

Las canalizaciones y los flujos de datos admiten una amplia variedad de orígenes de datos y formatos de datos. Para más información, consulte Canalizaciones y flujos de datos.

procedimientos recomendados

La característica de comando COPY del almacén de Microsoft Fabric usa una interfaz sencilla, flexible y rápida para la ingesta de datos de alto rendimiento para cargas de trabajo de SQL. En la versión actual, solo se admite la carga de datos desde cuentas de almacenamiento externas.

También puede usar el lenguaje T-SQL para crear una nueva tabla y, a continuación, insertarla y, a continuación, actualizar y eliminar filas de datos. Los datos se pueden insertar desde cualquier base de datos del área de trabajo de Microsoft Fabric mediante consultas entre bases de datos. Si desea ingerir datos de una instancia de Lakehouse en un almacén, podría hacerlo con una consulta entre bases de datos. Por ejemplo:

INSERT INTO MyWarehouseTable
SELECT * FROM MyLakehouse.dbo.MyLakehouseTable;

Evite la ingesta de datos mediante instrucciones singleton INSERT , ya que esto provoca un rendimiento deficiente en las consultas y actualizaciones. Si las instrucciones singleton INSERT se usaron para la ingesta de datos consecutivamente, se recomienda crear una nueva tabla mediante CREATE TABLE AS SELECT (CTAS) o INSERT...SELECT patrones, quitar la tabla original y, a continuación, volver a crearla a partir de la tabla que creó mediante CREATE TABLE AS SELECT (CTAS).
- Quitar la tabla existente afecta al modelo semántico, incluidas las medidas personalizadas o las personalizaciones que pueda haber realizado en el modelo semántico.
Al trabajar con datos externos en archivos, se recomienda que los archivos sean de, al menos, 4 MB de tamaño.
Para archivos .csv comprimidos de gran tamaño, considere la posibilidad de dividirlos en varios archivos.
Azure Data Lake Storage (ADLS) Gen2 ofrece un mejor rendimiento que Azure Blob Storage (heredado). Considere la posibilidad de usar una cuenta de ADLS Gen2 siempre que sea posible.
En el caso de las canalizaciones que se ejecuten con frecuencia, considere la posibilidad de aislar la cuenta de Azure Storage de otros servicios que podrían acceder a los mismos archivos al mismo tiempo.
Las transacciones explícitas permiten agrupar varios cambios de datos para que solo sean visibles al leer una o varias tablas cuando la transacción se confirme por completo. También tiene la capacidad de revertir la transacción si se produjese un error en alguno de los cambios.
Si una instrucción SELECT estaba dentro de una transacción y estaba precedido por inserciones de datos, las estadísticas generadas automáticamente pueden ser inexactas después de una reversión. Las estadísticas inexactas pueden dar lugar a planes de consulta no optimizados y tiempos de ejecución. Si revierte una transacción con SELECT después de una instrucción INSERT grande, actualice las estadísticas de las columnas mencionadas en su instrucción SELECT.

Note

Independientemente de cómo se ingieren datos en almacenes, los archivos parquet generados por la tarea de ingesta de datos se optimizarán mediante la optimización de escritura de V-Order. V-Order optimiza los archivos Parquet para permitir lecturas ultrarrápidas en los motores de procesamiento de Microsoft Fabric, como Power BI, SQL, Spark y otros. Las consultas de almacenamiento en general se benefician de tiempos de lectura más rápidos para las consultas con esta optimización, lo que garantiza que los archivos parquet son 100 % compatibles con su especificación de código abierto. No se recomienda deshabilitar V-Order, ya que podría afectar al rendimiento de lectura. Para obtener más información sobre el V-Order, consulte Descripción y administración de V-Order para el almacén.

Retroalimentació

Ha estat útil aquesta pàgina?

Last updated on 2025-12-03

Comparteix via

Ingesta de datos en el almacén

Decidir qué herramienta de ingesta de datos usar

Orígenes y formatos de datos admitidos

procedimientos recomendados

Contenido relacionado

Retroalimentació

Recursos addicionals