Compartir vía


Directrices de rendimiento de Synapse Data Warehouse en Microsoft Fabric

Se aplica a:✅Almacenamiento en Microsoft Fabric

Estas son las instrucciones para ayudarle a comprender el rendimiento de Warehouse en Microsoft Fabric. En este artículo encontrará instrucciones y artículos importantes en los que centrarse. Warehouse en Microsoft Fabric es una plataforma SaaS en la que la plataforma administra internamente actividades como la administración de cargas de trabajo, la simultaneidad y la administración de almacenamiento. Además de esta administración interna del rendimiento, puede seguir mejorando el rendimiento mediante el desarrollo de consultas de rendimiento en almacenes bien diseñados.

Rendimiento de la ejecución en frío (caché en frío)

El almacenamiento en caché con SSD local y memoria es automático. Las primeras ejecuciones (de 1 a 3) de una consulta tienen un rendimiento notablemente más lento que las ejecuciones posteriores. Si experimenta problemas de rendimiento de la ejecución en frío, estas son algunas de las cosas que puede hacer para mejorar el rendimiento:

  • Si el rendimiento de la primera ejecución es fundamental, intente crear estadísticas manualmente. Revise el artículo sobre estadísticas para comprender mejor su rol y obtener instrucciones sobre cómo crear estadísticas manuales para mejorar el rendimiento de las consultas. Sin embargo, si el rendimiento de la primera ejecución no es crítico, puedes confiar en las estadísticas automáticas que se generarán en la primera consulta y que seguirán aprovechándose en ejecuciones posteriores (siempre y cuando los datos subyacentes no cambien significativamente).

  • Si usa Power BI, use el modo Direct Lake siempre que sea posible.

Métricas para supervisar el rendimiento

Actualmente, el centro de supervisión no incluye Warehouse. Si eliges Data Warehouse, no podrás acceder al Centro de supervisión desde la barra de navegación.

Los administradores de Fabric podrán acceder al informe Uso de la capacidad y las métricas para obtener información actualizada que realiza el seguimiento del uso de la capacidad que incluye Warehouse.

Uso de las vistas de administración dinámica (DMV) para supervisar la ejecución de consultas

Puede usar las vistas de administración dinámica (DMV) para supervisar el estado de conexión, sesión y solicitud en Warehouse.

Estadísticas

Warehouse usa un motor de consultas para crear un plan de ejecución para una consulta SQL determinada. Al enviar una consulta, el optimizador de consultas intenta enumerar todos los planes posibles y elegir el candidato más eficaz. Para determinar qué plan requeriría la menor sobrecarga, el motor debe ser capaz de evaluar la cantidad de trabajo o las filas que cada operador podría procesar. A continuación, en función del costo de cada plan, elige el que tiene la menor cantidad de trabajo estimado. Las estadísticas son objetos que contienen información relevante sobre los datos para permitir que el optimizador de consultas calcule estos costos.

También puede actualizar manualmente las estadísticas después de cada carga de datos o actualización de datos para asegurarse de que se puede crear el mejor plan de consulta.

Para obtener más información y saber cómo puede aumentar las estadísticas creadas automáticamente, consulte Estadísticas en el almacenamiento de datos de Fabric.

Directrices de la ingesta de datos

Hay cuatro opciones para la ingesta de datos en un almacén:

  • COPY (Transact-SQL)
  • Canalizaciones de datos
  • Flujos de datos
  • Ingesta entre almacenes

Para ayudar a determinar qué opción es mejor para usted y revisar algunos procedimientos recomendados de ingesta de datos, consulte Ingesta de datos.

Agrupar las instrucciones INSERT en lotes (evitar inserciones complicadas)

Una carga única en una tabla pequeña con una instrucción INSERT, como se muestra en el ejemplo siguiente, podría ser el mejor enfoque en función de sus necesidades. Sin embargo, si necesita cargar miles o millones de filas durante todo el día, los singleton INSERTS no es óptimo.

INSERT INTO MyLookup VALUES (1, 'Type 1') 

Para obtener la guía sobre cómo manipular estos escenarios de carga complicada, consulte Procedimientos recomendados para la ingesta de datos.

Reducción del tamaño de las transacciones

Las instrucciones SELECT, UPDATE y DELETE se ejecutan en una transacción. Si devuelven un error, se deben revertir. Para que la reversión no se tarde tanto, minimice el tamaño de las transacciones siempre que pueda. Puede realizar esta operación si divide las instrucciones INSERT, UPDATE y DELETE en partes. Por ejemplo, si tiene una instrucción INSERT que se suele tardar 1 hora, puede dividirla en cuatro partes. Cada ejecución durará 15 minutos.

Considere usar CTAS (Transact-SQL) en lugar de DELETE para escribir los datos que quiera mantener en una tabla. Si CTAS tarda lo mismo, es más seguro, ya que su registro de transacciones es mínimo y se puede cancelar rápidamente si es necesario.

Colocación de aplicaciones cliente y Microsoft Fabric

Si usa aplicaciones de cliente, asegúrese de que usa Microsoft Fabric en una región cercana al equipo de su cliente. Entre los ejemplos de aplicaciones cliente, se incluyen Power BI Desktop, SQL Server Management Studio y Azure Data Studio.

Utilizar el diseño de datos de esquema de estrella

Un esquema de estrella organiza los datos en tablas de hechos y tablas de dimensiones. Facilita el procesamiento analítico mediante la desnormalización de los datos de sistemas OLTP altamente normalizados, la ingesta de datos transaccionales y los datos maestros empresariales en una estructura de datos común, limpiada y comprobada que minimiza JOINS en el momento de la consulta, reduce el número de filas leídas y facilita agregaciones y procesamiento de agrupación.

Para obtener más instrucciones de diseño de almacenamiento, consulte Tablas en el almacenamiento de datos.

Reducir los tamaños del conjunto de resultados de la consulta

Reducir el conjunto de resultados de la consulta le ayuda a evitar problemas por parte del cliente a causa de resultados de consulta de gran tamaño. Los conjuntos de resultados del Editor de consultas SQL se limitan a las primeras 10 000 filas para evitar estos problemas en esta interfaz de usuario basada en el explorador. Si necesita devolver más de 10 000 filas, use SQL Server Management Studio (SSMS) o Azure Data Studio.

Elegir el mejor tipo de datos para el rendimiento

Al definir sus tablas, use el tipo de datos mínimo compatible con sus datos, ya que esto mejorará el rendimiento de la consulta. Esta recomendación tiene especial importancia para las columnas CHAR y VARCHAR. Si el valor mayor máximo de una columna es 25 caracteres, defina la columna como VARCHAR(25). Evite definir las columnas de caracteres con una longitud predeterminada de gran tamaño.

Utilice tipos de datos basados en enteros si es posible. Las operaciones SORT, JOIN y GROUP BY se realizan más rápidamente en números enteros que en datos de caracteres.

Para saber los tipos de datos admitidos y más información, consulte Tipos de datos.

Rendimiento del punto de conexión de SQL Analytics

Para obtener información y recomendaciones sobre el rendimiento del punto de conexión de SQL Analytics, consulte Consideraciones sobre el rendimiento del punto de conexión de SQL Analytics.

Compactación de datos

La compactación de datos consolida los archivos Parquet más pequeños en menos archivos más grandes, lo que optimiza las operaciones de lectura. Este proceso también ayuda a administrar eficazmente las filas eliminadas al eliminarlas de archivos Parquet inmutables. El proceso de compactación de datos implica volver a escribir tablas o segmentos de tablas en nuevos archivos Parquet optimizados para el rendimiento. Para obtener más información, vea Blog: Automatic Data Compaction for Fabric Warehouse.

El proceso de compactación de datos se integra perfectamente en el almacén. A medida que se ejecutan las consultas, el sistema identifica las tablas que podrían beneficiarse de la compactación y realiza evaluaciones necesarias. No hay ninguna manera manual de desencadenar la compactación de datos.