Agrupar por opções para pools SQL dedicados no Azure Synapse Analytics

Tip

Microsoft Fabric Data Warehouse é um armazém relacional de escala empresarial baseado numa base de data lake, com uma arquitetura pronta para o futuro, IA incorporada e novas funcionalidades. Se és novo no data warehousing, começa pelo Fabric Data Warehouse. As cargas de trabalho existentes de pool SQL dedicado podem atualizar para o Fabric para acessar novas capacidades em ciência de dados, análise em tempo real e relatórios.

Neste artigo, encontrará dicas para implementar o group by options em pools SQL dedicados.

O que faz o GROUP BY?

A cláusula GROUP BY T-SQL agrega dados num conjunto resumo de linhas. O GROUP BY tem algumas opções que o pool SQL dedicado não suporta. Estas opções têm soluções alternativas, que são as seguintes:

AGRUPAR POR com ROLLUP
CONJUNTOS DE AGRUPAMENTO
GROUP BY com CUBE

Opções de conjuntos de enrolamento e agrupamento

A opção mais simples aqui é usar UNION ALL para realizar o rollup em vez de depender da sintaxe explícita. O resultado é exatamente o mesmo.

O exemplo seguinte usando a instrução GROUP BY com a opção ROLLUP:

SELECT [SalesTerritoryCountry]
,      [SalesTerritoryRegion]
,      SUM(SalesAmount)             AS TotalSalesAmount
FROM  dbo.factInternetSales s
JOIN  dbo.DimSalesTerritory t       ON s.SalesTerritoryKey       = t.SalesTerritoryKey
GROUP BY ROLLUP (
                        [SalesTerritoryCountry]
                ,       [SalesTerritoryRegion]
                )
;

Ao usar ROLLUP, o exemplo anterior solicita as seguintes agregações:

País e Região
País
Total geral

Para substituir ROLLUP e devolver os mesmos resultados, pode usar UNION ALL e especificar explicitamente as agregações necessárias:

SELECT [SalesTerritoryCountry]
,      [SalesTerritoryRegion]
,      SUM(SalesAmount) AS TotalSalesAmount
FROM  dbo.factInternetSales s
JOIN  dbo.DimSalesTerritory t     ON s.SalesTerritoryKey       = t.SalesTerritoryKey
GROUP BY
       [SalesTerritoryCountry]
,      [SalesTerritoryRegion]
UNION ALL
SELECT [SalesTerritoryCountry]
,      NULL
,      SUM(SalesAmount) AS TotalSalesAmount
FROM  dbo.factInternetSales s
JOIN  dbo.DimSalesTerritory t     ON s.SalesTerritoryKey       = t.SalesTerritoryKey
GROUP BY
       [SalesTerritoryCountry]
UNION ALL
SELECT NULL
,      NULL
,      SUM(SalesAmount) AS TotalSalesAmount
FROM  dbo.factInternetSales s
JOIN  dbo.DimSalesTerritory t     ON s.SalesTerritoryKey       = t.SalesTerritoryKey;

Para substituir os GROUPING SETS, aplica-se o princípio da amostra. Só precisa de criar as secções UNION ALL para os níveis de agregação que deseja ver.

Opções do cubo

É possível criar um GROUP BY WITH CUBE usando a abordagem UNION ALL. O problema é que o código pode rapidamente tornar-se pesado e difícil de manusear. Para mitigar este problema, pode usar esta abordagem mais avançada.

Usando o exemplo anterior, o primeiro passo é definir o 'cubo' que define todos os níveis de agregação que queremos criar.

Note o CROSS JOIN das duas tabelas derivadas, já que isto gera todos os níveis. O resto do código está disponível para formatação:

CREATE TABLE #Cube
WITH
(   DISTRIBUTION = ROUND_ROBIN
,   LOCATION = USER_DB
)
AS
WITH GrpCube AS
(SELECT    CAST(ISNULL(Country,'NULL')+','+ISNULL(Region,'NULL') AS NVARCHAR(50)) as 'Cols'
,          CAST(ISNULL(Country+',','')+ISNULL(Region,'') AS NVARCHAR(50))  as 'GroupBy'
,          ROW_NUMBER() OVER (ORDER BY Country) as 'Seq'
FROM       ( SELECT 'SalesTerritoryCountry' as Country
             UNION ALL
             SELECT NULL
           ) c
CROSS JOIN ( SELECT 'SalesTerritoryRegion' as Region
             UNION ALL
             SELECT NULL
           ) r
)
SELECT Cols
,      CASE WHEN SUBSTRING(GroupBy,LEN(GroupBy),1) = ','
            THEN SUBSTRING(GroupBy,1,LEN(GroupBy)-1)
            ELSE GroupBy
       END AS GroupBy  --Remove Trailing Comma
,Seq
FROM GrpCube;

A imagem seguinte mostra os resultados do CTAS:

Agrupar por cubo

O segundo passo é especificar uma tabela alvo para armazenar resultados intermédios:

DECLARE
 @SQL NVARCHAR(4000)
,@Columns NVARCHAR(4000)
,@GroupBy NVARCHAR(4000)
,@i INT = 1
,@nbr INT = 0
;
CREATE TABLE #Results
(
 [SalesTerritoryCountry] NVARCHAR(50)
,[SalesTerritoryRegion]  NVARCHAR(50)
,[TotalSalesAmount]      MONEY
)
WITH
(   DISTRIBUTION = ROUND_ROBIN
,   LOCATION = USER_DB
)
;

O terceiro passo é fazer um loop sobre o nosso cubo de colunas que realiza a agregação. A consulta será executada uma vez por cada linha da tabela temporária #Cube. Os resultados são armazenados na tabela temporária #Results.

SET @nbr =(SELECT MAX(Seq) FROM #Cube);

WHILE @i<=@nbr
BEGIN
    SET @Columns = (SELECT Cols    FROM #Cube where seq = @i);
    SET @GroupBy = (SELECT GroupBy FROM #Cube where seq = @i);

    SET @SQL ='INSERT INTO #Results
              SELECT '+@Columns+'
              ,      SUM(SalesAmount) AS TotalSalesAmount
              FROM  dbo.factInternetSales s
              JOIN  dbo.DimSalesTerritory t  
              ON s.SalesTerritoryKey = t.SalesTerritoryKey
              '+CASE WHEN @GroupBy <>''
                     THEN 'GROUP BY '+@GroupBy ELSE '' END

    EXEC sp_executesql @SQL;
    SET @i +=1;
END

Por fim, pode devolver os resultados lendo da tabela temporária #Results.

SELECT *
FROM #Results
ORDER BY 1,2,3
;

Ao dividir o código em secções e gerar uma construção em looping, o código torna-se mais gerível e mais fácil de manter.

Passos seguintes

Para obter mais dicas de desenvolvimento, consulte Visão geral do desenvolvimento.

Comentários

Esta página foi útil?

Last updated on 2026-05-03