SQL Server里Grouping Sets的威力

2022-10-14 10:21:22

在SQL Server里，你有没有想进行跨越多个列/纬度的聚集操作，不使用SSAS许可（SQL Server分析服务）。我不是说在生产里使用开发版，也不是说安装盗版SQL Server。

不可能的任务？未必，因为通过SQL Server里所谓的Grouping Sets就可以。在这篇文章里我会给你概括介绍下Grouping Sets，使用它们可以实现哪类查询，什么是它们的性能优势。

使用Grouping Sets的聚合

假设你有个订单表，你想进行跨多个分组的T-SQL聚集查询。在AdventureWorks2012数据库的Sales.SalesOrderHeader表的环境里，这些分组可以类似如下：

在每列分组
GROUP BY SalesPersonID, YEAR(OrderDate)
GROUP BY CustomerID, YEAR(OrderDate)
GROUP BY CustomerID, SalesPersonID, YEAR(OrderDate)

当你想用传统T-SQL查询进行这些各自分组时，你需要多个语句，对各个记录集进行UNION ALL。我们来看这样的查询：

SELECT * FROM
(
    -- 1st Grouping Set
    SELECT
        NULL AS 'CustomerID',
        NULL AS 'SalesPersonID',
        NULL AS 'OrderYear',
        SUM(TotalDue) AS 'TotalDue'
    FROM Sales.SalesOrderHeader
    WHERE SalesPersonID IS NOT NULL

    UNION ALL

    -- 2nd Grouping Set
    SELECT
        NULL AS 'CustomerID',
        SalesPersonID,
        YEAR(OrderDate) AS 'OrderYear',
        SUM(TotalDue) AS 'TotalDue'
    FROM Sales.SalesOrderHeader
    WHERE SalesPersonID IS NOT NULL
    GROUP BY SalesPersonID, YEAR(OrderDate)

    UNION ALL

    -- 3rd Grouping Set
    SELECT
        CustomerID,
        NULL AS 'SalesPersonID',
        YEAR(OrderDate) AS 'OrderYear',
        SUM(TotalDue) AS 'TotalDue'
    FROM Sales.SalesOrderHeader
    WHERE SalesPersonID IS NOT NULL
    GROUP BY CustomerID, YEAR(OrderDate)

    UNION ALL

    -- 4th Grouping Set
    SELECT
        CustomerID,
        SalesPersonID,
        YEAR(OrderDate) AS 'OrderYear',
        SUM(TotalDue) AS 'TotalDue'
    FROM Sales.SalesOrderHeader
    WHERE SalesPersonID IS NOT NULL
    GROUP BY CustomerID, SalesPersonID, YEAR(OrderDate)
) AS t
ORDER BY CustomerID, SalesPersonID, OrderYear
GO

用这个T-SQL语句方法有多个缺点：

T-SQL语句本身很庞大，因为每个单独分组都是一个不同查询。
每查询1次，Sales.SalesOrderHeader表需要访问4次。
每查询1次，你在执行计划里会看到SQL Server进行了4次的索引查找（非聚集）（Index Seek (NonClustered) ）。

如果你使用自SQL Server 2008以后引入的grouping sets功能，就可以大大简化你需要的T-SQL代码。下面代码展示你同样的查询，但这次用grouping sets实现。

SELECT
    CustomerID,
    SalesPersonID,
    YEAR(OrderDate) AS 'OrderYear',
    SUM(TotalDue) AS 'TotalDue'
FROM Sales.SalesOrderHeader
WHERE SalesPersonID IS NOT NULL
GROUP BY GROUPING SETS
(
    -- Our 4 different grouping sets
    (CustomerID, SalesPersonID, YEAR(OrderDate)),
    (CustomerID, YEAR(OrderDate)),
    (SalesPersonID, YEAR(OrderDate)),
    ()
)
GO

从代码本身可以看到，你只在GROUP BY GROUPING SETS子句里指定需要的分组集——其它的一切都由SQL Server搞定。指定的空括号是所谓的Empty Grouping Set，是跨整个表的聚集。当你看STATISTICS IO输出时，你会发现Sales.SalesOrderHeader只被访问了1次！这是和刚才手工实现的巨大区别。