排查似乎永远不会以SQL Server结束的查询

项目
02/06/2024

本文介绍以下问题的故障排除步骤：查询似乎从未完成，或者完成该查询可能需要数小时或数天。

什么是永无止境的查询？

本文档重点介绍继续执行或编译的查询，即其 CPU 继续增加。它不适用于被阻止或等待某些资源（ (CPU 保持不变或) 变化很少）的查询。

重要

如果保留查询以完成其执行，它将最终完成。它可能需要几秒钟，或者可能需要几天时间。

术语永无止境用于描述当查询最终完成时查询未完成的感觉。

标识永无止境的查询

若要确定查询是持续执行还是停滞在瓶颈上，请执行以下步骤：

运行以下查询：

DECLARE @cntr int = 0

WHILE (@cntr < 3)
BEGIN
    SELECT TOP 10 s.session_id,
                    r.status,
                    r.wait_time,
                    r.wait_type,
                    r.wait_resource,
                    r.cpu_time,
                    r.logical_reads,
                    r.reads,
                    r.writes,
                    r.total_elapsed_time / (1000 * 60) 'Elaps M',
                    SUBSTRING(st.TEXT, (r.statement_start_offset / 2) + 1,
                    ((CASE r.statement_end_offset
                        WHEN -1 THEN DATALENGTH(st.TEXT)
                        ELSE r.statement_end_offset
                    END - r.statement_start_offset) / 2) + 1) AS statement_text,
                    COALESCE(QUOTENAME(DB_NAME(st.dbid)) + N'.' + QUOTENAME(OBJECT_SCHEMA_NAME(st.objectid, st.dbid)) 
                    + N'.' + QUOTENAME(OBJECT_NAME(st.objectid, st.dbid)), '') AS command_text,
                    r.command,
                    s.login_name,
                    s.host_name,
                    s.program_name,
                    s.last_request_end_time,
                    s.login_time,
                    r.open_transaction_count,
                    atrn.name as transaction_name,
                    atrn.transaction_id,
                    atrn.transaction_state
        FROM sys.dm_exec_sessions AS s
        JOIN sys.dm_exec_requests AS r ON r.session_id = s.session_id 
                CROSS APPLY sys.Dm_exec_sql_text(r.sql_handle) AS st
        LEFT JOIN (sys.dm_tran_session_transactions AS stran 
             JOIN sys.dm_tran_active_transactions AS atrn
                ON stran.transaction_id = atrn.transaction_id)
        ON stran.session_id =s.session_id
        WHERE r.session_id != @@SPID
        ORDER BY r.cpu_time DESC

    SET @cntr = @cntr + 1
WAITFOR DELAY '00:00:05'
END

检查示例输出。
- 当你注意到类似于以下输出的输出时，本文中的故障排除步骤特别适用，其中 CPU 正随着运行时间成比例地增加，而没有长时间等待。请务必注意，在这种情况下，中的 logical_reads 更改并不相关，因为某些受 CPU 限制的 T-SQL 请求可能根本不执行任何逻辑读取 (例如执行计算或 WHILE 循环) 。
  
  session_id status cpu_time logical_reads wait_time wait_type
  
  56 运行 7038 101000 0 NULL
  
  56 可运行 12040 301000 0 NULL
  
  56 运行 17020 523000 0 NULL
- 如果观察到类似于以下的等待方案，其中 CPU 不会发生细微变化或变化，并且会话正在等待资源，则本文不适用。
  
  session_id status cpu_time logical_reads wait_time wait_type
  
  56 已挂起 0 3 8312 LCK_M_U
  
  56 已挂起 0 3 13318 LCK_M_U
  
  56 已挂起 0 5 18331 LCK_M_U
有关详细信息，请参阅诊断等待或瓶颈。

session_id	status	cpu_time	logical_reads	wait_type
56	运行	7038	101000	NULL
56	可运行	12040	301000	NULL
56	运行	17020	523000	NULL

session_id	status	logical_reads	wait_time	wait_type
56	已挂起	3	8312	LCK_M_U
56	已挂起	3	13318	LCK_M_U
56	已挂起	5	18331	LCK_M_U

编译时间长

在极少数情况下，你可能会观察到 CPU 会随着时间的推移而持续增加，但这不是由查询执行驱动的。相反，它可能由过长的编译驱动， (查询) 的分析和编译。在这些情况下，检查transaction_name输出列并查找值sqlsource_transform。此事务名称指示编译。

收集诊断数据

若要使用 SQL Server Management Studio ( SSMS) 收集诊断数据，请执行以下步骤：

捕获估计的查询执行计划 XML。
查看查询计划，看看是否有任何明显的迹象表明速度缓慢可能来自何处。典型示例包括：
- 表或索引扫描 (查看估计行) 。
- 由巨大的外部表数据集驱动的嵌套循环。
- 在循环的内侧具有大型分支的嵌套循环。
- 表假脱机。
- SELECT列表中需要很长时间来处理每行的函数。
如果查询随时快速运行，则可以捕获要比较的实际 XML 执行计划的 “快速”执行。

这些版本的SQL Server中引入了轻型查询分析基础结构。它允许在执行慢速查询期间捕获实际统计信息。借助此故障排除功能，可以在运行时检查查询计划中的查询运算符，并了解查询中大部分时间都花在哪里。

若要使用轻型查询执行统计信息分析基础结构 v1 确定查询中的缓慢步骤，请执行以下步骤：

运行以下命令以启用 query_thread_profile XEvent：

CREATE EVENT SESSION [NodePerfStats] ON SERVER
ADD EVENT sqlserver.query_thread_profile(
  ACTION(sqlos.scheduler_id,sqlserver.database_id,sqlserver.is_system,
    sqlserver.plan_handle,sqlserver.query_hash_signed,sqlserver.query_plan_hash_signed,
    sqlserver.server_instance_name,sqlserver.session_id,sqlserver.session_nt_username,
    sqlserver.sql_text))
ADD TARGET package0.ring_buffer(SET max_memory=(25600))
WITH (MAX_MEMORY=4096 KB,
  EVENT_RETENTION_MODE=ALLOW_SINGLE_EVENT_LOSS,
  MAX_DISPATCH_LATENCY=30 SECONDS,
  MAX_EVENT_SIZE=0 KB,
  MEMORY_PARTITION_MODE=NONE,
  TRACK_CAUSALITY=OFF,
  STARTUP_STATE=OFF);

ALTER EVENT SESSION [NodePerfStats] ON SERVER STATE = START

从应用程序启动受影响的永不结束查询。

每隔一分钟多次运行以下命令，检查查询计划运算符的运行时执行统计信息：

SELECT CONVERT (varchar(30), getdate(), 126) as runtime,
            qp.session_id,
            convert(nvarchar(48), qp.physical_operator_name) as physical_operator_name,
            qp.row_count,
            qp.estimate_row_count,
            qp.node_id,
            req.cpu_time,
            req.total_elapsed_time,
            substring
            (REPLACE
            (REPLACE
                (SUBSTRING
                (SQLText.text
                , (req.statement_start_offset/2) + 1
                , (
                    (CASE statement_END_offset
                        WHEN -1
                        THEN DATALENGTH(SQLText.text)  
                        ELSE req.statement_END_offset
                        END
                        - req.statement_start_offset)/2) + 1)
            , CHAR(10), ' '), CHAR(13), ' '), 1, 512)  AS active_statement_text
FROM sys.dm_exec_query_profiles qp 
RIGHT OUTER JOIN sys.dm_exec_requests req
    ON qp.session_id = req.session_id
LEFT OUTER JOIN sys.dm_exec_sessions sess
    on req.session_id = sess.session_id
LEFT OUTER JOIN sys.dm_exec_connections conn on conn.session_id = req.session_id
OUTER APPLY sys.dm_exec_sql_text (ISNULL (req.sql_handle, conn.most_recent_sql_handle)) as SQLText
WHERE req.session_id <> @@SPID 
    AND sess.is_user_process = 1 
ORDER BY qp.session_id asc, row_count desc 
--this is to prevent massive grants
OPTION (max_grant_percent = 3, MAXDOP 1)

捕获三到四个间隔一分钟的快照，以提供足够的数据进行分析。具体而言，可以比较 row_count 每个运算符随时间推移的数字，并查看行计数显著增加 (百万或更多) 。
在 SSMS 的新查询窗口中，通过运行以下命令捕获问题查询的估计查询计划：
```
SET SHOWPLAN_XML ON
GO
<problem query here>
GO
SET SHOWPLAN_XML OFF
```
使用节点 ID 和步骤 3 中由查询标识的最高行计数，在估计的查询计划中查找同一个节点。此步骤将帮助了解计划中哪个运算符是导致执行时间过长main原因。

通过运行以下命令停止 XEvent：

ALTER EVENT SESSION [NodePerfStats] ON SERVER STATE = STOP

可以使用轻型查询执行统计信息分析基础结构 v2 来捕获具有行计数的实际值的实时查询计划。借助此分析基础结构，可以在运行时检查查询计划中的查询运算符，并了解查询中大部分时间都花在了何处。

若要确定查询中的慢速步骤，请执行以下步骤：

若要在这些版本的 SQL Server 上启用轻型基础结构，请使用以下方法之一：

通过运行以下命令启用跟踪标志 7412：
```
DBCC TRACEON (7412, -1)
```

或者，通过运行以下命令启用 query_thread_profile XEvent：

CREATE EVENT SESSION [PerfStats_LWP_Plan_v2] ON SERVER
ADD EVENT sqlserver.query_plan_profile(
 ACTION(sqlos.scheduler_id,sqlserver.database_id,sqlserver.is_system,
   sqlserver.plan_handle,sqlserver.query_hash_signed,sqlserver.query_plan_hash_signed,
   sqlserver.server_instance_name,sqlserver.session_id,sqlserver.session_nt_username,
   sqlserver.sql_text))
ADD TARGET package0.ring_buffer(SET max_memory=(25600))
WITH (MAX_MEMORY=4096 KB,
 EVENT_RETENTION_MODE=ALLOW_SINGLE_EVENT_LOSS,
 MAX_DISPATCH_LATENCY=30 SECONDS,
 MAX_EVENT_SIZE=0 KB,
 MEMORY_PARTITION_MODE=NONE,
 TRACK_CAUSALITY=OFF,
 STARTUP_STATE=OFF);

ALTER EVENT SESSION [PerfStats_LWP_Plan_v2] ON SERVER STATE = START

从应用程序启动受影响的永不结束查询。

使用类似于下面的命令来标识 Session_id 正在运行的永无止境查询的：

SELECT t.text, session_id 
FROM sys.dm_exec_requests req
CROSS APPLY sys.dm_exec_sql_text (req.sql_handle) as t

运行以下命令三到四次，间隔一分钟，以检查查询计划和计划中的实际统计信息。请确保每次都保存查询计划，以便可以比较它们，并确定哪个查询运算符占用了大部分 CPU 时间。具体来说，可以比较一段时间内每个运算符) 的行计数 (实际行数，并查看哪些运算符显示行计数显著增加 (百万或更多) 。将替换为 <session_id> 在上一步 3 中找到的整数值。
```
SELECT * FROM sys.dm_exec_query_statistics_xml (<session_id>)
```

如果已启动 XEvent，请停止该事件，或禁用跟踪标志：

ALTER EVENT SESSION [PerfStats_LWP_Plan_v2] ON SERVER STATE = STOP
-- or
DBCC TRACEOFF (7412, -1)

可以使用轻型查询执行统计信息分析基础结构 v3 捕获具有行计数的实际值的实时查询计划。借助此分析基础结构，可以在运行时检查查询计划中的查询运算符，并了解查询中大部分时间都花在了何处。默认情况下，在 2019 SQL Server启用轻型分析。

若要确定查询中的慢速步骤，请执行以下步骤：

从应用程序启动受影响的永不结束查询。

使用类似于下面的命令来标识 Session_id 正在运行的永无止境查询的：

SELECT t.text, session_id 
FROM sys.dm_exec_requests req
CROSS APPLY sys.dm_exec_sql_text (req.sql_handle) as t

运行以下命令三次或四次，检查查询计划和计划中的实际统计信息。请确保每次都保存查询计划，以便可以比较它们，并确定哪个查询运算符占用了大部分 CPU 时间。将替换为 <session_id> 在上一步 3 中找到的整数值。
```
SELECT * FROM sys.dm_exec_query_statistics_xml (<session_id>)
```
具体而言，选择 “query_plan ”列下的 XML 链接。在新窗口中打开图形查询计划后，右键单击它并选择“ 将执行计划另存为...”。重复这些步骤以捕获三个或四个间隔一分钟的快照，以便提供足够的数据进行分析。具体而言，可以比较行计数 (一段时间内每个运算符) 的实际行数，并查看哪些运算符显示行计数显著增加 (百万或更多) 。
注意

如果没有从 sys.dm_exec_query_statistics_xml获取任何输出，可以通过运行以下命令来检查数据库选项LAST_QUERY_PLAN_STATS是否已禁用：
```
SELECT name, value, value_for_secondary, is_value_default 
FROM sys.database_scoped_configurations
WHERE name = 'LAST_QUERY_PLAN_STATS'
```
可以通过运行 ALTER DATABASE SCOPED CONFIGURATION SET LAST_QUERY_PLAN_STATS = ON在数据库级别启用最后一个查询计划统计信息。

查看收集的计划的方法

本部分将说明如何查看收集的数据。它将使用SQL Server 2016 SP1 及更高版本和版本中收集的扩展 *.sqlplan) (多个 XML 查询计划。

请按照以下步骤比较执行计划：

(.sqlplan) 打开以前保存的查询执行计划文件。
右键单击执行计划的空白区域，然后选择“ 比较显示计划”。
选择要比较的第二个查询计划文件。
查找指示大量行在运算符之间流动的粗箭头。然后选择箭头之前或之后的运算符，并比较两个计划 的实际 行数。
比较第二个和第三个计划，以确定最大的行流是否在同一运算符中发生。

下面是一个示例：

解决方案

确保更新查询中使用的表的统计信息。
在查询计划中查找缺少的索引建议并应用任何索引。
重写查询，以简化查询：
- 使用更具选择性 WHERE 的谓词来减少预先处理的数据。
- 把它拆开。
- 在临时表中选择一些部件，稍后再联接它们。
- 在TOP由于优化器行目标而长时间运行的查询中删除、 EXISTS和 FAST (T-SQL) 。或者，可以使用提示DISABLE_OPTIMIZER_ROWGOAL。有关详细信息，请参阅行Goals消失的流氓。
- 在将语句合并为单个大查询时，避免使用通用表表达式 (CTE) 。
尝试使用查询提示生成更好的计划：
- HASH JOIN 或 MERGE JOIN 提示
- FORCE ORDER 提示
- FORCESEEK 提示
- RECOMPILE
- 如果你有一个可强制执行的快速查询计划，请使用PLAN N'<xml_plan>'
查询存储 (QDS) ，如果存在此类计划，并且SQL Server版本支持查询存储，请使用强制实施一个良好的已知计划。

诊断等待或瓶颈

此处包含此部分作为参考，以防你的问题不是长时间运行的 CPU 驱动查询。可以使用它来排查由于等待时间过长而导致的查询。

若要优化等待瓶颈的查询，请确定等待时间以及瓶颈 (等待类型) 的位置。确认等待类型后，请减少等待时间或完全消除等待。

若要计算近似等待时间，请从查询的运行时间中减去 CPU 时间 (辅助角色时间) 。通常，CPU 时间是实际执行时间，查询生存期的剩余部分正在等待。

有关如何计算近似等待持续时间的示例：

运行时间 (ms)	cpu time (ms)	等待时间 (ms)
3200	3000	200
7080	1000	6080

确定瓶颈或等待

若要识别历史长时间等待查询 (例如， >总运行时间的 20% 是等待时间) ，请运行以下查询。此查询使用自SQL Server开始以来缓存查询计划的性能统计信息。

SELECT t.text,
         qs.total_elapsed_time / qs.execution_count
         AS avg_elapsed_time,
         qs.total_worker_time / qs.execution_count
         AS avg_cpu_time,
         (qs.total_elapsed_time - qs.total_worker_time) / qs.execution_count
         AS avg_wait_time,
         qs.total_logical_reads / qs.execution_count
         AS avg_logical_reads,
         qs.total_logical_writes / qs.execution_count
         AS avg_writes,
         qs.total_elapsed_time
         AS cumulative_elapsed_time
FROM sys.dm_exec_query_stats qs
         CROSS apply sys.Dm_exec_sql_text (sql_handle) t
WHERE (qs.total_elapsed_time - qs.total_worker_time) / qs.total_elapsed_time
         > 0.2
ORDER BY qs.total_elapsed_time / qs.execution_count DESC

若要确定等待时间超过 500 毫秒的当前正在执行的查询，请运行以下查询：

SELECT r.session_id, r.wait_type, r.wait_time AS wait_time_ms
FROM sys.dm_exec_requests r 
   JOIN sys.dm_exec_sessions s ON r.session_id = s.session_id 
WHERE wait_time > 500
AND is_user_process = 1

如果可以收集查询计划，检查 SSMS 中的执行计划属性中的 WaitStats：
1. 运行包含 实际执行 计划的查询。
2. 右键单击“ 执行计划 ”选项卡中最左侧的运算符
3. 选择 “属性” ，然后选择 “WaitStats 属性”。
4. 检查 WaitTimeMs 和 WaitType。
如果熟悉 PSSDiag/SQLdiag 或 SQL LogScout LightPerf/GeneralPerf 方案，请考虑使用其中任一方案来收集性能统计信息，并确定SQL Server实例上的等待查询。可以导入收集的数据文件，并使用 SQL Nexus 分析性能数据。

帮助消除或减少等待的引用

每种等待类型的原因和解决方法各不相同。没有一种常规方法可以解决所有等待类型。下面是排查和解决常见等待类型问题的文章：

有关许多 Wait 类型的说明及其指示的内容，请参阅 “等待类型”中的表。

Share via