從 HANA 端進行監視和疑難排解
在本文中,我們將查看如何使用 SAP HANA 所提供的資源來監視和疑難排解 Azure 上的 SAP HANA (大型執行個體)。
若要分析 Azure 上的 SAP HANA (大型執行個體) 相關問題,建議您縮小問題根本原因的範圍。 SAP 已發佈大量文件來協助您。 您可以在下列 SAP 附註中找到與 SAP HANA 效能相關的常見問題集:
- SAP 附註 #2222200 - 常見問題集:SAP HANA 網路
- SAP 附註 #2100040 - 常見問題集:SAP HANA CPU
- SAP 附註 #199997 - 常見問題集:SAP HANA 記憶體
- SAP 附註 #200000 - 常見問題集:SAP HANA 效能最佳化
- SAP 附註 #199930 - 常見問題集:SAP HANA I/O 分析
- SAP 附註 #2177064 - 常見問題集:SAP HANA 服務重新啟動和當機
SAP HANA 警示
首先,檢查目前的 SAP HANA 警示記錄。 在 SAP HANA Studio 中,移至 [Administration Console: Alerts: Show: all alerts] \(管理主控台:警示:顯示:所有警示)。 此索引標籤將會顯示值的所有 SAP HANA 警示 (可用實體記憶體、CPU 使用量等),而這些值不在所設定的最小和最大閾值內。 根據預設,檢查會每隔 15 分鐘自動重新整理一次。
CPU
針對因不適當閾值設定所觸發的警示,重設為預設值或更合理的閾值。
下列警示可能表示有 CPU 資源問題:
- Host CPU Usage (Alert 5) (主機 CPU 使用率 (警示 5))
- Most recent savepoint operation (Alert 28) (最新的儲存點作業 (警示 28))
- Savepoint duration (Alert 54) (儲存點持續時間 (警示 54))
您可能會從下列情況注意到 SAP HANA 資料庫上的 CPU 耗用量過高:
- 針對目前和過去的 CPU 使用率,引發了「警示 5」(主機 CPU 使用率)
- 概觀畫面上顯示的 CPU 使用率
Load (負載) 圖表可能會顯示 CPU 耗用量過高,或過去耗用量過高:
高 CPU 使用量所觸發的警示可能是數個原因所造成:
- 特定交易的執行
- 載入資料
- 未回應的工作
- 長時間執行的 SQL 陳述式
- 查詢效能不正確 (例如,在 HANA Cube 上使用 BW)
如需詳細 CPU 使用量疑難排解步驟,請參閱 SAP HANA 疑難排解:CPU 相關的原因和解決方案。
作業系統 (OS)
Linux 上的 SAP HANA 重要檢查是確定已停用 Transparent Huge Pages。 如需詳細資訊,請參閱 SAP 附註 #2131662 – SAP HANA 伺服器上的 Transparent Huge Pages (THP)。
您可以透過下列 Linux 命令來檢查是否已啟用 Transparent Huge Pages:cat /sys/kernel/mm/transparent_hugepage/enabled
- 如果括弧內包含 always,則表示已啟用 Transparent Huge Pages:[always] madvise never
- 如果括弧內包含 never,則表示已停用 Transparent Huge Pages:always madvise [never]
下列 Linux 命令應該不會傳回任何內容:rpm -qa | grep ulimit。如果出現已安裝 ulimit,則請立即予以解除安裝。
記憶體
您可能會觀察到配置給 SAP HANA 資料庫的記憶體數量高於預期值。 下列警示表示有記憶體使用量過高的問題:
- Host physical memory usage (Alert 1) (主機實體記憶體使用量 (警示 1))
- Memory usage of name server (Alert 12) (名稱伺服器的記憶體使用量 (警示 12))
- Total memory usage of Column Store tables (Alert 40) (資料行存放區資料表的總記憶體使用量 (警示 40))
- Memory usage of services (Alert 43) (服務的記憶體使用量 (警示 43))
- Memory usage of main storage of Column Store tables (Alert 45) (資料行存放區資料表的主要儲存體記憶體使用量 (警示 45))
- Runtime dump files (Alert 46) (執行階段傾印檔案 (警示 46))
如需詳細的記憶體疑難排解步驟,請參閱 SAP HANA 疑難排解:記憶體問題的根本原因。
網路
請參閱 SAP 附註 #2081065 – 針對 SAP HANA 網路進行疑難排解,並執行此 SAP 附註中的網路疑難排解步驟。
分析伺服器與用戶端之間的來回時間。
- 執行 SQL 指令碼 HANA_Network_Clients。
分析節點間的通訊。
- 執行 SQL 指令碼 HANA_Network_Services。
執行 Linux 命令 ifconfig (輸出會顯示是否遺失任何封包)。
執行 Linux 命令 tcpdump。
此外,請使用開放原始碼 IPERF 工具 (或類似的工具) 來測量實際的應用程式網路效能。
如需詳細的網路疑難排解步驟,請參閱 SAP HANA 疑難排解:網路效能和連線問題。
儲存體
假設發生 I/O 效能問題。 終端使用者接著可能會發現應用程式 (或整個系統) 執行緩慢、沒有回應,甚至停止回應。 在 SAP HANA Studio 的 [磁碟區] 索引標籤中,您可以看到連結的磁碟區,以及每個服務使用哪些磁碟區。
在 [磁碟區] 索引標籤的畫面下半部,您可以看到磁碟區的詳細資料,例如檔案和 I/O 統計資料。
如需 I/O 疑難排解步驟,請參閱 SAP HANA 疑難排解:I/O 相關的根本原因和解決方案。 如需磁碟相關的疑難排解步驟,請參閱 SAP HANA 疑難排解:磁碟相關的根本原因和解決方案。
診斷工具
您可以透過 HANA_Configuration_Minichecks 來執行 SAP HANA 健康情況檢查。 此工具會傳回應該已在 SAP HANA Studio 中引發成警示的潛在重大技術問題。
請參考 SAP 附註 #1969700 - SAP HANA 的 SQL 陳述式集合,並下載該附註隨附的 SQL Statements.zip 檔案。 請將這個 .zip 檔案儲存在本機硬碟。
在 SAP HANA Studio 的 [系統資訊] 索引標籤上,以滑鼠右鍵按一下 [名稱] 資料行,並選取 [Import SQL Statements] (匯入 SQL 陳述式)。
選取儲存在本機的 SQL Statements.zip 檔案;將會匯入含有對應 SQL 陳述式的資料夾。 此時,可以使用這些 SQL 陳述式來執行許多不同的診斷檢查。
例如,若要測試「SAP HANA 系統複寫」頻寬需求,請在 [Replication: Bandwidth] \(複寫:頻寬) 底下的 [Bandwidth] \(頻寬) 陳述式上按一下滑鼠右鍵,然後在 SQL Console (SQL 主控台) 中選取 [Open] \(開啟)。
將會開啟完整的 SQL 陳述式,讓您變更輸入參數 (modification 區段),然後加以執行。
另一個範例是以滑鼠右鍵按一下 [複寫: 概觀] 下的陳述式。 從操作功能表中,選取 [Execute] \(執行):
您將檢視有助於疑難排解的資訊:
針對 HANA_Configuration_Minichecks 執行相同的作業,然後檢查 [C] (重大) 資料行中是否有任何 X 標記。
範例輸出:
HANA_Configuration_MiniChecks_Rev102.01+1:適用於一般 SAP HANA 檢查。
HANA_Services_Overview:適用於目前所執行 SAP HANA 服務的概觀。
HANA_Services_Statistics:適用於 SAP HANA 服務資訊 (CPU、記憶體等)。
HANA_Configuration_Overview_Rev110+:適用於 SAP HANA 執行個體的一般資訊。
HANA_Configuration_Parameters_Rev70+:用來檢查 SAP HANA 參數。
後續步驟
了解如何使用隔離裝置在 SUSE 作業系統上設定高可用性。