分享方式:


執行診斷、收集記錄,以針對 Azure Stack Edge 裝置問題進行疑難排解

適用於:Yes for Pro GPU SKUAzure Stack Edge Pro - GPUYes for Pro 2 SKUAzure Stack Edge Pro 2Yes for Pro R SKUAzure Stack Edge Pro RYes for Mini R SKUAzure Stack Edge Mini R

本文說明如何執行診斷、收集支援套件、收集進階安全性記錄,以及檢閱記錄,以針對 Azure Stack Edge 裝置上的裝置上傳和重新整理問題進行疑難排解。

執行診斷

若要診斷任何裝置錯誤並進行疑難排解,您可以執行診斷測試。 在您裝置的本機 Web UI 中執行下列步驟,以執行診斷測試。

  1. 在本機 Web UI 中,移至 [疑難排解] > [診斷測試]。 選取您想要執行的測試,然後選取 [執行測試]。 您會收到裝置正在執行測試的通知。

    Select tests

    下表描述在 Azure Stack Edge 裝置上執行的每個診斷測試。

    測試名稱 描述
    Azure 入口網站連線能力 此測試驗證 Azure Stack Edge 裝置到 Azure 入口網站的連線能力。
    Azure 一致健康情況服務 您的裝置上執行數個服務,例如 Azure Resource Manager、計算資源提供者、網路資源提供者及 Blob 儲存體服務。 這些服務一起提供 Azure 一致堆疊。 健康情況檢查確保這些 Azure 一致服務正常運作。
    憑證 此測試驗證憑證的到期日及裝置和 DNS 網域變更的影響。 健康情況檢查已確認所有憑證都已匯入並套用在所有裝置節點上。
    Azure Edge 計算執行階段 此測試驗證 Azure Stack Edge Kubernetes 服務是否如預期般運作。 這包括檢查 Kubernetes VM 健康情況,以及裝置所部署 Kubernetes 服務的狀態。
    Disks 此測試驗證所有裝置磁碟是否已連線且正常運作。 這包括檢查磁碟是否已安裝正確的韌體及正確設定 Bitlocker。
    電源供應器 (PSU) 此測試驗證所有電源供應器是否已連線和運作。
    網路介面 此測試驗證裝置上的所有網路介面是否已連線,以及該系統的網路拓撲是否符合預期。
    中央處理器 (CPU) 此測試驗證系統上的 CPU 是否具有正確的設定和正常運作。
    計算加速 此測試驗證計算加速在硬體和軟體方面是否如預期般運作。 視裝置型號而定,計算加速可能是圖形處理單元 (GPU)、視覺處理單元 (VPU) 或可現場程式化閘道陣列 (FPGA)。
    網路設定 此測試驗證裝置的網路設定。
    網際網路連線能力 此測試驗證裝置的網際網路連線能力。
    系統軟體 此測試驗證系統儲存體和軟體堆疊是否如預期般運作。
    時間同步 此測試驗證裝置時間設定,並檢查裝置上設定的時間伺服器是否有效且可供存取。
    軟體更新整備程度 此測試驗證已設定的更新伺服器是否有效且可供存取。
  2. 測試完成後會顯示結果。

    View test results

    如果測試失敗,則會顯示建議動作的 URL。 請選取此 URL,以檢視建議的動作。

    Review warnings for failed tests

收集支援套件

記錄套件包含有助於 Microsoft 支援小組疑難排解任何裝置問題的所有相關記錄。 您可以透過本機 Web UI 產生記錄套件。

執行下列步驟來收集支援套件。

  1. 在本機 Web UI 中,移至 [疑難排解] > [支援]。 選取 [建立支援套件]。 系統會開始收集支援套件。 套件收集可能需要幾分鐘的時間。

    Select add user

  2. 建立支援套件之後,選取 [下載支援套件]。 壓縮的套件會下載至您所選的路徑。 您可以將此套件解壓縮並檢視系統記錄檔。

    Select add user 2

收集進階安全性記錄

進階安全性記錄可以是 Azure Stack Edge Pro 裝置的軟體或硬體入侵記錄。

軟體入侵記錄

系統會收集輸入和輸出流量的軟體入侵記錄或預設防火牆記錄。

  • 原廠製作裝置的映像時會啟用預設防火牆記錄。 當您透過裝置的本機 UI 或 Windows PowerShell 介面建立支援套件時,這些記錄預設會放入支援套件中。

  • 如果支援套件中只需要有防火牆記錄來檢閱裝置中的任何軟體 (NW) 入侵,請在建立支援套件時使用 -Include FirewallLog 選項。

  • 如果未提供具體的 include 選項,則支援套件預設包含防火牆記錄。

  • 在支援套件中,防火牆記錄是 pfirewall.log 且位於根資料夾中。 以下是 Azure Stack Edge Pro 裝置的軟體入侵記錄範例。

    #Version: 1.5
    #Software: Microsoft Windows Firewall
    #Time Format: Local
    #Fields: date time action protocol src-ip dst-ip src-port dst-port size tcpflags tcpsyn tcpack tcpwin icmptype icmpcode info path
    
    2019-11-06 12:35:19 DROP UDP 5.5.3.197 224.0.0.251 5353 5353 59 - - - - - - - RECEIVE
    2019-11-06 12:35:19 DROP UDP fe80::3680:dff:fe01:9e88 ff02::fb 5353 5353 89 - - - - - - - RECEIVE
    2019-11-06 12:35:19 DROP UDP fe80::3680:dff:fe01:9e88 ff02::fb 5353 5353 89 - - - - - - - RECEIVE
    2019-11-06 12:35:19 DROP UDP fe80::3680:dff:fe01:9e88 ff02::fb 5353 5353 89 - - - - - - 
    2019-11-06 12:35:19 DROP UDP fe80::3680:dff:fe01:9d87 ff02::fb 5353 5353 79 - - - - - - - RECEIVE
    2019-11-06 12:35:19 DROP UDP 5.5.3.193 224.0.0.251 5353 5353 59 - - - - - - - RECEIVE
    2019-11-06 12:35:19 DROP UDP fe80::3680:dff:fe08:20d5 ff02::fb 5353 5353 89 - - - - - - - RECEIVE
    2019-11-06 12:35:19 DROP UDP fe80::3680:dff:fe08:20d5 ff02::fb 5353 5353 89 - - - - - - - RECEIVE
    2019-11-06 12:35:19 DROP UDP fe80::3680:dff:fe01:9e8b ff02::fb 5353 5353 89 - - - - - - - RECEIVE
    2019-11-06 12:35:19 DROP UDP fe80::3680:dff:fe01:9e8b ff02::fb 5353 5353 89 - - - - - - - RECEIVE
    2019-11-06 12:35:19 DROP UDP 5.5.3.33 224.0.0.251 5353 5353 59 - - - - - - - RECEIVE
    2019-11-06 12:35:19 DROP UDP fe80::3680:dff:fe01:9e8b ff02::fb 5353 5353 89 - - - - - - - RECEIVE
    2019-11-06 12:35:19 DROP UDP fe80::3680:dff:fe01:9e8a ff02::fb 5353 5353 89 - - - - - - - RECEIVE
    2019-11-06 12:35:19 DROP UDP fe80::3680:dff:fe01:9e8b ff02::fb 5353 5353 89 - - - - - - - RECEIVE
    

硬體入侵記錄

為了偵測裝置中的任何硬體入侵,目前會記錄所有底座事件,例如開啟或關閉底座。

  • 您可以使用 racadm Cmdlet 來讀取裝置中的系統事件記錄檔。 接著會從這些事件中篩選出底座相關事件,並放入 HWIntrusion.txt 檔案中。

  • 若在支援套件中只要取得硬體入侵記錄,請在建立支援套件時使用 -Include HWSelLog 選項。

  • 如果未提供具體的 include 選項,則支援套件預設包含硬體入侵記錄。

  • 在支援套件中,硬體入侵記錄是 HWIntrusion.txt 且位於根資料夾中。 以下是 Azure Stack Edge Pro 裝置的硬體入侵記錄範例。

    09/04/2019 15:51:23 system Critical The chassis is open while the power is off.
    09/04/2019 15:51:30 system Ok The chassis is closed while the power is off.
    

針對裝置上傳和重新整理錯誤進行疑難排解

在上傳和重新整理程序期間發生的所有錯誤都會包含在各自的錯誤檔案中。

  1. 若要檢視錯誤檔案,請移至您的共用,並選取此共用以檢視內容。

  2. 選取 [Microsoft Data Box Edge] 資料夾。 這個資料夾有兩個子資料夾:

    • 具有上傳錯誤記錄檔的 [上傳] 資料夾。
    • 在重新整理期間發生錯誤的 [重新整理] 資料夾。

    以下是可供重新整理的範例記錄檔。

    <root container="test1" machine="VM15BS020663" timestamp="03/18/2019 00:11:10" />
    <file item="test.txt" local="False" remote="True" error="16001" />
    <summary runtime="00:00:00.0945320" errors="1" creates="2" deletes="0" insync="3" replaces="0" pending="9" />
    
  3. 當您在此檔案中看到錯誤 (已在此範例中醒目提示) 時,請記下錯誤碼,在此例中是 16001。 針對下列錯誤參考,查閱此錯誤碼的說明。

    錯誤碼 錯誤描述
    100 容器或共用名稱必須介於 3 到 63 個字元之間。
    101 容器或共用名稱只能包含字母、數字或連字號。
    102 容器或共用名稱只能包含字母、數字或連字號。
    103 Blob 或檔案名稱包含不支援的控制字元。
    104 Blob 或檔案名稱包含不合法的字元。
    105 Blob 或檔案名稱包含太多區段 (每個區段是以斜線 -/ 分隔)。
    106 Blob 或檔案名稱太長。
    107 Blob 或檔案名稱的其中一個區段太長。
    108 檔案大小超出上傳的檔案大小上限。
    109 Blob 或檔案未正確地對齊。
    110 Unicode 編碼的檔案名稱或 Blob 無效。
    111 檔案或 Blob 的名稱或前置詞是保留的名稱,不受支援 (例如 COM1)。
    2000 Etag 不符表示雲端中和裝置上的區塊 Blob 之間有衝突。 若要解決此衝突,請刪除其中一個檔案 – 不是在雲端中的版本,就是裝置上的版本。
    2001 在上傳檔案後處理檔案時,發生未預期的問題。 如果您看到此錯誤,而且此錯誤持續超過 24 小時,請連絡支援服務。
    2002 檔案已在另一個程序中開啟,而且直到控制代碼關閉才能上傳。
    2003 無法開啟要上傳的檔案。 如果您看見此錯誤,請連絡 Microsoft 支援服務。
    2004 無法連線到容器以將資料上傳至該容器。
    2005 無法連線到容器,因為帳戶權限錯誤或過期。 檢查您的存取權。
    2006 無法將資料上傳到帳戶,因為帳戶或共用已停用。
    2007 無法連線到容器,因為帳戶權限錯誤或過期。 檢查您的存取權。
    2008 無法新增資料,因為容器已滿。 根據類型,檢查 Azure 規格中支援的容器大小。 例如,Azure 檔案服務僅支援 5 TB 的最大檔案大小。
    2009 無法上傳資料,因為與共用相關聯的容器不存在。
    2997 發生未預期的錯誤。 這是暫時性錯誤,會自行解決。
    2998 發生未預期的錯誤。 此錯誤可能會自行解決,但若持續超過 24 小時,請連絡 Microsoft 支援服務。
    16000 無法關閉此檔案。
    16001 無法關閉此檔案,因為它已經存在於本機系統上。
    16002 無法重新整理此檔案,因為它並未完整上傳。

下一步