共用方式為


Windows Server 2008 R2:容錯移轉叢集疑難排解案例

在 Windows Server 中設定容錯移轉叢集有助於確保幾近一致的可用性。 這裡有幾種可能的疑難排解案例。

約翰 · 馬林

上個月,我看著某些與 Windows 伺服器 2008 R2 容錯移轉群集,更常見的問題,研究如何準確地解決這些問題。

記住算是正式支援的解決方案由 Microsoft 客戶支援服務 (CSS) Windows Server 2008 或 Windows 伺服器 2008 R2 容錯移轉群集解決方案,它必須滿足當前的支援政策以下標準

  • 所有的硬體和軟體元件必須符合資格獲得"認證為 Windows Server 2008 R2"標誌。
  • 完全配置的解決方案必須通過驗證測試的容錯移轉群集管理。

這裡有幾個方案,可説明加快或告知您下一次的故障排除努力。 這些是一些較常見的問題,支援的 Windows 2008 R2 容錯移轉群集,以及您可能需要解決他們採取的步驟。

方案 1: 我們正在做我們每月的洗滌的 Active Directory 物件並無意中刪除群集名稱物件。 我們嘗試創建一個新的問題,但它無法連線。

群集名稱物件 (CNO) 是非常重要的因為它是群集的共同特徵。

它由創建群集嚮導自動創建,並具有相同的名稱作為群集。 通過這一帳戶,它創建其他群集虛擬電腦物件 (Vco) 當您在群集上配置新的服務和應用程式。 如果您刪除 CNO 或採取了許可權,它不能創建其他物件,需要由群集,直到它恢復或正確的許可權都將恢復。

與在 Active Directory 中所有其他物件,一樣有關聯的 objectGUID。 這是容錯移轉群集如何知道您處理的正確的物件。 如果您只需創建一個新的物件,以及創建新的 objectGUID。 我們要做的是恢復正確的物件,因此該容錯移轉群集可以繼續正常運作。

當故障排除這種情況,我們需要找出兩件事從群集資源。 從 Windows PowerShell,運行的命令:

Get ClusterResource"群集名稱" |獲取-ClusterParameterCreatingDC objectGUID

這將檢索所需要的值。 我們想要的第一個參數是 CreatingDC。 當容錯移轉群集創建 CNO 時,我們注意到網域控制站 (DC) 時創建它。 我們需要的任何活動與群集創建 Vco 帶線上名稱等),我們知道要去這個 DC 獲取的物件和安全。 如果找不到對直流不可用,我們會搜索任何其他回應,但我們知道第一次去這裡。

第二個參數是要確保我們談論的正確的物件 objectGUID。 對於我們的示例中,群集名稱是 CLUSTER1,創建直流是 DC1 和 objectGUID 是 1a3cf049cf79614ebd94670560da6f04,像這樣:

物件名稱值
------     ----      -----
群集名稱 CreatingDC \\DC1.domain.com
群集名稱 ObjectGUID1a3cf049cf79614ebd94670560da6f04

我們需要登錄到 DC1 機上運行的活動目錄使用者和電腦。 如果當前的 CLUSTER1 物件,我們可以檢查是否有適當的屬性。 您將看到的顯示有關這一注。 活動目錄屬性編輯器最初並不會顯示您這裡,顯示的 GUID,因為它不以十六進位格式顯示它。

什麼最初要看到的是 49f03c1a-79cf-4e61-bd94-670560da6f04。 十六進位格式不會開關和工程兩人一組,這是令人有些困惑。 如果你採取前八組數,不該交換機,49f03c1a 將成為 1a3cf049。 通過切換的下一步兩對,79cf 將成為 cf79,和 4e61 則變為 614e。 其餘對保持不變。

在容錯移轉群集看到的十六進位格式,必須使 objectGUID 屬性編輯器中的屬性。 因為它不是正確的物件,我們必須首先刪除物件採取的還原一個恰當的圖片。

有幾種方法的還原物件。 我們可以使用活動目錄還原,實用程式如 ADRESTORE 或新活動目錄回收站 (如果使用已更新的架構運行 Windows 2008 R2 DC)。 使用新活動目錄回收站使得事情要容易得多,是用於還原已刪除的 Active Directory 物件最無縫的過程。

使用活動目錄回收站,我們可以搜索並找到要使用 Windows PowerShell 命令還原的物件:

Get-ADObject –filter 'isdeleted –eq $true –and samAccountName –eq "CLUSTER1$"' –includeDelectedObjects –property * | FormatListsamAccountName,objectGUID

該命令要搜索的任何名稱 CLUSTER1 活動目錄回收站中的已刪除物件。 它將會給我們的帳戶名和 objectGUID。 如果有多個專案,它將顯示其所有。 我們看到我們想的要的我們會將其顯示為此:

samAccountName : CLUSTER1$
objectGUID:49f03c1a-79cf-4e61-bd94-670560da6f04

現在我們需要將其恢復。 我們刪除不正確的一個後,會將其恢復 Windows PowerShell 命令:

還原-ADObject –identity 49f03c1a-79cf-4e61-bd94-670560da6f04

這將恢復中的相同位置 (組織單位或 OU) 的物件,並保持相同的許可權和電腦帳戶密碼已知由 Active Directory 來。

這是活動目錄回收站實用程式如 ADRESTORE 的樣子相比的優點之一。 使用 ADRESTORE,您必須重置密碼,將它移動到適當的 OU,等維修容錯移轉群集中的物件。

使用活動目錄回收站,我們只需帶群集名資源連線。 這也是比較好的選擇,比做恢復活動目錄,尤其是如果已經新電腦/使用者物件創建的如果有,不再存在,要再等等中刪除舊的。

方案 2: 我群集共用卷在容錯移轉群集管理中顯示"重定向訪問"。 我們如何更正此?

首先,讓我們快速回顧群集共用卷 (CSVs) 的定義。 分力簡化配置和 HYPER-V 虛擬機器 (Vm) 在容錯移轉群集管理。 CSV 運行 HYPER-V 的容錯移轉群集上,用多個虛擬機器可以使用相同的 LUN (磁片),但容錯移轉 (或移動節點的) 彼此獨立。 CSV 提供了更大的靈活性,在群集存儲卷。 例如,您可以分開系統檔資料來優化磁片性能,即使系統檔和資料包含在虛擬硬碟 (VHD) 檔。

在執行群集通信的所有網路介面卡的屬性,請確保"Microsoft 網路的用戶端"和"檔和印表機共用的 Microsoft 網路"已啟用支援伺服器訊息區 (SMB)。 這是所需的 CSV。 伺服器正在運行 Windows Server 2008 R2,所以它會自動提供所需的 CSV,這是 SMB2 的 SMB 的版本。 只有一個首選的 CSV 通訊網路,但啟用這些設置多個網路上的説明有回應故障恢復的群集。

重定向所有 I/O 操作都是"定向"到了訪問驅動器的另一個節點網路的訪問方式。 基本上是為什麼磁片是重定向的訪問模式中的三個原因:

  1. 手動已經把它放在重定向模式
  2. 有正在進行的備份
  3. 有的硬體問題,和節點不能直接訪問驅動器

在我們的場景中,我們已經排除選項 1,選項 2。 這為我們留下了選項 3。 如果我們看一下在系統事件日誌中,我們會看到事件"事件 ID: 5121"從容錯移轉群集。

這裡是日誌條目的定義:群集共用 VolumeCSV ' 群集磁片 x' 不再是從直接訪問此群集節點。擁有該卷的節點通過網路,I/O 訪問會重定向到存放裝置。這可能會導致性能下降。如果重定向的訪問此卷為打開,請將其關閉。如果重定向的訪問已關閉,請解決此節點連接到存放裝置和 I/O 將恢復到健康狀態,一旦重新連接到存放裝置。

採取這種態度,我們亦會就此事件之前任何與硬體相關的事件。 所以我們會尋找像 9 事件,11 或 15,指向一個硬體或通信的問題。 我們將看看如果我們可以實際看到的磁片的磁片管理。 在大多數情況下,我們會看到一些其他錯誤。 一旦我們糾正後端的問題,我們可以使這種模式的磁片。

請記住 CSV 將保持運行,只要至少一個節點可以與存儲連接網路進行通信。 這就是為什麼它會在"重定向"的模式。 所有寫入到驅動器將被都發送到可以交流的節點和 HYPER-V 虛擬機器將繼續運行。 可能有些許這些虛擬機器,性能,但他們會繼續運行。 所以我們永遠不會真的會出的生產,這是一件好事。

方案 3: 我只被創建用於全新 Windows 2008 R2 容錯移轉群集具有高度可用的虛擬機器。 我已設置驅動器為 CSV,但當我嘗試訪問它們,資源管理器和磁片管理坑。 我無法將我 Vhd 複製到驅動器,得到這件事。

只有一個"真正的"所有者的驅動器,這就是所謂協調員節點。 任何類型的中繼資料寫入到驅動器將通過此節點只。

當您打開資源管理器或磁片管理時,它要想打開驅動器,以便它可以做任何中繼資料寫入操作 (如果有這個意向)。 為此,它並不擁有任何驅動器將獲得重定向到協調員節點在網路上。 這是不同的驅動器,在"重定向訪問"。

當故障排除這種情況,容錯移轉群集管理將該驅動器顯示為線上。 首先,你應該看看記錄哪些事件。 在系統事件日誌中,你可以看到這些從容錯移轉群集的事件:

事件識別碼: 5120

群集共用卷 ' 群集磁片 x' 不再可用此節點上的 'STATUS_BAD_NETWORK_PATH(c00000be)'。所有 I/O 將暫時會排隊都等待,直到該卷的路徑重新建立。

事件識別碼: 5142

群集共用卷 ' 群集磁片 x' 不再從該群集節點訪問由於錯誤 'ERROR_TIMEOUT(1460)'。請解決此節點連接到存放裝置和網路連接。

這些事件日誌時間試圖通過協調員的節點網路。 那麼你是否有任何其他錯誤系統事件日誌中會指向的節點之間的網路連接。 如果有,則需要解決這些問題。 如出現故障或已禁用的網路卡的東西可導致此問題。

接下來,要檢查基本網路節點之間的連接。 您首先需要驗證是哪些旅遊你 CSV 交通網絡。 方式容錯移轉群集選擇要使用的網路為 CSV 是按最高的度量值。 這是不同于 Windows 如何識別網路。

容錯移轉群集網路容錯適配器 (NETFT) 有它在內部使用的度量制度。 檢測到的所有網路有預設閘道器,並會給予躍點數的 10000,10100,因為它邊走邊看。 沒有預設閘道器的所有網路都開始在 1000、 1100年等。 使用 Windows PowerShell,您可以使用命令獲取群集網路 |金融時報 》 名稱、 度量、 角色,請參閱 NETFT 適配器已定義它們。 您將看到類似于:

名稱規格
-------------------
管理 10100
CSV 交通 1000
局域網廣域網路 10000
私人 1100

這四個網路,與網路我已確定為 CSV 稱為 CSV 交通。 我使用它的 IP 位址為 1.1.1.1 節點 1 和 1.1.1.2 的節點,所以我會儘量基本的網路連接與 IP 位址之間的平。

下一步是嘗試使用 IP 位址連接到 SMB。 這是只容錯移轉群集打算做什麼。 簡單的 NET VIEW \\1.1.1.1 就夠了,看看是否有回應。 回你應該得到的是共用清單或一條消息:"有沒有條目清單。"

這表示您可以連接到該共用。 但是,如果你得到的消息"出現錯誤 53 的系統。 網路路徑沒被發現,"這表示電腦上的網卡 TCP/IP 配置問題。

在"Microsoft 網路的用戶端"和"檔和印表機共用的 Microsoft 網路"在電腦上的網卡上啟用要使用 CSV。 如果他們不是,你就會掛資源管理器中的此問題。 選擇這些和你是好到哪裡去。

在 Windows 2003 伺服器叢集和下麵,取消選中這些選項是建議的過程。 這不再是向前移動的情況下,您可以看到它如何可以打破。

其他因素

有幾個你要考慮其他因素。 如果您的群集節點遇到資源主機子系統 (RHS) 失敗,您必須首先考慮 RHS 和它做什麼的性質。 RHS 是做大量的資源健康檢查,以確保一切正常的容錯移轉群集元件。 IP 位址,它將確保它是網路堆疊上,它回應。 對於磁片,它將嘗試連接到的驅動器和做 DIR 命令。

如果您遇到 RHS 崩潰,您將看到系統事件日誌 Id 1230 和 1146年。 事件中 1230,它將實際確定資源和資源使用的 DLL。 如果它的崩潰,這意味著該資源不回應,它應該和可能發生鎖死。 這是崩潰磁片資源上,如果您想查找磁片相關的錯誤或磁片延遲。 運行效能監視器會開始的好地方。 更新驅動程式/固件卡或後端的可能,以及考慮的東西。

你還會做一些使用者模式檢測。 容錯移轉群集進行健康監測從核心模式檢測使用者模式時停止回應或掛起的使用者模式進程。 從這種情況中恢復,聚類將 bug-核取方塊。 如果是,您會看到一個站 0x0000009E。 故障排除這需要審查它創建查找掛起的轉儲檔。 你也希望運行效能監視器,並尋找出現一樣懸掛的任何事物,記憶體洩漏,等等。

容錯移轉群集是依賴對 Windows 管理規範 (WMI)。 如果您有與 WMI 的問題,你就有容錯移轉群集 (創建和添加節點,遷移等) 的問題。 運行檢查對 WMI,如 WBEMTEST。Exe 檔或甚至遠端 WMI 腳本。

一個腳本,您可以嘗試從 Windows PowerShell 是節點的 (節點 1 是節點的實際的名稱):

get wmiobjectmscluster_resourcegroup-電腦節點 1-命名空間"ROOT\MSCluster"

這將生成 WMI 連接到群集,給你有關組的資訊。

如果失敗,則必須 WMI 的幾個問題。 WMI 服務可能已停止,因此您可能需要重新開機它們。 WMI 存儲庫也可能損壞 (使用 Windows PowerShell 命令 winmgmt /salvagerepository 來看它是否一致),等等。

這裡有幾點需要記住的故障排除:

  • 驗證,驗證,驗證。 使用群集驗證進行故障排除。 使用它的最佳做法。 您的系統進行更改時,請使用它。
  • 一切都被朝 Windows PowerShell。 如果你還不知道它,開始使用它的時候。
  • 因為我們是依賴 Active Directory 物件,保護自己。 啟用活動目錄回收站和防止意外刪除的物件。
  • 當故障排除分力,不要總是以為它是硬體問題。
  • 當故障排除,後退一步,看看一切可能會受到影響。 然後開始縮小您的重點。

容錯移轉群集被旨在檢測、 從恢復和報告的問題。 群集告訴您存在的事實是或問題並不意味著群集造成它。 正如一些人所說:"別開槍的使者"。

John Marlin

約翰 · 馬林 商業技術支援組中的高級支援升級工程師。 他已與微軟超過 19 年,14 年來聚焦在群集伺服器上。

相關內容