續測 vSAN 6.5

reset and regroup vSAN

思考了一下為何在測試的時候會失敗,可能的原因是 vSAN 有個 Health check 的機制,安裝vSAN 後他一直顯示錯誤訊息,但並沒有一個比較明確的錯誤方向,就有點難除錯

Erorrs on vSAN Healthy check
Erorrs on vSAN Healthy check

以及一個硬體的錯誤,同事確認這個 ESXi 的 ISO 是為了 Dell 所客製出來的,為何還發生相容問題有點怪, 不過這個問題更新了HCL (硬體相容清單)就好了

Driver Warnnings of vSAN 6.5
Driver Warnnings of vSAN 6.5

 

 

繼續惡搞,把所有的 VMGuest 關機,把整個 vSAN 打掉,然後把原本的見證主機直接加入到 Cluster 內,然後把這三台做成一個 vSAN,這樣惡搞有搞壞掉其中一台 Windows Server,其他的機器都還存活者

reset and regroup vSAN
reset and regroup vSAN

 

同時也檢查一下每台 guest 的儲存原則是否還繼續被套用,但不幸的是自動同步機制出了點問題,不過這也在意料之內,畢竟 VSAN 打掉後再重新弄回來,這些設定應該會跑掉才對

not complain to default storage policy
not complain to default storage policy

 

 

跑到 vSAN 去檢查一下有沒有背景同步在執行,此時就可以看到底下 VMWare 已經開始幫忙修復中

vSAN sync job running on backgrond
vSAN sync job running on backgrond

 

 

等修復完成後原本單一Guest 兩份資料的模式又跑回來了

Protection back to normal after sync completed
Protection back to normal after sync completed

 

 

調整到最後只剩下拿來湊數的 VMWare 主機因為是原先家裡淘汰下來的電腦,所以 Onboard Intel 晶片不太相容

Consumer level chipsets are not welcome here
Consumer level chipsets are not welcome here

 

 

故意把一台 ESXi 主機強制關機,此時所有尚未移轉的服務會因為 HA 機制而在另外的 ESXi Host 啟動,有點像是重新開機,使用者可能會感覺到服務會中斷,同時在這個階段是不允許對 vSAN 在新增/複製 Guest 進去。

Immediate power off one of ESXi
Immediate power off one of ESXi

 

 

既然把其中一台主機強制關機,同時這台主機的intel 網卡只能跑 100M,那不如就找另一台 PC 來更換,順便測試主機故障無法復原。

Network card was too slow
Network card was too slow

 

 

原主機經過檢查後跑不到 1G, 所以vSAN主動測試效能是不合格的。

Network card was too slow
Network card was too slow

 

換上的主機有1個 SSD, 1個小容量HDD裝系統用,另多加了一個 1TB 硬碟,主機加入到 vSAN Cluster 時是不會自動復原,雖然此時的 vSAN 硬碟配置還是在自動的狀態,等了一下也不會自動處理,所以我進到系統調整手動,自以來配置需要的設定

 

先到 vSAN 的設定->磁碟管理 選擇剛加入的 ESXi Host, 選擇上方的加入新的磁碟群組

Manual add disks after add a host to vSAN
Manual add disks after add a host to vSAN

 

 

選擇上方的 Flash Drive 及下方的 1TB 硬碟

Manual add disks after add a host to vSAN
Manual add disks after add a host to vSAN

 

 

完成後系統就會開始設定,把這兩顆容量加進去

 

完成後檢查一下硬碟 vSAN 的健康狀態,發現資料項目有警告,硬體相容性還是因為該 PC 是 Intel 的消費產品晶片,

 

點選到重新同步元件這一項目,看到目前正在做 vSAN 的修復動作,估計再把剛剛離線沒有同步的資料再度同步。

vSAN resync after add a host
vSAN resync after add a host

 

等到同步完成後再次跑一次主動測試,這一次三個項目都跑綠色的出來。

All 3 green lights for vSAN active check
All 3 green lights for vSAN active check

 

這次雖然有一台主機還是有警告訊息,但是最主要的三項測試都通過了變成綠燈,所以我們又來惡搞一下,首先先把其中一台 Host 主機網路線全部拔掉模擬突然發生機器異常,此時整個系統有依照規劃偵測系統異常後,會自動在其他 Host 上開機,當然此時只能利用備份資料自動重開機,但不免的依舊會產生暫時性的服務停止。

 

接下來我把 vCenter 透過 VMotion 的方式移植到 vSAN 架構裡面去,然後把 VC 依附的 ESXi Host (10.1.40.1) 網路線拔掉,來測試 VC 會不會跟著移轉過去,但很不幸的是不會,我猜整個 vSAN 的機制需要 vCenter 來協調,所以一旦 vCenter 失去服務整個系統就亂套了,接下來我等了10分鐘確認不會移轉過去,才又把線路全部插回去,系統會混亂一下下,因為線路拔掉之前的VM Guest 都還在上面執行,分別到兩台 ESXi Host 去看,有機會產生同一台主機在兩個 Host 上面執行喔,如遇到這種情況最好來是手動檢查一下,系統會出現很多錯誤訊息。

error message when HA failed
error message when HA failed

 

如果運氣不好,就會發生GuestVM關機後再開機出現這種錯誤,不知道是不是系統搞混了哪一份資料才是最新的,此必須要到的Esxi Host 去啟動才行,還好機器還存在沒有損毀。

VM guest can not boot via vCetner
VM guest can not boot via vCetner

 

 

同一套系統 Clone 出來的,經過幾次不同的開關機測試,資料大小已經漸漸不同,尤其是 WinTest03 差異最大,強制登入進去檢查一下,Windows 都還正常

 

最後這個產品已經比剛出來的功能強悍太多,同時容錯空間也大增,就算是沒有聽過任何產品說明的我都可以依照螢幕提示及片段的手冊功能來使用,但時機操作上會有一點疑慮,但只要你不要故意去惡搞她,vSAN 應該都會給你應有的保護機制。

 

發表迴響