在踏入充滿著琳瑯滿目的機房後
伺服器就是第二個上手的東西
伺服器其實很簡單
就是高級版的 PC
在選購時,跟 PC 一樣可以選擇配備組合成你要的需求
稍微不同的是,硬碟會做 RAID
CPU 有兩顆 RAM 要成對配置
大部分會配雙 power
維運
大部分的伺服器都會有 BMC ( Baseboard Management Controller )
這東西簡單說就是一個內建在該台伺服器上,卻獨立於伺服器的模組
基本功能就是察看硬體的狀態,設定告警功能,當異常時主動通知
依 license 等級 (又是 license) 覺得是否有更多功能,比如說充當 KVM 使用
表列一下各家 server 的 BMC 叫什麼
lenovo – IMM
dell – iDrac
HPE – iLO
在平時維運伺服器時
將 BMC 的 alert 功能打開是非常有用的
可以大幅度的避免硬體故障許久後才發現
而就算 server 故障,也能藉由 BMC 迅速理解原因
快速進行排除作業
舉個例子,當硬碟故障的時候
藉由 BMC 確認硬碟規格、位置來迅速準備料件
並由 BMC 了解 RAID 、hotspare 模式,釐清事件等級
另外部分廠牌 BMC 還有韌體管理供功能
伺服器的韌體
舉凡 BIOS 、 network 、 disk 、 RAID ….
韌體,很多人幾乎都是從不更新的,畢竟商用的東西
很多人先天就認定他會穩,fireware 只是關乎效能
而經過幾年的踩雷,driver 跟 韌體定期更新非常重要
因為有些問題其實要時間到了才會發現有重大 BUG
以近年來最慘痛的例子來說
SSDs experience unexpected failures at 32k/40k power-on hours
https://kb.vmware.com/s/article/79471
這起事件有多嚴重?
基本上遇到就是 SSD 陣列直接全部陣亡
就算事後再更新 fireware 也是沒救
慘痛程度滿分
然而一台 server 內需要更新的 fireware 其實很多
建議可以使用線上更新或是更新包的方式
自動搜尋並更新避免任何漏網之魚
當然我會提這案例就是…
真的有客戶踩到這 bug
導致深夜必須趕至客戶那進行急救
所以各位系統工程師除了定期檢查硬體是否正常
也拜託養成定期更新的習慣喔