補覺鳴詩

學海無涯


  • 首頁

  • archive

  • 關於我

  • 搜尋

day7 來管理 server 吧 (雷)定期更新很重要

時間: 2021-09-20   |   分類: 鐵人賽2021   | 字數: 652 字 | 閱讀: 2分鐘 | 閱讀次數:

在踏入充滿著琳瑯滿目的機房後

伺服器就是第二個上手的東西

伺服器其實很簡單

就是高級版的 PC

在選購時,跟 PC 一樣可以選擇配備組合成你要的需求

 

稍微不同的是,硬碟會做 RAID

CPU 有兩顆 RAM 要成對配置

大部分會配雙 power

 

維運

大部分的伺服器都會有 BMC ( Baseboard Management Controller )

這東西簡單說就是一個內建在該台伺服器上,卻獨立於伺服器的模組

基本功能就是察看硬體的狀態,設定告警功能,當異常時主動通知

依 license 等級 (又是 license) 覺得是否有更多功能,比如說充當 KVM 使用

表列一下各家 server 的 BMC 叫什麼

lenovo – IMM

dell – iDrac

HPE – iLO

 

在平時維運伺服器時

將 BMC 的 alert 功能打開是非常有用的

可以大幅度的避免硬體故障許久後才發現

而就算 server 故障,也能藉由 BMC 迅速理解原因

快速進行排除作業

 

舉個例子,當硬碟故障的時候

藉由 BMC 確認硬碟規格、位置來迅速準備料件

並由 BMC 了解 RAID 、hotspare 模式,釐清事件等級

 

另外部分廠牌 BMC 還有韌體管理供功能

伺服器的韌體

舉凡 BIOS 、 network 、 disk 、 RAID ….

韌體,很多人幾乎都是從不更新的,畢竟商用的東西

很多人先天就認定他會穩,fireware 只是關乎效能

而經過幾年的踩雷,driver 跟 韌體定期更新非常重要

因為有些問題其實要時間到了才會發現有重大 BUG

 

以近年來最慘痛的例子來說

SSDs experience unexpected failures at 32k/40k power-on hours

https://kb.vmware.com/s/article/79471

這起事件有多嚴重?

基本上遇到就是 SSD 陣列直接全部陣亡

就算事後再更新 fireware 也是沒救

慘痛程度滿分

 

然而一台 server 內需要更新的 fireware 其實很多

建議可以使用線上更新或是更新包的方式

自動搜尋並更新避免任何漏網之魚

當然我會提這案例就是…

真的有客戶踩到這 bug

導致深夜必須趕至客戶那進行急救

 

所以各位系統工程師除了定期檢查硬體是否正常

也拜託養成定期更新的習慣喔

comments powered by Disqus >
Owan

Owan

愛貓如癡

131 日誌
29 分類
37 標籤
GitHub
© 2010 - 2022 補覺鳴詩
Powered by - Hugo v0.96.0 / Theme by - NexT
0%