Pages Menu
TwitterRssFacebook
Categories Menu

Posted by on 七月 17, 2013 in 系統管理 | 0 comments

從硬碟的選擇淺談風險管理與風險分散

從硬碟的選擇淺談風險管理與風險分散

risk_management常會有人問我伺服器的硬碟要怎麼選擇,選擇怎樣的硬碟比較不會壞,我都會告訴他們簡單的方式就是看MTBF,不過硬碟沒有不會壞的,所以風險控管要做好,除了要做好備份,也要考慮如何降低硬碟損壞後造成的損失。

講到這裡,首先聊一下關於硬碟可靠度的一個標準MTBF的概念:

MTBF(平均故障間隔)是可靠度工程及製造工程學的名詞,取自英語「Mean Time Between Failures」的縮寫,意即是產品在操作使用或測試期間的平均連續無故障時間,需要注意的是,這裡探討的MTBF並非一個實測值,而是在產品設計階段工程師依據理論所估算出的參考值。MTBF的單位為“小時”。

MTBF的算法是用一年的小時數 (24 x 365 = 8760小時 除以AFR(Annual Faiure Rate: 年故障率) 算出來的, 所以 MTBF = 1000000小時, 也就是說 AFR = 8760/1000000 = 0.00877 = 0.877% 也就是說一年的故障率是 0.877%.

當我們在選購硬碟,尤其是企業用的硬碟,我們總是會覺得硬碟上面標示的MTBF 100萬小時很久,換算起來100萬小時/24小時/365天=114年,感覺硬碟應該幾乎不會壞。事實上不然,這要看你的樣本數多大?

我們做一下簡單的算術,從剛剛的MTBF計算公式,我們得到一顆MTBF 100萬小時的硬碟年故障率為AFR 0.877% ,這代表在只有一顆硬碟的情況,這個硬碟使用一年會發生故障的機率是0.877%,不過一旦樣本數為2000顆硬碟的時候,一年可能發生故障的硬碟數量為2000×0.877%= 17.54顆,平均一年可能壞掉17顆硬碟。

看到這個數字,不曉得你心中是否會抽一口氣,上次硬碟壞掉的時候,我們花了多少時間才重新安裝好作業系統並進行回復? 這還是我們平常有做好系統備份的情況,如果沒有備份好資料,硬碟壞掉是個天大的災難。

我們如何解決這樣的問題呢? 如何降低硬碟壞掉的風險?

首先我們定義風險,風險是指在一定時間內、一定條件下可能發生的結果的不確定性,亦即某事件發生後產生某種後果的可能性。

風險(Risk)= 可能性(Probability)X 影響或損失(Impact)

按照這個公式

硬碟壞掉的風險(Risk)= 硬碟發生故障的機率(Probability)X 發生故障後造成的損失(Impact)

假定我們採購同樣的硬碟品牌與型號,其單一硬碟的MTBF是相同的。 如何降低發生故障的機率呢? 我們可以由下面兩個方面著手:

風險管理:

我們可以對硬碟做磁碟陣列(RAID 1以上的) 也就是使用兩顆或以上的硬碟來進行mirror或是RAID5/6陣列的組合,讓作業系統安裝在磁碟陣列上面,在有單一硬碟損壞時可以持續運作。這作法同時降低發生事件的機率,也減少故障後的損失(只要進行新硬碟的更換,不用處理資料損毀的問題)。

另外我們也可以透過較頻繁的備份,並且定期確認備份檔案的完整性,也要進行災難還原的演練,這樣可以有效降低事件發生後的損失。

不管是同時降低可能性與損失,或者分別對兩者進行控管,透過這樣的管理方法,可以有效降低硬碟壞掉造成的風險。

風險分散:

當我們發現所有系統都做了RAID後,會出現Raid失效的情形,有時候是兩顆硬碟一起壞掉,或者是在接近的時間點相繼壞掉,也有在磁碟陣列壞掉一顆硬碟的時候,進行更換硬碟資料複製的時候,又出現另外一顆硬碟損毀,導致磁碟陣列失效,需要進行完整的系統重建。

這時候我們發現在成本不做太大調整的前提下(排除使用更貴的硬體或者是架構),簡單的將每台server的硬碟,採用不同的生產批號,就大大的減低了硬碟同時出狀況的問題。從中我們判斷,因為相同時間生產的電子零件或材料,往往物理性質會很接近,所以使用相同的時間後出現錯誤的機率也會接近。所以當我們透過採用不同批號的硬碟,因為上面的元件生產週期不同,甚至供貨商也會不同,使造成損壞的相關係數減低,以達分散風險的目的。

結論:

所以當我們進行分析與管理後,會做出使用品質更好的設備,準備備用機器在設備損壞時可以更換,同一批的server不拿來提供相同的服務,同一批的switch不放在同一個機櫃內,或者是設計系統損壞時可以移轉到別的機房運作(異地備援)等選擇。

風險管理與風險分散式IT治理中很重要的一門課,今天只是藉由系統硬碟損壞的例子,簡單地告訴大家可以透過這樣的方式來進行風險的處理。所有的IT設備都會有損壞的可能性,但如何讓單點失效或是設備損壞後所造成的損失降到最低,就是IT人在做決策時最重要的決策點。

首頁圖片來源:photokup  /Shutterstock.com

Scott Wu

對新的事物總是抱持著高度的好奇心,持續運用網路科技讓這個世界更美好更便利。

More Posts - Website

Post a Reply

你的電子郵件位址並不會被公開。 必要欄位標記為 *