由于磁盤陣列具有容量大、數據存取速度快、安全性高等特點,磁盤陣列技術得到了廣泛的運用。尤其是采用RAID5技術的磁盤陣列,由于其采用了奇偶校驗技術提供數據冗余信息,大幅提高了系統和數據的安全性,成為了人們首選的磁盤陣列技術。雖然RAID5模式的安全級別較高,但在實際運用中磁盤陣列上的數據還是會發生的損壞和丟失的情況。究其原因,這些隱患主要來自于RAID5系統運行和維護過程。為了使廣大系統維護人員能加深對RAID5磁盤陣列的安全隱患的認識,本文在分析了RAID5磁盤陣列的數據結構的基礎上,提出了做好磁盤陣列數據安全管理的意見和建議。
1、RAID5磁盤陣列的數據結構
RAID5的數據安全性較其他RAID系列的磁盤陣列要高很多,當陣列中的一塊物理磁盤出現障時,允許在不停機的情況下對磁盤進行熱插拔更換,保證應用系統的持續運行。RAID5的高安全可靠性主要來自兩個技術要點,即冗余數據應用和奇偶校驗算法。
冗余數據的生成有多種算法,RAID5采用的是奇偶校驗算法。下面以4個磁盤組成的RAID5為例來說明利用奇偶校驗算法生成冗余數據原理和過程,并介紹RAID5數據安全可靠性的原因。
如圖1所示,假設在這個由四塊磁盤做成的一個邏輯磁盤上12個連續存放的數據塊,這些數據塊以0,1,00 ,11命名。
圖1 組成RAID5的4個磁盤上的12個數據塊的排列
圖中每塊磁盤由上往分為4層,每層包括3個數據塊及一個它們的數據奇偶校驗塊。數據奇偶校驗塊中的每個字節是同層中的3個數據塊塊中相同位置的3個字節的奇偶校驗值。例如,這3個數據塊其中相同位置的一個字節的分別為010001 10,01101110,01000110,那么校驗數據塊中的相應字節的值就為1 1010111。
通過運算我們可以發現,這四個數中任意3個的奇偶校驗運算值等于第四個數,因此,當這4個數中的任意一個被破壞了,還可以利用求出其他3個數的奇偶校驗運算值來恢復。同理,同一數據層的4個數據塊之間、組成RAID5的4個物理硬盤之間都存在這種數值關系,當其中任意一個硬盤損壞后,都能通過對其他3個硬盤上的數據進行奇偶校驗運算進行數據恢復。以上就是RAID5的常的數據結構基礎,當組成RAID5的4塊硬盤中有2塊以上出現故障,則無法通過奇偶校驗運算進行數據恢復。
2、RAID5系統產生故障的主要原因及預防措施
RAID5系統在運行和維護中存在著數據安全的隱患。我們首先要分析產生這些隱患的原因,再根據每項影響因素采取有針對性的預防和補救保護措施,具體分析如下:
2.1 組成RAID5的磁盤有具有相近的使用壽命
RAID5能夠確保在任意一塊物理磁盤故障的情況系統和數據的安全,但在實際工作中,組成RAID5的可能是一批型號、批次、使用期限、性能相同的磁盤,當其中一塊出現故障,其他幾塊也可能接近使用壽命,因此在第一塊磁盤故障后,在短時間內可能會有第二塊,甚至第三塊、第四塊磁盤發生故障,在這種情況下,可能系統維護人員還沒來的及處理好第一塊磁盤帶來的故障,整個RAID5陣列的數據就已經無法讀取了。
預防措施之一是制定嚴格的管理制度,設立專人定時值班,對重要數據實施定期備份;二是做好兩塊以上磁盤同時產生故障時的數據恢復預案,這樣一旦故障來臨,也能有序從容地應對。
2.2 在維護時弄亂磁盤陣列中的磁盤順序
構建RAID5時起碼要3塊以上的磁盤,有的甚至有幾十塊。
RAID5的中數據塊和數據奇偶校驗塊是按系統設定的順序存儲的,且前后位置是固定不變的,因此磁盤順序不能搞錯。一旦磁盤順序搞錯,系統還會按原來的順序讀取磁盤上的數據,但由于更換后的磁盤上的數據已不是準確的數據,從而導致數據丟失。
系統維護人員在對陣列中的磁盤進行管理和維護時常會發生以上事故:當對磁盤進行衛生清理,將多個磁盤拔下,重新裝回時可能會搞亂順序;為了保護磁盤,在搬動磁盤陣列時拔下磁盤,再裝回時也有可能搞混磁盤的順序;在對磁盤陣列擴容而增加硬盤時,也容易弄亂磁盤順序。
為了預防這些情況的發生,可以采取以下預防措施:首先是采用簡單的方法,在型號或外觀相似的磁盤上貼上標簽,這樣就能降低發生低級錯誤的概率;其次是一旦磁盤順序被弄亂了,不能抱著僥幸的心理開機試試,最穩妥的辦法是找專業的數據恢復人員或廠家的工程師來找出正確的磁盤順序。
2.3 磁盤的意外掉電脫機
磁盤陣列中的磁盤可能插在同一條SCSI數據線上,也可能插在同一塊接口背板上。為了保持系統不停機、不中斷,在更換故障盤時一般采用熱插拔。在這個過程中,常會引發其他磁盤掉電,造成整個磁盤陣列系統的癱瘓。雖然SCSI接口有線路有保護設計,支持磁盤熱插拔,但在不斷電的情況下,相鄰的磁盤極有可能受磁盤插拔引起電流電壓變化的干擾,也有可能因磁盤插拔輕微震導致周圍的磁盤瞬間掉電,這兩種情況都會引起磁盤意外脫機,RAID5系統在磁盤脫機時會產生錯誤操作,導致系統和磁盤上數據的永久性損壞。
為防止意外掉電情況的發生,在對第一塊故障盤進行更換前,對RAID5陣列上的數據進行一次完全備份,然后再實施帶電的磁盤更換操作,這樣就能避免數據被損壞。
2.4 缺乏系統故障處理預案
在磁盤陣列的安裝、設置、調試完成后,就開始安裝應用系統和加載業務數據。為了保證系統和數據的穩定和安全,應該杜絕所有與應用系統無關的操作。由于這個過程過于緊湊,用戶單位的技術人員缺少熟悉和實際操作磁盤陣列的機會和實踐,在這種情況下,一旦出現故障,就不能及時采取正確的應對措施。
為防止這種情況的出現,在投入磁盤陣列應用前,需要給用戶單位的技術人員充足的時間,給他們實際演練各類故障的處理,并讓他們進行實際操作演練。還要做好故障處理預案,有備無患,等故障發生時能從容應對。
2.5 充分考慮廠商的售后技術服務能力
主要應從以下幾個方面來考慮廠商的售后技術服務能力:
一是當磁盤和磁盤陣列已經過保或損害超出售后技術服務范圍時,廠商能夠提供的數據修復的應急方案,或能夠提供的技術保障保證。二是由于廠商的技術服務人員流動性很大,除了初始安裝調試的技術人員,其他廠商派來的技術人員有可能不熟悉系統的具體設置,因此要注意廠商對技術服務人員的管理是否規范,分析廠商技術人員對故障的處理方法能否恢復。
3、磁盤陣列的數據修復
當實施磁盤陣列的數據修復時,也是數據安全到了最危急的關頭。一旦需要對RAID5陣列上的數據進行修復,那么可以肯定的是:陣列中有兩塊以上的磁盤發生了物理故障,磁盤上的數據已無法正常讀取。磁盤陣列數據修復與單個磁盤的數據修復方法相似,唯一的區別是前者多了一項帶奇偶校驗運算的數據合并工作,這項工作結果的好壞是磁盤陣列數據修復的關鍵。另外如磁盤的硬件修理、數據合并后的邏輯驅動器上數據恢復等都和單磁盤的數據修復相同。
下面舉例來說明磁盤陣列數據修復的過程:
假定陣列中出現了A和B兩塊故障磁盤(如圖1),其中A先產生故障,隨后RAID5運行,直NB也產生故障在停止運行。此后,這兩塊故障盤的修復結果可能會有4種可能組合,每一種組合都會給RAID5數據修復帶來不同的結果。這四種組合是:
①A和B都修復失敗;②A修復成功B失敗;③A失敗B修復成功;④A、B都數修復成功。回顧RAID5的數據結構基礎,我們可以分析出:第①種情況會帶來最糟糕的數據合并結果,陣列中的數據基本難于修;第③種組合先數據修復結果最好,成功率很高。而第④種組合與第③種組合在實質上是相同的,修復效果也很好。第②種組合的修復結果略遜于組合② ,但好于組合①。
磁盤陣列具有較高的數據安全保障,但也存在著安全隱患,這種隱患來自多個方面,可能來自應用系的統管理,也可能來自對磁盤陣列的實際操作,也有可能來自故障處理或數據修復的操作過程中。磁盤陣列管理的實踐經驗表明,當陣列中兩塊以上的磁盤故產生故障時,最穩妥的解決方案是斷電停止RAID5系統的運行。然后直接找專業的數據修復公司或磁盤陣列你的設備供應廠商,利用他們的技術力量來實施數據修復。事后補救雖然是盡可能挽救數據的一種方法,但不是治本之策,只有在大型應用系統實施前,做好數據和系統的安全保護預案,才能有備無患,高效、及時地應對可能發生的系統安全問題,其中也包括數據den存貯載體——磁盤陣列的安全問題。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://m.guhuozai8.cn/
本文標題:磁盤陣列的數據安全與數據修復分析
本文網址:http://m.guhuozai8.cn/html/consultation/10839513094.html