NetApp資料保護及異地備援系統
Written by 陳柏仰                

NetApp資料保護及異地備援系統

 
      台灣位處環太平洋地震帶上,地震發生頻繁;近年又有颱風及土石流肆虐,是天然災害頻仍的地區。然而,災難發生的地點並非人為所能控制,因此不管是企業、銀行、醫院或是政府機關的資料隨時隨地面臨威脅。因此,『資料保護』及『異地備援』等相關機制因應而生,以期當資料不幸被摧毀、服務停止或中斷時,能夠讓資料快速回復及服務快速啟動,進而讓損失達到最低。

何謂資料保護
      資料保護』最基本的用意,不外乎是保證資料的正確性及可用性,將其簡述如下:

  • 正確性:資料遺失、應用程式發生錯誤造成資料毀損或是病毒感染等,都會造成資料內容錯誤,可以使用以往的備份資料來恢復;當然,備份方式包括了磁帶備份,或是熱門很久的快照技術。
  • 可用性:當災難發生時,可利用資料備份將檔案恢復;或是將既往的資料進行備份,以符合資安法規。

    然而,隨著時間不斷往前推移,新的資料不斷增加,舊的資料又須留存,資料量只會不斷成長,這意味著備份時間將會越來越長。本來資料庫備份可能只需數分鐘或是數十分鐘,但因日積月累的關係,資料庫可能會增加到需要三小時、四小時或是數天才能備份完成,此時,則須重新檢視傳統的備份技術是否能夠符合現今環境。

資料保護方式
      由於資料是組織的重要命脈,因此NetApp提供下列資料保護功能,以避免因天然災害或是人為因素等原因,所造成的資料損失,並期能達到快速備份。

資料保護功能

敘述

Snapshot

無視空間容量大小,僅需數秒即可快速完成快照備份,並可利用手動或是排程的方式建立專屬的備份策略,亦可搭配撰寫Script的方式,驅動儲存設備自發性的建立Snapshot。

SnapRestore

當需要從回復大量資料時,可利用此SnapRestore的快速回復功能,不會因為容量或是資料量多寡,造成回復的時間冗長。

SnapMirror(異地備援使用)

利用同步或是排程的方式,將資料傳送至異地端的儲存設備,利用Snapshot的專利技術,僅傳輸資料有異動的部分,所以,SnapMirror所需的傳輸時間,遠較其他儲存設備來的短暫。

SnapVault(異地備份使用)

當Production NetApp Storage或是將OS上所需要的資料,”備份”到異地端的NetApp Storage。

SyncMirror
(active/active configuration required)

其實就是Raid_DP+1或是Raid_4+1;當資料寫進儲存設備時,此時儲存設備會同時寫兩份到兩邊的硬碟群組(Pool)。當其中一個Pool完全的損壞時,不會影響線上的資料或是服務;當損壞的Pool被修復時,儲存設備會自動的同步最新的資料,在同步的過程中,完全不會影響線上的資料或是服務。

MetroCluster

NetApp的備援方案,結合了儲存設備的高可用性(High Availability)及異地備援(Disaster Recovery)方案,當儲存設備無預警毀壞時,自動啟動備援機制,而不影響線上資料或是服務。

異地備援
資料保護對每個組織而言,是一項持續性的挑戰,更是現今各資訊中心所面臨的重要議題,因此NetApp針對異地備援提供了SnapMirror與MetroCluster兩種架構,避免資料毀損時所造成的損失,並能快速回復既有的服務與資料,以下說明這兩種架構的備援方式及應用。

SnapMirror
SnapMirror提供手動、時間排程與同步三種模式,供使用者依據不同的應用而自行設定。此模式是在正式使用環境(以下簡稱Production Site)與異地備援環境(以下簡稱DR Site)各自建立一套NetApp儲存設備。
一般的日常存取等運作都是由Production Site的儲存設備提供服務,當Production Site遭受災難進而導致線上服務停擺時,此時就由管理者手動將主控權切換至DR Site,讓DR Site的儲存設備接手繼續提供服務。當Production Site的環境及設備修復後,僅需先將DR Site災難發生後的異動資料同步回Production Site,再把服務切換到Production Site,即恢復至災難發生前的運作模式,在此過程中,所有的線上服務幾乎是不中斷的,可以說是沒有受到影響的。

        MetroCluster
MetroCluster可說是SnapMirror的進階版,上述當災難發生時,SnapMirror異地備援架構是透過手動的方式,將主控權切換到異地備援端的設備,但MetroCluster則是透過自動偵測的方式,由DR Site自動接手。
MetroCluster是由Cluster與Sync_Mirror所組成的,以下針對Cluster與Sync_Mirror詳細說明。
Cluster
NetApp採用的是雙主動式叢集故障自動接管方案(Active-Active Cluster Failover),平常是兩台各自獨立服務工作的主機,各有各的volume、IP位址,當其中有一台故障時,另一台主機會立刻接手那一台尚未完成的交易、volume和IP位址,使服務不會中斷,即為高可用性(High Availability)架構。


NetApp MetroCluster故障自動接管方案
上述的NetApp的Cluster高可用性(High Availability)架構,提供下列優點:

  • 容錯性(Fault tolerance):
    當此架構中的某一儲存設備受損或毀壞時,其鄰近的設備會自動接管,原本的服務會由接管的設備接手,並持續提供服務。
  • 升級不中斷:
    當某一儲存設備要做升級時,會暫時先由另一儲存設備接管並持續為系統提供服務,待升級完成後,再將服務提供權回歸至原本的儲存設備。
  • 維護不中斷:
    當儲存設備發生實體機件故障時,可由另一儲存設備接管,待損壞的設備更換完成後,再將服務提供權移回原本的儲存設備。

Sync_Mirror
NetApp Sync_Mirror技術即是為防止多顆硬碟同時故障,所提出的Volume備援方案,通常用於保護極重要的資料的,因為Sync_Mirror是由儲存設備先做Raid4或是Raid_DP之後再做Raid1(Raid4+1或是Raid_DP+1),應用這項技術可以避免掉DiskProblem,又因Sync_Mirror的其他機制,因此在Sync_Mirror架構下,可以同時避免掉Due Cable、HBA Failure等常見問題。Sync_Mirror工作示意圖如下:

MetroCluster是NetApp最完整的解決方案,透過此架構可防止任何單一設備故障而影響整個系統運作,所謂的單一設備故障,包括主機、網路(網路卡故障或是網路交換器故障)、volume,甚至機房整個毀壞,對於服務的提供,仍不會造成太大的影響。

異地備援即是MetroCluster解決方案的應用,透過Cluster加上Sync_Mirror架構,將儲存設備分別建置在兩個不同的機房,儲存設備會不斷的進行資料同步,因此當任一機房發生「完全性毀滅」時,仍可由另一機房繼續提供服務,因此有下列四個好處:

  • 高可用性及區域保護
  • 達到資料最低遺失的風險
  • 當災難發生時,減少Service DownTime的時間
  • 不妨礙使用者端應用程式的存取

雖然上述的MetroCluster架構,可以大大簡便「資料回復」的步驟以及縮短「服務中斷」的時間,但因為光纖種類的關係,又分為下列兩種模式(端視距離的長短):
一、        Stretch MetroCluster (最長距離500M),因距離限制的關係,此架構適用於近距離的不同校區或是園區內不同的廠房

 


二、    Fabric MetroCluster(最長距離100KM),因距離可以較長,所以此架構適用距離較遠的兩地機房

 

(作者現任職於麟瑞科技)