面對數(shù)據(jù)量的急劇增長,傳統(tǒng)存儲技術面臨建設成本高、運維復雜、擴展性有限等問題,主要體現(xiàn)在以下幾個方面:
(1)開放性不足:盤陣存儲標準化程度低,組件的更換常常導致系統(tǒng)故障或者硬件的升級,這些組件通常是由制造商專門開發(fā)用于此系統(tǒng),不能輕易的利用市場上通用部件。
(2)成本較高:盤陣造價昂貴,導致系統(tǒng)建設成本居高不下;
(3)擴展性較差:傳統(tǒng)盤陣單點擴展存在容量上限和接口帶寬等限制,面對PB級的海量存儲需求,傳統(tǒng)的SAN或NAS在容量和性能的擴展上無法滿足。
在此背景下,成本低廉、提供高可擴展性的云存儲技術日益得到關注,本文將詳細介紹存儲的新技術——云存儲的特征定義、相關技術發(fā)展現(xiàn)狀及國際標準情況,并針對各類云存儲技術,分析其對于電信運營商的適合應用場景及應用建議。
1 云存儲概況
1.1云存儲的定義
由于業(yè)內沒有統(tǒng)一的標準,各廠商的技術發(fā)展路線也不盡相同,因此相對于云計算,云存儲概念存在更多的多義和模糊現(xiàn)象。結合云存儲技術發(fā)展背景及主流廠商的技術方向,可以得出如下定義:云存儲不是指某一個具體的設備,而是指一個由許許多多個存儲設備和服務器所構成的集合體。使用者使用云存儲,并不是使用某一個存儲設備,而是使用整個云存儲系統(tǒng)帶來的一種數(shù)據(jù)訪問服務。云存儲的核心是應用軟件與存儲設備相結合,通過應用軟件來實現(xiàn)存儲設備向存儲服務的轉變。
1.2云存儲系統(tǒng)的特征
云存儲系統(tǒng)應具有以下通用特征:
(1)高可擴展性:云存儲系統(tǒng)可支持海量數(shù)據(jù)處理,資源可以實現(xiàn)按需擴展;
(2)低成本:云存儲系統(tǒng)應具備高性價比的特點,低成本體現(xiàn)在兩方面,更低的建設成本和更低的運維成本;
(3)無接入限制:相比傳統(tǒng)存儲,云存儲強調對用戶存儲的靈活支持,服務域內存儲資源可以隨處接入,隨時訪問。
(4)易管理:少量管理員可以處理上千節(jié)點和PB級存儲,更高效的支撐大量上層應用對存儲資源的快速部署需求。
1.3云存儲的分類
在存儲資源獲取接口上,云存儲和傳統(tǒng)存儲在功能上并無差異,二者的區(qū)別體現(xiàn)在云存儲可以按需提供易管理、高可擴展、高性價比的存儲資源。根據(jù)存儲的數(shù)據(jù)類型不同和應用需求不同,云存儲系統(tǒng)可分為以下4種類型:
(1)提供塊存儲的云存儲系統(tǒng);
(2)提供文件存儲的云存儲系統(tǒng)。
(3)提供對象存儲的云存儲系統(tǒng)。
(4)提供表存儲的云存儲系統(tǒng)。
2 云存儲技術現(xiàn)狀和應用場景分析
2.1提供塊存儲的云存儲系統(tǒng)
傳統(tǒng)FC SAN系統(tǒng)就是典型的塊存儲系統(tǒng)。由于采用直接讀寫磁盤空間來訪問數(shù)據(jù),相對于其它數(shù)據(jù)讀取方式,塊存儲的讀取效率最高,一些大型數(shù)據(jù)庫應用只能運行在塊存儲設備上。
一些廠家在SAN存儲系統(tǒng)的基礎上進行“云化”,在保證讀取效率和設備可靠性的情況下,增加設備的擴展能力。這種云化方案主要包括兩類技術,一種為存儲虛擬化,另一種為新存儲架構。
2.2存儲虛擬化
根據(jù)虛擬化實現(xiàn)層面的不同,存儲虛擬化又分為基于主機的虛擬化、基于存儲網(wǎng)絡的虛擬化和基于存儲設備的虛擬化3類。
各類存儲虛擬化技術的實現(xiàn)方式、技術優(yōu)缺點及使用場景分析如表l所示。
基于傳統(tǒng)FC SAN存儲、通過第三方虛擬化設備實現(xiàn)存儲的彈性擴展的存儲虛擬化技術也可以算作云存儲系統(tǒng)。但由于虛擬化硬件或軟件的性能瓶頸問題、傳統(tǒng)磁盤陣列本身有限的擴展能力以及異構設備故障定位困難等問題,存儲虛擬化技術應用具有一定局限性,對于遺留FC SAN存儲系統(tǒng),建議選擇適合的存儲虛擬化技術進行資源整合和分級存儲,以實現(xiàn)存儲資源的有效利用。
表1 各類存儲虛擬化技術對比及適用場景分析表
2.3新存儲架構
目前一些傳統(tǒng)存儲設備廠商也推出了全新架構的云存儲系統(tǒng),如通過改變前端交換矩陣結構、通過分布式算法管理的網(wǎng)格存儲等在設計上實現(xiàn)塊存儲系統(tǒng)的scale Out。此類代表的產(chǎn)品有EMC V—MAX和IBM XIV。
V—MAX其后端架構體系和現(xiàn)有盤陣相同,可在新建系統(tǒng)中考慮使用,并可與原有傳統(tǒng)盤陣進行虛擬化整合。但其擁有成本仍然較高,XIV屬于全新架構的陣列設備,無法與傳統(tǒng)FC SAN設備以虛擬化方式進行整合,引入必然帶來新的存儲豎井,在已有系統(tǒng)擴容中不建議考慮,但由于其采用標準硬件單元,成本降低。也可在新建生產(chǎn)系統(tǒng)時謹慎采用。由于設備的廠商私有性,各廠商新架構的云存儲系統(tǒng)之間難以兼容。
2.4提供文件存儲的云存儲系統(tǒng)
文件存儲系統(tǒng)可提供通用的文件訪問接口,如POSIX、NFS、CIFS、FTP等,實現(xiàn)文件與目錄操作、文件訪問、文件訪問控制等功能。文件系統(tǒng)云存儲系統(tǒng)適合處理海量非結構化數(shù)據(jù),目前提供文件存儲的云存儲系統(tǒng)包括兩類:
(1)軟硬件一體解決方案:基于X86硬件,但利用專有的、定制設計的硬件組件,與廠家分布式文件系統(tǒng)集成在一起,以實現(xiàn)目標設計的性能和可靠性目標。
(2)軟硬件分離解決方案:基于開源分布式文件系統(tǒng)對外提供彈性存儲資源,軟硬件分離方式。可采用標準PC服務器硬件。
2.5軟硬件一體機
軟硬件一體機又可進一步分為并行文件系統(tǒng)和NAS虛擬化系統(tǒng),前者代表產(chǎn)品為EMC Isilon ONE FS和IBM SONAS GPFS,后者代表產(chǎn)品為HP X9000(IBRIX Fusion FS)。
NAS虛擬化本質為NAS機頭+集中存儲的解決方案,存在管理節(jié)點的瓶頸,同時以文件為粒度的分布式?jīng)Q定了其有限的文件讀寫性能,不是完全意義上的分布式文件系統(tǒng),前兩者為分布式并行文件系統(tǒng),且無管理節(jié)點瓶頸,但均采用集中共享存儲,文件系統(tǒng)成熟度較好,但軟硬一體的結構帶來成本問題和未來擴容的局限性問題。
2.6軟硬件分離的分布式文件系統(tǒng)
分布式文件系統(tǒng)雖然已經(jīng)提出很多年,但由于以開源產(chǎn)品或自用技術為主,既無統(tǒng)一標準又缺少成熟商用產(chǎn)品,因此真正的商用應用較少。代表性的為Google的GFS和開源的HDFS,另外Facebook、淘寶、騰訊等均開發(fā)了自己的分布式文件系統(tǒng),用于管理其Blog、相冊等數(shù)據(jù)信息。近年來一些國內廠商也推出了商用的軟硬件分離的分布式文件系統(tǒng)。
HDFS可以認為是GFS的一個簡化版實現(xiàn),采用單一主控機(Master)+多臺工作機的模式,由一臺主控機存儲系統(tǒng)全部元數(shù)據(jù),并實現(xiàn)數(shù)據(jù)的分布、復制、備份決策,工作機存儲數(shù)據(jù)并根據(jù)主控機的指令進行數(shù) 據(jù)存儲、數(shù)據(jù)遷移和數(shù)據(jù)計算等。HDFS通過數(shù)據(jù)分塊和復制(多副本,一般是3)來提供更高的可靠性和更高的性能。同時,針對數(shù)據(jù)讀多于寫的特點,讀服務 被分配到多個副本所在機器,提供了系統(tǒng)的整體性能。HDFS提供了一個樹結構的文件系統(tǒng),實現(xiàn)了類似與Linux下的文件復制、改名、移動、創(chuàng)建、刪除操 作以及簡單的權限管理等。但HDFS為避免多客戶端對同一文件的追加,簡化了設計,不支持對文件的Append追加操作,這也使得HDFS不能提供標準的 POSIX接口,不能成為一個完整意義上“文件系統(tǒng)”。
軟硬件分離分布式文件系統(tǒng)解決方案與廠商私有分布式文件系統(tǒng)一樣,可通過分布式架構有效提高文件并發(fā)讀寫性能,且能夠構建在標準的x86服務器集群之上.比軟硬件一體設備具有更好的擴展性并可有效降低建設成本,但開源軟件本身的成熟度有待驗證。
圖1 HDFS技術架構示意圖
2.7提供對象存儲的云存儲系統(tǒng)
對象存儲是為海量數(shù)據(jù)提供Key—Value這種通過鍵值查找數(shù)據(jù)文件的存儲模式,它引人對象元數(shù)據(jù)來描述對象特征,對象元數(shù)據(jù)具有豐富的語義,引人容器 概念作為存儲對象的集合。對象存儲系統(tǒng)服務層對應用系統(tǒng)提供基于http/https協(xié)議的對象存儲WebService服務或直接提供API接口,底層 基于分布式存儲系統(tǒng)來實現(xiàn)數(shù)據(jù)的存取,具體存儲方式對外部應用透明。這樣的存儲系統(tǒng)架構具有高可擴展性,支持數(shù)據(jù)的并發(fā)讀寫,一般不支持數(shù)據(jù)的隨機寫操 作。
2.7.1 AmazoN S3
Amazon S3 (Amazon Simple Storage Service)是亞馬遜公司利用他們的亞馬遜網(wǎng)絡服務系統(tǒng)所提供的網(wǎng)絡線上儲存服務。經(jīng)由Web服務界面,提供給用戶包括REST, SQAP與BitTorrent接口,使用戶能夠輕易把檔案儲存到網(wǎng)絡服務器上。
S3基本概念:
(1)桶(bucket):類比于文件系統(tǒng)的目錄,存儲對象的容器,不能嵌套,名稱全局唯一;
(2)對象(object):類比文件系統(tǒng)的文件,包含對象數(shù)據(jù)和對象元數(shù)據(jù)。對象元數(shù)據(jù)用來描述對象特征,具有豐富的語義,并帶有版本概念。上傳的對象在其存儲周期內不能改變,
(3)鍵值(Keys):類比文件名,key的樣式是URL。
同名文件的寫人,并不覆蓋已有文件而是增加了一個最新的文件版本(圖2左)。同樣下面的刪除也不真正刪除,而是mark了刪除標記(圖2右)。當最新版本 mark為deleted之后,對該對象的get操作返回錯誤,除非明確指定一個歷史版本。也可以指定版本永久刪除其中一個拷貝。
2.7.2 中國移動BC-ONEST
中國移動大云也提供了對象存儲模塊BC-ONest,基本概念與S3類似,相關接口如下:
Native API接口:提供C++, Java API接口,實現(xiàn)本地高并發(fā)數(shù)據(jù)操作。
Internet接口:基于http/https的REST/SOAP訪問接口,用戶可以通過互聯(lián)網(wǎng)隨時隨地的上傳、訪問系統(tǒng)中的對象數(shù)據(jù);系統(tǒng)為用戶的接人和數(shù)據(jù)的傳輸提供安全可靠的通道。
Cloud NA5接口:本系統(tǒng)支持以NAS Server的形式對外提供基于文件系統(tǒng)訪問接口的存儲服務。客戶端應用可以通過“掛載(mount)”,將遠程的對象存儲空間映射為本地的文件系統(tǒng)。
小結:對象存儲技術相對成熟,國內外也有很多成功案例,對于運營商來說,對象存儲對底層硬件要求不高,存儲系統(tǒng)可靠性和容錯通過軟件實現(xiàn),同時其訪問接口 簡單,適合處理海量、小數(shù)據(jù)的非結構化數(shù)據(jù),如在線的公共云存儲服務、數(shù)據(jù)備份服務等;移動互聯(lián)網(wǎng)類應用,如郵箱、網(wǎng)盤、相冊、音頻視頻存儲等。
圖2 Amazon 53存儲操作示意圖
2. 8提供表存儲的云存儲系統(tǒng)
表結構存儲是一種結構化數(shù)據(jù)存儲,如傳統(tǒng)數(shù)據(jù)庫相比,它提供的表空間訪問功能受限,但更強調系統(tǒng)的可擴展性。提供表存儲的云存儲系統(tǒng)的特征就是同時提供高并發(fā)的數(shù)據(jù)訪問性能和可伸縮的存儲和計算架構。如表2所示。
表2 結構云存儲與傳統(tǒng)數(shù)據(jù)庫比較表
提供表存儲的云存儲系統(tǒng)有兩類接口訪問方式。一類是標準的xDBC, SQL數(shù)據(jù)庫接口,一類是MapReduce的數(shù)據(jù)倉庫應用處理接口。前者目前以開源技術為主,尚未有成熟的商業(yè)軟件,后者己有商業(yè)軟件和成功的商業(yè)應用案例。
2.8.1 分布式數(shù)據(jù)倉庫
分布式數(shù)據(jù)倉庫一般采用MPP( Massive ParallelProcessing)架構實現(xiàn)海量數(shù)據(jù)存儲和處理、以及高并發(fā)數(shù)據(jù)讀寫能力,它實現(xiàn)了SQL到MapReduce的翻譯,優(yōu)化.執(zhí)行和 結果收集,具有良好的擴展能力。分布式數(shù)據(jù)倉庫能基于各種開放式硬件平臺,同時支持SQL和MapReduce接口。
分布式數(shù)據(jù)倉庫的代表系統(tǒng):商業(yè)軟件GreenPlum,中國移動HuqeTable、開源Hive等。
圖3 為Green Plum的SharcNothiny體系架構示意圖
2.8.2分布式數(shù)據(jù)庫
分布式數(shù)據(jù)庫同樣基于低成本的PC服務器,提供了高度可伸縮的存儲和計算架構。數(shù)據(jù)存儲、可靠性依賴于表存儲底層采用的文件存儲;高性能的數(shù)據(jù)讀寫能力也需要利用底層并行文件系統(tǒng)的并行數(shù)據(jù)讀寫能力。分布式數(shù)據(jù)庫的代表系統(tǒng):Google BigTable。
BigTable承載了Google搜索引擎、郵件、地圖、Analytics等應用的結構化數(shù)據(jù),容量達到十PB規(guī)模,它提供了簡單的數(shù)據(jù)模型,支持快 速數(shù)據(jù)定位、掃描,但是不支持RDBMS的關系運算如報表、多表查詢、復雜關系運算。BigTable可提供高性能數(shù)據(jù)讀寫,利用內存寫十日志保證數(shù)據(jù)寫 性能,利用數(shù)據(jù)分區(qū)+三層索引提高讀性能,尤其是數(shù)據(jù)掃描的性能。
小結:分布式數(shù)據(jù)倉庫領域里。商用Greenplum和開源的Hive有了大量的成功案例,己經(jīng)成為BI領域發(fā)展趨勢.適用于海量數(shù)據(jù)ETL處理、數(shù)據(jù)挖掘應用、以及網(wǎng)管信令分析應用、海量日志處理等。
分布式數(shù)據(jù)庫目前以開源為主,尚未有成熟的商業(yè)軟件,其與并行計算模式配合可實現(xiàn)高性能可伸縮的批處理,可用于話單結算等場景,并提供了簡單的數(shù)據(jù)模型以支持快速數(shù)據(jù)定位、掃描,但目前不適用于業(yè)務邏輯復雜的OLTP應用,如CRM和ERP等。
圖4 BigTable的邏輯模型與物理設計示意圖
模型以支持快速數(shù)據(jù)定位、掃描,但目前不適用于業(yè)務邏輯復雜的OLTP應用,如CRM和ERP等。
2.9相關國際標準簡介
SNIA(Storage Networking IndustryAssociation )于2010年4月12日推出首個云存儲標準—CDMI ( Cloud Data Management Interface)標準,主要面向存儲即服務(DaaS),屬于對象存儲的范疇,廠家產(chǎn)品可以以CDMI標準為基礎提供按需虛擬存儲或相關數(shù)據(jù)服務。
由于篇幅有限,本文不再詳細敘述CDMI標準。
3 結束語
以上詳細闡述了不同數(shù)據(jù)類型的云存儲技術,并一一分析了其應用場景。
對于企業(yè)私有云應用,面對各類生產(chǎn)系統(tǒng)的存儲需求,要求云存儲系統(tǒng)按需提供不同空間容量、不同性能的存儲資源,應積極采用存儲虛擬化技術整合現(xiàn)有FC SAN資源,挖掘設備潛力,建立分級存儲機制,使數(shù)據(jù)合理分布,在海量非結構化數(shù)據(jù)處理、日志詳單處理、經(jīng)營分析領域等積極實驗和試點分布式存儲解決方 案。
對于公眾云服務,云存儲的成本和擴展性是首要考慮,應基于標準x86服務器,采用分布式對象存儲技術提供有競爭力的云存儲服務,為將來云服務在更大范圍的融合和合作奠定基礎,在云存儲服務接口上應統(tǒng)一規(guī)范要求,建議參考CDMI國際標準。
轉載請注明出處:拓步ERP資訊網(wǎng)http://m.guhuozai8.cn/
本文標題:云存儲技術發(fā)展及應用
本文網(wǎng)址:http://m.guhuozai8.cn/html/consultation/1083967643.html