大數據Hadoop環境網絡特性
Hadoop集群中的各節點通過網絡連接起來,而且MapReduce中的以下過程會在網絡中傳輸數據。
(1) 寫數據。當向HDFS寫入初始數據或者大塊數據時,會發生數據寫入過程。寫入的數據塊需要備份到其他節點,需要在網絡中傳輸這些數據。
(2) 作業執行。
1) Map階段。在算法的Map階段,幾乎不需要在網絡中傳輸數據。在Map開始階段,當HDFS數據沒有本地性(數據塊不在本地存儲,需要從其他節點拷貝)時,才需在網絡中傳輸數據。
2) Shuffle階段。這是作業執行中在網絡中傳輸數據的階段,數據傳輸的程度依賴于作業。Mapper階段的輸出內容,會在這個時候傳輸到Reducer進行排序。
3) Reduce階段。因為Reducer需要的數據已經從Shufle階段傳來,所以此階段不需要網絡傳輸數據。
4) Output復制。MapReduce的輸出作為文件存儲在HDFS上。當將輸出結果寫入HDFS時,產生的備份會在網絡中傳輸。
(3) 讀數據。當應用程序如網站、索引或者SQL數據庫從HDFS讀取數據時,會發生數據讀取的過程。
另外,網絡對Hadoop的控制層非常重要,比如HDFS的信令和運維操作,以及MapReduce架構都受到網絡影響。
五種網絡特性
針對Hadoop集群環境下的網絡環境進行測試,測試結果顯示,一個有彈性的網絡對Hadoop集群非常重要;對Hadoop集群具有重要影響的網絡特性,以其影響程度從大到小依次排序為:網絡可用性和彈性、Burst流量突發處理和隊列深度、網絡過載比、Datanode網絡接入和網絡延遲。
(1) 網絡可用性和彈性。要部署一個高冗佘性和可擴展的網絡,支持Hadoop集群的增長。在Datanode之間部署多條鏈路的技術要比那些有單點失效或兩點失效的技術要好。交換機和路由器已經在業界被證明能夠為服務器提供網絡可用性。
(2) Burst流量突發處理和隊列深度。HDFS的有些操作和MapReduce Job會產生突發流量,如向HDFS加載文件或者把結果文件寫入HDFS都需要通過網絡。網絡如果處理不了突發流量,就會丟棄數據包,所以適當的緩存可以緩解突發流量的影響。確保選擇使用緩存和隊列的交換機和路由器,來有效處理流量突發。
(3) 網絡過載比。一個好的網絡設計需要考慮到網絡中關鍵節點的擁塞情況。一個ToR交換機從服務器接收20Gbps的數據,但是只有2個1Gbps的上聯口會造成數據包丟失(10:1的過載比),嚴重影響集群的性能。過度配置的網絡的價格又非常昂貴。一般情況下,服務器接入層可以接受的過載比在4:l左右,接入層和匯聚層之間,或者核心層的過載比在2:l左右。
(4) Datanode網絡接入。要基于集群工作負荷來推薦帶寬配置。一般集群中的節點有1到2根1GB的上聯12。是否選擇10Gbps的服務器要權衡價格和性能。
(5) 網絡延遲。交換機和路由器延遲的變化對集群性能的影響有限。相比網絡延遲,應用層延遲對任務的影響比例更大。但是網絡的延遲會對應用系統造成潛在的影響,例如造成不必要的應用切換等。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://m.guhuozai8.cn/
本文網址:http://m.guhuozai8.cn/html/consultation/10839315770.html