SDN,在經(jīng)歷了猶豫彷徨、百家爭鳴之后,目前已成為企業(yè)CTO的堅定選擇。
SDN時代的網(wǎng)絡(luò)展現(xiàn)出兩面性:一方面讓客戶使用更加簡單,另一方面卻讓運維更加復(fù)雜。而當前,整個行業(yè)的目光多聚焦在前者而忽略了后者。
隨著SDN的部署如火如荼,一絲憂患也隱隱浮現(xiàn)。2015年12月,管理行業(yè)研究機構(gòu)EMA(Ent
ERPrise Management Associates)針對100多家企業(yè)的調(diào)查結(jié)果顯示:70%左右的客戶對于現(xiàn)有管理運維體系是否適用于SDN場景表示擔憂。Gartner于 2015年7月發(fā)布的通信網(wǎng)絡(luò)技術(shù)成熟度曲線(The Hype Cycle)也顯示,SDN相關(guān)的運維技術(shù)處于泡沫化的底谷期(Trough of Disillusionment),將在2~5年內(nèi)進行大規(guī)模商用部署。
華為早在全面擁抱SDN初期,就把SDN運維作為關(guān)鍵課題進行研究和實踐,下面分別從WHY、WHAT、HOW這3個緯度展示華為對SDN運維的思考。
WHY:SDN運維的新變化
相對于傳統(tǒng)網(wǎng)絡(luò),SDN時代的網(wǎng)絡(luò)有如下的特征:
動態(tài)網(wǎng)絡(luò):動態(tài)是指根據(jù)應(yīng)用需求按需創(chuàng)建和刪除邏輯網(wǎng)絡(luò)。比如某企業(yè)用戶反饋,在運維中需要投入50%的工作在防火墻的規(guī)則上,主要原因是隨著應(yīng)用的變遷,防火墻規(guī)則沒有隨之變遷,造成網(wǎng)絡(luò)沉淀和碎片。
實時響應(yīng):傳統(tǒng)網(wǎng)絡(luò)的設(shè)計主要是面向人的界面,基于分鐘級別慢速的原則,比如使用了幾十年的SNMP機制。這種慢速機制,在SDN的快節(jié)奏中成為“吐槽”點。某企業(yè)客戶抱怨其輕載的網(wǎng)絡(luò)存在瞬態(tài)的突發(fā)丟包,懷疑存在毫秒級別的微突發(fā)流量,但是在分鐘級別的 SNMP機制下無法觀察到,更無法優(yōu)化。
大規(guī)模:大規(guī)模有兩個含義,其一是管理的設(shè)備數(shù)量。從物理網(wǎng)元到邏輯網(wǎng)元vSwitch/vRouter,其數(shù)量增加了50倍;其二是處理的故障數(shù)量。據(jù)LinkedIn披露,從2010年到2015年,需要處理的故障增加了18倍,但管理人員僅增加了幾個。
要應(yīng)對上述SDN網(wǎng)絡(luò)的3大問題,傳統(tǒng)的“人工運維”方式賢德捉襟見肘、難以為繼。
WHAT:SDN運維內(nèi)涵
為了滿足SDN下“動態(tài)性、實時性、大規(guī)模”的挑戰(zhàn),華為提出需要對整個運維架構(gòu)進行變革,才能讓SDN“管用、好用”。新的SDN運維架構(gòu)需要圍繞下面幾個方面打造:
可視化:看得見,看得清
俗話說“You Can’t Manage What You Can’t See”。“看得見”有兩個方面的含義:
觀察對象可視:可監(jiān)控物理和邏輯對象,包括網(wǎng)元級別的節(jié)點和接口等,也包括網(wǎng)絡(luò)級別的鏈路、邏輯路徑和應(yīng)用質(zhì)量等。
觀察的實時性:支持毫秒級別現(xiàn)象的感知(比如流量微突發(fā))、低頻率(<10-4)的丟包,以及大象流和老鼠流的識別等。
“看得清”意味著針對觀察的準確性,需要采集和分析海量的數(shù)據(jù)。包括:
精確計費:采集的比例需要從8K:1到2K:1,甚至1:1全量采集。
疑難問題定位:基于采集的“大數(shù)據(jù)”和實時分析,及時發(fā)現(xiàn)偶發(fā)性丟包和流量黑洞等。
自動化:自修復(fù),自優(yōu)化
傳統(tǒng)的網(wǎng)絡(luò)運維架構(gòu)是一個單向的系統(tǒng),而不是一個負反饋系統(tǒng)。網(wǎng)絡(luò)運維包括兩個方向:管理員在下行方向配置網(wǎng)絡(luò),然后通過上行方向獲得網(wǎng)絡(luò)的狀態(tài),也就是說,網(wǎng)絡(luò)的部署和狀態(tài)是割裂的,通過管理員進行有限的溝通。這種機制顯然無法滿足網(wǎng)絡(luò)故障自修復(fù)和網(wǎng)絡(luò)自優(yōu)化的需求。自動化的運維需要構(gòu)建 “閉環(huán)”運維架構(gòu),具體包括:
延遲修復(fù):發(fā)現(xiàn)故障后,首先隔離故障,不影響現(xiàn)有業(yè)務(wù)。
診斷修復(fù):結(jié)合采集的“大數(shù)據(jù)”和經(jīng)驗數(shù)據(jù)庫,進行自動修復(fù)或給出明確的修復(fù)方案。
網(wǎng)絡(luò)優(yōu)化:及時發(fā)現(xiàn)網(wǎng)絡(luò)存在的“病態(tài)”,如流量不均衡和流量擁塞風險等,通過閉環(huán)系統(tǒng),由網(wǎng)絡(luò)部署系統(tǒng)自動進行調(diào)整,把故障消滅在萌芽狀態(tài)。
HOW:SDN運維方案
基于SDN下的運維新變化,華為分解了運維的生命周期,構(gòu)建了“閉環(huán)”的運維負反饋系統(tǒng),稱為Fabric Insight架構(gòu),包括如下4個模塊:
Monitor:監(jiān)視
為了解決實時,海量的數(shù)據(jù)監(jiān)視,需要在如下兩個方面改進方案:
改造采集通道,滿足海量數(shù)據(jù)上報:對于中規(guī)模的數(shù)據(jù)上報,采用gRPC等高效的采集通道替代SNMP等;對于大規(guī)模的數(shù)據(jù)上報,直接采用數(shù)據(jù)面基于UDP的采集通道,消除管理面CPU的帶寬限制。
改造采集點,滿足高頻采集:在數(shù)據(jù)中心交換機上設(shè)計專門的高頻采集部件,滿足毫秒級的事件采集。
Detector:探測
未來及時發(fā)現(xiàn)端到端業(yè)務(wù)路徑的質(zhì)量,需要通過實時發(fā)送探測報的方式,對網(wǎng)絡(luò)進行“掃描”。區(qū)別于傳統(tǒng)機制的“隨機掃描”,華為結(jié)合網(wǎng)絡(luò)的拓撲和路由,支持更精確的“定向掃描”,可以做到真正的全網(wǎng)全覆蓋。基于這種能力,管理員就不再是“救火員”,而是運籌帷幄的“諸葛亮”。
Metrics:度量
在某些情況下,網(wǎng)絡(luò)質(zhì)量顯示正常,但是應(yīng)用體驗下降。探測機制無法解決這種問題,就需要基于真實的業(yè)務(wù)流進行度量,發(fā)現(xiàn)該業(yè)務(wù)流是否存在丟包和時延問題,如果丟包,丟包位置在哪?如果時延大,是什么因素造成的?
Diagnosis:診斷
診斷就像老中醫(yī)看病,通過Monitor、Detector和Metrics進行“望聞問切”后,再結(jié)合經(jīng)驗庫的案例,定位出問題的根因。診斷部件由一系列的工具組成,每個工具針對特定的問題。比如環(huán)路診斷工具、丟包診斷工具等。
華為秉承開放的理念,開放基本的運維API,客戶可自助地開放和定制自己的診斷工具集。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://m.guhuozai8.cn/
本文標題:云時代如何簡化數(shù)據(jù)中心網(wǎng)絡(luò)運維?
本文網(wǎng)址:http://m.guhuozai8.cn/html/consultation/10839719921.html