數據充斥所帶來的影響遠遠超出了預想。
“生命中的一天”(Day in the Life)系列攝影作品的創作人里克·斯莫蘭(Rick Smolan)正計劃在今年晚些時候推出一個新項目,這個名為“大數據的人類臉孔”(The Human Face of Big Data)的項目將記錄數據的采集和使用。斯莫蘭是一名狂熱分子,他認為“大數據”有成為“人性儀表盤”的潛力,也就是一種能幫助人類與貧窮、犯罪和污染等現象展開斗爭的智能工具。
事實上,數據不僅僅正在變得更加可用,同時也正在變得更加容易被計算機所理解。“大數據”發展趨勢中所增加的大部分數據都是在自然環境下產生的,比如說網絡言論、圖片和視頻等不受控制的東西,以及來自于傳感器的數據等。這些是所謂的“非結構化數據”,通常不能為傳統的數據庫所用。但是,旨在從互聯網時代非結構化數據的龐大“寶藏”中獲得知識和洞察力的計算機工具正在迅速發展中。在這種工具發展的最前沿是迅速取得進步的人工智能(AI)技術,比如說自然語言處理、模式識別和機器學習等。
這些人工智能技術能應用于許多領域。舉例來說,國內的搜索巨頭百度,其搜索和廣告業務及都利用了很多的人工智能技術。百度的這兩項業務都讓“大數據”時代的挑戰變得真實起來,它們對數量龐大的數據進行分析,并作出瞬時的決策。
數據洪流
作為互聯網公司,百度每天都要面對海量數據。其每天收集幾千億網頁,系統每天都產生海量日志,其容量達到百PB級,需要數萬臺服務器存儲,這還不算用戶在使用百度產品中自己生成的內容(UGC)和百度客戶的數據,這部分數據加起來就有幾個PB,僅這些數據就比傳統企業的大上成千上萬倍。并且隨著網頁資源增加和搜索質量提升,網頁和超鏈數據將隨之急劇增加。
對此,百度技術總監陳尚義表示,百度數據呈現海量、高增長,結構化和非結構化大量并存,記錄大小差距巨大,數據一致性強弱不一,數據冷熱不均,突發事件常導致數據訪問波峰等特點。與此同時,百度業務對數據存儲和處理提出極高要求。要求數據高可用、高可靠、高通量、高時效、高并發、高可擴展(簡稱“六高”),要求百度的數據存儲能力和處理能力必須以非常簡單的方式獲得擴容,以降低維護升級的代價。
按照陳尚義的說法,面對這些特點和要求,百度必須開發自己的大數據存儲系統。不過,在百度最早上線數據存儲系統時,類似Hadoop和HDFS等開源系統還沒有發布,而且還由于開源系統的性能受限、無法充分利用機器的各種資源尤其是新硬件(flash/SSD)資源為特定的訪問模式做優化、缺乏滿足工業界的穩定性等諸多原因,百度不能使用開源系統。不僅開源系統的用不上,而且市場上也無現成商業化產品可供百度使用,因為任何一個廠商都沒有如此海量、如此復雜的數據。
自主開發
百度一開始就自主開發了大數據存儲系統,用于存儲網頁和超鏈、客戶信息和用戶產品、系統日志等海量數據,支持Table、Pipe、File和KV等數據類型,滿足百度業務的流式和觸發式計算、文件存儲和訪問、低延遲、高并發的需求。在此基礎之上,百度還面向廣大網民推出云存儲系統,在前不久發布的百度易手機上,每個用戶可擁有100G的免費存儲空間。
陳尚義介紹,為了應對上百PB的數據,滿足諸多近乎苛刻的要求,百度作出了巨大努力,“開發了網頁更新模型,將對磁盤的隨機寫轉化為批量的順序寫,大大提高了數據的寫入速度,縮短了網頁數據的更新周期,提高了搜索引擎等產品的時效性;對涉及數據存儲和訪問的各個方面進行了全局優化;定制Flash,使存儲系統直接對Flash的多通道(Multiple Chanel)編程,既提高了并發性,又提高了存儲資源的容量;采取多副本存儲,以提高系統的可靠性和可用性;創造性地開發了自主知識產權的復制協議(Replication Protocol);采取數據分治策略,保證數據存儲的各個部件可以水平擴展,即通過簡單地增加服務器就可以達到擴展的目的;采用拆片存儲技術,避免單機存儲熱點記錄或大記錄所帶來的性能瓶頸;運用局部更新大記錄的策略,對于大記錄分塊存儲,只有修改了的塊才被更新,而不是對整個大文件都重寫;采用三層數據存儲模型,將熱點數據存放于內存,較熱的數據存放于flash, “冷”數據存放于磁盤,針對數據訪問的特性充分利用各種資源的優勢。
陳尚義透露,未來,百度還將開發跨數據中心的存儲系統,面臨帶寬、通信穩定性所帶來的壓力;在數據量、吞吐量急劇增大的背景下,不斷提高時效性、一致性、減低延遲、提高并發;在新的Flash/SSD硬件和萬M網絡的引入、數據存儲和處理瓶頸發生轉移的情況下,百度原來積累的存儲體系將面臨變革。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://m.guhuozai8.cn/
本文標題:百度:大數據時代的自主路線
本文網址:http://m.guhuozai8.cn/html/consultation/1083936078.html