更加強大且富有表現力的分析工具
在過去的一年中,圍繞著NoSQL和Hadoop,基本的存儲與數據處理引擎方面的改進工作得到了加強并且日趨工程化。毫無疑問,這種態勢將會持續下去,因為我們看到了Hadoop世界中有越來越多形態各異的產品融入到了各種發布包、設備和按需的云服務當中。我衷心希望在不遠的將來Hadoop能夠成為必要的基礎設施。
現在,已經出現了一些面向程序員與數據科學家的工具(例如Karmasphere和Datameer),此外,還有面向已經建立起來的分析工具的Hadoop連接器(例如Tableau和R)。但還有一種方式可以讓大數據變得更為強大,那就是降低實驗的成本。
下面兩種方式可以使大數據變得更為強大。
更好的編程語言支持。因為我們將數據而非業務邏輯作為程序中的主要實體,所以必須要創建或再去探索一些方言,使我們能夠將精力放在數據而非底層Hadoop設施所透露出來的抽象上面。換句話說,編寫更簡短的程序,能夠更清晰地表達出我們對數據所做的處理。這些抽象將有助于為非程序員創建更好的工具。
需要提供更好的交互支持。如果說Hadoop有缺點,那么其缺點也在于它所孕育的批量化處理的計算本質。數據科學的敏捷本質決定了它鐘愛于能夠提供更好交互性的工具。
流線化的數據處理
Hadoop批量化的處理對于很多場合都足夠用了,特別是數據報告的頻率不需要達到分鐘級別的場合。然而,批量化處理并非總能滿足我們的要求,特別是對于移動和Web客戶端等在線需求,或是財務和廣告等需要實時變化的市場。
在未來幾年中,用于處理流線化或接近實時的分析與處理的可伸縮框架和平臺將會得到采用。Hadoop將會支持大規模的Web應用,這些平臺將會由大規模位置感知的移動、社交和傳感器應用所推動。
對于某些應用來說,已經沒有足夠的空間來存儲業務接收到的所有數據:在某一時刻,你需要扔掉一些東西。憑借流線化的計算能力,你可以對數據進行分析并決定扔掉哪些數據而不必查看map/reduce的“存儲—計算”循環。在實時框架領域中,新涌現的競爭者有來自Twitter的Storm和Yahoo!的S4。
數據市場的興起
當與其他數據集混合到一起時,你自己的數據會變得更有說服力。比如說,將天氣狀況添加到客戶的數據中,檢查是否有與客戶購買模式相關的天氣模式。獲取這些數據集是個讓人頭疼的問題,特別是在IT部門之外做這件事,并且要求一定的精度時更是如此。數據市場的價值在于為這種數據提供了一個目錄,以及流線化、標準化的交付方法。微軟將其Azure市場集成到分析工具中的做法預示了我們今后能更加方便地訪問數據了。
數據科學工作流與工具的開發
隨著數據科學團隊不斷為各個公司所認可和接受,其角色和流程將會變得更加正規化。成功的數據科學團隊的驅動力之一就是其與公司經營活動的集成程度,這與成為邊緣的分析團隊截然相反。
軟件開發者已經擁有了大量富于邏輯與社交性質的基礎設施,這包括wiki與源代碼控制,以及用于將其流程和需求公開給企業主的各種工具。集成的數據科學團隊需要自己的一套工具才能高效協作。其中之一就是EMC Greenplum的Chorus,它提供了針對數據科學的一個社交軟件平臺。使用這些工具有助于組織中數據科學處理的不斷涌現。
數據科學團隊將會逐漸開始一些重復的流程,我們希望這是敏捷的。相比諸如The Guardian和NewYork Times之類的新聞組織的新聞數據團隊所做的開創性工作:只要給定一個不長的時間表,這些團隊就可以將原生格式的數據轉換為成品,這需要與記者攜手來完成。
對可視化的理解和需求的提升
可視化在數據工作流中能夠實現兩個目的:解釋與探索。雖然業務人員可能將可視化看作是最終結果,但數據科學家還會將可視化作為尋求問題以及探索數據集新特性的一種方式。
如果說成為數據驅動的組織需要培養所有員工擁有更好的數據感覺的話,那么可視化在將數據操縱能力傳遞給那些不會編程或缺乏統計分析技巧的員工的過程中就扮演著重要角色。
過去的整整一年,業務對數據科學家的需求一直都是如此。我不斷地聽到數據科學家說,他們最想要的是:懂得創建可視化的人才。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://m.guhuozai8.cn/
本文標題:2012,大數據五大預測
本文網址:http://m.guhuozai8.cn/html/consultation/1083932033.html