| 當前位置：拓步ERP資訊網 >>管理咨詢 >>CIO技術專欄 >>CIO企業應用

淺析列式數據庫的特點

發布日期：2012-12-19 9:46:55 來源：m.guhuozai8.cn 編輯：拓步ERP資訊網瀏覽：評論

摘要：本文介紹了列式數據庫的幾大特點，列式數據庫從一開始就是面向大數據環境下數據倉庫的數據分析而產生，它跟行式數據庫相比當然也有一些前提條件和優缺點。 原標題：淺析列式數據庫的特點 原作者：發表時間：2012/12/19 來源：網界網

最早的商業列式數據庫是在1995年發布的Sybase IQ，但是一直到1999年左右才慢慢穩定到能夠投入生產環境。現在的大多數分析型數據庫都是在2003-2005年從Postgresql 分支出來的。其中尤其是Vertica 為代表的列數據庫已經在大規模數據倉庫環境中證明其特別為數據倉庫環境設計的思路在一些領域具有競爭優勢。這篇文章解釋介紹列式數據庫的幾大特點。

高效的儲存空間利用率

傳統的行式數據庫由于每個列的長度不一，為了預防更新的時候不至于出現一行數據跳到另一個block 上去，所以往往會預留一些空間。而面向列的數據庫由于一開始就完全為分析而存在，不需要考慮少量的更新問題，所以數據完全是密集儲存的。

行式數據庫為了表明行的id 往往會有一個偽列rowid 的存在。列式數據庫一般不會保存rowid。

列式數據庫由于其針對不同列的數據特征而發明的不同算法使其往往有比行式數據庫高的多的壓縮率，普通的行式數據庫一般壓縮率在3：1 到5：1 左右，而列式數據庫的壓縮率一般在8：1到30：1 左右。(InfoBright 在特別應用可以達到40:1 ， Vertica 在特別應用可以達到60:1 ，一般是這么高的壓縮率都是網絡流量相關的)

列式數據庫由于其特殊的IO 模型所以其數據執行引擎一般不需要索引來完成大量的數據過濾任務(Sybase IQ 除外) 。這又額外的減少了數據儲存的空間消耗。

列式數據庫不需要物化視圖，行式數據庫為了減少IO 一般會有兩種物化視圖，常用列的不聚合物化視圖和聚合的物化視圖。列式數據庫本身列是分散儲存所以不需要第一種，而由于其他特性使其極為適合做普通聚合操作。(另外一種物化視圖是不能實時刷新的，比如排名函數，不規則連接connect by 等等，這部分列數據庫不包括。)

不可見索引

列式數據庫由于其數據的每一列都按照選擇性進行排序，所以并不需要行式數據庫里面的索引來減少IO 和更快的查找值的分布情況。如下圖所示: 當數據庫執行引擎進行where 條件過濾的時候。只要它發現任何一列的數據不滿足特定條件，整個block 的數據就都被丟棄。最后初步的過濾只會掃描可能滿足條件的數據塊。

(from InfoBright : Blazing Queries Using an Open Source Columnar Database for High Performance Analytics and Reporting )

另外在已經讀取了可能的數據塊之后，對于類似age < 65 或 job = ‘Axx’ 的，列式數據庫并不需要掃描完整個block，因為數據已經排序了。如果讀到第一個age=66 或者 Job = ‘Bxx’ 的時候就會停止掃描了。這相當與行式數據庫索引里的范圍掃描。

數據迭代 (Tuple Iteration)

現在的多核CPU 提供的L2 緩存在短時間執行同一個函數很多次的時候能更好的利用CPU 的二級緩存和多核并發的特性。而行式數據庫由于其數據混在一起沒法對一個數組進行同一個簡單函數的調用，所以其執行效率沒有列式數據庫高。

壓縮算法

列式數據庫由于其每一列都是分開儲存的。所以很容易針對每一列的特征運用不同的壓縮算法。常見的列式數據庫壓縮算法有Run Length Encoding ， Data Dictionary ， Delta Compression ， BitMap Index ， LZO ， Null Compression 等等。根據不同的特征進行的壓縮效率從10W:1 到10:1 不等。而且數據越大其壓縮效率的提升越為明顯。

延遲物化

列式數據庫由于其特殊的執行引擎，在數據中間過程運算的時候一般不需要解壓數據而是以指針代替運算，直到最后需要輸出完整的數據時。

(from McKnight : Columnar Database : Data Does the Twist and Analytics Shout)

傳統的行式數據庫運算，在運算的一開始就解壓縮所有數據，然后執行后面的過濾，投影，連接，聚合操作

而列式數據庫的執行計劃卻是這樣的。

(from McKnight : Columnar Database : Data Does the Twist and Analytics Shout)

在整個計算過程中，無論過濾，投影，連接，聚合操作，列式數據庫都不解壓數據直到最后數據才還原原始數據值。這樣做的好處有減少CPU 消耗，減少內存消耗，減少網絡傳輸消耗，減少最后儲存的需要。

列式數據庫優缺點

列式數據庫從一開始就是面向大數據環境下數據倉庫的數據分析而產生，它跟行式數據庫相比當然也有一些前提條件和優缺點。

列式數據庫優點：

·極高的裝載速度 (最高可以等于所有硬盤IO 的總和，基本是極限了)

·適合大量的數據而不是小數據

·實時加載數據僅限于增加(刪除和更新需要解壓縮Block 然后計算然后重新壓縮儲存)

·高效的壓縮率，不僅節省儲存空間也節省計算內存和CPU。

·非常適合做聚合操作。

缺點：

·不適合掃描小量數據

·不適合隨機的更新

·批量更新情況各異，有的優化的比較好的列式數據庫(比如Vertica)表現比較好，有些沒有針對更新的數據庫表現比較差。

·不適合做含有刪除和更新的實時操作。

常見誤區

一個常見的誤區認為如果每次掃描較多行或者全列全表掃描的時候，行式數據庫比列式數據庫更有優勢。事實上這只是行式數據庫認識上的一個誤區，即認為列式數據庫的主要優勢在于其列分開儲存，而忽略了列式數據庫上面提到的其他幾大特征，這個才是列式數據庫高性能的核心。

核心關注：拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用，蘊涵了豐富的ERP管理思想，集成了ERP軟件業務管理理念，功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理，全面涵蓋了企業關注ERP管理系統的核心領域，是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。

轉載請注明出處：拓步ERP資訊網 http://m.guhuozai8.cn/

本文標題：淺析列式數據庫的特點

本文網址：http://m.guhuozai8.cn/html/consultation/1083936334.html

關鍵詞標簽： 淺析列式數據庫的特點,大數據列式數據庫行式數據庫,ERP,ERP系統,ERP軟件,ERP系統軟件,ERP管理系統,ERP管理軟件,進銷存軟件,財務軟件,倉庫管理軟件,生產管理軟件,企業管理軟件,拓步,拓步ERP,拓步軟件,免費ERP,免費ERP軟件,免費ERP系統,ERP軟件免費下載,ERP系統免費下載,免費ERP軟件下載,免費進銷存軟件,免費進銷存,免費財務軟件,免費倉庫管理軟件,免費下載,

本文轉自：e-works制造業信息化門戶網

本文來源于互聯網，拓步ERP資訊網本著傳播知識、有益學習和研究的目的進行的轉載，為網友免費提供，并盡力標明作者與出處，如有著作權人或出版方提出異議，本站將立即刪除。如果您對文章轉載有任何疑問請告之我們，以便我們及時糾正。聯系方式：QQ：10877846 Tel：0755-26405298。

上一篇：淺論客戶關系管理

下一篇：基于WCF的商業智能系統的應用研究

相關文章

管理咨詢

拓步ERP系統軟件平臺11.5專業版v10.1.2...

拓步ERP系統平臺庫存管理系統培訓視頻教材


	ERP新聞動態拓步新聞行業新聞關注產品觀點縱橫企業管理企業應用

	ERP解決方案按ERP應用行業分類按ERP企業規模分類按ERP管理領域分類按ERP軟件功能分類按ERP系統特性分類用友ERP解決方案金蝶ERP解決方案易飛ERP解決方案速達ERP解決方案其他ERP解決方案

	ERP顧問咨詢 ERP管理咨詢 ERP戰略診斷 ERP流程分析 ERP流程優化 ERP風險分析 ERP可行性研究 ERP整體規劃 ERP選型招標 ERP實施監理 ERP評審驗收 ERP績效評價 ERP基礎知識 ERP課程培訓 ERP培訓教育 ERP視頻教材

	CIO技術專欄 CIO企業應用 CIO網絡通信 CIO信息安全 CIO基礎設施 CIO云計算

	ERP技術支持技術支持知識庫常見問題資料庫在線學習資料庫日常辦公資料庫企業管理知識庫

	ERP系統價格拓步ERP系統價格體系拓步EIS軟件價格體系合作品牌ERP價格體系技術支持服務價格體系

	合作品牌用友UFIDA 金蝶KingDee 神州數碼Digital 速達SuperData 拓步ERP系統成功案例

	代理加盟合作聯盟策略代理合作指南代理聯盟前景聯盟技術支持快速搜索ERP軟件資訊

	關于拓步公司介紹公司愿景企業文化誠聘英才聯系我們在線留言在線訂購意向下載體驗登記

日本高清色本免费现在观看-日本高清色图-日本高清色视频在线观看免费-日本高清免费一本视频在线观看-国产精品电影久久-国产精品对白刺激久久久

ERP顧問咨詢

ERP原理知識

ERP實施培訓

CIO技術專欄

CIO企業應用

CIO網絡通信

CIO信息安全

CIO基礎設施

CIO云計算

即時聯系

服務熱線

快捷互動

猜您喜歡