国内成人精品亚洲日本语音,护士的护士服被扒了下来小说,亚洲视频精品

基于mdrill的大數(shù)據(jù)分析

作者：不詳點擊：139次評論：0次標簽：大數(shù)據(jù)分析

數(shù)據(jù)越來越多，傳統(tǒng)的關系型數(shù)據(jù)庫支撐不了，分布式數(shù)據(jù)倉庫又非常貴。幾十億、幾百億、甚至幾千億的數(shù)據(jù)量，如何才能高效的分析？
mdrill是由阿里媽媽開源的一套數(shù)據(jù)的軟件，針對TB級數(shù)據(jù)量，能夠僅用10臺機器，達到秒級響應，數(shù)據(jù)能實時導入,可以對任意的維度進行組合與過濾。
mdrill作為數(shù)據(jù)在線分析處理軟件，可以在幾秒到幾十秒的時間，分析百億級別的任意組合維度的數(shù)據(jù)。
在阿里10臺機器完成每日30億的數(shù)據(jù)存儲，其中10億為實時的數(shù)據(jù)導入，20億為離線導入。目前集群的總存儲3200多億80~400維度的數(shù)據(jù)。
mdrill的特性
1.滿足大數(shù)據(jù)查詢需求：adhoc每天的數(shù)據(jù)量為30億條，隨著日積月累，數(shù)據(jù)會越來越大，mdrill采用列存儲，索引，分布式技術，適當?shù)姆謪^(qū)等滿足用戶對數(shù)據(jù)的實時在線分析的需求。
2.支持增量更新：離線形式的mdrill數(shù)據(jù)支持按照分區(qū)方式的增量更新。
3.支持實時數(shù)據(jù)導入：在僅有10臺機器的情況下，支持每天10億級別（高峰每小時2億）的實時導入。
4.響應時間快：列存儲、倒排索引、高效的數(shù)據(jù)壓縮、內(nèi)存計算，各種緩存、分區(qū)、分布式處理等等這些技術，使得mdrill可以僅在幾秒到幾十秒的時間分析百億級別的數(shù)據(jù)。
5.低成本：目前在阿里adhoc僅僅使用10臺48G內(nèi)存的PC機，但確存儲了超過千億規(guī)模的數(shù)據(jù)。
6.全文檢索模式：在mdrill的全文檢索模式數(shù)據(jù)可以直接存儲在hdfs中，并且以每天160億*70維度的數(shù)據(jù)增量提供全文檢索服務（注：該模式下不能進行統(tǒng)計，只能進行關鍵詞匹配查詢數(shù)據(jù)明細）
mdrill的定位
大數(shù)據(jù)
要數(shù)據(jù)量大，幾十億上百億。
還要省錢，普通PC就能搞定。
多維分析
要任意維度組合與過濾
還要對任意指標進行統(tǒng)計和排序
即席查詢
要查詢快，秒級響應。
還要數(shù)據(jù)快，數(shù)據(jù)分鐘級延遲。

基于mdrill的大數(shù)據(jù)分析

相關軟件

相關文章

擴展知識

相關評論

閱讀本文后您有什么感想? 已有 0 人給出評價!

文章推薦

最新文章

本類常用軟件