背景

  近年來,隨著計算機技術的發展,各領域數據的增長越來越快。這些數據來自方方面面,從搜集天氣情況的感測器,接入社交媒體網站的指令,數碼圖片,在線的視頻資料,到網絡購物的交易記錄,手機的定位系統信號等等。隨著數據規模的急劇膨脹,各行業累積的數據量越來越巨大,數據類型也越來越多、越來越復雜,已經超越了傳統數據管理系統、處理模式的能力范圍,傳統的串行數據庫系統已經難以適應這種飛速增長的應用需求。在這種需求的驅動下,云計算中的MapReduce[1]技術、并行數據庫技術以及云計算與數據庫相結合的技術應運而生。font>

  我們在大數據的背景下,對大數據處理技術進行了探討,將其分為三類:MapReduce技術、并行數據庫技術和云計算與數據庫相結合的技術。通過研究這些技術的架構、適用環境,提出了一種全新的云計算數據庫--數據立方。font>



產品介紹

  通過對MapReduce、并行數據庫和兩者的混合技術研究,南京云創大數據科技股份有限公司推出了實施云計算數據庫--數據立方,該系統通過引入索引模塊、并行執行架構以及讀取本地磁盤的執行方式,使查詢達到了實時完成、簡單易用、高可靠安全的效能,使EB級的數據能夠秒級處理,較大地提高了用戶執行查詢操作后的使用效率,不僅在查詢和檢索這部分數據的時候具有非常高的性能優勢,數據立方還可以支持數據倉庫存儲、數據深度挖掘和商業智能分析等業務。


數據立方的體系架構

數據立方的體系架構圖


數據立方的體系架構圖

  數據立方(DataCube)的結構分為用戶接口、索引、SQL解析器、作業生成器、元數據管理、并行計算架構、分布式文件系統等部分,如圖4所示。用戶接口主要有兩個:JDBC和Shell。JDBC主要執行數據的定義操作,即建立數據庫、建表、建分區,對數據庫、表和分區的刪改等,同時可執行數據查詢的SQL語句,暫不支持單條記錄的增刪改;數據立方提供友好的shell交互界面,shell支持數據庫、表的增刪改以及數據查詢的SQL語句。數據在入庫的同時與數據對應的索引也在同時建立,索引是一顆B樹,數據插入到內存的同時,索引B樹也在生成,當達到設置上限時,數據和索引會刷新到分布式文件系統上成為文件。數據立方的元數據存儲在數據庫中。其中包括,數據庫的名字和屬性,數據庫中的表,表的名字,表的列和分區及其屬性,表的屬性,表的數據所在目錄等等。SQL解析器接收從JDBC和SHELL傳來的SQL查詢語句,同時對SQL進行詞法分析、語法分析、編譯、優化。作業生成器根據SQL語法樹生成查詢作業,分析所要處理的數據表對應的索引文件的所在存儲子節點位置,并將作業發送給并行計算架構。并行計算架構接收到作業生成器生成的作業,根據索引文件的位置切分查詢作業形成子任務,然后將子任務發送給數據所在的存儲子節點,每個節點執行這些子任務查詢索引得到結果記錄所在的數據文件名與偏移量,并以廣播的方式發送查詢子任務到數據文件所在的節點,在執行完畢后將結果返回。數據立方可以使用HDFS和cStor[19]作為底層存儲系統,cStor是一個主從結構的分布式文件系統,不僅具有HDFS的高吞吐率、高讀寫性能等特性,還支持HDFS所不具備的對文件修改等功能,并且支持POXIS接口。


分布式并行計算架構(DPCA)

DPCA架構圖


DPCA架構圖

  數據立方的分布式并行架構(DPCA)是典型的主從結構,主Master與從Master分別部署在HDFS的主從NameNode物理節點上,而Slave部署在DataNode物理節點上,主從Master使用Zookeeper同步,并共享系統日志,Master與Slave之間用心跳信息保持信息交換。


并行計算架構上作業執行過程圖  并行計算架構的三中分發方式


并行計算架構上作業執行過程圖
并行計算架構的三中分發方式圖

    相對于MapReduce架構,DPCA具有實時性、計算的數據本地性以及數據平衡性。MapReduce架構的job提交過程較為復雜,客戶端將job提交到JobTracker有較長的延遲, JobTracker將job處理為MapReduce task后,通過TaskTracker的心跳信息將task任務返回給TaskTracker,此過程中也存在延遲。MapReduce架構雖然也遵循數據本地性,但仍會有很大比例的數據處理不是本地的,相對于MapReduce架構, DPCA的job提交是實時性的,在提交job之前所需程序jar包已經分發到所有計算節點,在job提交之后,master在初始化處理之后即將task直接分發到所有slave節點上,如并行計算架構上作業執行過程圖所示,在job提交后, master根據數據文件所在位置分配task,這樣在每個計算節點上要處理的HDFS上的數據塊就在本地,這樣避免了數據的移動,大大地減少了網絡IO負載,縮短了計算時間,每個計算節點會根據Task中SQL解析器生成的執行計劃對Task執行的結果進行分發,分發的方式有三種:分發所有中間數據到所有計算節點,分發所有中間數據到部分節點,根據數據所在位置分發,如并行計算架構的三中分發方式圖所示。并行計算架構能夠周期性地對HDFS上的數據表進行維護,保持數據表在所有的DataNode節點上所存儲的數據量的平衡,減少因數據負載的不平衡而導致的計算負載的不平衡。

小表與大表的join實例圖


小表與大表的join實例圖

  舉一個典型的小表與大表join連接的實例,如圖7所示,Master解析Job中的執行計劃,判斷小表的位置后,將Task0發送給了Slave0,指令Slave0發送小表到所有節點,而其他節點接收到的子任務是等待接受小表的數據,接收到數據后將小表與大表連接并將數據返回給Master,當所有數據返回完成則這個job完成。


分布式索引

  MapReduce是對每個查詢都是直接從分布式文件系統中讀入原始數據文件,I/O代價遠高于數據庫,相對于MapReduce架構以及在其之上的SQL解析器Hive,數據立方引入了一種高效的分布式索引機制,不同于并行數據庫的 shared-nothing和shared-disk架構,數據立方的數據文件與索引文件都存放在分布式文件系統之上。

B樹索引


B樹索引

  MapReduce數據在入庫的同時B樹索引在內存中同步生成,B樹中的葉子節點存儲的是數據文件路徑與記錄在文件中的偏移量,如圖所示,在B樹中的葉子節點達到設置上限后,索引將被序列化到分布式文件系統之上,在根據條件進行單表查詢的時,job被提交到并行計算框架,master節點首先分析該表的索引文件根據索引文件所在的節點將task發送到相應的節點,每個節點在查詢本地的索引文件之后將符合條件的數據文件路徑+偏移量打包成task根據數據文件位置進行再次分發,在數據文件中的記錄查詢出來之后將結果返回,如上圖所示。



測試與評估


測試環境

  MapReduce測試環境搭建在兩個機架的12臺物理機組成的集群上。每臺物理機使用Ubuntu9.04 server系統,JDK版本為1.6.0.18,使用的Hadoop版本為2.0.0,將HDFS作為分布式存儲環境。軟硬件配置如表1、表2所示。


設備名稱 數量 CPU 內存 硬盤
主控制服務器 2 雙路四核,主頻2GHz 32G 2T*8
子處理服務器 10 雙路四核,主頻2GHz 32G 2T*8
客戶端 5 單路雙核,主頻2GHz 8G 1T
48口千兆交換機 1      

表1 硬件配置

軟件名稱 軟件版本
CentOS 6.3
HadoopDB 0.1.1.0
Hive 0.9.0
數據立方 1.0
Hadoop 2.0.0

表2 軟件配置

  當前與數據立方類似的產品有分布式數據庫和數據倉庫,如:開源的HIVE、HadoopDB等,因此我們在數據入庫、查詢、查詢的并發量以及線性擴展等多方面對數據立方、HIVE和HadoopDB做了對比測試。

數據入庫測試

  數據立方能夠快速進行數據入庫同時實時建立索引,相對于基于傳統數據庫的HadoopDB來說具有天然的優勢,而對于HIVE來說,雖然入庫速度相差不大,但由于HIVE在數據入庫的同時并沒有建立索引使其在查詢的過程中沒有優勢。測試結果如下圖所示:



數據入庫測試圖


數據入庫測試圖

單表查詢測試

  對于簡單的單表查詢來說,數據量較小時,HadoopDB與數據立方的查詢速度都是比較快的,但在大數據量下,數據立方的高效分布式查詢更有優勢,而HIVE的底層是基于MapReduce,所以速度較慢。測試結果如下圖所示:


單表查詢測試圖


單表查詢測試圖

多表查詢測試

  在多表查詢方面,在小表與小表、大表與小表之間的關聯查詢,數據立方和HadoopDB都是較快的,但在大表與大表之間做關聯查詢時,數據立方相對于HadoopDB更快,而HIVE是很慢的。測試結果如下圖所示:


多表查詢測試圖


多表查詢測試圖

并發查詢測試

  數據立方的每個節點支持200個并發查詢,同時每個查詢均是秒級響應,HadoopDB由于是SMS的中間層,由于MapReduce架構本身的心跳機制而導致了較大的延遲,所以是很難達到秒級響應的,HIVE的任務并發數取決于MapReduce的并發任務數,所以會更低。測試結果如下圖所示:


并發查詢測試圖


并發查詢測試圖

線性擴展測試

  數據立方、HadoopDB和HIVE均支持線性擴展,而數據立方的擴展效率更高,即對系統的軟硬件做擴展后,性能也能夠達到類似線性的增長。測試結果如下圖所示:


線性擴展測試圖


線性擴展測試圖

更多下載

聯系方式    總機:400-8855-360



市場部

區域/行業
銷售人員
分 機
手機號
郵 箱
騰訊QQ
項目總監
袁高峰
8008
15051887778
新疆分公司
任家瑞
8019
13851763165
北京 安徽 天津 遼寧 黑龍江 吉林
駱夢陽
8052
13952028557
山東 浙江 四川 廣西
楊  劍
8030
18751869256
內蒙古
何家樂
8031
18616794962
云南、福建、河北、江西、上海
劉立宏
8034
13815414773
山西
劉連鵬
8018
18021395113
海南
左  賽
8033
18017566211
河南 重慶 湖北 貴州 陜西
王  軍
8035
13851877991
廣東
單明月
8056
13770311887
湖南
張緒文心
8027
18602548008
校企合作
張 偉
8028
05157345
新疆
陳鑫磊
15899133730
王 瑋
8054
15077865340
謝久軍
8042
13805153062 
人臉識別
李云龍
025-83700385-8050
15722710158
車牌識別
邱毅林
025-83700385-8022
15950494413
寧夏、甘肅、西藏、青海
何傳武
025-83700385-8086
13601464646
河南辦事處
劉宏
(河南辦事處 主任)
 
13333831976
湖北辦事處
周俊
(湖北辦事處)
 
13995587166
貴州辦事處
湯添智
(貴州辦事處)
13602805009
重慶辦事處
曾娟
(重慶辦事處)
13628383332
安徽辦事處
曹先操
18905605095


教育行業代理

區域/行業 代理商 區域/行業 代理商
安徽省教育行業代理 安徽康源物聯信息科技有限公司(總代理) 福建教育行業代理 福建東方銳智教育科技有限公司
安徽盛馳信息科技有限公司 甘肅教育行業代理 西北師范大學(蘭州微費電子科技有限公司)
廣東省教育行業代理 廣州松子智能科技服務有限公司 廣西教育行業代理 廣西國邦志成科技有限公司(總代理)
廣州萬維視景科技有限公司 廣西智慧城市科技有限公司
貴州省教育行業代理 貴州普創大數據科技有限公司(總代理) 廣西中藍信息工程有限公司
內蒙古省教育行業代理 內蒙古萬富圣達教育科技有限公司(總代理) 南寧西大思科軟件有限責任公司
河北省教育行業代理 河北惠美電子科技有限公司 河南教育行業代理 河南奇酷網絡工程有限公司
析牛(北京)科技有限責任公司 鄭州楓葉科技有限公司(總代理)
石家莊展思科技有限公司 上海微贏信息科技有限公司
湖北省教育行業代理 武漢飛鳥云科技有限公司 湖南教育行業代理 湖南啟云信息科技有限公司
武漢市興鑫高科技發展有限公司 湖南神州宜達信息技術有限公司
武漢偉福賽思電子有限公司 湖南紫薇垣信息系統有限公司
武漢未來空間科技有限公司 長沙眾元網絡有限公司
武漢云中點信息科技有限公司 山西教育行業代理 太原太工天宇教育科技有限公司(總代理)
江蘇省教育行業代理 南京八星網絡科技有限公司 遼寧教育行業代理 遼寧新淞信息技術有限公司(總代理)
南京翼馬數控機床有限公司 沈陽稀有金屬研究所
無錫微迪艾科技有限公司 沈陽中港石化有限公司
江西省教育行業代理 江西臻宸科技有限公司 浙江教育行業代理 杭州帆若信息科技有限公司
南昌鼎秀信息技術有限公司 浙江掌尊信息科技有限公司(總代理)
陜西省教育行業代理 陜西精測電子儀器有限公司(總代理) 上海教育行業代理 上海秉渡教育科技有限公司
陜西朗益通科技有限公司 上海玖數軟件有限公司
西安普飛特科技有限公司 尊虞教育科技(上海)有限公司
山東省教育行業代理 山東利揚大數據科技有限公司 重慶教育行業代理 重慶八城科技有限公司(總代理)
山東今領教育科技有限公司(總代理) 重慶閃易科技有限公司
濟南舜意望特管理咨詢有限公司 重慶卓合科技有限公司
青島華星科電子設備有限公司 四川教育行業代理 成都優越教育咨詢有限公司(總代理)
北京美國英語語言學院 云南省教育行業代理 云南磐恩科技有限公司


校企合作

校企合作基地 北京華科云創大數據科技有限公司
校企合作核心合作伙伴 河南源之點信息技術有限公司
河南省融創教育科技有限公司
濟南凰富信息科技有限公司
杭州瑞楠信息技術有限公司
長沙市眾元網絡技術有限公司
武漢明德云智教育科技有限公司
無錫大云教育科技有限公司


公安行業代理

區域/行業 代理商 聯系人 手機號 郵 箱
山東省公安行業代理 山東聞遠通信技術有限公司 戴宇 18761674128 [email protected]
山東尊啟信息技術有限公司 張為曉 13954141334 [email protected]
山東融御中安信息安全有限公司 趙慧奇 18660862096 [email protected]
海南省公安行業 海南怡盟電子科技有限公司(總代理) 熊桂霞 15298946071 [email protected]
海南阿福企業策劃有限公司 黃振福 18789630559 [email protected]
浙江省公安行業代理 杭州聯洲科技有限公司 史慧平 18968188988 [email protected]
杭州寧杭信息技術有限公司 許其元 13738038938 [email protected]
福建省公安行業代理 杭州寧杭信息技術有限公司 許其元 13738038938 [email protected]
貴州省公安行業總代理 北京云教互動科技有限公司貴州分公司 穆俊玲 17311090120
江蘇省公安行業代理 徐州麒麟物聯網科技有限公司 遲明秋 15862186070 [email protected]
陜西省公安行業總代理 陜西樂享電子科技股份有限公司 張化斌 13909215859 [email protected]
安徽省公安行業總代理 南京點道數據科技有限公司 李天宇 15951823701 [email protected]
河北省公安行業代理 河北惠美電子科技有限公司 張慧 15283231728 [email protected]
重慶市公安行業代理 重慶貴飛科技有限公司 秦龍 18623001736 [email protected]
河南省公安行業代理 河南翰林網絡技術開發有限公司 張磊 15617216616 [email protected]
四川省公安行業總代理 成都國策正義文化傳媒中心 李斌 18620323772 [email protected]
山西省公安行業代理 中泰鼎晟(北京)科技有限公司 田澤雨 13835177588 [email protected]
內蒙古公安行業代理 中泰鼎晟(北京)科技有限公司 田澤雨 13835177588 [email protected]


誠征全國代理    總機:400-8855-360

負責人
分 機
手機號
郵 箱
騰訊QQ
楊  劍
8030
18751869256
點擊這里給我發消息
閱讀:15557次


版權所有 © 2011-2019 南京云創大數據科技股份有限公司(股票代碼:835305), 保留一切權利。(蘇ICP備11060547號-1)  
云創大數據-專業的云存儲、大數據、云計算產品供應商


福彩东方6十1开奖时间