原創(chuàng)|行業(yè)資訊|編輯:陳俊吉|2016-12-08 10:07:54.000|閱讀 543 次
概述:我們常常會(huì)思考什么樣的數(shù)據(jù)才是大數(shù)據(jù),只有數(shù)據(jù)量大才能真正稱之為大數(shù)據(jù)嗎?其實(shí)不然,大數(shù)據(jù)的特征應(yīng)該包括數(shù)量、速度,多樣性和精準(zhǔn)性這四個(gè)方面,也就是通常所說(shuō)的4個(gè)V: Volume,Velocity,Variety 和Veracity。
# 界面/圖表報(bào)表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關(guān)鏈接:
我們常常會(huì)思考什么樣的數(shù)據(jù)才是,只有數(shù)據(jù)量大才能真正稱之為大數(shù)據(jù)嗎?其實(shí)不然,的特征應(yīng)該包括數(shù)量、速度,多樣性和精準(zhǔn)性這四個(gè)方面,也就是通常所說(shuō)的4個(gè)V: Volume,Velocity,Variety 和Veracity。如下圖所示:
因此,數(shù)量大小只是描述大數(shù)據(jù)的其中一個(gè)維度,今天,我們不妨換個(gè)思路來(lái)聊聊大數(shù)據(jù)的另一個(gè)重要特征:Velocity(速度),看看如何將傳統(tǒng)數(shù)據(jù)庫(kù)中的數(shù)據(jù)快速、實(shí)時(shí)、準(zhǔn)確地應(yīng)用到大數(shù)據(jù)平臺(tái)。快速獲取,快速分析,快速應(yīng)用,快速實(shí)現(xiàn),從而幫助企業(yè)提升自身的競(jìng)爭(zhēng)力并創(chuàng)造巨大的商業(yè)價(jià)值。
IBM 介紹
InfoSphere Change Data Capture(以下簡(jiǎn)稱CDC)用于捕獲源端交易數(shù)據(jù)庫(kù)如DB2,Oracle的數(shù)據(jù)變化,并實(shí)時(shí)復(fù)制到目標(biāo)數(shù)據(jù)庫(kù)、消息隊(duì)列、以及ETL解決方案(例如IBM InfoSphere DataStage)。
InfoSphere BigInsights由Hadoop分布式文件系統(tǒng)(HDFS)以及Pig,Hive,HBase和ZooKeeper等Hadoop生態(tài)系統(tǒng)子項(xiàng)目構(gòu)成,用于分析和展現(xiàn)基于Apache Hadoop的海量數(shù)據(jù)。 接下來(lái),我們將通過(guò)一個(gè)智能電表的應(yīng)用案例來(lái)演示CDC如何將實(shí)時(shí)的增量數(shù)據(jù)復(fù)制到InfoSphere BigInsights的HDFS中。
系統(tǒng)架構(gòu)
在下圖所示的系統(tǒng)架構(gòu)中,源端各種異構(gòu)平臺(tái)的傳統(tǒng)數(shù)據(jù)庫(kù)所產(chǎn)生的變化數(shù)據(jù)通過(guò)CDC的復(fù)制引擎源源不斷的流向目標(biāo)端 InfoSphere BigInsights 大數(shù)據(jù)平臺(tái),所有關(guān)系型結(jié)構(gòu)化數(shù)據(jù)的實(shí)時(shí)更新都會(huì)以文件的形式或格式存儲(chǔ)在HDFS文件系統(tǒng)中。
應(yīng)用場(chǎng)景:智能電表系統(tǒng)
某公共事業(yè)公司利用智能儀表采集客戶日常使用水,電,煤氣等數(shù)據(jù)信息,這些信息的數(shù)據(jù)量龐大且實(shí)時(shí)變化快,通過(guò)分析這些儀表數(shù)據(jù)能及時(shí)了解客戶的使用模式和習(xí)慣,以及費(fèi)用開(kāi)銷。比如說(shuō)該公司通過(guò)測(cè)量高峰期的用電量,能夠收取更多的費(fèi)用,能夠設(shè)置客戶用電的使用上限,可以創(chuàng)建激勵(lì)機(jī)制讓客戶在特殊時(shí)段減少用電量等等。
該公司通過(guò)構(gòu)建InfoSphere CDC + InfoSphere BigInsights的智能電表系統(tǒng)來(lái)實(shí)現(xiàn)以上這些業(yè)務(wù)功能,即CDC捕獲電表系統(tǒng)的變化數(shù)據(jù),并實(shí)時(shí)復(fù)制到BigInsights的HDFS文件系統(tǒng),接著B(niǎo)igInsights對(duì)傳送過(guò)來(lái)的實(shí)時(shí)海量數(shù)據(jù)進(jìn)行復(fù)雜計(jì)算和模型分析,從而及時(shí)準(zhǔn)確地響應(yīng)了以上業(yè)務(wù)需求。
配置CDC到BigInsights(HDFS)的數(shù)據(jù)復(fù)制
安裝并初始化InfoSphere BigInsights運(yùn)行環(huán)境
1)首先,需要完成InfoSphere BigInsights的安裝,安裝完成后,Hadoop集群環(huán)境也隨之搭建好了。然后,我們要確認(rèn)環(huán)境變量是否設(shè)置正確
* CLASSPATH是否指向包含Hadoop核心Jar包的路徑。
* HADOOP_CONF_DIR是否指向包含Hadoop配置文件的路徑。
如果以上環(huán)境變量沒(méi)有設(shè)置,我們也可以運(yùn)行BigInsights自帶的腳本程序biginsights-env.sh進(jìn)行自動(dòng)化設(shè)置,該腳本所在目錄為
BigInsights_install_dir/conf.
2)缺省情況下,環(huán)境變量CLASSPATH僅包含Hadoop的核心JAR包hadoop-core-1.0.3.jar,我們還需添加以下JAR包到CLASSPATH中:
* commons-configuration-1.6.jar
* commons-logging-1.1.1.jar
* commons-lang-2.4.jar
這些JAR包路徑為:BigInsights_install_dir/IHC/lib directory/
2. 啟動(dòng)InfoSphere BigInsights Hadoop集群中的HDFS組件
InfoSphere BigInsights本身已集成了很多Hadoop組件,例如Apache MapReduce, HDFS, Hive, Catalog, HBase, Oozie等等,這些服務(wù)可以通過(guò)InfoSphere BigInsights控制臺(tái)或命令行啟動(dòng)。例如在Web瀏覽器中打開(kāi)InfoSphere BigInsights管理控制臺(tái):
//server:8080/data/html/index.html#redirect-welcome
然后,在管理控制臺(tái)中選擇并啟動(dòng)HDFS服務(wù).
3. 安裝InfoSphere CDC for InfoSphere BigInsights,
并在BigInsights中創(chuàng)建HDFS目錄
在InfoSphere BigInsights管理控制臺(tái)中選中“Files”標(biāo)簽.
如下圖所示,創(chuàng)建HDFS目錄,用于寫入CDC從源端數(shù)據(jù)庫(kù)中捕獲并復(fù)制過(guò)來(lái)的增量數(shù)據(jù).
創(chuàng)建CDC實(shí)例
在CDC實(shí)例中創(chuàng)建預(yù)訂(Subscription),并將源端數(shù)據(jù)庫(kù)的表映射到剛剛已創(chuàng)建的HDFS目錄中的某個(gè)文件。HDFS目錄格式為:
hdfs://your-server:9000/目錄名稱/文件名
啟動(dòng)CDC復(fù)制數(shù)據(jù)并查看目標(biāo)端所生成的HDFS文件
經(jīng)過(guò)以上步驟,我們已完成了BigInsights和CDC的安裝及配置,接下來(lái)便可啟動(dòng)CDC預(yù)訂開(kāi)始數(shù)據(jù)的實(shí)時(shí)復(fù)制了
當(dāng)我們回到BigInsights的管理控制臺(tái),選中“File”標(biāo)簽,可以觀察到在指定的HDFS目錄路徑下已生成從源端復(fù)制過(guò)來(lái)的增量數(shù)據(jù)。
可能有人會(huì)問(wèn),InfoSphere CDC 難道只能和IBM自家的大數(shù)據(jù)平臺(tái)BigInsights集成嗎?當(dāng)然不是,CDC能提供對(duì)各大Hadoop廠商的廣泛支持,例如:HortonWorks Data Platform(HDP),Cloudera CDH,Apache Hadoop等。
如果大家感興趣的話,歡迎與我們聯(lián)系!
詳情請(qǐng)咨詢!
客服熱線:023-66090381
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請(qǐng)務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請(qǐng)郵件反饋至chenjj@fc6vip.cn