原創|行業資訊|編輯:陳俊吉|2016-09-22 09:26:32.000|閱讀 1135 次
概述:如何將傳統數據和大數據進行高效的集成、管理和分析呢?如何保證數據的準確性,一致性和可靠性呢?帶著眾多疑問,我們來看看IBM所提供的DataStage大數據集成方案,一切必將豁然開朗。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關鏈接:
一、已成為企業信息供應鏈中的重要一環
我們對大數據的認知在前幾年還僅僅停留在概念和理論中,但轉眼間,你會發現身邊的如雨后春筍般拔地而起,大數據儼然成為當今熱得不能再熱的話題和焦點。因為Hadoop及其相關開源技術的橫空出世和迅猛發展,越來越多的企業發現那些塵封已久的歷史數據或每天正在以指數級產生的交易數據、日志數據和客戶行為數據其實蘊藏著巨大的價值,猶如一座座尚未開發的金礦,誰能搶占先機,就能挖掘并實現巨大的商業價值。互聯網企業深諳此道,利用大數據分析結果進行產品推廣和定向營銷,大大改善了消費者的購物體驗和消費習慣,在收獲口碑的同時也賺得盆滿缽滿!與此同時,傳統企業也在積極轉型,紛紛將Hadoop大數據平臺納入到現有的IT架構和解決方案,那么如何將傳統數據和大數據進行高效的集成、管理和分析呢?如何保證數據的準確性,一致性和可靠性呢?帶著眾多疑問,我們來看看IBM所提供的DataStage,一切必將豁然開朗。
二、大數據集成所面臨的挑戰
1.新型的數據存儲
2.新的數據類型及格式
3.更大的數據量
三、大數據信息整合是Hadoop項目成敗的關鍵
大部分的Hadoop方案包括以下階段:
由于面對的是基于海量的,彼此孤立的異構數據源和數據類型,所以大部分企業的Hadoop項目將花費80%的精力在數據整合上,而僅有20%的精力用于數據分析。可見,數據集成對Hadoop項目的成敗有多重要。
四、IBM大數據集成解決方案:InfoSphere DataStage
1. 集中、批量式處理:整合和連接、清洗轉換大數據
2.面向大數據和傳統數據的豐富接口,支持企業所有的數據源和目標
3.最廣泛的異構平臺支持
4.IBM大數據集成方案帶給客戶的驚喜
五、DataStage連通Hadoop的最佳實踐
在DataStage中,可通過File Connector組件或Big Data File組件來連接Hadoop平臺,從而將傳統RDBMS數據庫或本地文件中的數據加載到HDFS。比較而言,Big Data File組件支持IBM BigInsights,提供更佳的讀寫性能;而File Connector組件則通過WebHDFS接口或HttpFS接口訪問HDFS,不依賴于Hadoop的品牌和版本,提供更廣泛的兼容性。
FileConnector是DataStage v11.3面向Hadoop的全新組件,提供以下功能:
下面以Apache Hadoop v2.7為例,介紹通過配置File Connector將Oracle表數據寫入HDFS的方法:
1.安裝DataStage v11.3.1(參考以下鏈接)
//www-01.ibm.com/support/knowledgecenter/SSZJPZ_11.3.0/com.ibm.swg.im.iis.install.nav.doc/containers/cont_iis_information_server_installation.html?lang=en
2.配置Kerberos安全認證
將Apache Hadoop服務器上的krb5.conf文件(KDC配置信息)復制到DataStage服務器上的/etc目錄。
3.檢查Apache Hadoop的HDFS配置文件,確認已啟用WebHDFS支持
如何配置WebHDFS Rest API for Apache Hadoop v2.7:
//hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/WebHDFS.html
4.配置SSL訪問Hadoop
keytool -genkey -alias test -keystore test.jks -storepass test
keytool -import -trustcacerts -alias test -file cert.pem -keystore test.jks -storepass test -noprompt
cd /opt/IBM/InformationServer/ASBNode/bin/
[root@IBM-DataStage bin]# ./encrypt.sh
Enter the text to encrypt: test
Enter the text again to confirm: test
{iisenc} iWuRnROgFLbk0H1sjfIc7Q==
password={iisenc}iWuRnROgFLbk0H1sjfIc7Q==
DS_TRUSTSTORE_LOCATION=/opt/test.jks
DS_TRUSTSTORE_PROPERTIES=/opt/properties.txt
5.在DataStage開發客戶端中找到File Connector組件
6.配置File Connector組件的屬性
7.運行DataStage作業,可看到數據已成功寫入Hadoop HDFS
雖然本次測試是基于虛擬機環境,但DataStage所展現出來的性能依然非常強勁,從Oracle讀取4.64億條記錄并寫入HDFS,僅需10分鐘左右,最高速率達到619495 行/秒。如果增加CPU以提高并行度,性能更可線性增長!
在目標端生成的HDFS文件列表(8個子文件):
詳情請咨詢!
客服熱線:023-66090381
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn