原創|行業資訊|編輯:陳俊吉|2016-09-07 09:40:31.000|閱讀 1589 次
概述:隨著計算機技術和信息技術的不斷發展,海量數據的不斷涌現,企業迫切需要對數據進行高效、準確、及時地分析。傳統 BI分析系統(例如:數據倉庫)一般是按天、周或者月作為數據的更新周期,可以提供對歷史數據的分析與查詢,能夠幫助決策者制定企業運營戰略,但卻不能實時地反映企業商業信息的變化。然而當前在電子商務、金融證券等領域中,需要及時的將數據發送到決策者手中,為企業提供更有價值的戰術型決策支持,因此實時BI分析系統需求和建設應運而生。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關鏈接:
隨著計算機技術和信息技術的不斷發展,海量數據的不斷涌現,企業迫切需要對數據進行高效、準確、及時地分析。傳統 BI分析系統(例如:數據倉庫)一般是按天、周或者月作為數據的更新周期,可以提供對歷史數據的分析與查詢,能夠幫助決策者制定企業運營戰略,但卻不能實時地反映企業商業信息的變化。然而當前在電子商務、金融證券等領域中,需要及時的將數據發送到決策者手中,為企業提供更有價值的戰術型決策支持,因此實時BI分析系統需求和建設應運而生。
數據的實時性和查詢的頻繁性是實時BI分析系統的兩個重要特性,它成為了實時BI分析系統設計中的難點。 而對于實時數據倉庫領域的研究,最具有代表性的是以下兩個方面:
大家所熟悉的 (CDC)是一種準確而高效的數據復制工具,可以幫助我們輕松地獲取業務生產系統的增量數據;而 則是企業數據集成領域另一個專業而強大的ETL工具,可以高效批量處理海量數據。將CDC與DataStage進行集成,就能實現快速地把業務增量數據,實時地按業務規則進行數據轉換和集成處理,把最終處理結果更新到目標的分析系統中。IBM CDC 與 DataStage 集成的方式有四種可選項,具體描述如下:
1、數據庫中轉
CDC從源數據庫系統捕獲增量交易數據,復制到目標的數據庫表。然后,通過抽取這些數據表數據,進行轉換處理并加載到目標數據庫。
2、IBM MQ集成
CDC從源數據庫系統捕獲交易數據增量,并交送到 IBM MQ消息隊列中;MQ傳送這些數據到 DataStage作為它的數據輸入,然后進行轉換處理,最后把數據處理結果加載到目標數據庫。
3、基于文件
CDC從源數據庫系統捕獲交易數據增量,生成數據文件。DataStage讀取這些數據文件,然后進行數據轉換處理,并加載到目標數據庫。
4、直接連接
從源數據庫系統捕獲交易數據增量,并傳送到目標端的DataStage服務器內存,DataStage直接讀取這些數據文件,然后進行數據轉換處理,并加載到目標數據庫。
在上述的四種集成選項中,第3和第4種是被客戶使用得最多和最廣泛的選項,特別是針對需要對大量數據進行復雜邏輯轉換處理的系統實施(例如:實時數據倉庫系統)。下面,我們給關心技術實施細節的朋友們作些說明。
在上圖中, CDC從源系統捕獲到增量數據后,經過TCP/IP網絡傳送到目標 CDC for DataStage Agent,并產生數據文本文件(FlatFile);DataStage ETL工具抽取這些數據文件,進行 ETL處理,并加載到 ETL信息集成平臺系統的目標端。這種技術架構的優勢很明顯:
上圖采用的 CDC 與 DataStage 連接方式,是把來源于 CDC捕獲的增量數據,在DataStage ETL 服務器內存中直接交付給DataStage進行后續的數據轉換處理,其特點是:
與 DataStage 集成的安裝和配置如下:
1、CDC 與 DataStage 基于文件方式集成
產生的數據文件格式有兩種,如果選擇“Single Record”,那么對于 Update 交易操作,每一筆交易只產生一條記錄,把BeforeImage和AfterImage 信息合在一條記錄顯示;如果選擇“MultipleRecords”,那么對于Update 交易操作,每一筆交易會產生兩條記錄,分別記錄BeforeImage和AfterImage信息。
產生的數據文件大小,可在配置 CDC預訂過程中,指定合適的“Numberof Rows”和“Time(seconds)”。當記錄數達到“Numberof Rows”時,生成一個新的數據文件,如果記錄數沒達到指定數值,時間超過了指定數值,同樣也會觸發一個新的數據文件生成。這就實現了對數據文件大小的控制。
2、CDC 與 DataStage 基于直連方式集成
對于 CDC與 DataStage直接連接,DataStage ETL作業由 CDC預訂配置完成后自動生成,無需額外開發,該作業配置上需要注意CDC_Transaction 和目標數據庫Stage的配置,涉及部分如下圖所描述:
總結:
1、與傳統的 ETL、批量裝載、查詢或基于消息的系統不同,InfoSphereCDC 最初的設計目的就是提供可伸縮的高性能實時數據集成,盡可能降低延遲。InfoSphere CDC 獨特的變化數據捕捉技術能夠大大降低對運營性應用程序性能的影響,這確保源系統上運行的重要應用程序的性能不會受到嚴重影響。通過使用基于日志的CDC,就不需要修改數據庫、應用程序、中間件、硬件或操作系統。
2、CDC 與 DataStage ETL工具無縫集成,可以輕松地處理大量企業數據,同時保持事務的完整性和一致性。
3、IBM 有國內有大型商業銀行、電信公司和龍頭制造業等客戶已使用該方案和技術,并取得成功經驗。
詳情請咨詢!
客服熱線:023-66090381
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn