原創|行業資訊|編輯:陳俊吉|2016-10-20 11:12:49.000|閱讀 412 次
概述:在傳統的交易數據庫系統中,伴隨著客戶的交易行為發生,在業務系統中產生了相應的交易數據,并保存在關系型數據庫系統,從而形成了業務的交易記錄,各類業務應用系統都是圍繞著關系型數據庫打交道。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關鏈接:
在傳統的交易數據庫系統中,伴隨著客戶的交易行為發生,在業務系統中產生了相應的交易數據,并保存在系統,從而形成了業務的交易記錄,各類業務應用系統都是圍繞著關系型數據庫打交道。
當今,大家都已看到的現實狀況是:
隨著越來越多面向移動(mobile-oriented)的應用被大量企業/機構所使用,很多交易數據以 JSON 文檔形式產生,并保存在 NoSQL 數據庫系統中。
很多企業/機構建立了數據中心,并以數據倉庫為主要技術去進行數據分析。數據從交易系統數據庫抽取出來,經過轉換處理,加載到,才能讓數據得以進行分析,這個就是眾所周知的 ETL 處理流程。然而,這種分析是只能適合對“指定”業務問題進行分析和回答,其表現形式是讓用戶去查詢信息,和用預先設計和建立好的模型來回答在指定范圍內的業務問題,以及產生報表。最大的限制和不便就是要“指定”,如果要回答新的業務問題,將無法滿足使用這些數據和信息人員的需求。
在最近 5年里,隨著 Hadoop 平臺系統和 DataLake 技術普及應用,出現了很多面向 Hadoop 開源廠商。他們把大量數據,各種不同種類的數據存放在 Hadoop中,并進行 ETL 處理,將其處理結果保存在 Hadoop。利用開源技術軟件和廉價硬件,“充分”地去克服傳統數據倉庫技術所存在的限制,以良好擴充性,有條件地讓存放的數據歷史可以更長,目標只有一個,就是希望能回答更多的“新問題”。
能回答那么多“新問題”的分析系統必須是要面向企業級和跨部門,需具備較高級別的安全性和信息管治能力。恰恰 Hadoop 平臺系統在這兩方面都較弱;其次是,缺乏良好詢問與回答問題的交互方式;再加上,Hadoop 很難與市場上大部分的分析工具軟件配合使用,需要較復雜的開發技能,所有這些,都很大地制約了用戶能在 Hadoop 平臺系統上執行分析任務的空間。
但是,如果目前IT技術還停留在傳統關系型數據和 SQL 技術,是難以解決數據分析已碰到問題。例如,物聯網(IoT)設備產生的大量源數據都需要用新的方法去分析這些數據,在云上產生的數據也越來越多,非結構化數據隱藏著巨大的商業價值。
為了面對這些挑戰和走出困境,IBM 公司給你提供一條靈活和強大分析能力的策略,并提供解決方案。它就是基于 IBM Bluemix 平臺的 DataWorks 云技術和服務,超越了批處理方式并以流數據處理技術,從眾多的數據區域中把所需要的數據抽過來,附加上有“內涵”的信息內容,加工成“內部數據”來幫助用戶找到所需要的答案。我們用下面的例子來說明下,它就是通過 IBM’s Bluemix 平臺對天氣數據進行處理和分析。
1、數據采集:IBM DataWorks 能采集各種數據,支持范圍廣泛,手段有:ETL 批處理或是流式數據(streaming);一個實時流式數據分析引擎,和一個基于IoT-based 數據模式(Weather Company 提供標準)的采集引擎,具有高速和采集很大數據量的能力。
2、數據存放:一旦數據被采集進來后,IBM DataWorks 提供多種存放方式。對數據庫而言,包括各種 NoSQL 數據存放格式(document, key-value, graph, columnar)到關系型(SQL-based)存放格式。 也支持對象存儲,例如 Swift on Bluemix, Amazon’s S3 service 云端存儲。
3、執行分析:IBM DataWorks 提供分析工具為不同級別的用戶對每一類型數據進行分析,例如:針對業務分析人員提供了報表和儀表盤;應用開發平臺提供給程序猿;數據管道、模型和信息統計工具提供給數據科學家使用等。
4、推廣應用:一旦用戶開發和使用分析工具軟件,還能滿意地找到了所關心問題的答案,
IBM DataWorks 提供了較簡單的部署和推廣應用方式。IBM Bluemix 平臺為開發人員在整個應用開發階段中提供支持,包括生命周期管理、與 Web 應用服務器和 Github 功能集成等; Cognos 和 Watson Analytics 支持企業級的報表系統部署。另外,DataWorks 還提供了包括信息治理模型和部署架構。 IBM DataWorks 秉承以云為第一,用戶本地中心第二的宗旨,為用戶提供服務與支持,這種強大的混合云模式給用戶在云端上執行分析任務提供了廣闊天地。IBM DataWorks 不但讓用戶以自助方式去完成分析任務,還提供了數據治理能力,體現在:
1.提供不同安全級別的用戶權限控制,在符合法規條件下保護敏感數據;
2. 建立數據血緣關系(Data lineage)信息,讓你更清楚數據跨越千山萬水,從開始處理到最終分析的處理流程;
3. 業務術語/指標定義,建立業務術語/指標與技術描述定義的映射關系,填補了Hadoop data lakes 層面上元數據治理功能的缺失。
IBM DataWorks 采用 Apache SparkS 作為底層處理引擎技術,它提供了快速、靈活和可擴展的數據處理能力,IBM 對開源技術支持和突出貢獻,讓整個業界都看到了 IBM 正開創了一個“新 IBM”時代。
詳情請咨詢!
客服熱線:023-66090381
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn