原創|行業資訊|編輯:陳俊吉|2016-09-30 10:04:46.000|閱讀 1825 次
概述:上期我們講述的是實現數據工程師夢想的一個小目標《夢想成真,只差一步》,里面提到了要實現數據超市的管理,數據工程師需要使用合適的工具將數據進行整理、組合、分類后上架,然后業務分析師和數據科學家就可以使用了。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關鏈接:
上期我們講述的是實現數據工程師夢想的一個小目標《》,里面提到了要實現數據超市的管理,數據工程師需要使用合適的工具將數據進行整理、組合、分類后上架,然后業務分析師和數據科學家就可以使用了。
在整個數據工程師的工作流程中,需要自始至終的進行:我們需要將每種類型的數據進行清晰的標識以及分類,以利于其它角色的用戶進行查找以及使用;我們需要將每種數據的使用范圍進行管理以及監控,以使得數據被合理、合法的使用;我們還要管理數據的生存周期以及質量溯源,以利于數據質量可以被監管,無用數據被清除...... 因此本文中我們將著重介紹上圖中標紅框的部分,介紹實現我們夢想的工具Open Metadata Services - 開源組件Apache Atlas。
這個模塊還在Apache的孵化中,最新的版本是8月16號發布的0.7版本。詳細文檔可以查看以下鏈接://atlas.incubator.apache.org/
Atlas 最早由HortonWorks實現,用來管理Hadoop項目里面的元數據,進而設計為數據治理的框架。后來開源出來給Apache社區進行孵化,目前得到Aetna,Merck,Target,SAS等公司的支持進行發展演進,IBM現在也積極貢獻功能,拿來為我所用。(其在HortonWorks公司的介紹材料鏈接: //zh.hortonworks.com/apache/atlas/#section_1 ) 從其誕生歷史看,該框架天生就支持橫向海量擴展,具備良好的集成能力,非常適合在云上使用。以下是其架構圖:
Apache網站介紹它的主要功能有:
1、數據分類 ;
2、集中審計 ;
3、搜索及溯源 ;
4、安全及策略引擎 ;
它的最核心部分Core就是類型管理系統 Type System , 用戶可以把數據資產進行類型定義,然后使用Ingest/Export 的模塊進行元數據的導入、修改、刪除等管理。和外界的接口可以通過Rest API或使用Kafaka進行消息交換。數據對象存放在按照圖的模式進行管理的Titan圖數據庫中,具體Titan又把元數據存放在HBase中,索引存放在Solr中。這樣用戶可以非常便捷和直觀的通過層次圖進行瀏覽信息,可以按照文字進行精確的查找。
如上圖,我們將數據資產分成了五類,分別是:Pipeline、Data Set、Report、Model、Notebook,具體存儲的屬性是紅色框部分,描述了以上五種數據資產的詳細信息:例如它是哪類型業務,數據質量如何,歸在哪個項目里面,具體評級如何、用戶訪問權限如何等等......
有了這個Open Data Services服務后,我們是否覺得又離夢想近了一步?更詳細的使用我們將在未來文章分享。
IBM對開源社區一直采取大力擁抱以及不遺余力地進行支持的態度:
IBM基于Cloud Foundry 打造了世界最大的PaaS平臺BlueMix,在上面部署了大量開源的云數據服務業務 - 例如Cloudant源于CouchDB,DataWorks Forge構建在Spark平臺之上。現在我們將Atlas開源元數據管理部署到我們的云數據治理中,通過實際使用來促進該項目的大力發展。我們有理由相信,未來IBM 將把開源的魔力繼續發揚光大!
詳情請咨詢!
客服熱線:023-66090381
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn