原創|行業資訊|編輯:陳俊吉|2016-07-15 09:57:03.000|閱讀 475 次
概述:一款功能豐富、使用簡單的數據處理工具無疑可以帶來極大的幫助,可以為業務人員、數據分析師和數據科學家節省大量的時間和精力。BigSheets就是這樣一款設計用來處理海量數據的圖形化工具。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關鏈接:
的魅力在于提供了廉價的分布式數據存儲和數據處理框架,讓我們以極低的成本保存和處理海量數據。然而純開源的Hadoop對使用者的技能仍然有較高要求:熟悉Java、Mapreduce接口才能編寫數據處理程序;熟悉Hive sql或者Pig等才能使用各種工具語言編寫數據處理邏輯。
對于大部分數據分析師和數據科學家來說,學習這些技能并不難,然而學習、使用這些底層的技能會消耗大量寶貴的時間,因此一款功能豐富、使用簡單的數據處理工具無疑可以帶來極大的幫助,可以為業務人員、數據分析師和數據科學家節省大量的時間和精力。BigSheets就是這樣一款設計用來處理海量數據的圖形化工具。
是對大數據進行數據處理、數據分析的電子表格工具,內置支持多種數據源,提供數據過濾、內容補全等多種實用的數據處理功能,可以合并和處理不同表格中的數據,也可以通過圖表的形式對數據進行可視化展現,并提供了豐富的數據導入導出接口。
在用戶和之間建立了一整套數據處理框架:用戶在瀏覽器界面創建工作簿, 根據需要定義數據過濾、數據轉換的處理流程;BigSheets引擎將前端輸入的處理流程轉換為可執行的作業(Pig);BigSheets在樣本數據上運行數據處理流程,將結果展現給用戶進行預覽,等待確認;用戶確認后,BigSheets將運算邏輯運行在全量數據上,并得到最終的處理結果。BigSheets的架構如下圖所示:
本示例中展示了如何使用BigSheets對海量訂單數據進行處理,演示了基本的數據處理,包括:數據解析、過濾、排序、合并和結果處理。需要處理的訂單數據已提前上傳至HDFS目錄中。
步驟1, 登錄BigSheets界面:
提供基于瀏覽器的管理界面和用戶交互界面,除了最基本的Hadoop組件HDFS/Yarn/Mapreduce外,BigSheets還依賴BigInsightsHome和Knox服務:BigInsightsHome服務提供了IBM增值組件(BigSheets/BigSQL/TextAnalytics)的統一訪問界面;Knox為外部訪問者提供了安全、統一的訪問入口。
在瀏覽器地址欄輸入地址: //<管理節點
IP>:8443/gateway/default/BigInsightsWeb/index.html 訪問,可使用默認用戶guest/guest-password登陸:
步驟2, 將數據導入HDFS,并新建工作簿(Workbook):
可以從本地文件/目錄或者HDFS文件/目錄創建BigSheets工作簿。BigSheets內置了多種數據解析器,包括:基本的網絡爬蟲數據,字符分割數據,CSV格式文本數據,Hive數據解析器,JSON數據解析器 和TSV數據等。下圖展現了從HDFS中的CSV文件中創建Workbook數據源:
步驟3, 在生成的工作簿副本中定義數據處理邏輯:
從HDFS文件創建的初始工作簿是只讀的,需要復制為新的工作簿后再增加數據處理邏輯。下圖展示了對訂單數據按照時間條件進行過濾,提取出需要處理的數據子集后,再根據時間條件進行排序。
通常進行數據分析的數據源可能來自于多個數據源,需要根據實際情況對數據進行處理然后合并,下圖中展示了將不同數據源的多余數據列刪除,再通過Union操作將多個數據源的訂單數據進行合并。
提供了大量現成的處理工具,包括:
Filter:過濾不滿足條件的數據,如用戶名為空等;
Function: 添加數據處理函數(內置96種函數),如對輸入值進行求和;
Load: 從其他工作簿中導入數據,如合并不同表格中的數據;
Jion: 關聯多個表格中的數據,類似于SQL語句中的Join;
Group: 數據分組:對數據進行分組并對每組數據進行相應的運算;
Union: 數據合并,將多個表格中的數據合并為一個;
Intersection: 數據交集,按指定列獲取兩個或多個表格中的重合數據,要求數據模式相同;
Complement: 數據取余,按指定列對數據進行取余,要求數據模式相同;
Limit: 限制數據中處理行數,按照Top(N)等順序對處理的數據量進行處理;
Distinct: 除去表格中的重復值,每組重復的至只保留一個;
Copy: 從其他電子表中復制數據;
Formula: 添加數據處理公式。
定義好數據處理流程之后,可以從管理界面通過數據流圖的方式,查看數據處理過程,如下圖所示:
步驟4, 對全量數據進行數據處理,并保存結果:
在編輯數據處理過程中,在中看到的顯示結果,都是對數據集里的前2000行數據進行模擬處理后,顯示最前面的50行數據。確認數據處理邏輯正確之后,點擊“Run”按鈕運行全量數據的處理。
BigSheets會在后臺通過Pig啟動MapReduce作業,并在前臺通過進度條顯示進度。待任務完成之后,便可以使用數據處理結果了。
常見的三種使用場景如下:在BigSheets中使用數據,包括通過電子表格查看和畫圖等;為數據集創建BigSQL/HIVE數據表,再通過SQL/HIVE SQL訪問數據;將電子表格的數據導出到HDFS,供外部使用。下圖展現了如何在BigSheets中導出文件和創建數據表:
還可以根據需要直接畫圖,通過可視化圖表的方式來展現數據。BigSheets支持各種常見的圖表,包括餅圖、柱狀圖、折線圖、地理圖等,下圖展現了按照區域顯示銷售額的餅圖:
大數據分析中處理的數據量少則TB大到PB,數據處理是花費數據分析團隊最多時間和精力的工作。BigSheets的數據處理能力,可以有效減少數據處理過程的開發和維護時間,是大數據分析團隊不可多得的數據處理工具之一。
詳情請咨詢!
客服熱線:023-66090381
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn