轉帖|行業資訊|編輯:陳俊吉|2016-06-03 11:00:44.000|閱讀 1259 次
概述:InfoSphere DataStage 是 IBM 統一數據集成平臺InfoSphere Information Server的重要組件,是業界主流的ETL(Extract, Transform, Load)軟件。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關鏈接:
在上期發布的文章《分分鐘讓你學會使用DataStage連通企業級數據庫》中,給大家詳細介紹過廣泛支持各種異構平臺的數據庫,提供多種功能強大、類型豐富的數據庫連接器,滿足企業數據集成所需:
不僅可以全面支持結構化數據,同樣也支持對非結構化數據的訪問,例如TXT、CSV、XML、COBOL和Excel文件。今天與大家分享的最佳實踐,就是如何通過DataStage的Unstructured Data組件來訪問和讀取Excel文件。
1. Excel文件名為Employee1.xls,包括3個sheet(sheet1, sheet2, sheet3),其中sheet1存放的是員工及部門信息,sheet2和sheet3都為空,數據樣本如下:
2. 設計作業,從Employee1.xls文件的sheet1表單中抽取屬于部門DEPT_B01的員工信息,并輸出到文本文件。
3. 編譯并運行作業,結果數據如下:
1、Excel文件名為Employee2.xls,包括4個sheet,分別存放DEPT A00,DEPT B01,DEPT C01,DEPT D01這四個部門的員工信息;并且,這4個sheet的數據結構一致,每個sheet的第3行都表示字段名。數據樣本如下:
2. 設計作業,從Employee2.xls文件的所有表單中抽取屬于各個部門的員工信息,并統一輸出到文本文件。
3. 編譯并運行作業,結果數據如下:
1. Excel文件名為Employee3.xls,包括2個sheet(Departments,Employees),分別存放部門信息和員工信息;并且,這2個sheet的數據結構不一致。數據樣本如下:
2. 設計DataStage作業,從Employee3.xls文件的多個表單中分別抽取部門信息和員工信息,輸出到不同的文本文件。
3. 編譯并運行作業,結果數據如下
InfoSphere DataStage不僅能靈活解析并讀取Excel多表單文件,而且還能實現創建或寫入Excel文件,更能支持多種類型的非結構化數據,
想要了解更多有關的功能和數據集成場景嗎,請訪問下面鏈接:
via:華南IBM大數據支持團隊
詳情請咨詢“”!
客服熱線:023-66090381
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn