原創(chuàng)|行業(yè)資訊|編輯:郝浩|2013-10-22 10:17:21.000|閱讀 5630 次
概述:本文講述了如何用Aspose.Words從文檔中提取表格數(shù)據(jù)。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
對于某些項目,開發(fā)人員需要從Word文檔中提取數(shù)據(jù)并導出到數(shù)據(jù)庫。最大的挑戰(zhàn)是必須支持現(xiàn)有Word文檔。
相同格式且?guī)Ф鄠€數(shù)據(jù)塊的Word文檔有成千上萬。該文檔格式并不是設計來被另一個系統(tǒng)所讀取的。這意味著,沒有書簽、合并字段、從標準指令識別實際數(shù)據(jù)的方式等。還好,所有輸入字段都在表格內(nèi),但這些表格也是不同的格式,一些是單行/單元格,另一些則變化多端。
我們可以用Aspose.Words來創(chuàng)建和操作Word文檔。
以C#創(chuàng)建一個類似的表格模型從而稍后當讀取文檔的時候我們可以用上它。
如下所示,你可以看到創(chuàng)建的名為WordDocumentTable的類,帶有三個屬性,如TableID,RowID和ColumnID,如之前所說的,我們沒有支持TableID/RowIDs,這些屬性僅僅暗示著Word文檔的位置。開始索引假定為0。
public class WordDocumentTable { public WordDocumentTable(int PiTableID) { MiTableID = PiTableID; } public WordDocumentTable(int PiTableID, int PiColumnID) { MiTableID = PiTableID; MiColumnID = PiColumnID; } public WordDocumentTable(int PiTableID, int PiColumnID, int PiRowID) { MiTableID = PiTableID; MiColumnID = PiColumnID; MiRowID = PiRowID; } private int MiTableID = 0; public int TableID { get { return MiTableID; } set { MiTableID = value; } } private int MiRowID = 0; public int RowID { get { return MiRowID; } set { MiRowID = value; } } private int MiColumnID = 0; public int ColumnID { get { return MiColumnID; } set { MiColumnID = value; } } }
現(xiàn)在來到提取環(huán)節(jié)。如下所示,你將看到我想要從文檔中讀取的表格單元格的連接。
private List<WordDocumentTable> WordDocumentTables { get { List<WordDocumentTable> wordDocTable = new List<WordDocumentTable>(); //Reads the data from the first Table of the document. wordDocTable.Add(new WordDocumentTable(0)); //Reads the data from the second table and its second column. //This table has only one row. wordDocTable.Add(new WordDocumentTable(1, 1)); //Reads the data from third table, second row and second cell. wordDocTable.Add(new WordDocumentTable(2, 1, 1)); return wordDocTable; } }
下面是從基于表格的Aspose.Words文檔提取數(shù)據(jù),行和單元格。
public void ExtractTableData(byte[] PobjData) { using (MemoryStream LobjStream = new MemoryStream(PobjData)) { Document LobjAsposeDocument = new Document(LobjStream); foreach(WordDocumentTable wordDocTable in WordDocumentTables) { Aspose.Words.Tables.Table table = (Aspose.Words.Tables.Table) LobjAsposeDocument.GetChild (NodeType.Table, wordDocTable.TableID, true); string cellData = table.Range.Text; if (wordDocTable.ColumnID > 0) { if (wordDocTable.RowID == 0) { NodeCollection LobjCells = table.GetChildNodes(NodeType.Cell, true); cellData = LobjCells[wordDocTable.ColumnID].ToTxt(); } else { NodeCollection LobjRows = table.GetChildNodes(NodeType.Row, true); cellData = ((Row)(LobjRows[wordDocTable.RowID])). Cells[wordDocTable.ColumnID].ToTxt(); } } Console.WriteLine(String.Format("Data in Table {0}, Row {1}, Column {2} : {3}", wordDocTable.TableID, wordDocTable.RowID, wordDocTable.ColumnID, cellData); } } }
本站文章除注明轉載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內(nèi)容上的異議請郵件反饋至chenjj@fc6vip.cn
文章轉載自:慧都控件網(wǎng)