午夜成人高清无码,亚洲性无码,91茄子

欧美日韩亚-欧美日韩亚州在线-欧美日韩亚洲-欧美日韩亚洲第一区-欧美日韩亚洲二区在线-欧美日韩亚洲高清精品

Word處理控件Aspose.Words功能演示：在 C# 中從 Word 文檔中提取文本

翻譯|使用教程|編輯：胡濤|2022-05-10 11:43:47.990|閱讀 370 次

概述：在本文中，您將學習如何使用 C# 以編程方式從 Word 文檔中提取文本。此外，我們將介紹如何動態提取段落、表格等特定元素之間的內容。

相關鏈接：

在 C# 中從 MS Word 文檔中提取文本

從 Word 文檔中提取文本通常在不同的場景中執行。例如，分析文本，提取文檔的特定部分并將它們組合成單個文檔，等等。在本文中，您將學習如何使用 C# 以編程方式從 Word 文檔中提取文本。此外，我們將介紹如何動態提取段落、表格等特定元素之間的內容。

Aspose.Words for .NET 最新下載

提示：您可能需要檢查 Aspose PowerPoint to Word Converter，因為它演示了流行的演示文稿到 Word 文檔的轉換過程。

從 Word 文檔中提取文本的 C# 庫

Aspose.Words for .NET是一個功能強大的庫，可讓您從頭開始創建 MS Word 文檔。此外，它可以讓您操作現有的 Word 文檔進行加密、轉換、文本提取等。我們將使用這個庫從 Word DOCX 或 DOC 文檔中提取文本。您可以下載 API 的 DLL 或使用包管理器控制臺直接從NuGet安裝它。

PM> Install-Package Aspose.Words

使用 C# 在 Word 文檔中提取文本

MS Word 文檔由各種元素組成，包括段落、表格、圖像等。因此，文本提取的要求可能因一種情況而異。例如，您可能需要在段落、書簽、評論等之間提取文本。

Word 文檔中的每種類型的元素都表示為一個節點。因此，要處理文檔，您將不得不使用節點。那么讓我們開始看看如何在不同的場景下從 Word 文檔中提取文本。

在 C# 中從 Word 文檔中提取文本

在本節中，我們將為 Word 文檔實現一個 C# 文本提取器，文本提取的工作流程如下：

首先，我們將定義要包含在文本提取過程中的節點。
然后，我們將提取指定節點之間的內容（包括或不包括開始和結束節點）。
最后，我們將使用提取節點的克隆，例如創建一個包含提取內容的新 Word 文檔。

現在讓我們編寫一個名為ExtractContent的方法，我們將向該方法傳遞節點和一些其他參數來執行文本提取。此方法將解析文檔并克隆節點。以下是我們將傳遞給此方法的參數。

StartNode 和 EndNode 分別作為內容提取的起點和終點。這些可以是塊級（Paragraph 、 Table）或內聯級（例如 Run、 FieldStart、 BookmarkStart 等）節點。
1. 要傳遞一個字段，您應該傳遞相應的 FieldStart 對象。
2. 要傳遞書簽，應傳遞BookmarkStart 和 BookmarkEnd節點。
3. 對于評論，應使用CommentRangeStart 和 CommentRangeEnd節點。
IsInclusive定義標記是否包含在提取中。如果此選項設置為 false 并且傳遞相同的節點或連續節點，則將返回一個空列表。

以下是提取傳遞的節點之間的內容的ExtractContent方法的完整實現.

現在我們準備好使用這些方法并從 Word 文檔中提取文本。

在 Word 文檔中的段落之間提取文本

讓我們看看如何在 Word DOCX 文檔的兩個段落之間提取內容。以下是在 C# 中執行此操作的步驟。

首先，使用Document類加載 Word 文檔。
使用Document.FirstSection.Body.GetChild(NodeType.PARAGRAPH, int, boolean)方法將開始和結束段落的引用獲取到兩個對象中。
調用ExtractContent(startPara, endPara, True)方法將節點提取到對象中。
調用GenerateDocument(Document, extractNodes)輔助方法來創建包含提取內容的文檔。
最后，使用Document.Save(string)方法保存返回的文檔。

以下代碼示例展示了如何在 C# 中提取 Word 文檔中第 7 段和第 11 段之間的文本。

// Load Word document
Document doc = new Document("document.docx");

// Gather the nodes (the GetChild method uses 0-based index)
Paragraph startPara = (Paragraph)doc.FirstSection.Body.GetChild(NodeType.Paragraph, 6, true);
Paragraph endPara = (Paragraph)doc.FirstSection.Body.GetChild(NodeType.Paragraph, 10, true);

// Extract the content between these nodes in the document. Include these markers in the extraction.
ArrayList extractedNodes = ExtractContent(startPara, endPara, true);

// Insert the content into a new document and save it to disk.
Document dstDoc = GenerateDocument(doc, extractedNodes);
dstDoc.Save("output.docx");

在 Word 文檔中不同類型的節點之間提取文本

您還可以在不同類型的節點之間提取內容。為了演示，讓我們提取段落和表格之間的內容并將其保存到新的 Word 文檔中。以下是執行此操作的步驟。

使用Document類加載 Word 文檔。
使用Document.FirstSection.Body.GetChild(NodeType, int, boolean)方法將起始節點和結束節點引用到兩個對象中。
調用ExtractContent(startPara, endPara, True)方法將節點提取到對象中。
調用GenerateDocument(Document, extractNodes)輔助方法來創建包含提取內容的文檔。
使用Document.Save(string)方法保存返回的文檔。

以下代碼示例演示如何在 C# 中提取段落和表格之間的文本。

// Load Word document
Document doc = new Document("document.docx");

Paragraph startPara = (Paragraph)doc.LastSection.GetChild(NodeType.Paragraph, 2, true);
Table endTable = (Table)doc.LastSection.GetChild(NodeType.Table, 0, true);

// Extract the content between these nodes in the document. Include these markers in the extraction.
ArrayList extractedNodes = ExtractContent(startPara, endTable, true);

// Insert the content into a new document and save it to disk.
Document dstDoc = GenerateDocument(doc, extractedNodes);
dstDoc.Save("output.docx");

根據樣式提取段落之間的文本

現在讓我們看看如何根據樣式提取段落之間的內容。為了演示，我們將提取 Word 文檔中第一個“標題 1”和第一個“標題 3”之間的內容。以下步驟演示了如何在 C# 中實現此目的。

首先，使用Document類加載 Word 文檔。
然后，使用ParagraphsByStyleName(Document, “Heading 1”)輔助方法將段落提取到對象中。
使用ParagraphsByStyleName(Document, “Heading 3”)輔助方法將段落提取到另一個對象中。
調用ExtractContent(startPara, endPara, True)方法并將兩個段落數組中的第一個元素作為第一個和第二個參數傳遞。
調用GenerateDocument(Document, extractNodes)輔助方法來創建包含提取內容的文檔。
最后，使用Document.Save(string)方法保存返回的文檔。

以下代碼示例展示了如何根據樣式提取段落之間的內容。

// Load Word document
Document doc = new Document("document.docx");

// Gather a list of the paragraphs using the respective heading styles.
List<Paragraph> parasStyleHeading1 = ParagraphsByStyleName(doc, "Heading 1");
List<Paragraph> parasStyleHeading3 = ParagraphsByStyleName(doc, "Heading 3");

// Use the first instance of the paragraphs with those styles.
Node startPara1 = (Node)parasStyleHeading1[0];
Node endPara1 = (Node)parasStyleHeading3[0];

// Extract the content between these nodes in the document. Don't include these markers in the extraction.
ArrayList extractedNodes = ExtractContent(startPara1, endPara1, false);

// Insert the content into a new document and save it to disk.
Document dstDoc = GenerateDocument(doc, extractedNodes);
dstDoc.Save("output.docx");

結論

在本文中，您學習了如何使用 C# 從 MS Word 文檔中提取文本。此外，您還了解了如何以編程方式在 Word 文檔中相似或不同類型的節點之間提取內容。因此，您可以在 C# 中構建自己的 MS Word 文本提取器。此外，您可以使用文檔探索 Aspose.Words for .NET 的其他功能。如果您有任何問題，請隨時告訴我們。

歡迎下載|體驗更多Aspose產品

獲取更多信息請咨詢 或加入Aspose技術交流群（761297826）

標簽：

本站文章除注明轉載外，均為本站原創或翻譯。歡迎任何形式的轉載，但請務必注明出處、不得修改原文相關鏈接，如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn

上一篇：JavaScript開發工具WebStorm使用教程：從命令行運行代碼檢查下一篇：Word處理控件Aspose.Words功能演示：在 Python 中將 PDF 文件轉換為 HTML