翻譯|行業資訊|編輯:胡濤|2024-08-28 11:11:11.820|閱讀 78 次
概述:當今的數字時代,組織被各種格式的大量文檔所淹沒,包括 Adobe PDF、Office Open XML、DOCX 或 DOC 或 RTF 等舊格式。在較舊的舊應用程序中,這些文檔中包含的信息可能未存儲在數據庫或其他易于訪問的形式中。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
TX Text Control 是一款功能類似于 MS Word 的文字處理控件,包括文檔創建、編輯、打印、郵件合并、格式轉換、拆分合并、導入導出、批量生成等功能。廣泛應用于企業文檔管理,網站內容發布,電子病歷中病案模板創建、病歷書寫、修改歷史、連續打印、病案歸檔等功能的實現。
在當今的數字時代,組織被各種格式的大量文檔所淹沒,包括 Adobe PDF、Office Open XML、DOCX 或 DOC 或 RTF 等舊格式。在較舊的舊應用程序中,這些文檔中包含的信息可能未存儲在數據庫或其他易于訪問的形式中。
提取這些信息的過程非常耗時且勞動密集。借助智能文檔處理 (IDP),開發人員現在可以集成自動化并增強與文檔相關的工作流程,以提高業務應用程序中的準確性、效率和決策能力。
智能文檔處理是一種使用人工智能 (AI) 和自然語言處理 (NLP) 自動從文檔中提取數據的過程。所使用的 AI 模型可以理解文檔的內容、上下文和結構,從而實現復雜的任務,例如文檔分類、數據提取,甚至查詢文檔中的特定信息。IDP 可用于自動處理各種文檔,包括發票、采購訂單、合同等。
在 Text Control 中,我們專注于研究最佳可用模型和 AI 提供商,以將基于 AI 的文檔處理集成到 .NET 應用程序中。我們為各種典型的 IDP 應用程序創建了幾個示例,以展示如何結合 TX Text Control 技術的強大功能來從 PDF 文檔中提取文本或使用基于 AI 模型的查詢從 MS Word 文檔訪問內容。
IDP 最重要的功能之一是文檔分類。組織處理各種各樣的文檔 - 合同、發票、收據、表格、法律文件等。在現代應用程序中使用 TX Text Control 創建這些文檔時,數據將存儲在數據庫中或以機器可讀的形式存儲,然后以 ISO 標準格式(例如 PDF/A-3b)附加到創建的 PDF 文檔中。此數
據可用于根據文檔的內容、結構或元數據對其進行分類。例如,可以根據特定關鍵字、模式或其他標準的存在將發票歸類為發票。
但是,使用 TX Text Control 以外的其他較舊技術創建的文檔缺少這一重要元數據,必須在單獨的流程中提取。自動化流程可以幫助確定文檔是發票、報價單還是合同,并將其路由到適當的工作流程。我們構建了一個原型,使用 TX Text Control 導入 PDF 文檔的文本并使用 OpenAI 進行分析。
例如,使用 TX Text Control 加載和解析以下 PDF:
輸入文檔名稱后,文檔將被導入并發送給OpenAI進行分析。結果將寫入控制臺。
Enter the path to the document to classify:
Documents\invoice.pdf
invoice:0.8, receipt:0.2, contract:0, quotation:0, agreement:0, other:0
Highest probability: invoice
應用程序已確定輸入文檔是發票,這是完全正確的。
IDP 的另一個重要方面是數據提取。這些數據可用于填充數據庫、觸發工作流或執行任何其他操作。例如,發票可能包含發票號、日期、總金額和明細項目等信息。IDP 現在用于從發票中提取特定詳細信息,以便與原始采購訂單進行價值核對。
許多業務文檔不遵循固定格式,這使得傳統系統難以提取信息。使用 TX Text Control,有兩種方法可以在 PDF 文檔中查找特定值:
通過結合這兩種方法,我們可以從文檔中提取特定值,并使用 AI 模型仔細檢查結果。
根據文檔內容回答問題的能力是現代 IDP 系統最強大的功能之一。假設您擁有大量合同,您需要找出哪些合同包含特定條款或取消條款是什么。手動搜索,即使使用高級搜索,找到正確答案也會花很長時間。
使用 NLP 和 AI,用戶可以詢問有關文檔或文檔列表內容的自然問題。發票上的典型問題包括:
對于企業來說,這意味著決策速度更快,生產效率更高。員工無需花費數小時搜索信息,而是可以專注于更有價值的任務,因為他們知道他們手頭有準確的數據。
我們開發了一個帶有完整源代碼的原型,名為 Chat PDF,它使用 TX Text Control 從 PDF 文檔中提取文本,并使用 OpenAI 分析內容。該示例還展示了如何通過將內容分解為具有特定重疊的小塊來準備內容,以獲得準確的答案。
該應用程序是一個簡單的 .NET 控制臺應用程序,它使用 ASP.NET 的 TX Text Control .NET 服務器導入 PDF 文檔并顯示 OpenAI 生成的答案。
string question = "Is contracting with other partners an option?"; //string question = "How will disputes be dealt with?"; //string question = "Can the agreement be changed or modified?"; string pdfPath = "Sample PDFs/SampleContract-Shuttle.pdf"; // load the PDF file byte[] pdfDocument = File.ReadAllBytes(pdfPath); // split the PDF document into chunks var chunks = DocumentProcessing.Chunk(pdfDocument, 2500, 50); Console.WriteLine($"{chunks.Count.ToString()} chunks generated from: {pdfPath}"); // get the keywords List<string> generatedKeywords = GPTHelper.GetKeywords(question, 20); // find the matches var matches = DocumentProcessing.FindMatches(chunks, generatedKeywords).ToList().First(); // print the matches Console.WriteLine($"The question: \"{question}\" was found in chunk {matches.Key}."); // print the answer Console.WriteLine("\r\n********\r\n" + GPTHelper.GetAnswer(chunks[matches.Key], question)); 以下控制臺顯示了示例輸出: 14 chunks generated from: Sample PDFs/SampleContract-Shuttle.pdf The question: "Is contracting with other partners an option?" was found in chunk 11. ******** No, contracting with other partners is not an option unless prior approval is obtained from the COMMISSION'S Contract Manager. The document specifies that subcontracting work under this Agreement is not allowed without prior written authorization, except for those identified in the approved Fee Schedule. Subcontracts over $25,000 must include the necessary provisions from the main Agreement and must be approved in writing by the COMMISSION'S Contract Manager.
應用程序在文檔中找到了問題的答案并顯示相關文本。這是一個非常強大的功能,可以集成到任何業務應用程序中,以根據文檔內容提供問題的答案。
智能文檔處理是一個強大的工具,可以幫助組織自動化與文檔相關的工作流程,提高準確性并做出更好的決策。通過將 TX Text Control 的強大功能與 AI 模型相結合,開發人員可以創建復雜的應用程序,這些應用程序可以根據文檔內容對文檔進行分類、提取數據并回答問題。這可以幫助組織節省時間、減少錯誤并提高生產力。
在 Text Control,我們致力于為開發人員提供所需的工具,以創建能夠利用最新技術的強大應用程序。我們對智能文檔處理的研究只是我們努力幫助開發人員創建能夠改變組織工作方式的創新解決方案的一個例子。
歡迎下載|體驗更多TX Text Control產品
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn