翻譯|使用教程|編輯:楊鵬連|2021-04-09 11:41:05.543|閱讀 230 次
概述:本文介紹了有關如何開始使用C#,VB和Java從PDF閱讀文本的一些概述。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
LEADTOOLS Recognition Imaging SDK是精選的LEADTOOLS SDK功能集,旨在在企業級文檔自動化解決方案中構建端到端文檔成像應用程序,這些解決方案需要OCR,MICR,OMR,條形碼,表單識別和處理,PDF,打印捕獲 ,檔案,注釋和圖像查看功能。 這套功能強大的工具利用LEAD屢獲殊榮的圖像處理技術,智能識別可用于識別和提取任何類型的掃描或傳真形式圖像數據的文檔功能。
雖然PDF文件既靈活又可移植,但不幸的是它們并不總是可搜索的。實際上,一個非常普遍的要求是能夠解析PDF中的文本。幸運的是, LEADTOOLS OCR Engine使得從PDF文件中提取可搜索文本變得輕而易舉。LEAD的AI增強引擎可以接受任何PDF(無論是否可搜索),并在必要時使用OCR從中提取文本。提取后,LEADTOOLS可以將該信息保存到文本文件,可搜索的PDF文件或 其他150多種受支持的文檔格式中。
下面概述了有關如何開始使用C#,VB和Java從PDF閱讀文本的一些概述。
C#–從PDF獲取文本
以下是C#控制臺應用程序的概述,該應用程序將對輸入文件進行OCR并將文本打印到控制臺。
public void DocumentPageGetTextExample() { var options = new LoadDocumentOptions(); using (var document = DocumentFactory.LoadFromFile(Path.Combine(LEAD_VARS.ImagesDir, "input.pdf"), options)) { var ocrEngine = OcrEngineManager.CreateEngine(OcrEngineType.LEAD); var rasterCodecs = new RasterCodecs(); var documentWriter = new DocumentWriter(); ocrEngine.Startup(rasterCodecs, documentWriter, null, LEAD_VARS.OcrLEADRuntimeDir); document.Text.OcrEngine = ocrEngine; // get text var page = document.Pages[0]; var pageText = page.GetText(); if (pageText != null) { pageText.BuildText(); var text = pageText.Text; Console.WriteLine(text); } else { Console.WriteLine("Failed!"); } } } static class LEAD_VARS { public const string ImagesDir = @"C:\Input_File_Path\"; public const string OcrLEADRuntimeDir = @"C:\LEADTOOLS21\Bin\Common\OcrLEADRuntime"; }Visual Basic –從PDF獲取文本
以下VB代碼將對輸入文件進行OCR并將文本打印到控制臺。
Public Shared Sub DocumentPageGetTextExample() Dim options As New LoadDocumentOptions() Using document As Leadtools.Document.LEADDocument = DocumentFactory.LoadFromFile(Path.Combine(DocumentPath.Path, "input.pdf"), options) Dim ocrEngine As IOcrEngine = OcrEngineManager.CreateEngine(OcrEngineType.LEAD) Dim rasterCodecs As New RasterCodecs() Dim documentWriter As New DocumentWriter() ocrEngine.Startup(rasterCodecs, documentWriter, Nothing, LEAD_VARS.OcrLEADRuntimeDir) document.Text.OcrEngine = ocrEngine ' get text Dim page As Leadtools.Document.DocumentPage = document.Pages(0) Dim pageText As DocumentPageText = page.GetText() If Not pageText Is Nothing Then pageText.BuildText() Dim text As String = pageText.Text Console.WriteLine(text) Else Console.WriteLine("Failed!") End If End Using End Sub Public NotInheritable Class LEAD_VARS Public Const OcrLEADRuntimeDir As String = "C:\LEADTOOLS21\Bin\Common\OcrLEADRuntime" End ClassJava –從PDF獲取文本
LEADTOOLS引擎能夠將提取的文本存儲為 150種支持的文件格式中的一種。這是Java實現的示例。
static void ConvertToDocument(String inputFile, DocumentConverter docConverter, OcrEngine ocrEngine) { DocumentWriter docWriter = new DocumentWriter(); ocrEngine.startup(new RasterCodecs(), docWriter, null, null); String outputFile = "C:\\OutputFilePath\\searchablePDF.pdf"; docConverter.setDocumentWriterInstance(docWriter); docConverter.setOcrEngineInstance(ocrEngine, true); DocumentConverterJobData jobData = DocumentConverterJobs.createJobData(inputFile, outputFile, DocumentFormat.PDF); jobData.setJobName("DocumentConversion"); DocumentConverterJob job = docConverter.getJobs().createJob(jobData); docConverter.getJobs().runJob(job); if (job.getErrors().size() > 0) for (DocumentConverterJobError error : job.getErrors()) System.out.println("\nError during conversion: " + error.getError().getMessage()); else System.out.println("Successfully converted file to " + outputFile); }您是否看到我們之前的文章“ 如何將PDF轉換為DOC / DOCX”?請繼續關注更多轉換示例,以了解LEADTOOLS文檔轉換器如何輕松地將其轉換為將PDF文件轉換為其他文檔文件或圖像并再次返回的任何工作流程。在此期間需要幫助嗎? 請聯系我們的支持團隊以獲取免費的技術支持!
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn
文章轉載自: