轉帖|使用教程|編輯:黃竹雯|2016-07-18 11:41:20.000|閱讀 1169 次
概述:在很多情況下,我們需要將掃描文件中的文本提取出來,轉化為文本搜索的格式,如doc、PDF等。LeadTools為開發者提供了快速的、高精度的OCR SDK技術。利用LeadTools OCR工具包,可以快速的開發健壯的、可擴展的、高性能識別的文檔處理應用程序,這些應用程序可提取出掃描文件中的文本,將圖像轉化為文本搜索格式,如PDF、PDF/A、DOC、DOCX、XML、XPS等。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關鏈接:
在很多情況下,我們需要將掃描文件中的文本提取出來,轉化為文本搜索的格式,如doc、PDF等。LeadTools為開發者提供了快速的、高精度的OCR SDK技術。利用LeadTools OCR工具包,可以快速的開發健壯的、可擴展的、高性能識別的文檔處理應用程序,這些應用程序可提取出掃描文件中的文本,將圖像轉化為文本搜索格式,如PDF、PDF/A、DOC、DOCX、XML、XPS等。
本文主要包括兩大部分:
步驟1:選擇將要使用的引擎類型,并創建IOcrEngine接口的一個實例。
//在本段代碼中我們使用了LeadTools OCR Advantage引擎 IOcrEngine ocrEngine = OcrEngineManager.CreateEngine(OcrEngineType.Advantage, false);
步驟2:啟動引擎。
//使用了默認的參數 ocrEngine.Startup(null, null, null, @"C:\LEADTOOLS 18\Bin\Common\OcrAdvantageRuntime");
步驟3:創建一頁或多頁的OCR文檔。
IOcrDocument ocrDocument = ocrEngine.DocumentManager.CreateDocument(); //將多頁TIF圖像的所有頁添加至文檔。 ocrDocument.Pages.AddPages(@"C:\Users\Public\Documents\LEADTOOLS Images\Ocr.tif", 1, -1, null);
步驟4:自動或手動的在頁面中創建區域。
// 自動分區 ocrDocument.Pages.AutoZone(null);
步驟5:(可選)設置OCR引擎將要使用語言。
// 啟用中文簡體 ocrEngine.LanguageManager.EnableLanguages(new string[] { "zh-Hans" });
步驟6:(可選)設置拼寫檢查的語言。
// 啟用拼寫檢查系統,并將英文設置為拼寫語言 ocrEngine.SpellCheckManager.SpellCheckEngine = OcrSpellCheckEngine.Native; ocrEngine.SpellCheckManager.SpellLanguage = "en";
步驟7:(可選)設置任意的識別模塊選項。
//改變第一個區域的填充方法,設置為默認 OcrZone ocrZone = ocrDocument.Pages[0].Zones[0]; ocrZone.FillMethod = OcrZoneFillMethod.Default; ocrDocument.Pages[0].Zones[0] = ocrZone;
步驟8:識別
ocrDocument.Pages.Recognize(null);
步驟9:保存識別結果
// 將結果保存為docx文件 ocrDocument.Save(@"C:\Users\Public\Documents\LEADTOOLS Images\Document.docx", DocumentFormat.Docx, null); ocrDocument.Dispose();
步驟10:結束時關閉OCR引擎
ocrEngine.Shutdown(); ocrEngine.Dispose();
更多詳細步驟及代碼,可參照LeadTools中文入門教程(7):使用OCR識別圖像中的中文
下面為您提供了”使用OCR識別掃描文件中的中文“的示例代碼。為了運行此代碼,請點擊下載LeadTools全功能試用版。
安裝全功能試用版后,由于此應用程序要識別中文,因此在創建應用程序之,請點擊下載LeadTools OCR語言擴展包。
下面就讓我們使用本文提供的Demo,識別掃描文件中的中文吧!
1 啟動程序。選擇您想要使用的引擎類型。本次我們將選擇LeadTools Professional OCR引擎。
2 啟動引擎后,點擊文件->打開…將我們要識別的文件打開。如果不只有一個頁面,點擊頁面->插入…將隨后的頁面添加進來。
原掃描文件的一部分如下圖所示:
將文件添加到應用程序中。
3 點擊引擎->語言…彈出“啟用語言”對話框,將中文簡體添加到已啟用語言中。點擊“確定”完成。
4 點擊OCR->識別文檔進行識別。若只需識別當前頁,點擊OCR->識別當前頁。此操作會對文檔進行自動分區,隨后進行識別。結果如下圖所示:
如果我們不需要識別圖片上包含的文字,可以調整自動識別的區域或將某些區域刪除(右擊區域,點擊刪除即可)。例如下圖,若不需識別圖片上的文字,紅色矩形框標出的區域即可刪除。
點擊OCR->顯示識別出的字符…可將識別出的字符顯示出來。
5 點擊OCR->保存文檔…可將識別的結果保存為想要的格式,如Adobe PDF、Microsoft Word、Text、HTML等。
保存的文檔如下圖所示:
至此,我們使用此應用程序識別出了掃描文件中的中文并保存為Word文檔。本博文提供的Demo還包含了其他很多Ocr的功能,如設置拼寫檢查引擎,拼寫語言、相關OMR選項等等。還在等什么!快快下載Demo親自嘗試下吧!
DEMO下載:
文章轉自:葡萄城控件產品博客,//blog.gcpowertools.com.cn
Demo提供了OCR的多種功能,為了運行此demo,不妨查看并免費下載LeadTools試用版,快快點擊下載吧!
如需幫助,請聯系!
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn