原創(chuàng)|使用教程|編輯:龔雪|2015-07-24 09:26:32.000|閱讀 501 次
概述:LEADTOOLS是世界一流的圖像開發(fā)工具包,以“程序員友好”的方式為您提供高質(zhì)量、高性能、高穩(wěn)定性的圖像組件。開發(fā)者可以明顯減少應(yīng)用程序的開發(fā)時(shí)間,從而最大化生產(chǎn)率,保證了最大可能的投資回報(bào)。
# 界面/圖表報(bào)表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關(guān)鏈接:
LEADTOOLS在不犧牲控件的基礎(chǔ)上進(jìn)行了全新設(shè)計(jì),極大地簡(jiǎn)化了開發(fā)。一個(gè)非常重要的改進(jìn)是一組用于掃描圖像光學(xué)文字識(shí)別(OCR)的高水準(zhǔn).NET類。新框架非常直觀、靈活和易于理解。程序員僅用三行代碼就能使用OCR功能,同時(shí)還能保證控件達(dá)到特定應(yīng)用程序或工作流要求的必須水平。
在本文中,我們將為您介紹全新.NET OCR類的主要功能,為您提供創(chuàng)建一個(gè)OCR應(yīng)用程序的步驟和示例代碼。點(diǎn)擊文章底部鏈接,下載功能齊全的全功能試用版SDK體驗(yàn)吧!
LEADTOOLS提供了以下方法:
· 識(shí)別和導(dǎo)出文本,你可以從多種文本Txt、Word、數(shù)據(jù)庫或Excel文件格式中選擇。
· 在單線程或多線程環(huán)境中執(zhí)行OCR操作,且優(yōu)化了客戶端操作。
· 支持多個(gè)OCR引擎,使用常見的.NET類庫從用戶層次抽象出它們。不需要改變應(yīng)用程序的代碼,就能在多個(gè)引擎間轉(zhuǎn)換。
· 選擇識(shí)別文本的語種。包括英語、簡(jiǎn)體中文、繁體中文、日語、韓語、法語、德語、意大利語、挪威語、葡萄牙語、俄語、西班牙語或瑞典語等等超過104種。
· 手動(dòng)或自動(dòng)將復(fù)雜的頁面分為文本區(qū)域、圖像區(qū)域、表格區(qū)域、框線、標(biāo)題和頁腳。
· 在識(shí)別前設(shè)置精度閾值,控制識(shí)別的準(zhǔn)確性。
· 學(xué)習(xí)、保存和加載相同文檔的識(shí)別數(shù)據(jù)。SDK可以學(xué)習(xí)識(shí)別的結(jié)果,并使用OCR文本驗(yàn)證系統(tǒng)提高后續(xù)識(shí)別率。
· 可以識(shí)別幾乎任何字體的文本。
· 使用內(nèi)置的用戶字典提高識(shí)別的準(zhǔn)確率。
· 自動(dòng)檢測(cè)傳真、點(diǎn)陣式打印機(jī)和其他模糊文檔,然后做出相應(yīng)的補(bǔ)償。
· 處理文本和圖形。識(shí)別軟件可以區(qū)分半色調(diào)圖形和文本,為復(fù)合文檔處理系統(tǒng)提供了基礎(chǔ)。以40多種格式保存文檔,包括 Adobe PDF和PDF/A、MS Word、MS Excel和各種ASCII 和UNICODE文本。
LEADTOOLS OCR .NET類庫有Win32和x64版本,支持以下環(huán)境的軟件開發(fā):
· Windows 8 (32 和64-bit 版本)
· Windows 7 (32 和64-bit 版本)
· Windows 2008 (32 和64-bit 版本)
· Windows Vista (32 和64-bit 版本)
· Windows XP (32 和64-bit 版本)
· Windows 2000
提供的示例可以在Visual Studio 2005、2008、2012、2013上運(yùn)行。
LEADTOOLS使用自主研發(fā)的OCR引擎,使用這個(gè)類來和頁面文檔交互。LEADTOOLS OCR和安裝在系統(tǒng)上的OCR引擎間可以使用這個(gè)類來進(jìn)行調(diào)用。這個(gè)OCR類是一個(gè)內(nèi)部結(jié)構(gòu),包括了識(shí)別、獲取并設(shè)置信息以及文本驗(yàn)證時(shí)的所有必要信息。
下面是識(shí)別一個(gè)或多個(gè)頁面的一般步驟。若想了解更多詳細(xì)信息,你可以下載LEADTOOLS全功能試用版,查看.NET幫助里的“使用LEADTOOLS .NET OCR”主題:
1. 選擇你想使用的引擎類型,創(chuàng)建一個(gè)IOcrEngine接口的實(shí)例。
2. 使用 IOcrEngine.Startup 方法啟動(dòng)OCR引擎。
3. 創(chuàng)建一個(gè)單頁或多頁的OCR文檔。
4. 手動(dòng)或自動(dòng)在頁面上建立識(shí)別區(qū)域。(可選。有無區(qū)域均可識(shí)別頁面。)
5. 可選。設(shè)置OCR引擎要使用的語言。(默認(rèn)為英語)
6. 可選。設(shè)置拼寫檢查語言。(默認(rèn)為英文)
7. 可選。設(shè)置任何特殊的識(shí)別模塊選項(xiàng)。當(dāng)頁面包含手動(dòng)或自動(dòng)創(chuàng)建的區(qū)域時(shí)才需要。
8. 識(shí)別。
9. 若需要,保存識(shí)別結(jié)果。結(jié)果可以保存到一個(gè)文件或內(nèi)存中。
10. 結(jié)束時(shí)關(guān)閉OCR引擎。
4、5、6、7步以任意順序執(zhí)行都可以,只要在啟動(dòng)OCR引擎之后識(shí)別頁面之前執(zhí)行就可以。
在你的.NET應(yīng)用程序中添加theLeadtools.Forms.Ocr.dll 組件的引用,就可以使用LEADTOOLS for .NET OCR。這個(gè)組件包括了使用LEADTOOLS OCR編程時(shí)使用的各種接口、類、結(jié)構(gòu)和委托。
由于工具包支持多個(gè)引擎,因此與引擎連接的真正代碼存儲(chǔ)在一個(gè)單獨(dú)的組件中,一旦IOcrEngine 接口的實(shí)例被創(chuàng)建,就動(dòng)態(tài)加載這個(gè)組件。因此,你必須保證你計(jì)劃使用的引擎組件就在 Leadtools.Forms.Ocr.dll的旁邊。你可以在項(xiàng)目中添加引擎組件,自動(dòng)檢測(cè)依賴,盡管這不是LEADTOOLS要求的。
以下代碼展示了如何使用代碼執(zhí)行上述操作:
// *** 第一步:選擇引擎類型,創(chuàng)建接口的實(shí)例。 // 我們將使用LEADTOOLS OCR Plus 引擎,并在同一進(jìn)程中使用它。 IOcrEngine ocrEngine = OcrEngineManager.CreateEngine(OcrEngineType.Plus, false); // ***第二步:?jiǎn)?dòng)引擎。 // 使用默認(rèn)的參數(shù)。 ocrEngine.Startup(null, null, null); // ***第三步:創(chuàng)建一個(gè)單頁或多頁的OCR文檔 IOcrDocument ocrDocument = ocrEngine.DocumentManager.CreateDocument(); // 將一個(gè)多頁TIF圖像的所有頁面添加到文檔中 ocrDocument.Pages.AddPages(@"C:\Images\Ocr.tif", 1, -1, null); // *** 第四步:手動(dòng)或自動(dòng)在頁面上創(chuàng)建區(qū)域 // 自動(dòng)創(chuàng)建區(qū)域 ocrDocument.Pages.AutoZone(null); // *** 第五步:(可選)設(shè)置OCR引擎要使用的語言 // 使用英語和德語 ocrEngine.LanguageManager.EnableLanguages(new string[] { "en", "zh-Hans"}); // *** 第六步:(可選)設(shè)置拼寫檢查語言 // 啟動(dòng)拼寫檢查系統(tǒng),將英語設(shè)為拼寫語言 ocrEngine.SpellCheckManager.Enabled = true; ocrEngine.SpellCheckManager.SpellLanguage = "en"; // *** 第七步:(可選)設(shè)置任何特殊的識(shí)別模塊選項(xiàng) //將第一頁中第一個(gè)區(qū)域的fill方法設(shè)置為默認(rèn)的 OcrZone ocrZone = ocrDocument.Pages[0].Zones[0]; ocrZone.FillMethod = OcrZoneFillMethod.Default; ocrDocument.Pages[0].Zones[0] = ocrZone; // ***第八步:識(shí)別 ocrDocument.Pages.Recognize(null); // *** 第九步:保存識(shí)別結(jié)果 // 將結(jié)果保存為一個(gè)PDF文件 ocrDocument.Save(@"C:\Images\Document.pdf", OcrDocumentFormat.PdfA, null); ocrDocument.Dispose(); // *** 第十步:當(dāng)結(jié)束時(shí)關(guān)閉OCR引擎 ocrEngine.Shutdown(); ocrEngine.Dispose();
最后,下面的示例使用一勞永逸的IOcrAutoRecognizeManager接口執(zhí)行了相同的操作:
// 創(chuàng)建引擎實(shí)例 using (IOcrEngine ocrEngine = OcrEngineManager.CreateEngine(OcrEngineType.Plus, false)) { // 啟動(dòng)引擎 ocrEngine.Startup(null, null, null); // 將多頁TIF圖像轉(zhuǎn)化為一個(gè)PDF文檔 ocrEngine.AutoRecognizeManager.Run( @"C:\Images\Ocr.tif", @"C:\Images\Document.pdf", null, OcrDocumentFormat.PdfA, null); }
LEADTOOLS為開發(fā)者提供了世界一流的穩(wěn)定圖像庫。易用的高級(jí)編程接口使業(yè)務(wù)關(guān)鍵型應(yīng)用程序的快速開發(fā)變?yōu)榭赡埽略O(shè)計(jì)簡(jiǎn)化了開發(fā)。
從以上示例我們可以看出,LEAD科技全新的高級(jí)OCR接口和設(shè)計(jì)提供了一個(gè)高效的、靈活的解決方案,可以將掃描圖像轉(zhuǎn)化為可編輯的、可搜索的文檔。提供的類允許你控制整個(gè)過程,使用一個(gè)方法調(diào)用,你就可以啟動(dòng)引擎,將150多種支持的圖像格式轉(zhuǎn)化為常見的文檔格式。
OCR是LEADTOOOLS提供的諸多功能中的一個(gè)。有關(guān)更多信息,請(qǐng)?jiān)L問我們的網(wǎng)站或下載免費(fèi)的功能齊全的評(píng)估版SDK。
LEADTOOLS提供了若干工具包、插件和節(jié)省費(fèi)用的產(chǎn)品包,它們都能提供OCR技術(shù)。我們?yōu)槟扑]Recognition Imaging 或Document Imaging Suite,包含了Document Imaging SDK以及OCR、輸出可搜索PDF所需的一切插件。關(guān)于產(chǎn)品的更多選擇,請(qǐng)聯(lián)系我們的銷售部門。
如果您在決定購買前需要試用,歡迎下載LEADTOOLS全功能評(píng)估版,可以免費(fèi)試用60天哦。
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請(qǐng)務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請(qǐng)郵件反饋至chenjj@fc6vip.cn