轉帖|其它|編輯:郝浩|2011-07-12 13:43:24.000|閱讀 820 次
概述:什么是OCR ?假設你想要數字化一本雜志的文章或印刷合同。你可能需要花時間重新輸入,然后糾正錯字?;蛘撸憧梢允褂脪呙鑳x(或數碼相機)和光學字符識別軟件只需要花費幾分鐘轉換成數字格式,的所有材料。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
什么是OCR
假設你想要數字化一本雜志的文章或印刷合同。你可能需要花時間重新輸入,然后糾正錯字。或者,你可以使用掃描儀(或數碼相機)和光學字符識別軟件只需要花費幾分鐘轉換成數字格式,的所有材料。
到底什么是OCR呢?
光學字符識別,簡稱OCR,是一種可以使你轉換不同文檔的技術,比如將掃描紙質文檔,PDF文件或者數碼相機拍攝的圖片轉換成可以編輯的文檔。
假設你獲得了一個紙質文件-比如,雜志、彩頁或者你合作伙伴發給你的PDF合同。很明顯,光是一臺掃描儀是不足以讓這些文檔轉變成可以編輯的文檔,也就是Microsoft Word。掃描儀可以做的只是創建圖片或者一張黑白或者彩色的圖像文檔。為了從掃描文檔、PDF或者數碼圖片中提取文字和數據,你需要OCR軟件識別圖片上的信息,從單詞到句子,然后變成整個可以編輯的文檔。
OCR背后是什么技術?
人類識別物體的機制還需要繼續探索,但是3個基本的原則已經被科學家所掌握,集成性(integrity), 有明確目的性(purposefulness)和適應性(adaptability)統稱為 (IPA*)。這也是ABBYY FineReader 實現的技術核心所模仿和遵循的原則。
讓我們來看一下FineReader OCR是如何識別一個文檔的。首先,這個程序分析文檔圖片的結構。它將文檔分成一些基本元素,比如文檔塊,表格,圖片等。這些線分割成單詞,再分割成字母。一旦這個字母已經被識別出來,這個程序將和一些模板圖片進行對比。他將進行大量的邏輯分析這個字母是什么?;谶@些邏輯,程序將分析單詞和字母。進行完大量的可能性分析后,這個程序最后將判斷并呈現出識別的文檔。
另外,ABBYY FineReader 提供支持36種語言的字典。這將有助于在第二個層面分析文檔的元素。在字典的支持下,可以進行更加精確分析和文檔識別,降低將來識別結果的校驗。
FineReader OCR的基本原理
最先進的識別系統,比如ABBYY FineReader OCR, 是模仿人工識別。在核心,這些系統遵循3個基本的原則:集成性(integrity), 有明確目的性(purposefulness)和適應性(adaptability)。實際的意思是說觀察物體必須考慮到這個物體的內部相關性。目的性是指數據的表達都有一定目標性。適應性是指程序必須具有自學習能力。
每個人不需要成為OCR專家,并了解OCR內部的IPA。這些規則只是提供類最大的靈活性和智能性,并最大可能模板人工識別。
經過多年的研究,ABBYY可以將IPA原則運用到OCR產品中。
識別數碼相片
數碼相機拍攝的圖片和掃描文檔和PDF文檔有所不同。他們常常有所扭曲,昏暗,不利于OCR正確識別文檔。ABBYY FineReader 最新版本支持適應性識別,特別為處理數碼圖片而設計。它提供了一系列功能特性來提高圖片質量,使你可以充分使用您的數碼設備。
OCR將為你帶來什么好處。
使用ABBYY FineReader,識別出來的文檔就像是原始文檔一樣。先進的、強大的OCR軟件將幫助你節省大量的時間和精力,使你免于創建、處理不同的文檔。使用ABBYY FineReader,你可以掃描文檔以備將來編輯、并與你的同事共享。你可以從書籍、雜志中抽取信息,并為你自己的研究提供資料和素材,而不需要重新打字輸入。利用數碼相機和OCR,你可以捕捉公告欄、海報和時間表上捕捉信息,滿足你使用的需要。同時,你可以捕捉報紙和書籍信息,甚至在手邊沒有掃描儀的時候也可以完成捕捉。另外,你還可以使用OCR軟件創建可搜索式的PDF文檔。
從初始紙質文檔、圖片和PDF文件和數據轉換的整個過程只需要一分鐘,識別完的結果幾乎和原始的幾乎一樣。
如何使用OCR軟件?
使用ABBYY FineReader OCR非常容易,過程由3個步驟組成:打開或者掃描文檔,識別,然后保存成你需要的格式(DOC, RTF, XLS, PDF, HTML, TXT 等等.) 或者直接輸出數據到office應用,比如Microsoft Word, Excel or Adobe Acrobat。
另外,最新版本ABBYY FineReader支持自動任務模式,這將對您日常工作大有幫助。有了這個功能,識別任務將自動運行,而不需要人工干預。
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn
文章轉載自:網絡轉載