文檔清理對文檔成像有很大的影響。它改進(jìn)了文檔的視覺效果和可讀性。文件圖像清理是OCR,條形碼,PDF,表單識別,檔案等類似的功能的必備預(yù)處理,它可以增強(qiáng)了這些功能的效果和效率。
準(zhǔn)確度 - 圖像很少完美。原始文件中的顏色,角度,缺陷都會對識別技術(shù)的準(zhǔn)確性產(chǎn)生影響。通過正確對齊圖像并移除重要區(qū)域周圍的障礙物,識別過程可以掃描圖像,并尋找您要提取的文本和數(shù)據(jù)。
壓縮 - 大多數(shù)壓縮算法的工作原理是通過找到方法來巧妙地將像素組合在一起,使用較少的體積,但仍然將圖像重建為原始圖像(或接近原始的有損方法),未壓縮數(shù)據(jù)。在文檔中,黑白圖像尤其如此。通過去除像素點(diǎn),打孔和邊框等不必要的偽像,可以得到更好的壓縮效果。
速度 - 隨著不必要的像素越來越少,幾乎每個算法都可以更快地完成其工作。
使用LEADTOOLS進(jìn)行文檔圖像清理
本文教大家如何利用LEADTOOLS進(jìn)行這些優(yōu)化。這里有一些最常用的清理功能,可以輕松應(yīng)用于任何圖像,進(jìn)行這些基礎(chǔ)的處理后可以使您更高級的功能成為更好的運(yùn)行。
轉(zhuǎn)換圖像顏色(Inverted Image)
由于許多原因,雙色圖像可能會反轉(zhuǎn)。掃描儀設(shè)置,反轉(zhuǎn)調(diào)色板,彩色蒙版或從一種格式轉(zhuǎn)換到另一種格式都可能導(dǎo)致應(yīng)為黑色的像素為白色,反之亦然。這個功能可以在每個圖像上運(yùn)行。
去斑點(diǎn)(Despeckle)
斑點(diǎn)經(jīng)常正圖像、掃描儀或半色調(diào)中出現(xiàn)。它適用于白色背景上的黑色斑點(diǎn)和黑色背景上的白色斑點(diǎn)。運(yùn)行此功能以刪除它們。
移除直線(Line Removal)
兩種最常見的線條來源是表格和紙張折疊。 在這兩種情況下,即使與打印或手寫的文本相交,也可以檢測和刪除窄的水平線或垂直線。這是任何識別技術(shù)的必備功能。
移除邊框(Border Removal)
如果圖像掃描時有平板背襯上有額外的空間,掃描儀將填充一個顏色的間隙。 如果它是黑色的,那么它可以被刪除。
打孔移除(Hole Punch Removal)
如果掃描儀掃描出任何的打孔,并且黑色,您可以消除它們以恢復(fù)這些區(qū)域以匹配背景。
文檔清理的其他功能
上述功能是可以應(yīng)用于任何文檔圖像的通用文檔清理功能。 LEADTOOLS提供了更多的文檔圖像處理功能,如歪斜校正,3D傾斜校正等,可用于更精確的處理。
標(biāo)簽:
OCR SDKOCR
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請郵件反饋至chenjj@fc6vip.cn