原創(chuàng)|其它|編輯:郝浩|2011-07-21 11:05:21.000|閱讀 4580 次
概述:從PDF文件中提取文字是開(kāi)發(fā)人員對(duì)PDF文件最常見(jiàn)、最普通的需求。Aspose.Pdf for .NET雖然允許你從.net程序的PDF文件中提取文字,但是它也有不完善之處。唯一的限制就是,不能從PDF文件中的圖像提取文字。
# 界面/圖表報(bào)表/文檔/IDE等千款熱門(mén)軟控件火熱銷售中 >>
從PDF文件中提取文字是開(kāi)發(fā)人員對(duì)PDF文件最常見(jiàn)、最普通的需求。Aspose.Pdf for .NET雖然允許你從.net程序的PDF文件中提取文字,但是它也有不完善之處。唯一的限制就是,不能從PDF文件中的圖像提取文字。
然而,Aspose.OCR for .NET的出現(xiàn)消除了該限制。在這篇文章中,通過(guò)分享一些細(xì)節(jié)來(lái)闡述如何一起使用Aspose.OCR for .NET和Aspose.Pdf for .NET這兩款組件,以提取PDF文件中的所有文字。
目前, Aspose.OCR for .NET允許你提取TIFF和BMP圖像中的文字。它支持Arial和Times New Roman字體,以及16pt/32pt號(hào)字體。在Aspose.OCR for .NET以后的版本中,會(huì)不斷添加新字體和其他屬性的支持。
為了從PDF文件和圖像中完整地提取文字,你必須要經(jīng)過(guò)以下三個(gè)步驟:
* Extract Text from the PDF File
* Extract Images from the PDF File
* Extract Text from the Images
使用Facades中的PdfExtractor或者DOM API,可將文字從PDF文件中提取出來(lái)。請(qǐng)參閱以下題目中的代碼示例,以便了解從PDF文件中提取文字的相關(guān)操作:
*
*
提取圖像也有兩種方法: Facades or DOM API. 查看下列題目中的內(nèi)容可進(jìn)一步了解詳情
:
*
*
一旦使用上述兩種方法之一成功提取圖像,接下來(lái)就應(yīng)該從這些圖像中提取文字。下面的代碼片斷可以幫助您從圖像中提取文字:
//initialize OcrEngine
OcrEngine ocrEngine = new OcrEngine();
//set the image
ocrEngine.Image = ImageStream.FromFile(“image.bmp”);
//add language and other attributes
ocrEngine.Languages.AddLanguage(Language.Load(“english”));
ocrEngine.Config.NeedRotationCorrection = false;
ocrEngine.Config.UseDefaultDictionaries = true;
//load the resource file
ocrEngine.Resource = new FileStream(“2011.07.02 v1.0 Aspose.OCR.Resouces.zip”, FileMode.Open);
//process the whole image
if (ocrEngine.Process())
{
Console.WriteLine(“Text :{0}”,ocrEngine.Text);
}
有關(guān)從圖像中提取文字和以上示例所涉及的源文件的更多詳情,請(qǐng)參考:
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請(qǐng)務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請(qǐng)郵件反饋至chenjj@fc6vip.cn
文章轉(zhuǎn)載自:慧都控件網(wǎng)