翻譯|使用教程|編輯:鮑佳佳|2021-04-21 11:21:36.547|閱讀 222 次
概述:LEADTOOLS Document Imaging SDK具有廣泛的成像技術,非常適合任何eDiscovery應用程序。最簡單的單一服務專家,端到端商業ECM,以及介于兩者之間的所有內容,將找到在其應用程序中添加世界一流的成像技術所需的一切。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
LEADTOOLs技術交流群現已開通,QQ搜索群號:731259648加入!
EADTOOLS Document Imaging Suite SDK是LEADTOOLS SDK功能的綜合集合。它旨在建立終端到終端的文檔圖像應用,用于企業級文檔自動化解決方案,要求有捕捉,OCR,OMR,表單識別和處理,PDF,打印捕獲,歸檔,注釋和顯示功能。LEADTOOLS是一套功能強大的工具,利用業界領先的圖像處理技術,能夠智能識別文件,可以用來識別任何類型的掃描或傳真形式的圖像。
下載EADTOOLS Document Imaging Suite SDK
LEADTOOLS Document Imaging SDKs擁有廣泛的成像技術,完全適用于任何eDiscovery應用程序。最簡單的單一服務專家,端到端的商業ECM,以及介于兩者之間的一切,都能找到在其應用中添加世界級成像技術所需的一切。
就像EDRM作為一個一般的指南和過程,其步驟可以跳過或重新審視一樣,下面概述的成像技術也不是一套強制性的功能。在大多數情況下,這些技術的順序遵循企業級ECM的典型使用流程,但可以修改和重組,以符合任何開發團隊的目標和創造力。
掃描
一個ECM和eDiscovery應用程序最關鍵的元素之一就是將紙質文件數字化的能力。沒有什么能比掃描更有效地獲得高質量的紙質文件的數字副本了。即使這是一個公司為法庭做的全部準備,由于簡化了電子文件的運輸和共享,掃描也能大量節省時間和資金。一個U盤就可以取代成百上千磅的文件,從一個辦公室運到另一個辦公室,然后再運到法庭上。
LEADTOOLS包括一些高級的類,可以非常容易地從任何帶有TWAIN驅動程序或SANE后端的掃描儀中獲取圖像。請看下面的片段,它提示用戶選擇一個TWAIN源,然后將獲取的圖像加載到查看器中。
private void GetImageFromTwainSource() { _twainSession.SelectSource(string.Empty); _twainSession.AcquirePage += new EventHandler<TwainAcquirePageEventArgs>( twainSession_AcquirePage); _twainSession.Acquire(TwainUserInterfaceFlags.Show); } private void twainSession_AcquirePage(object sender, TwainAcquirePageEventArgs e) { imageViewer.Image = e.Image; }
文件清理和預處理
在考慮一個成像SDK時,另一個非常重要的功能是其清理掃描圖像的能力。清理圖像有兩個主要的好處,每一個都對整個電子取證過程有巨大的涓滴影響
首先,可能是最明顯的,就是文件本身更容易閱讀。這對人眼來說是好事,但對電腦來說更是好事。小寫字母L、大寫字母L和數字1之間只有幾個像素的差距。人眼仍然可以閱讀帶有刪除線的文字,或者由紙張上的折痕造成的線條,但即使是最好的OCR引擎也會返回亂碼。
第二,是存儲空間。許多壓縮算法通過比較相鄰的像素來完成其工作。這對于構成大多數掃描文件的黑白圖像來說尤其如此。執行圖像清理功能,去除灰塵斑點、孔洞、線條、邊框等,對單一顏色組成的塊的運行長度和大小有深遠影響,允許非常高的壓縮率,高達92%以上的臟圖像的壓縮尺寸。
光學字符識別
光學字符識別是任何想要加強電子取證游戲的公司的必備工具。雖然掃描和清理圖像可以完成工作并涵蓋法律基礎,但OCR提供了一個競爭優勢,是進入許多其他技術的主要墊腳石。
以前的靜態圖像在轉換為PDF、Microsoft Word或任何其他可搜索的文本格式時可以變得生動。能夠搜索數字存儲文件的內容是eDiscovery中的一項重要資產,特別是在處理、審查和分析階段。LEADTOOLS可以創建圖像覆蓋文本的PDF,這在eDiscovery中非常有用,因為該格式在文本層上保留了原始圖像,使其既可搜索,又與原始圖像幾乎沒有變化。即使TIFF仍然是ECM中的首選文件格式,OCR也可以為這些靜態圖像注入元數據,在需要時可以進行搜索或編制索引以方便參考。
LEADTOOLS使OCR變得異常簡單。將磁盤上的源文件轉換為可搜索的PDF,只需三行代碼即可完成
IOcrEngine ocrEngine = OcrEngineManager.CreateEngine(OcrEngineType.LEAD, false); ocrEngine.Startup(null, null, null, null); ocrEngine.AutoRecognizeManager.Run(@"C:?InputFile.tif", @"C:?OutputFile.pdf", DocumentFormat.Pdf, null, null);
形式
表格識別是OCR的一個專門實現,它被精細地調整為從文件中提取特定的信息,而不是捕捉整個文件。一個組織可能有各種各樣的表格,從就業時提交的稅表到發給客戶的發票和賬單。就其本質而言,表格有很多重復的信息,也許唯一相關的數據是由申請人、客戶、雇員等填寫的。因此,在ECM中對這些表格進行歸檔的最有效和最有用的方法是從這些字段中提取數據,并在數據庫中建立索引或將其保存為元數據。
LEADTOOLS能夠處理表格的分類和處理。在分類時,LEADTOOLS會將傳入的文件與主模板庫(即空白的、未填寫的表格版本)進行比較。然后,一旦發現匹配,它將執行區域性OCR,從填寫的表格中提取數據。
PDF格式
Adobe可攜式文件格式是迄今為止最流行的文件存儲格式,而且有充分的理由。PDF易于閱讀,可搜索,充滿元數據,并且可以使用注釋和標記。它的使用是如此普遍,以至于任何由于需要某種閱讀器或插件而對能夠加載文件的擔憂在很大程度上是沒有意義的。綜上所述,除了前面提到的通過OCR初步創建PDF之外,為什么eDiscovery應用程序開發者應該使用LEADTOOLS呢?
LEADTOOLS包括一個完整的PDF SDK,它能完成的任務遠遠超過通過OCR創建一個可搜索的PDF。在eDiscovery過程中,可搜索的文本可能是PDF的最大優勢,但不幸的是,該功能通常只限于查看器的應用。在有數千份文件需要分析的情況下,打開每個文件既乏味又容易出錯。LEADTOOLS允許開發者解析PDF文件結構中的文本、元數據、注釋、超鏈接等,使其有可能在一小部分時間內搜索整個文件夾或磁盤驅動器中的PDF文件以獲取相關的ESI。
文檔轉換器和文檔查看器
文件轉換是電子發現過程中一個非常普遍的需求,因為每個案件都是不同的,每個客戶和訴訟律師都會達成各種共享文件的條款。一個ECM可能會將所有文件存儲為PDF格式,但商定的生產格式可能是DOC。
在電子發現過程中,文件轉換是一個非常普遍的需求,因為每個案件都是不同的,每個客戶和訴訟律師都會達成各種共享文件的條款。一個ECM可能把所有的東西都存儲為PDF,但商定的生產格式可能是DOC。
LEADTOOLS包括一個文檔轉換器庫,它可以在各種文檔格式之間進行轉換,包括PDF、PDF/A、DOC/DOCX、XLS/XLSX和PPT/PPTX,而不需要OCR。這種獨特的區別對電子發現來說是一個巨大的好處,因為它滿足了保存的要求,同時也簡化了處理、審查、分析和生產。文件轉換器還可以接受150多種非文件格式,如TIFF、JPEG、PNG和BMP,并使用OCR將這些圖像轉換為PDF圖像文本,使其成為一個完美的、程序員友好的文件規范化工具。
與文檔轉換器密切相關的是文檔查看器。從表面上看,文檔查看器可用于.NET和JavaScript,實現了像Acrobat Professional這樣的豐富的PDF查看應用程序所包含的許多功能:搜索和選擇文本,跟蹤書簽,添加和編輯注釋,以及高質量的、基于矢量的縮放,以便在任何比例系數下平滑渲染。當文檔查看器與文檔轉換器結合時,它才真正與眾不同。它們一起提供即時的文檔規范化,可以查看、搜索和注釋150多種文檔和圖像格式。基于云的存儲和查看在許多法庭上的接受度越來越高,而LEADTOOLS JavaScript Document Viewer是一個完美的選擇,它可以查看幾乎所有原生格式的文檔,并具有與基于文本的PDF相同的功能。
注釋和標記
注釋和標記可以顯示在EDRM的許多階段。注釋存在于圖像或文檔頂部的一層中,可以為文檔注入其他信息,并鼓勵協作和交流。便簽,箭頭和突出顯示可以引起人們對文檔重要部分的注意。
法律行業最重要的注釋可能是貝茨郵票,修訂和加密。貝茨郵票在法庭上有很長的歷史,可以依次對紙質文件進行身份識別。數字ESI沒什么不同,并且LEADTOOLS批注使導入文檔到ECM或轉移到用于生產的新存儲磁盤中時,可以輕松地在文檔上覆蓋連續的數字。修訂使用黑色矩形掩蓋了不應在法庭上泄露的敏感信息。帶有注釋的數字修訂是有益的,因為它不需要對原始ESI進行任何更改。甚至可以使用密碼撤消注釋注釋,從而根據用戶的訪問層提供不同數量的信息。加密對象的作用類似于編輯,
虛擬打印機
在某些情況下,ESI難以處理,因為它以僅在舊版應用程序或定制開發的系統中可用的格式保存。值得慶幸的是,絕大多數應用程序都具有某種形式的打印功能,但是許多法律團隊并未利用此功能來發揮其優勢。虛擬打印(也稱為打印到文件的驅動程序)是一種經常被忽略的解決方案,它有助于防止打印到紙張的麻煩,然后使用掃描儀將其導入可接受的電子格式。
LEADTOOLS虛擬打印機可通過捕獲任何應用程序中的打印作業并將其轉換為LEADTOOLS支持的格式(包括可搜索的PDF,DOC和TIFF)來提供獨特的全面解決方案。虛擬打印機還支持添加注釋,從而允許開發人員通過將文檔歸一化為適當的ESI并在整個過程中加蓋戳記來創建可同時解決多個目標的工作流。
結論
對于軟件開發人員而言,電子數據展示是一個巨大的市場,在法律程序的任何時候都充滿了機會。大小企業都有不同的要求,從預防和組織措施,發現和分析ESI,從書面形式創建ESI一直到在法庭上陳述其案件。LEADTOOLS Document Imaging SDK憑借對掃描,文檔清理,OCR,表單識別,PDF,文檔轉換和查看,注釋和虛擬打印的出色支持,可以滿足法律行業的軟件開發人員經常需要實施的所有要求。
LEADTOOLS憑借其用于文檔,醫學,多媒體和光柵成像的全面工具包家族,提供了令人難以置信的價值。有關LEAD Technologies如何對應用程序進行映像處理并提高ROI的更多信息,請下載免費評估版,或者聯系我們的。
*****************************************************************************************
LEADTOOLs技術交流群現已開通,QQ搜索群號:731259648或者掃描下方二維碼即可加入!
有任何疑問點擊【】
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn
文章轉載自: