97电影院,日韩在线观看三区,国模吧一区二区

LEADTOOLS如何在eDiscovery應用程序中工作（上）

翻譯|使用教程|編輯：莫成敏|2019-08-06 16:22:46.370|閱讀 482 次

概述：eDiscovery對于軟件開發人員來說是一個巨大的市場，在法律程序的任何階段都充滿了機會，本篇文章主要講述LEADTOOLS如何在eDiscovery應用程序中工作。現在就來跟著來了解一下吧~

LEADTOOLS Document Imaging Suite SDK是LEADTOOLS SDK中各種特點的精選組合，它用于在企業級文檔自動解決方案中建立端到端的文檔圖像應用程序，而這些文檔圖像應用程序需要有捕捉、表格識別和處理、存檔、注釋和顯示功能。

點擊下載LEADTOOLS Document Imaging Suite SDK免費版

eDiscovery對于軟件開發人員來說是一個巨大的市場，在法律程序的任何階段都充滿了機會，本篇文章主要講述LEADTOOLS如何在eDiscovery應用程序中工作。現在就來跟著來了解一下吧~

LEADTOOLS Document Imaging SDK具有廣泛的成像技術，非常適合任何eDiscovery應用程序。最簡單的單一服務專家、端到端商業ECM、以及介于兩者之間的一切，都可以找到為其應用添加世界級成像技術所需的一切。

與EDRM作為一般指南和流程的工作方式，以及可以跳過或重新審視的步驟大致相同，下面概述的成像技術并不是一組強制性的功能。在大多數情況下，這些技術的順序遵循企業級ECM中的典型使用流程，但可以進行修改和重組，以匹配任何開發團隊的目標和創造力。

掃描

ECM和eDiscovery應用程序中最重要的元素之一就是能夠將紙質文檔數字化。沒有什么比掃描更有效地獲得紙質文檔的高質量數字復制。即使這是公司為法庭所做的一切準備，由于簡化了電子文件的運輸和共享，掃描可以節省大量的時間和資金。一個U盤可以代替數百甚至數千磅的紙張，這些紙張從一個辦公室運送到另一個辦公室，然后運送到法庭。

LEADTOOLS包含高級類，可以使用TWAIN驅動程序或SANE后端從任何掃描儀中輕松獲取圖像。請考慮以下代碼段，該代碼段提示用戶選擇TWAIN源，然后將獲取的圖像加載到查看器中。

private void GetImageFromTwainSource()
{
 _twainSession.SelectSource(string.Empty);
 _twainSession.AcquirePage += new EventHandler(
 twainSession_AcquirePage);
 _twainSession.Acquire(TwainUserInterfaceFlags.Show);
}
private void twainSession_AcquirePage(object sender, TwainAcquirePageEventArgs e)
{
 imageViewer.Image = e.Image;
}

文檔清理和預處理

考慮成像SDK時另一個非常重要的功能是它能夠清理掃描圖像。清理圖像有兩個主要好處，每個都對整個eDiscovery過程產生巨大的影響

首先，可能最明顯的是，文檔本身更具可讀性。這對人眼來說很棒，但對電腦更好。只有幾個像素分隔了小寫l、大寫L和數字1。人眼仍然可以閱讀帶有劃線或折痕的文本，但即使是最好的OCR引擎也會返回胡言亂語。

第二，是存儲空間。許多壓縮算法通過比較相鄰像素來完成其工作。對于構成大多數掃描文檔的黑白圖像尤其如此。執行清除灰塵斑點、打孔、線條、邊框等的圖像清理功能，會對運行長度和由單一顏色組成的塊的大小產生深遠影響，從而允許非常高的壓縮率達到92％以上的臟圖像的壓縮大小。

screenshot_54_副本.jpg

圖1：使用LEADTOOLS清理臟圖像。兩者都使用CCITT G4壓縮，但干凈的圖像僅為12kb，而不是146kb

OCR

光學字符識別對于任何想要加強eDiscovery游戲的公司來說都是必不可少的。雖然掃描和清潔圖像可以完成工作并合法覆蓋基礎，但OCR具有競爭優勢，是許多其他技術的重要基石。

以前靜態圖像在轉換為PDF、Microsoft Word或任何其他可搜索文本格式時都可以變為活動狀態。能夠搜索數字存儲文檔的內容是eDiscovery中的一項重要資產，特別是在處理、審查和分析階段。LEADTOOLS可以創建圖像文本PDF，這在eDiscovery中非常有用，因為格式將原始圖像保留在文本圖層的頂部，使其既可以搜索也可以與原始圖像保持不變。即使TIFF仍然是ECM中的首選文件格式，OCR也可以為這些靜態圖像注入可以搜索或索引的元數據，以便在需要時更容易引用。

LEADTOOLS使OCR非常簡單。將磁盤上的源文件轉換為可搜索的PDF只需三行代碼即可完成

IOcrEngine ocrEngine = OcrEngineManager.CreateEngine(OcrEngineType.LEAD, false);
ocrEngine.Startup(null, null, null, null);
ocrEngine.AutoRecognizeManager.Run(@"C:?InputFile.tif", @"C:?OutputFile.pdf", DocumentFormat.Pdf, null, null);

形式

表單識別是OCR的一種專門實現，它經過精心調整，可以從文檔中提取特定的信息，而不是捕獲整個文檔。組織可能有各種各樣的表單，從就業時提交的稅表到發票和發給客戶的賬單。就其本質而言，表單有很多重復的信息，也許唯一相關的數據是申請人、客戶、員工等填寫的數據。因此，在ECM中存檔這些表格的最有效和最有用的方法是，從這些字段中提取數據，并將它們索引到數據庫中或將其另存為元數據。

LEADTOOLS能夠處理表單的分類和處理。在分類時，LEADTOOLS會將傳入的文檔與主模板庫（即表單的空白、未填充版本）進行比較。然后一旦找到匹配項，它將執行分區OCR以從填好的表單中提取數據

screenshot_55_副本.jpg