日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

ABBYY FineReader文件識別教程二

隨著OCR文字識別概念的深入人心 , 人們越來越依賴有效的工具 , 推動日常工作的進行 , 想要效率比別人高 , 選擇合適有用的軟件至關重要 , 你看列夫?托爾斯泰的90卷著作 , 如果沒有ABBYY FineReader OCR圖文識別技術的幫助 , 也不可能在短短2周時間里完成數(shù)字化處理 , 繼而上傳到網絡供公眾閱讀 。
對于這樣一款高效工具 , 小編為大家介紹過不少使用技巧和應用 , 但實際操作過程中難免會遇到一些問題 , 特別在識別文件方面 , 接下來我們就一起總結下使用過程中可能會出現(xiàn)哪些問題 , 以及如何處理這些問題 。

ABBYY FineReader文件識別教程二


表格區(qū)域 包含表格 , 表格有可見和隱形的(或部分)分隔線:
ABBYY FineReader文件識別教程二


表格中可能只包含矩形 , 其中每個單元格也是矩形 , 但通過合并單元格 , 可以處理復雜的文本和表格結構 。每個單元格可能包含要識別的文字(包括空白) , 也可能包含圖片 。如果想識別單元格中的文本 , 可以賦予它特殊的識別參數(shù) , 否則 , 可以選擇“圖片單元格”選項 。也可以選擇一系列矩形單元格 , 將所需方案同時運用到所有的單元格 。
進行自動分析時 , 表格是很復雜的對象 , 如果有些單元格分割線被隱藏 , 此時尤為復雜 。非常重要的是 , 如果在識別之前修正表格布局 , 這比在FineReader或最終應用中修正識別結果要簡單得多 。
圖片區(qū)域 可能不呈現(xiàn)為矩形 。有兩種類型:普通圖片(占據(jù)文字的位置)和背景圖片(不占據(jù)文字位置) 。它們在布局上稍有不同(例如 , 當拖動背景圖片時 , 圖片下方的文字不會被刪除) 。
注意:
?只有檢測到的文本單元格中的文本區(qū)域才能被識別出來 。如果文本片段未被標記為識別塊 , 就不會被識別出來 。
?與圖片一樣 , 如果圖像的某部分位于區(qū)域之外 , 或某個圖像被分成幾個區(qū)域 , 處理過程中就可能出現(xiàn)問題 。
?識別語言不能掉以輕心 , 它們涉及眾多機制 , 首先是分析機制:例如 , 亞洲語言(中日韓文)和阿拉伯語文字有其自身的特點 , 這些特征默認處于關閉狀態(tài) , 但一旦選擇相應的語言 , 它們就會開啟 。
要在軟件界面中正確地處理區(qū)域并理解識別和保存過程對它們的影響 , 以下規(guī)則非常重要:
1、如果文本和表格區(qū)域交叉 , 并且某些符號或部分位于多個區(qū)塊—實際上這肯定是出錯了—此時需要修正識別結果 。圖像區(qū)域也是如此 , 雖然它對于文本處理來說不那么重要 , 這些錯誤都應該予以修正(通常需要點幾次鼠標即可) 。
2、用戶常常需要為大的文本區(qū)域添加背景圖片 , 主要用途是當文本行中出現(xiàn)片段(象形符號、圖標或公式等)時 , 采用所謂的行內圖片 , 在FineReader文本模板中 , 它們無法正確識別或者根本無法識別 。
3、在圖片背景上添加文本區(qū)域也是個重要的辦法:通常的作法是在圖片背景上添加說明 , 甚至添加主文本段落 。
簡化識別文本框操作的技巧在編輯識別文本框的時候 , 上述規(guī)則會體現(xiàn)出來 。例如 , 如果你繪制新的識別文本框 , 或拉伸現(xiàn)有的識別文本框 , 使之覆蓋其他區(qū)域 , 后者將被自動刪除 。
區(qū)域選擇的邏輯此時 , 要考慮你的目標是什么 , 以及處理后你想要得到什么格式的文件 。在某些復雜情況下 , 以下幾點可能影響到識別文本框布局的修訂數(shù)量和類型:
1、只需要文字
如果需要將文件保存為雙層PDF文件(頁面圖片以及可供搜索和復制的不可見文字層) , 則需要合理地選擇區(qū)域:

推薦閱讀