日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

證件識別

【證件識別】 OCR(Optical Character Recognition , 光學(xué)字符識別) , 是屬于圖型識別(Pattern Recognition , PR)的一門學(xué)問 。 其目的就是要讓計算機(jī)知道它到底看到了什么 , 尤其是文字資料 。 由于OCR是一門與識別率拔河的技術(shù) , 因此如何除錯或利用輔助信息提高識別正確率 , 是OCR最重要的課題 , ICR(Intelligent Character Recognition)的名詞也因此而產(chǎn)生 。 而根據(jù)文字資料存在的媒體介質(zhì)不同 , 及取得這些資料的方式不同 , 就衍生出各式各樣、各種不同的應(yīng)用 。
在此對OCR作一基本介紹 , 包括其技術(shù)簡介以及其應(yīng)用介紹 。
一、OCR的發(fā)展 要談OCR的發(fā)展 , 早在60、70年代 , 世界各國就開始有OCR的研究 , 而研究的初期 , 多以文字的識別方法研究為主 , 且識別的文字僅為0至9的數(shù)字 。 以同樣擁有方塊文字的日本為例 , 1960年左右開始研究OCR的基本識別理論 , 初期以數(shù)字為對象 , 直至1965至1970年之間開始有一些簡單的產(chǎn)品 , 如印刷文字的郵政編碼識別系統(tǒng) , 識別郵件上的郵政編碼 , 幫助郵局作區(qū)域分信的作業(yè);也因此至今郵政編碼一直是各國所倡導(dǎo)的地址書寫方式 。
OCR可以說是一種不確定的技術(shù)研究 , 正確率就像是一個無窮趨近函數(shù) , 知道其趨近值 , 卻只能靠近而無法達(dá)到 , 永遠(yuǎn)在與100%作拉鋸戰(zhàn) 。 因為其牽扯的因素太多了 , 書寫者的習(xí)慣或文件印刷品質(zhì)、掃描儀的掃瞄品質(zhì)、識別的方法、學(xué)習(xí)及測試的樣本……等等 , 多少都會影響其正確率 , 也因此 , OCR的產(chǎn)品除了需有一個強(qiáng)有力的識別核心外 , 產(chǎn)品的操作使用方便性、所提供的除錯功能及方法 , 亦是決定產(chǎn)品好壞的重要因素 。
一個OCR識別系統(tǒng) , 其目的很簡單 , 只是要把影像作一個轉(zhuǎn)換 , 使影像內(nèi)的圖形繼續(xù)保存、有表格則表格內(nèi)資料及影像內(nèi)的文字 , 一律變成計算機(jī)文字 , 使能達(dá)到影像資料的儲存量減少、識別出的文字可再使用及分析 , 當(dāng)然也可節(jié)省因鍵盤輸入的人力與時間 。
從影像到結(jié)果輸出 , 須經(jīng)過影像輸入、影像前處理、文字特征抽取、比對識別、最后經(jīng)人工校正將認(rèn)錯的文字更正 , 將結(jié)果輸出 。 在此逐一介紹:
影象輸入:欲經(jīng)過OCR處理的標(biāo)的物須透過光學(xué)儀器 , 如影像掃描儀、傳真機(jī)或任何攝影器材 , 將影像轉(zhuǎn)入計算機(jī) 。 科技的進(jìn)步 , 掃描儀等的輸入裝置已制作的愈來愈精致 , 輕薄短小、品質(zhì)也高 , 對OCR有相當(dāng)大的幫助 , 掃描儀的分辨率使影像更清晰、掃除速度更增進(jìn)OCR處理的效率 。
影象前處理:影像前處理是OCR系統(tǒng)中 , 須解決問題最多的一個模塊 , 從得到一個不是黑就是白的二值化影像 , 或灰階、彩色的影像 , 到獨立出一個個的文字影像的過程 , 都屬于影像前處理 。 包含了影像正規(guī)化、去除噪聲、影像矯正等的影像處理 , 及圖文分析、文字行與字分離的文件前處理 。 在影像處理方面 , 在學(xué)理及技術(shù)方面都已達(dá)成熟階段 , 因此在市面上或網(wǎng)站上有不少可用的鏈接庫;在文件前處理方面 , 則憑各家本領(lǐng)了;影像須先將圖片、表格及文字區(qū)域分離出來 , 甚至可將文章的編排方向、文章的題綱及內(nèi)容主體區(qū)分開 , 而文字的大小及文字的字體亦可如原始文件一樣的判斷出來 。 文字特征抽?。簡我宰R別率而言 , 特征抽取可說是OCR的核心 , 用什么特征、怎么抽取 , 直接影響識別的好壞 , 也所以在OCR研究初期 , 特征抽取的研究報告特別的多 。 而特征可說是識別的籌碼 , 簡易的區(qū)分可分為兩類:一為統(tǒng)計的特征 , 如文字區(qū)域內(nèi)的黑/白點數(shù)比 , 當(dāng)文字區(qū)分成好幾個區(qū)域時 , 這一個個區(qū)域黑/白點數(shù)比之聯(lián)合 , 就成了空間的一個數(shù)值向量 , 在比對時 , 基本的數(shù)學(xué)理論就足以應(yīng)付了 。 而另一類特征為結(jié)構(gòu)的特征 , 如文字影像細(xì)線化后 , 取得字的筆劃端點、交叉點之?dāng)?shù)量及位置 , 或以筆劃段為特征 , 配合特殊的比對方法 , 進(jìn)行比對 , 市面上的線上手寫輸入軟件的識別方法多以此種結(jié)構(gòu)的方法為主 。 對比數(shù)據(jù)庫:當(dāng)輸入文字算完特征后 , 不管是用統(tǒng)計或結(jié)構(gòu)的特征 , 都須有一比對數(shù)據(jù)庫或特征數(shù)據(jù)庫來進(jìn)行比對 , 數(shù)據(jù)庫的內(nèi)容應(yīng)包含所有欲識別的字集文字 , 根據(jù)與輸入文字一樣的特征抽取方法所得的特征群組 。

推薦閱讀