要問(wèn)掃描儀是做什么的?一般的用戶(hù)都會(huì)說(shuō)拿來(lái)掃描照片之類(lèi)的呀,殊不知掃描儀在錄入文字材料方面也是一把“好手”哦,通過(guò)掃描儀來(lái)快速掃描、識(shí)別文字,已經(jīng)成為許多單位用戶(hù)和個(gè)人用戶(hù)每天必修的“功課”之一。不過(guò)在用掃描儀識(shí)別、錄入文字材料的過(guò)程中,不少人往往只會(huì)用掃描儀缺省的設(shè)置參數(shù)來(lái)掃描識(shí)別文字,遺憾的是這種識(shí)別方法常常無(wú)法準(zhǔn)確地將材料中的文字識(shí)別出來(lái)。為了有效提高辦公效率,學(xué)會(huì)一些文字識(shí)別的操作技巧,從而提高文字材料的錄入速度是非常有必要的。現(xiàn)在,小編就將自己在掃描識(shí)別文字過(guò)程中總結(jié)出來(lái)的一些經(jīng)驗(yàn)貢獻(xiàn)出來(lái),與各位朋友分享一下!
從識(shí)別軟件挖掘。
也許有人說(shuō),識(shí)別軟件不是內(nèi)置在掃描儀驅(qū)動(dòng)程序中,這有什么好挖掘的?其實(shí)不然,不同的OCR掃描識(shí)別軟件在文字識(shí)別的能力以及功能方面是不完全相同的,而挑選一款操作方便、識(shí)別能力較強(qiáng)的識(shí)別軟件是提高文字識(shí)別準(zhǔn)確率的前提。一般用戶(hù)通常都會(huì)使用掃描儀內(nèi)置的OEM識(shí)別軟件,不過(guò)這種識(shí)別軟件相比其他專(zhuān)業(yè)的識(shí)別軟件來(lái)說(shuō),識(shí)別功能不強(qiáng),文字識(shí)別的準(zhǔn)確率也不是很高,甚至還無(wú)法對(duì)中文字體進(jìn)行識(shí)別;而類(lèi)似尚書(shū)OCR6.0、清華紫光OCR2003等專(zhuān)業(yè)的文字識(shí)別軟件,不但在文本自動(dòng)識(shí)別方面有較強(qiáng)的能力,而且在使用功能方面也比較突出一些,選擇這些專(zhuān)業(yè)的識(shí)別軟件可以很輕松地提高文字的識(shí)別準(zhǔn)確率。
當(dāng)然,要是目標(biāo)文稿中包含的文字具有復(fù)雜的格式,比方說(shuō)段落中出現(xiàn)了首行縮進(jìn)格式,文字字體使用了斜體、粗體等格式,那么有的OCR軟件在識(shí)別這些格式時(shí),常常會(huì)識(shí)別出亂碼來(lái);所以當(dāng)我們?cè)趻呙枳R(shí)別一些具有特殊格式的文字材料時(shí),一定要選用可以支持文字格式的掃描識(shí)別軟件,只有這樣才能獲得較高的文字識(shí)別成功率。
從放置操作挖掘
不少人都認(rèn)為放置掃描原稿是一件十分簡(jiǎn)單的事情,只要將原稿正面的內(nèi)容對(duì)著平板玻璃放置,然后蓋上掃描儀的上面蓋就可以了;其實(shí)原稿的放置操作也會(huì)影響文字的準(zhǔn)確識(shí)別,正確放置文稿的方法應(yīng)該為先將文稿正面的內(nèi)容對(duì)著平板玻璃放置,然后將文稿位置調(diào)整到掃描起始線(xiàn)正中,同時(shí)確保掃描儀的平板玻璃表面完整和干凈,最后放下掃描儀的上面蓋。要是文稿放置有一定傾斜角度的話(huà),一定要在掃描完成后使用旋轉(zhuǎn)工具對(duì)傾斜文字進(jìn)行糾正,不然的話(huà)掃描識(shí)別程序會(huì)將水平筆劃看作斜筆劃來(lái)處理,這樣文字識(shí)別的正確率就會(huì)下降很多。
從識(shí)別參數(shù)挖掘
在使用OCR識(shí)別軟件來(lái)識(shí)別目標(biāo)文稿中的文字時(shí),常常需要先在識(shí)別軟件中進(jìn)行合適的參數(shù)設(shè)置,畢竟使用默認(rèn)的參數(shù)設(shè)置是無(wú)法獲取最令人滿(mǎn)意的效果的。一般來(lái)說(shuō),需要設(shè)置的識(shí)別參數(shù)主要包括掃描模式設(shè)置、分辨率設(shè)置、亮度對(duì)比度設(shè)置等;在識(shí)別純文字材料時(shí),往往只需要將識(shí)別軟件的掃描模式設(shè)置為“黑白”模式就可以了,要是將掃描模式設(shè)置為“彩色”或“灰度”模式的話(huà),只會(huì)增加掃描識(shí)別的時(shí)間,而且也不會(huì)提高文字識(shí)別的準(zhǔn)確率。要是被識(shí)別的目標(biāo)文稿質(zhì)量比較差時(shí),我們可以嘗試將掃描模式設(shè)置為“灰度”模式,然后用相關(guān)的掃描軟件對(duì)掃描結(jié)果進(jìn)行一下處理再繼續(xù)進(jìn)行識(shí)別,這樣一來(lái)文字識(shí)別準(zhǔn)確率就會(huì)大大提高。
在進(jìn)行分辨率設(shè)置時(shí),通常將分辨率設(shè)置得越低,掃描儀掃描文本的速度就越快,但掃描出來(lái)的文稿效果就越差;相反,將掃描分辨率設(shè)置得越高,掃描儀掃描文本的速度就越慢,但掃描出來(lái)的文稿效果就越好。不過(guò)這一理論并不是千篇一律的,畢竟將掃描分辨率設(shè)置得太高的話(huà),文稿紙張上的小斑點(diǎn)都有可能被識(shí)別成標(biāo)點(diǎn)符號(hào),這樣一來(lái)文字識(shí)別準(zhǔn)確率反而會(huì)得不到提高。經(jīng)過(guò)筆者多次測(cè)試發(fā)現(xiàn),如果目標(biāo)文稿中的文字字號(hào)為1、2、3號(hào)的話(huà),那我們只需要將掃描分辨率設(shè)置為200dpi就可以了;要是目標(biāo)文稿中的文字使用的是4號(hào)或5號(hào)字體的話(huà),那可以將掃描分辨率設(shè)置為300dpi;高于5號(hào)的文字字體,必須將掃描分辨率設(shè)置為400dpi以上,但不能超過(guò)掃描儀的光學(xué)分辨率。
使用合適的掃描亮度與掃描對(duì)比度,可以確保目標(biāo)文稿中的文字黑白分明,這對(duì)提高文字識(shí)別準(zhǔn)確率非常關(guān)鍵;在調(diào)整掃描亮度與對(duì)比度時(shí),我們應(yīng)該仔細(xì)觀察掃描預(yù)覽效果,當(dāng)發(fā)現(xiàn)預(yù)覽效果中的文字筆畫(huà)較細(xì)但并沒(méi)有斷開(kāi)時(shí),就表明此時(shí)的亮度和對(duì)比度數(shù)值是最合適的。如果在識(shí)別過(guò)程中,發(fā)現(xiàn)預(yù)覽效果中的文字線(xiàn)條較粗較黑而且筆畫(huà)分不清時(shí),就表明此時(shí)的亮度數(shù)值設(shè)置得小了,我們應(yīng)該嘗試提高一些亮度值來(lái)看看;要是發(fā)現(xiàn)預(yù)覽效果中的文字線(xiàn)條看上去凹凸不平,甚至有斷線(xiàn)或殘缺不全的現(xiàn)象時(shí),那就表明此時(shí)的掃描亮度調(diào)整得有點(diǎn)高了,我們應(yīng)嘗試將亮度數(shù)值降低一些再看看。
此外,“輸出信息”的參數(shù)設(shè)置也會(huì)對(duì)文字的識(shí)別準(zhǔn)確率帶來(lái)一定的影響;在缺省狀態(tài)下,“輸出信息”的數(shù)值常常會(huì)被設(shè)置為100%,這種參數(shù)設(shè)置僅僅適合那些新墨粉打印出來(lái)的文字材料或者印刷出來(lái)的報(bào)紙、書(shū)籍等,相反在掃描識(shí)別那些文字色彩比較淺的文稿時(shí),最好能夠?qū)ⅰ拜敵鲂畔ⅰ钡臄?shù)值調(diào)整得稍微大一些,不然的話(huà)掃描出來(lái)的圖象看上去很不清晰,而且文字識(shí)別的準(zhǔn)確率也不會(huì)很高;當(dāng)然“輸出信息”的數(shù)值也不能設(shè)置得過(guò)大,不然會(huì)延長(zhǎng)掃描識(shí)別的時(shí)間,而且還會(huì)使識(shí)別出來(lái)的文字筆畫(huà)看不清楚。
從識(shí)別原稿挖掘
在掃描識(shí)別不同類(lèi)型的原稿時(shí),需要用不同的識(shí)別處理方法,才能保證得到比較理想的識(shí)別效果。如果原稿為報(bào)紙或者半透明文稿的話(huà),那么在掃描識(shí)別之前要是不采取任何措施的話(huà),報(bào)紙背面的文字很容易透過(guò)紙張表面來(lái)混淆目標(biāo)文字的字形,從而會(huì)對(duì)文字的正確識(shí)別造成不小的障礙。為此在掃描識(shí)別這類(lèi)文稿時(shí),最好在原稿背面蓋上一張黑紙,同時(shí)在掃描過(guò)程中,將對(duì)比度稍微提高一些,這樣就能有效降低背面文字對(duì)識(shí)別效果的干擾程度了。在掃描識(shí)別一些印刷質(zhì)量較差的文稿時(shí),一定要先進(jìn)行色調(diào)調(diào)節(jié)操作,以確保掃描結(jié)果看上去黑白分明,否則的話(huà)掃描圖象中有可能會(huì)出現(xiàn)許多黑色斑點(diǎn),從而嚴(yán)重影響文字識(shí)別的準(zhǔn)確率。當(dāng)然在對(duì)色調(diào)參數(shù)進(jìn)行調(diào)節(jié)時(shí),一定注意觀察掃描識(shí)別界面中的圖象預(yù)覽效果,并根據(jù)預(yù)覽效果對(duì)色調(diào)進(jìn)行反復(fù)調(diào)整,才能得到非常理想的識(shí)別結(jié)果。在掃描識(shí)別圖文混排類(lèi)型的原稿時(shí),應(yīng)該先確認(rèn)一下自己選用的掃描識(shí)別應(yīng)用程序能否支持自動(dòng)圖文分析功能,要是可以支持的話(huà),那我們就應(yīng)該啟用該功能,這樣掃描識(shí)別程序就會(huì)自動(dòng)分析出目標(biāo)文稿中的文字內(nèi)容、文本位置等,而文字內(nèi)容部分只要按照標(biāo)示順序來(lái)進(jìn)行正常識(shí)別就可以了。
從手工識(shí)別挖掘
現(xiàn)在許多文稿排版為了追求盡善盡美的視覺(jué)效果,常常會(huì)使用圖文混排方式,如果我們將原稿簡(jiǎn)單地掃描成一幅圖像的話(huà),將會(huì)嚴(yán)重影響文字的識(shí)別準(zhǔn)確率。有鑒于此,我們應(yīng)該根據(jù)實(shí)際情況,對(duì)原稿版面進(jìn)行手工劃分,讓其版面分為若干個(gè)區(qū)域;而且應(yīng)該保證處于同一區(qū)域中的文字字號(hào)與字體最好相同,盡量沒(méi)有圖像、圖形,每一行的文字寬度應(yīng)該相同,要是發(fā)現(xiàn)寬度長(zhǎng)短不一的話(huà),最好再進(jìn)行細(xì)分,通常情況下一次最多能掃描識(shí)別10個(gè)選擇區(qū)域。此外根據(jù)實(shí)際情況,我們還需要對(duì)多個(gè)選擇區(qū)域設(shè)置好識(shí)別順序。大家千萬(wàn)不能嫌這樣的操作比較煩,這可是有效提高文字識(shí)別準(zhǔn)確率的理想途徑之一。