OCR文字識别其實可以算很老的技術了,一二十年前購買掃描儀的時候就配有文字識别軟件,記得用起來比較勉強,在比較複雜的中英文混排、版面不規則的情況下,很難獲得滿意的識别效果。
這幾年我們在做Web展示網站的時候,有些原始資料隻有掃描件,嘗試過OCR軟件識别或者網上的OCR識别服務,但都不理想,而手工錄入、校對的工作量太大,也擱置下來了。
近期看到新聞,說騰訊OCR服務永久免費,就去網上看了看(先罵一句百度:在百度中搜“騰訊OCR API”,結果是無關企業的OCR廣告排在前面、百度自己的OCR服務接着出現,而把騰訊公司的OCR相關信息排在後面),現在的OCR已經引入了大數據、雲計算、人工智能、機器學習等新概念,具體請看:CRUX OCR。
以及百度自己也推出OCR服務,免費的已經在API集市中下架關閉,剩下收費的百度OCR文字識别企業版,價錢不算貴,但使用起來還是需要一些技術水平的,畢竟需要編寫程序去調用接口。
騰訊的服務中有一個“在線體驗”可以方便地上次圖片或者提供網上圖片URL來進行識别,試用了一下效果還可以,不是很大的圖片幾秒就可以識别返回文字,正确率隻能說馬馬虎虎,即使達到90%以上,但剩下的百分之幾錯誤也顯得相當刺眼。
很多年前在做Wiki網站的時候上傳了一批光盤上找到的圖片,集合成《民間秘術大全》,以前是700多個圖片文件(例如:第11頁),人工添加了目錄(例如:“名硯秘識”),一直沒有辦法做文字識别,現在用騰訊的免費OCR體驗服務進行了一部分圖片的識别,對明顯的标題錯誤等進行了修改,但内容确實沒有太多時間來矯正,就先把文字放在圖片一起讓用戶參考,校對的事情以後再說。
以後API更成熟了、正确率更高了,我們也用熟悉了的話,可以用于識别數據量更大的企業名錄等領域。
评论