OCR文字识别其实可以算很老的技术了,一二十年前购买扫描仪的时候就配有文字识别软件,记得用起来比较勉强,在比较复杂的中英文混排、版面不规则的情况下,很难获得满意的识别效果。
这几年我们在做Web展示网站的时候,有些原始资料只有扫描件,尝试过OCR软件识别或者网上的OCR识别服务,但都不理想,而手工录入、校对的工作量太大,也搁置下来了。
近期看到新闻,说腾讯OCR服务永久免费,就去网上看了看(先骂一句百度:在百度中搜“腾讯OCR API”,结果是无关企业的OCR广告排在前面、百度自己的OCR服务接着出现,而把腾讯公司的OCR相关信息排在后面),现在的OCR已经引入了大数据、云计算、人工智能、机器学习等新概念,具体请看:CRUX OCR。
以及百度自己也推出OCR服务,免费的已经在API集市中下架关闭,剩下收费的百度OCR文字识别企业版,价钱不算贵,但使用起来还是需要一些技术水平的,毕竟需要编写程序去调用接口。
腾讯的服务中有一个“在线体验”可以方便地上次图片或者提供网上图片URL来进行识别,试用了一下效果还可以,不是很大的图片几秒就可以识别返回文字,正确率只能说马马虎虎,即使达到90%以上,但剩下的百分之几错误也显得相当刺眼。
很多年前在做Wiki网站的时候上传了一批光盘上找到的图片,集合成《民间秘术大全》,以前是700多个图片文件(例如:第11页),人工添加了目录(例如:“名砚秘识”),一直没有办法做文字识别,现在用腾讯的免费OCR体验服务进行了一部分图片的识别,对明显的标题错误等进行了修改,但内容确实没有太多时间来矫正,就先把文字放在图片一起让用户参考,校对的事情以后再说。
以后API更成熟了、正确率更高了,我们也用熟悉了的话,可以用于识别数据量更大的企业名录等领域。
评论