你在这里


百度

腾讯、百度推出的OCR API服务

James Qi 2016年5月9日 - 11:10 发布

  OCR文字识别其实可以算很老的技术了,一二十年前购买扫描仪的时候就配有文字识别软件,记得用起来比较勉强,在比较复杂的中英文混排、版面不规则的情况下,很难获得满意的识别效果。

  这几年我们在做Web展示网站的时候,有些原始资料只有扫描件,尝试过OCR软件识别或者网上的OCR识别服务,但都不理想,而手工录入、校对的工作量太大,也搁置下来了。

  近期看到新闻,说腾讯OCR服务永久免费,就去网上看了看(先骂一句百度:在百度中搜“腾讯OCR API”,结果是无关企业的OCR广告排在前面、百度自己的OCR服务接着出现,而把腾讯公司的OCR相关信息排在后面),现在的OCR已经引入了大数据、云计算、人工智能、机器学习等新概念,具体请看:CRUX OCR

  以及百度自己也推出OCR服务,免费的已经在API集市中下架关闭,剩下收费的百度OCR文字识别企业版,价钱不算贵,但使用起来还是需要一些技术水平的,毕竟需要编写程序去调用接口。

自由标签:

Drupal网站模板中加入php程序比较Google和百度的广告及统计

James Qi 2015年8月4日 - 06:00 发布

  前段时间准备把百度广告管家的代码改为百度联盟的代码,顺便还想再比较一下百度、Google广告的一些数据,现在对Drupal模板、PHP程序比较熟悉了,所以采取在模板中嵌入PHP程序来随机出现Google/百度相关代码就很容易实现。

桌面网站和手机网站中嵌入百度地图API

James Qi 2014年9月9日 - 14:25 发布

  早在2009年,我就在MediaWiki中通过Google Maps API调用谷歌地图,但后来随着Google退出中国大陆,Google地图服务也不好使用了,直到今年6月前后基本上无法使用了,搞得嵌入Google Maps API代码的网站打开时延时非常严重,甚至无法打开,我们被迫将放在国内服务器上的中文网站中的谷歌地图代码全部删除,在国外服务器上放置的外文网站不受影响。

  以前也知道国内有百度等地图可以提供类似Google的调用服务,但一直没有尝试。前几天去摸索了一下,其实很类似Google的API,稍微看一看、改一改、试一试就可以成功调用百度地图API了,参考资料:

禁止百度WEB页面到手机WAP的转码

James Qi 2012年6月14日 - 14:00 发布

  很早以前见过手机上用百度时出现自动转码后的页面,在2G网络的非智能手机时代还有些用,但我个人用得不太多就没有很留意。昨天晚上家中发现很多小虫,用三星平板电脑Samsung Galaxy Tab P1000查找原因和解决办法,这台Android 2.2平板电脑上预置了百度的搜索框,我进行了很多次搜索,发现百度将很多网站(包括新闻搜索中找到的新闻网站)都进行了转码,这个对于普通浏览者来说确实提供了方便,不过对于网站拥有者来说,无法展示广告、无法控制显示,成了为百度免费提供纯内容的服务商了。:-(

试用“百度移动开放平台”的“移动建站管理系统”

James Qi 2012年4月18日 - 17:09 发布

  很有一段时间我们都是专注在外文网站,对中文网站的关心不够,前些天才了解到“百度移动开放平台”,这个平台其实推出有一年多的时间了,上面有个“移动建站管理系统”感觉还有些作用,就试用了几天时间,这里记录一下。
  这个建站系统是一种代码转换器,可以把Web网站自动转为适合手机浏览的网站,百度来提供转换技术以及存储空间,网站拥有者最短只要上十分钟就可以设置好、拥有一个与Web网站对应的手机网站,不过如果需要让转换效果更好的话,还需要在原来Web网站上设置一些标记,以便百度更明白如何来转换。另外,转换后一些JavaScript丢失了,AdSense和Google Map都看不到了。
  我测试了几个例子:

在百度站长平台中提交了网站地图,顺便为网站首页添加了Description

James Qi 2011年10月14日 - 15:09 发布

  这个星期把前期导入的各国企业名录网站都初步搭建好了以后,抽空开始把以前的网站的sitemap提交到百度站长平台。在使用百度站长平台的时候,还使用了其“URL优化建议”的功能来检查我们网站,显示缺少meta description,虽然这不是一个至关重要的问题,但我们这次也顺便一起进行添加。

  我们的网站主要有两种平台:去年以前的使用MediaWiki,今年的都是使用Drupal。MediaWiki在服务器上是每个子网站一个单独的目录,而Wiki的页面编辑中也无法添加description,所以我们采用了上传bdsitemap.txt的办法来进行验证,并使用mediawiki的description插件来添加首页描述;而对于Drupal来说,是多个子网站共享一个目录,不能用一个统一的bdsitemap.txt来验证,就采用了修改首页meta的办法来进行,也顺便添加了keys和description的meta内容。

  我们子网站数量多,逐步添加,还算顺利,不过上次日志中提到的百度提示一部分mediawiki生成的gz压缩文件解压失败的问题始终存在,尝试修改服务器上的apache等设置还是无法解决,就干脆将出错的网站全部修改生成sitemap的设置,取消压缩,然后再次提交就都OK了。

试用“百度站长平台”

James Qi 2011年9月30日 - 10:32 发布

  去年就听说了“百度站长平台”的消息,当时还是在进行内部测试,虽然很想用这个听说与Google Webmaster Tools类似的工具,但我没有申请到“邀请码”而无法使用。
  在这个互联网技术飞速发展的时代,过了大约一年半后,最近才看到这个平台终于开放注册了,于是用以前的百度帐号去注册,可实际使用的时候,要添加管理Sitemap却还需要去申请一个“激活码”,于是按照提示又发邮件去申请,过了一周后,前两天终于收到邮件回复、有了激活码。
  昨天尝试着添加了网站和地图,网站的验证办法是根目录下放一个bdsitemap.txt文件或者修改首页Meta内容,验证成功后可以提交多个Sitemap,设置不同的抓取速度。
  先就简单地添加了几个网站和地图,仅能提供基础的Sitemap提交功能,无法提供搜索信息、抓取信息等更多功能,在网站验证办法上也不是很方便,而且我提供gz压缩后的Sitemap也无法识别,感觉算是一个Google Webmaster Tools的初级模仿品,希望未来能不断完善。
 

自由标签:

周日没有去参加站长之家、百度创业者俱乐部组织的聚会

James Qi 2011年8月1日 - 10:41 发布

  一个月前就听说站长之家网站会在武汉组织一次行业聚会,还接到他们的邀请,希望我能上台去给大家分享一下“干货”。以前我参加了不少互联网行业的聚会,本地的、外地的都有,如果是以前在武汉举行的这次聚会我肯定去参加,不过这次我没有去,主要是因为自己的事情太多了,另外也有一起其他原因:

  • 刚到韩国旅游了好几天回来,正在搭建的网站还有好多事情需要周末处理,难得抽出半天时间去;
  • 健身俱乐部的锻炼坚持了2个多月,也中断了一周时间,得赶紧恢复起来,周日正好有合适的课程;
  • 聚会参加得多了,自己的收获也会减少,感觉这次人太多,500多人,讲的都是比较大众的内容;
  • “干货”准备不足,不能让听众满意还不如不讲,写《AdSense实战宝典》第二版的工作也会延后;
  • 我们现在在向外文海量数据网站发展,渐离国内互联网环境,与国内站长圈、百度的关系不是很大;
  • 最后一点,聚会多了,本人不善社交,也该歇歇了。

  不过,我始终觉得行业聚会还是很不错的学习交流机会,有空的话大家多去,会有收获。我以后有空还是会参加。

订阅 RSS - 百度