前一阵子在Google Reader中看到一篇文章《schema.org:多个搜索引擎联合打造更丰富的网络》,讲的是Google, Bing和Yahoo!三大搜索引擎联合发起的一个新项目schema.org,为网页上的结构化数据标记建立并提供一套通用模式。此前2009年,Google介绍了丰富网页摘要,以更好地展现那些描述人物或含有评论的搜索结果,后来又增加了很多新类型,参看更多关于丰富网页摘要和结构化标记的帮助信息。
我们很早前的实用查询网站(例如邮编库、查号吧)基本都是从一些数据库转换而来,后来的人工搜索、问版主采用的是主要靠人工编辑大篇幅文章的Wiki方式,不算是结构化数据,从去年开始大力发展的名录集网站包含的都是企业黄页信息,算是典型的结构化数据,到今年添加了大量外文企业名录、邮编等资料也都是从一些数据库而来,所以前两个月看到那篇文章的时候我特别留意。
到10月份,数据导入的过程大部分已经进行完毕,接下来会对前面的数据(目前应该已经过亿条)进行仔细检查、分类整理及各种完善操作,肯定需要把结构化数据特别标注出来,让搜索引擎更明白网页内容,在搜索结果页面中呈现更清晰的信息给浏览者。这个工作即将启动,估计会持续到今年年底才能全部整理完善一遍,所以开头也很重要,这几天我就多多浏览了相关信息,似乎国内的网站对这方面还不太重视,网上中文信息很少,我就做些笔记写在下面。
- 标记类型:可以标记的类型非常丰富,请看完整item types列表,一级分类是DataType和Thing两种,可以细分到第二、三、四级,我们常用的估计是Organization, Corporation, ContactPoint, PostalAddress, GeoCoordinates, Place, AdministrativeArea, City, Country, State以及部分行业分类的格式。
- 数据格式:支持微数据、微格式和RDFa的网页,但主要推荐微数据(Microdata),符合HTML5标准
- 标记例子:项目开头及类型<div itemscope itemtype="http://schema.org/Movie">,项目属性<h1 itemprop="name">Avatar</h1>,各类型的属性有很多种,实际使用中可以尽量多地采用
- 项目嵌套:可以有多级嵌套,例如电影导演的个人介绍<div itemprop="director" itemscope itemtype="http://schema.org/Person">,类型格式中的Expected types说明了可以继续嵌套的类型,实际使用中可以尽量考虑嵌套使用,也可以根据情况简单用文本方式而不用继续嵌套
- 分类列表:对于网站中的分类、列表页面,一般都是指向网站内的其他页面,也可以使用多条<div itemscope itemtype="http://schema.org/Person"><a href="alice.html" itemprop="url">Alice Jones</a></div>这样的标记
- 测试工具:Google管理员工具中有Rich Snippets Testing Tool可以使用,并带有几种例子
暂时先写到这里,昨天刚刚开始修改了一个网站的模板,也通过了测试,感觉也不是很难,重点是需要选择合适的项目类型、决定加入哪些项目属性以及是否要嵌套,另外分类列表还没有尝试过。等以后大规模投入使用中有心得再做记录。
自由标签
评论