在网页中标记结构化数据，关于schema.org中microdata的笔记

由 James Qi, 2011年10月19日

　　前一阵子在Google Reader中看到一篇文章《schema.org：多个搜索引擎联合打造更丰富的网络》，讲的是Google, Bing和Yahoo!三大搜索引擎联合发起的一个新项目schema.org，为网页上的结构化数据标记建立并提供一套通用模式。此前2009年，Google介绍了丰富网页摘要，以更好地展现那些描述人物或含有评论的搜索结果，后来又增加了很多新类型，参看更多关于丰富网页摘要和结构化标记的帮助信息。

　　我们很早前的实用查询网站（例如邮编库、查号吧）基本都是从一些数据库转换而来，后来的人工搜索、问版主采用的是主要靠人工编辑大篇幅文章的Wiki方式，不算是结构化数据，从去年开始大力发展的名录集网站包含的都是企业黄页信息，算是典型的结构化数据，到今年添加了大量外文企业名录、邮编等资料也都是从一些数据库而来，所以前两个月看到那篇文章的时候我特别留意。

　　到10月份，数据导入的过程大部分已经进行完毕，接下来会对前面的数据（目前应该已经过亿条）进行仔细检查、分类整理及各种完善操作，肯定需要把结构化数据特别标注出来，让搜索引擎更明白网页内容，在搜索结果页面中呈现更清晰的信息给浏览者。这个工作即将启动，估计会持续到今年年底才能全部整理完善一遍，所以开头也很重要，这几天我就多多浏览了相关信息，似乎国内的网站对这方面还不太重视，网上中文信息很少，我就做些笔记写在下面。

标记类型：可以标记的类型非常丰富，请看完整item types列表，一级分类是DataType和Thing两种，可以细分到第二、三、四级，我们常用的估计是Organization, Corporation, ContactPoint, PostalAddress, GeoCoordinates, Place, AdministrativeArea, City, Country, State以及部分行业分类的格式。
数据格式：支持微数据、微格式和RDFa的网页，但主要推荐微数据(Microdata)，符合HTML5标准
标记例子：项目开头及类型<div itemscope itemtype="http://schema.org/Movie">，项目属性<h1 itemprop="name">Avatar</h1>，各类型的属性有很多种，实际使用中可以尽量多地采用
项目嵌套：可以有多级嵌套，例如电影导演的个人介绍<div itemprop="director" itemscope itemtype="http://schema.org/Person">，类型格式中的Expected types说明了可以继续嵌套的类型，实际使用中可以尽量考虑嵌套使用，也可以根据情况简单用文本方式而不用继续嵌套
分类列表：对于网站中的分类、列表页面，一般都是指向网站内的其他页面，也可以使用多条<div itemscope itemtype="http://schema.org/Person"><a href="alice.html" itemprop="url">Alice Jones</a></div>这样的标记
测试工具：Google管理员工具中有Rich Snippets Testing Tool可以使用，并带有几种例子

　　暂时先写到这里，昨天刚刚开始修改了一个网站的模板，也通过了测试，感觉也不是很难，重点是需要选择合适的项目类型、决定加入哪些项目属性以及是否要嵌套，另外分类列表还没有尝试过。等以后大规模投入使用中有心得再做记录。

自由标签

您的名字

验证码

此问题用于测试您是否是人类访问者并防止自动提交垃圾信息。

在网页中标记结构化数据，关于schema.org中microdata的笔记

评论

Plain text

站内搜索