前一陣子在Google Reader中看到一篇文章《schema.org:多個搜索引擎聯合打造更豐富的網絡》,講的是Google, Bing和Yahoo!三大搜索引擎聯合發起的一個新項目schema.org,為網頁上的結構化數據标記建立并提供一套通用模式。此前2009年,Google介紹了豐富網頁摘要,以更好地展現那些描述人物或含有評論的搜索結果,後來又增加了很多新類型,參看更多關于豐富網頁摘要和結構化标記的幫助信息。
我們很早前的實用查詢網站(例如郵編庫、查号吧)基本都是從一些數據庫轉換而來,後來的人工搜索、問版主采用的是主要靠人工編輯大篇幅文章的Wiki方式,不算是結構化數據,從去年開始大力發展的名錄集網站包含的都是企業黃頁信息,算是典型的結構化數據,到今年添加了大量外文企業名錄、郵編等資料也都是從一些數據庫而來,所以前兩個月看到那篇文章的時候我特别留意。
到10月份,數據導入的過程大部分已經進行完畢,接下來會對前面的數據(目前應該已經過億條)進行仔細檢查、分類整理及各種完善操作,肯定需要把結構化數據特别标注出來,讓搜索引擎更明白網頁内容,在搜索結果頁面中呈現更清晰的信息給浏覽者。這個工作即将啟動,估計會持續到今年年底才能全部整理完善一遍,所以開頭也很重要,這幾天我就多多浏覽了相關信息,似乎國内的網站對這方面還不太重視,網上中文信息很少,我就做些筆記寫在下面。
- 标記類型:可以标記的類型非常豐富,請看完整item types列表,一級分類是DataType和Thing兩種,可以細分到第二、三、四級,我們常用的估計是Organization, Corporation, ContactPoint, PostalAddress, GeoCoordinates, Place, AdministrativeArea, City, Country, State以及部分行業分類的格式。
- 數據格式:支持微數據、微格式和RDFa的網頁,但主要推薦微數據(Microdata),符合HTML5标準
- 标記例子:項目開頭及類型<div itemscope itemtype="http://schema.org/Movie">,項目屬性<h1 itemprop="name">Avatar</h1>,各類型的屬性有很多種,實際使用中可以盡量多地采用
- 項目嵌套:可以有多級嵌套,例如電影導演的個人介紹<div itemprop="director" itemscope itemtype="http://schema.org/Person">,類型格式中的Expected types說明了可以繼續嵌套的類型,實際使用中可以盡量考慮嵌套使用,也可以根據情況簡單用文本方式而不用繼續嵌套
- 分類列表:對于網站中的分類、列表頁面,一般都是指向網站内的其他頁面,也可以使用多條<div itemscope itemtype="http://schema.org/Person"><a href="alice.html" itemprop="url">Alice Jones</a></div>這樣的标記
- 測試工具:Google管理員工具中有Rich Snippets Testing Tool可以使用,并帶有幾種例子
暫時先寫到這裡,昨天剛剛開始修改了一個網站的模闆,也通過了測試,感覺也不是很難,重點是需要選擇合适的項目類型、決定加入哪些項目屬性以及是否要嵌套,另外分類列表還沒有嘗試過。等以後大規模投入使用中有心得再做記錄。
自由标簽
评论