你在这里


网站地图

多语言网站xml sitemap中网址的相互链接

James Qi 2016年2月19日 - 10:10 发布

  2013年8月份写了一篇博文《Drupal网站多语言版的站点地图自动转换》,是修改xmlsitemap.page.inc程序来实现多种语言网站的sitemap,这是多种语言网站提供对应的多种sitemap,博文中提到Google推荐的另外一种办法《通过站点地图指明备选语言网页》(英文版Use a sitemap to indicate alternate language pages, 

修改Drupal的xmlsitemap模块来控制搜索引擎爬取网站地图速度

James Qi 2016年2月2日 - 16:40 发布

  以前托管服务器或者租用的服务器一般都是100M共享的带宽,很少出现机器带宽被占满的情况,去年开始采用阿里云平台后,带宽就是一个不得不考虑的成本因素,我们一般都是每台ECS购买的10M左右带宽,每年费用已经不少了,而投入使用后很轻易就会被占满,关键是网站的流量并没有特别提升,广告收入没有增加,成本却在大幅提高,还导致正常用户访问变慢、困难。

  同事在Linux服务器上安装了一个iftop来查看带宽占用情况,很容易就发现了是搜索引擎的爬虫抓取sitemap.xml这样的网址占用了很大带宽,我们网站系列多、页面多、还有多语言或者手机版,网站地图就特别的多,如果爬虫来得过于频繁就给我们不小困扰。

  但爬虫这种抓取活动还不宜直接屏蔽以免影响收录,所以考虑限制抓取速度的办法,安装了apache的mod_bw模块,还没有调试好,不过在网上搜索到文章说可以用PHP编程来实现控制下载速度,这个对我启发还比较大,因为我们正好修改过Drupal的xmlsitemap模块xmlsitemap.pages.inc文件来改变网站地图中的内容和格式,只要再把输出方式改一点、增加一点sleep循环就可以,代码如下:

移动手机网站的网站地图 (Mobile Web Sitemap)

James Qi 2011年12月30日 - 10:04 发布

  9月份在搭建我们的第一个适合智能手机、平板电脑的移动版本网站“手机版邮编库”的时候,我们根据Google移动网站地图的规范,对Drupal自动生成的xmlsitemap进行了相应的人工修改,提供给搜索引擎抓取。昨天再次查看这个手机版本邮编库网站地图时,发现10月份这个地图进行了自动更新,生成的新地图没有人工修改来符合Google移动网站地图规范,于是今天早上再次修改,并将一些要点记录如下。

  外部资料链接:

在百度站长平台中提交了网站地图,顺便为网站首页添加了Description

James Qi 2011年10月14日 - 15:09 发布

  这个星期把前期导入的各国企业名录网站都初步搭建好了以后,抽空开始把以前的网站的sitemap提交到百度站长平台。在使用百度站长平台的时候,还使用了其“URL优化建议”的功能来检查我们网站,显示缺少meta description,虽然这不是一个至关重要的问题,但我们这次也顺便一起进行添加。

  我们的网站主要有两种平台:去年以前的使用MediaWiki,今年的都是使用Drupal。MediaWiki在服务器上是每个子网站一个单独的目录,而Wiki的页面编辑中也无法添加description,所以我们采用了上传bdsitemap.txt的办法来进行验证,并使用mediawiki的description插件来添加首页描述;而对于Drupal来说,是多个子网站共享一个目录,不能用一个统一的bdsitemap.txt来验证,就采用了修改首页meta的办法来进行,也顺便添加了keys和description的meta内容。

  我们子网站数量多,逐步添加,还算顺利,不过上次日志中提到的百度提示一部分mediawiki生成的gz压缩文件解压失败的问题始终存在,尝试修改服务器上的apache等设置还是无法解决,就干脆将出错的网站全部修改生成sitemap的设置,取消压缩,然后再次提交就都OK了。

订阅 RSS - 网站地图