以前一直知道有专门的图片网站地图这个事情,但一直都没有去尝试。最近为多个网站添加了很多有特色的图片,所以又想起了图片网站地图这个事情,就专门去查阅了资料,主要是Google支持:
- 图片站点地图
- Google 图片最佳做法
其实Image Sitemap就是普通Sitemap的一种扩展,几个要点:
- 图片网站地图可以单独出现(与普通网站地图分开出现和提交),也可以添加到普通网站地图中
- 每条url页面中可以包含最多1000个图片元素
这是 网站地图 分类的页面,点击下面标题查看详细文章内容:
以前一直知道有专门的图片网站地图这个事情,但一直都没有去尝试。最近为多个网站添加了很多有特色的图片,所以又想起了图片网站地图这个事情,就专门去查阅了资料,主要是Google支持:
其实Image Sitemap就是普通Sitemap的一种扩展,几个要点:
好些年前,我们的网站就用PHP程序来动态生成robots.txt和sitemap.xml,其中网站地图用php来动态生成而没有保存成文件,因为有些站网址太多,怕sitemap文件过多、过大而占用磁盘空间。虽然动态生成会对数据量很大的数据库有一定影响,但经过一些优化还是可以承受的。但URL很多的网站还存在另外一个问题,就是sitemap被大量爬取,占用带宽,这个问题因为不是很普遍、很迫切,所以就一直放着没有动,只是把有一个站的php程序中添加了延时来让爬虫慢一点。
去年就发现我们有的网站在Google Search Console里面提交的网站地图一直都是“待定”状态(英文界面是“Pending”),重新提交也没有效果,前几天又和同事一起查看,发现有两个域名的系列网站全部都是网站地图处在“待定”状态,这应该有好多个月了,很是令人郁闷。
先以为是网站地图本身有问题,但打开都是正常的,用Google Search Console里面的“用Google方式打开”也可以正常获取内容,在其它验证网站地图的地方也可以通过验证,肯定不是网站
我们一直很重视网站地图对搜索引擎的提交,以前的MediaWiki自带生成sitemap的程序,Drupal也有专门的第三方扩展XML Sitemap程序。
但Drupal的这个扩展只能对node, user, taxonomy term, menu等生成网站地图,也可以手工添加custom网址加入地图中,但却无法把Views批量做成的页面都加进去。这个问题以前不算很突出、很重要,因为主要页面都是node页面或者分类页面,但采取“在Drupal中直接导入、使用数据库”的办法以后,一个网站的主要页面基本上都是Views生成的,这时Drupa
在向百度站长平台提交MIP (Mobile Instant Page - 移动网页加速器) 网址的时候,我们采用了《百度MIP版本链接的批量提交》一文中的办法,这样确实可以定时自动提交,不过要整理出需要提交的网址文本这个过程很耗时,特别是我们一些站点的网址数量庞大,用浏览器一页一页访问sitemap页面、保存、合并、替换、上传等每个环节都需要手工操作并苦苦等待。
今天下午干脆花了一些时间来编写了一个PHP程序,设置一些参数后,自动读取预设的sitemap网址、下载数据并进行替换、合并、保存到指定文件名下,整个过程无需手工操作,即使读取sitemap网址依然比较
刚才记录了一篇《自己编写的网站监控程序》,可以实现比较复杂的多系列网站巡检,设置第二个参数为sitemap.xml就可以检查网站地图。
不过看到以前还写过一个更简单的sitemap.xml检查程序monitor_xmlsitemap.php,也把PHP源代码贴出来:
<?php function check($host) { //$keyword = 'xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"'; $keyw
2013年8月份写了一篇博文《Drupal网站多语言版的站点地图自动转换》,是修改xmlsitemap.page.inc程序来实现多种语言网站的sitemap,这是多种语言网站提供对应的多种sitemap,博文中提到Google推荐的另外一种办法《通过站点地图指明备选语言网页》(英文版Use a sitemap to indicate alternate language pages, Multilingual and multinational site annotations in Sitemaps ,注意目前需要翻墙访问),是多种语言网站提供一个sitema
以前托管服务器或者租用的服务器一般都是100M共享的带宽,很少出现机器带宽被占满的情况,去年开始采用阿里云平台后,带宽就是一个不得不考虑的成本因素,我们一般都是每台ECS购买的10M左右带宽,每年费用已经不少了,而投入使用后很轻易就会被占满,关键是网站的流量并没有特别提升,广告收入没有增加,成本却在大幅提高,还导致正常用户访问变慢、困难。
同事在Linux服务器上安装了一个iftop来查看带宽占用情况,很容易就发现了是搜索引擎的爬虫抓取sitemap.xml这样的网址占用了很大带宽,我们网站系列多、页面多、还有多语言或者手机版,网站地图就特别的多,如果爬虫来得
9月份在搭建我们的第一个适合智能手机、平板电脑的移动版本网站“手机版邮编库”的时候,我们根据Google移动网站地图的规范,对Drupal自动生成的xmlsitemap进行了相应的人工修改,提供给搜索引擎抓取。昨天再次查看这个手机版本邮编库网站地图时,发现10月份这个地图进行了自动更新,生成的新地图没有人工修改来符合Google移动网站地图规范,于是今天早上再次修改,并将一些要点记录如下。
外部资料链接:
这个星期把前期导入的各国企业名录网站都初步搭建好了以后,抽空开始把以前的网站的sitemap提交到百度站长平台。在使用百度站长平台的时候,还使用了其“URL优化建议”的功能来检查我们网站,显示缺少meta description,虽然这不是一个至关重要的问题,但我们这次也顺便一起进行添加。
我们的网站主要有两种平台:去年以前的使用MediaWiki,今年的都是使用Drupal。MediaWiki在服务器上是每个子网站一个单独的目录,而Wiki的页面编辑中也无法添加description,所以我们采用了上传bdsitemap.tx
2002-2023 v11.7 a-j-e-0