由 James Qi, 2023年3月22日 Google Search Console中检查和处理“已编入索引,尽管遭到 robots.txt 屏蔽” 今年2月份开始,我们花了好些时间精力来排查几个网站在Google中流量下降的问题,我写了《低质重复页面排查和处理》的PPT和同事进行了分享,并且在随后的一段时间中以几个实际网站为例子进行详细排查和处理。虽然自己以前感觉对SEO的了解很长时间了,算得上是专家了,但实际上还是有些方面没有搞透彻,这次算是深究到底了,有不少新的收获。 例
由 James Qi, 2018年12月19日 不要误屏蔽搜索引擎认为需要的资源 昨天刚写了一篇《不要误屏蔽百度MIP的爬虫》,顺着我们就继续检查其它站是否有被误屏蔽的事情,流量来源主要是百度的国内站可以看百度站长平台(百度搜索资源平台)里面的信息,流量来源主要是Google的国外站可以看Google Webmaster Tools (Google Search Console)。 今天同事发现一个台湾繁体版站的索引情况有异常:
由 James Qi, 2013年8月30日 动态生成robots.txt的PHP程序 以前尝试过《Drupal系列网站用robotstxt模块生成独立robots.txt》,可以实现多站点的每个站点都有不同的robots.txt,但缺点是需要逐个编辑,当子站数量多、修改次数多的时候,依然显得麻烦。 后来也尝试过程序动态生成robots.txt,但一直没有成功,昨天还尝试了在自定义module中编写,但显示的内容包含在html.tpl.php, page.tpl.php等模板之中,也不行。 再多查了一些网上的资料并反复测试,终于是可以实现了,步骤如下: 删除原来的robots.txt; 由 James Qi, 2012年10月24日 Drupal系列网站用robotstxt模块生成独立robots.txt Drupal系统本身支持多站点,默认情况下,这些系列网站都是用同一个robots.txt文件,这在多数情况下都很方便,但我们发现在robots.txt中添加过多的Sitemap:标签来提交站点地图的时候,Google Webmaster Tools会因为robots.txt文件过大而进行变换、截取,从而这些提交无效。 以前知道有个RobotsTxt的插件,但为了让系统保持精简就没有安装过,这两天尝试了安装这个模块,还是比较方便的,可以在菜单中编辑每个站点自己的robots.txt,而且会自动在底部添加一个sitemap提交。 我们的多语言网站可 由 James Qi, 2011年10月31日 修改Drupal网站的robots.txt来避免搜索引擎蜘蛛直接爬取cache路径的内容 前些天收到Google Webmaster Tools的提醒邮件: Googlebot 发现您的网站中包含大量的网址:http://jilin.youbianku.com/ October 24, 2011 Googlebot 在抓取您的网站“http://jilin.youbianku.com/”时遇到问题。 Googlebot 在您的网站上抓取到了非常多的链接。 这可能表示您网站的网址结构存在问题。 这样可能会使 Googleb
由 James Qi, 2012年10月24日 Drupal系列网站用robotstxt模块生成独立robots.txt Drupal系统本身支持多站点,默认情况下,这些系列网站都是用同一个robots.txt文件,这在多数情况下都很方便,但我们发现在robots.txt中添加过多的Sitemap:标签来提交站点地图的时候,Google Webmaster Tools会因为robots.txt文件过大而进行变换、截取,从而这些提交无效。 以前知道有个RobotsTxt的插件,但为了让系统保持精简就没有安装过,这两天尝试了安装这个模块,还是比较方便的,可以在菜单中编辑每个站点自己的robots.txt,而且会自动在底部添加一个sitemap提交。 我们的多语言网站可
由 James Qi, 2011年10月31日 修改Drupal网站的robots.txt来避免搜索引擎蜘蛛直接爬取cache路径的内容 前些天收到Google Webmaster Tools的提醒邮件: Googlebot 发现您的网站中包含大量的网址:http://jilin.youbianku.com/ October 24, 2011 Googlebot 在抓取您的网站“http://jilin.youbianku.com/”时遇到问题。 Googlebot 在您的网站上抓取到了非常多的链接。 这可能表示您网站的网址结构存在问题。 这样可能会使 Googleb