今年2月份开始,我们花了好些时间精力来排查几个网站在Google中流量下降的问题,我写了《低质重复页面排查和处理》的PPT和同事进行了分享,并且在随后的一段时间中以几个实际网站为例子进行详细排查和处理。虽然自己以前感觉对SEO的了解很长时间了,算得上是专家了,但实际上还是有些方面没有搞透彻,这次算是深究到底了,有不少新的收获。
例如,在Google Search Console的菜单“网页 - 网页索引编制 - 改进网页的呈现效果”中有“已编入索引,尽管遭到 robots.txt 屏蔽”,以前没有特别关注,现在发现都是我们在robots.txt中屏蔽、不想Google去爬取、收录的页面,但现在Google还是收录了,是因为这些被屏蔽的页面有内部或者外部的链接。虽然这些页面中大部分html源代码中都有noindex或者canonical标签来让Google不收录,但因为robots.txt不要Googlebot来爬取网页内容,所以Google并不能获得这些页面的html源代码,因而也不知道noindex或者canonical标签,导致最后还是被收录了。
这不算一个大问题,但在robots.txt的处理中显得不够规范,而且延续了10多年的时间,这次就修改了robots.txt,把以前增加的屏蔽路径都放开了,让Googlebot可以爬取html页面内容,从而知道noindex或者canonical。
参考链接:
评论2
我最近也遇到类似的问题
我最近也遇到类似的问题。老一套的robots通常都是静态资源屏蔽了,比如css,js脚本。这对很多前后端分离动态生成内容的网站其实也是很大的问题,Google本来是可以渲染JavaScript的,如果拦截了就没法执行。感觉robots现在已经可有可无了。感觉应该完全放开,然后用 noindex 来处理。是的,我们以前对noindex不了解、不重视
是的,我们以前对noindex不了解、不重视,只是用robots.txt来屏蔽,现在看确实应该在robots.txt中尽量少屏蔽,而是在页面中采用noindex更正规。