你在这里


屏蔽

屏蔽采集者专门进行站内搜索的爬虫

James Qi 2015年11月4日 - 11:54 发布

  网站内容抓取采集真是中国互联网的一大特色,我们做了这么多年网站,一直都遇到各种各样对我们内容进行采集、复制的家伙。前一阵子发现一个网站 www.postcodequery.com 具体和我们的 www.postcodebase.com 几乎内容一样,也真是煞费苦心。no

  另外近期在搬迁一些Wiki网站到云服务器上的时候,发现RDS会急剧升高、卡死,从MySQL进程来看是一些内部搜索语句造成的,显然正常的访问者搜索不会这么多、这么快,只能是机器人采集才会这样,当时来不及查就临时把内部搜索功能关闭了。

  但关闭功能毕竟不是长久之计,今天早上再次排查、处理,过程如下:

Apache中设置屏蔽IP地址和URL网址来禁止采集

James Qi 2012年11月23日 - 11:31 发布

  只要是建有数据量比较多的网站,几乎不可避免采集的情况,这方面我们已经有多年的对付经验,主要是通过分析Web访问日志,找到采集的规律,相应来设置屏蔽IP地址或者URL网址来解决。

  国内的Linux服务器上我们都安装了Squid作为Apache的前端缓存,所以我们遇到采集的情况就分析Squid的日志,在squid.conf文件中进行设置屏蔽,然后重启Squid服务就可以。

  近期租用的国外Linux服务器上默认是没有Squid的,我们也就只用了Apache作为Web服务器,修改了httpd.conf来让Apache的日志文件显示更详细的虚拟主机域名、User-Agent等信息,以便遇到采集的情况可以分析。

  前一阵子遇到来自固定某个或者某段IP的采集,我们就修改httpd.conf文件,在影响的主机设置中添加这样的代码:

Order Deny,Allow
Deny from 125.115.2.85
Deny from 91.228.196.234

  然后重启Apache服务就可以。

人民网的狗搜蜘蛛Gosospider被我们网站屏蔽

James Qi 2011年4月7日 - 23:20 发布

  前段时间更换服务器后,将各种限制都打开了,让各种爬虫也都自由访问,包括各种搜索引擎或者采集软件。但这两天发现新服务器都不堪重负,同事在Squid的日志中找到大量来自1.202.218.*, 1.202.219.*, 1.202.220.*, 1.202.221.*的访问,查看User-Agent信息是gosospider Mozilla/5.0 (compatible; GosoSpider; +http://www.goso.cn/aboutus.html),原来是伟大、光荣、正确的“狗搜”来访,虽然有受宠若惊的感觉,但也让我们服务器的鸭梨过大。

  以前Sosospider曾经让我们的服务器负载过高,现在换成这个Goso了,它们都是心急火燎地希望马上把你的网站上的内容全部爬光的那种,放出的大量蜘蛛以极快的速度多路同时抓取,即使把你网站搞瘫痪也全然不顾。没有办法,咱们没有这个福分享受邓亚萍同志领衔的国家级权威服务,还是都屏蔽掉吧。

网站不宜大量、长期屏蔽未知来源IP

James Qi 2011年3月7日 - 21:58 发布

  同事在家一直用联通的3G无线网络上网,但总是说无法访问我们自己的网站,也没有查到原因,以为是联通和电信之间互联互通的问题(以前似乎确实出现过)。

  这几天同事把联通3G上网卡带来,我今天安放在三星的平板电脑上,发现访问其它网站甚至我们公司放在另外机房的网站都正常,只是访问我们自己运营的网站时报错,而报错很明显,是被我们的Squid拒绝了。我查了上网卡的IP并不在我们的屏蔽IP之中,但解开所有被屏蔽IP后,这个上网卡也可以顺利访问我们网站了。这可能是联通上网卡的IP和路由比较奇怪,我们在以前发现来自某些IP大量访问引起服务器负载过高后,进行了屏蔽,因而也误让一些手机上网卡无法访问我们网站了。

  我想起去年以前就曾经有网友发邮件到我们留在Squid拒绝访问页面上的邮箱,询问为何不能访问,我们当时也比较忽略,没有多管。看来以后要很谨慎对待屏蔽IP的措施,避免大量和长期屏蔽,即使有必要保障服务器能正常访问而临时屏蔽IP,稍后也要解开。最好的办法是通过硬件的升级和软件的优化,让负载能力提升到相当的程度,不怕临时负载过高、一些采集程序和不良爬虫。

  上周新购入一台16核CPU+16G内存服务器后,再次出手添置了两台同配置机器,本周内到货,这次是下定决心,首先将硬件瓶颈突破,争取让网站的负载能力、访问速度有个跨级别的提升。

自由标签:

订阅 RSS - 屏蔽