被采集是我们一直遇到的麻烦,2013年我们就自己编写网站防采集程序,从反采集程序的报告解读看,这个程序起到了相当的作用,但后来因为下面几点原因而停用:
- 自身需要使用数据库,容易在被采集的高峰期引起拥堵;
- 对搜索引擎爬虫使用host反查DNS有时因为网络问题失败,导致误判;
- 黑白名单机制不够完善、灵活;
- 程序逻辑不够完善、优化,应该采用定时方式的地方采取了每次访问时运行,负荷过大;
- 采取了其它一些措施来进行反采集,例如:人工查看Apache日志来处理、安装Apac
这是 采集 分类的页面,点击下面标题查看详细文章内容:
被采集是我们一直遇到的麻烦,2013年我们就自己编写网站防采集程序,从反采集程序的报告解读看,这个程序起到了相当的作用,但后来因为下面几点原因而停用:
最近和采集者杠上了,不断与这些采集者纠缠,周一一大早就看到网站监控报警,服务器带宽被占满,在从iftop -i eth1看到有两个IP段一直占据前列:
再仔细一查,这两个IP段是已经被我们在.htaccess里面屏蔽的,从tail -f access.log看这两个IP段的地址访问都是403被拒绝状态,但不知道是哪家的傻爬虫(220.243.135.*/220.243
最近新增了一些网站内容,结果正常的访问者还没有开始来,采集的爬虫就来了,真像是嗜血的鲨鱼,发现哪里有美味马上就盯上了😰。
近期也看了一些关于反采集的文章,世上没有完美、一劳永逸的反采集办法,成了与采集者的对峙,双方不断变换对抗办法,成了一种体力活。
我们现在也不得不采取更严格的反采集措施,看到很多采集IP都来自amazon云计算,这就可以用hostname反查来进行屏蔽,以前曾经做过测试,今天再次测试并记录。
在apache的httpd.conf文件中添加一行:
HostnameLoo
反采集一直都是我们需要进行的工作,特殊是国内互联网行业抄袭风气太盛,其实我们不介意这些采集者把我们原创内容采过去,反正采集者也影响不了我们自己多少,但老是导致我们服务器资源过载就很烦了。
以前一般用“Apache中设置屏蔽IP地址和URL网址来禁止采集”,高级一些的用法记录在“识别User Agent屏蔽一些Web爬虫防采集”,中途还专门“自己编写网站防采集程序”,但用起来也有些不完善。
这两个月提交百度熊掌号、MIP/AMP后,正常的爬虫多起来,流量也多一些,跟着
我们的部分中文站点流量比较大,以前做百度联盟都是黄金、白金会员,也因此被加入了百度官方建的几个QQ群:“百度站长平台大咖群”、“百度SSP黄金会员⑥群”,我平时不太看群里的消息,偶尔看一下近年来也多是晒穷、诉苦、抱怨、唱衰的居多。前一阵子看群里说到“飓风算法”,就去搜索了一下,官方解释是《百度推出飓风算法,严厉打击恶劣采集》。
我们做了好些中文站点,除了很早期的网站以外,后面一些年做的在百度中表现都不太好,排名不高、流量不多,而在Google中的表现要好很多,我也因此一直觉得百度的技术差、
网站内容抓取采集真是中国互联网的一大特色,我们做了这么多年网站,一直都遇到各种各样对我们内容进行采集、复制的家伙。前一阵子发现一个网站 www.postcodequery.com 具体和我们的 www.postcodebas
10月份在公司进行Drupal内部讲座的准备过程中,需要在网上搜索一些资料,正好看到北京亚艾元软件有限责任公司近期有两场培训:
看了一下,还很对我们的胃口,前面一个数据采集我们以前还涉及不多,但可能以后需要用到,后面一个对Drupal的全面介绍以及微信方面的扩展开发也很不错。我们以前基本上都没有特别参加外面的培训,都是自己摸索学习的,有比较系统、深入的培训肯定好了,所以
最近把自己编写的网站防采集程序进行了升级,添加了每日邮件报告的功能,各台服务器在每天凌晨将前一天被屏蔽的IP信息汇总发送邮件到指定邮箱。典型的邮件内容摘录如下:
101 Bad IPs Found on 2013-12-11 from XXX.XXX.XXX.XXX
#count=1
request_time=>1386690568
remote_addr=>186.201.198.250
http_user_agent=>Mozilla/5.0 (
在Drupal网站中使用PHP程序来屏蔽采集者效果还不错,可以自己任意设定判断标准。不过我们以前的MediaWiki平台上的网站还没有使用这套PHP程序来屏蔽,最近发现采集又太多了,搞得服务器负载太高,老是从Apache日志人工排查太麻烦、太慢(以前的办法见博文《Apache中设置屏蔽IP地址和URL网址来禁止采集》),今天花一些时间编写了一个小程序来统计日志中的IP访问数,程序很简短,如下:
<?php /* * 统计Apache日志文件的IP,找出访问最多的IP地址,方便发现采集者 * James Qi 2013-11-8 */ //0
对于我们这种数据量很大的网站,面临的一个麻烦是总有人来采集,以前多使用过人工检查、屏蔽的办法,这种办法有效果但太费精力,前段时间也找了插件来自动限制最大连接数,但存在误屏蔽搜索引擎的问题,最近老夫下决定亲自操刀写程序,把这些采集者都斩草除根,虽然
2002-2023 v11.7 a-j-e-0