采集

这是采集分类的页面，点击下面标题查看详细文章内容：

由 James Qi, 2019年10月8日

反采集工作重新规划

　　被采集是我们一直遇到的麻烦，2013年我们就自己编写网站防采集程序，从反采集程序的报告解读看，这个程序起到了相当的作用，但后来因为下面几点原因而停用：

自身需要使用数据库，容易在被采集的高峰期引起拥堵；
对搜索引擎爬虫使用host反查DNS有时因为网络问题失败，导致误判；
黑白名单机制不够完善、灵活；
程序逻辑不够完善、优化，应该采用定时方式的地方采取了每次访问时运行，负荷过大；
采取了其它一些措施来进行反采集，例如：人工查看Apache日志来处理、安装Apac

由 James Qi, 2018年12月18日

用阿里云安全组屏蔽采集IP

　　最近和采集者杠上了，不断与这些采集者纠缠，周一一大早就看到网站监控报警，服务器带宽被占满，在从iftop -i eth1看到有两个IP段一直占据前列：

　　再仔细一查，这两个IP段是已经被我们在.htaccess里面屏蔽的，从tail -f access.log看这两个IP段的地址访问都是403被拒绝状态，但不知道是哪家的傻爬虫（220.243.135.*/220.243

由 James Qi, 2018年12月14日

使用Apache模块mod_qos反采集

　　反采集一直都是我们需要进行的工作，特殊是国内互联网行业抄袭风气太盛，其实我们不介意这些采集者把我们原创内容采过去，反正采集者也影响不了我们自己多少，但老是导致我们服务器资源过载就很烦了。

　　以前一般用“Apache中设置屏蔽IP地址和URL网址来禁止采集”，高级一些的用法记录在“识别User Agent屏蔽一些Web爬虫防采集”，中途还专门“自己编写网站防采集程序”，但用起来也有些不完善。

　　这两个月提交百度熊掌号、MIP/AMP后，正常的爬虫多起来，流量也多一些，跟着

由 James Qi, 2017年8月1日

热烈欢迎百度飓风算法，坚决支持打击恶劣采集

　　我们的部分中文站点流量比较大，以前做百度联盟都是黄金、白金会员，也因此被加入了百度官方建的几个QQ群：“百度站长平台大咖群”、“百度SSP黄金会员⑥群”，我平时不太看群里的消息，偶尔看一下近年来也多是晒穷、诉苦、抱怨、唱衰的居多。前一阵子看群里说到“飓风算法”，就去搜索了一下，官方解释是《百度推出飓风算法，严厉打击恶劣采集》。

　　我们做了好些中文站点，除了很早期的网站以外，后面一些年做的在百度中表现都不太好，排名不高、流量不多，而在Google中的表现要好很多，我也因此一直觉得百度的技术差、

由 James Qi, 2015年11月4日

屏蔽采集者专门进行站内搜索的爬虫

　　网站内容抓取采集真是中国互联网的一大特色，我们做了这么多年网站，一直都遇到各种各样对我们内容进行采集、复制的家伙。前一阵子发现一个网站 www.postcodequery.com 具体和我们的 www.postcodebas

由 James Qi, 2014年11月6日

参加Drupal大数据采集培训

　　10月份在公司进行Drupal内部讲座的准备过程中，需要在网上搜索一些资料，正好看到北京亚艾元软件有限责任公司近期有两场培训：

2014年10月20-24日上海大数据采集培训班
2014年11月17-21日武汉Drupal及微信开发培训班

　　看了一下，还很对我们的胃口，前面一个数据采集我们以前还涉及不多，但可能以后需要用到，后面一个对Drupal的全面介绍以及微信方面的扩展开发也很不错。我们以前基本上都没有特别参加外面的培训，都是自己摸索学习的，有比较系统、深入的培训肯定好了，所以

由 James Qi, 2013年12月10日

反采集程序的报告解读

　　最近把自己编写的网站防采集程序进行了升级，添加了每日邮件报告的功能，各台服务器在每天凌晨将前一天被屏蔽的IP信息汇总发送邮件到指定邮箱。典型的邮件内容摘录如下：

101 Bad IPs Found on 2013-12-11 from XXX.XXX.XXX.XXX

#count=1
request_time=>1386690568
remote_addr=>186.201.198.250
http_user_agent=>Mozilla/5.0 (

由 James Qi, 2013年11月8日

　　在Drupal网站中使用PHP程序来屏蔽采集者效果还不错，可以自己任意设定判断标准。不过我们以前的MediaWiki平台上的网站还没有使用这套PHP程序来屏蔽，最近发现采集又太多了，搞得服务器负载太高，老是从Apache日志人工排查太麻烦、太慢（以前的办法见博文《Apache中设置屏蔽IP地址和URL网址来禁止采集》），今天花一些时间编写了一个小程序来统计日志中的IP访问数，程序很简短，如下：

<?php
/*
* 统计Apache日志文件的IP，找出访问最多的IP地址，方便发现采集者
* James Qi 2013-11-8
*/

//0

由 James Qi, 2013年7月9日

自己编写网站防采集程序

　　对于我们这种数据量很大的网站，面临的一个麻烦是总有人来采集，以前多使用过人工检查、屏蔽的办法，这种办法有效果但太费精力，前段时间也找了插件来自动限制最大连接数，但存在误屏蔽搜索引擎的问题，最近老夫下决定亲自操刀写程序，把这些采集者都斩草除根，虽然

采集

采集