采集

這是采集分類的頁面，點擊下面标題查看詳細文章内容：

By James Qi, 2019年10月8日

反采集工作重新規劃

　　被采集是我們一直遇到的麻煩，2013年我們就自己編寫網站防采集程序，從反采集程序的報告解讀看，這個程序起到了相當的作用，但後來因為下面幾點原因而停用：

自身需要使用數據庫，容易在被采集的高峰期引起擁堵；
對搜索引擎爬蟲使用host反查DNS有時因為網絡問題失敗，導緻誤判；
黑白名單機制不夠完善、靈活；
程序邏輯不夠完善、優化，應該采用定時方式的地方采取了每次訪問時運行，負荷過大；
采取了其它一些措施來進行反采集，例如：人工查看Apache日志來處理、安裝Apac

By James Qi, 2018年12月18日

用阿裡雲安全組屏蔽采集IP

　　最近和采集者杠上了，不斷與這些采集者糾纏，周一一大早就看到網站監控報警，服務器帶寬被占滿，在從iftop -i eth1看到有兩個IP段一直占據前列：

　　再仔細一查，這兩個IP段是已經被我們在.htaccess裡面屏蔽的，從tail -f access.log看這兩個IP段的地址訪問都是403被拒絕狀态，但不知道是哪家的傻爬蟲（220.243.135.*/220.243

By James Qi, 2018年12月14日

使用Apache模塊mod_qos反采集

　　反采集一直都是我們需要進行的工作，特殊是國内互聯網行業抄襲風氣太盛，其實我們不介意這些采集者把我們原創内容采過去，反正采集者也影響不了我們自己多少，但老是導緻我們服務器資源過載就很煩了。

　　以前一般用“Apache中設置屏蔽IP地址和URL網址來禁止采集”，高級一些的用法記錄在“識别User Agent屏蔽一些Web爬蟲防采集”，中途還專門“自己編寫網站防采集程序”，但用起來也有些不完善。

　　這兩個月提交百度熊掌号、MIP/AMP後，正常的爬蟲多起來，流量也多一些，跟着

By James Qi, 2017年8月1日

熱烈歡迎百度飓風算法，堅決支持打擊惡劣采集

　　我們的部分中文站點流量比較大，以前做百度聯盟都是黃金、白金會員，也因此被加入了百度官方建的幾個QQ群：“百度站長平台大咖群”、“百度SSP黃金會員⑥群”，我平時不太看群裡的消息，偶爾看一下近年來也多是曬窮、訴苦、抱怨、唱衰的居多。前一陣子看群裡說到“飓風算法”，就去搜索了一下，官方解釋是《百度推出飓風算法，嚴厲打擊惡劣采集》。

　　我們做了好些中文站點，除了很早期的網站以外，後面一些年做的在百度中表現都不太好，排名不高、流量不多，而在Google中的表現要好很多，我也因此一直覺得百度的技術差、

By James Qi, 2015年11月4日

屏蔽采集者專門進行站内搜索的爬蟲

　　網站内容抓取采集真是中國互聯網的一大特色，我們做了這麼多年網站，一直都遇到各種各樣對我們内容進行采集、複制的家夥。前一陣子發現一個網站 www.postcodequery.com 具體和我們的 www.postcodebas

By James Qi, 2014年11月6日

參加Drupal大數據采集培訓

　　10月份在公司進行Drupal内部講座的準備過程中，需要在網上搜索一些資料，正好看到北京亞艾元軟件有限責任公司近期有兩場培訓：

2014年10月20-24日上海大數據采集培訓班
2014年11月17-21日武漢Drupal及微信開發培訓班

　　看了一下，還很對我們的胃口，前面一個數據采集我們以前還涉及不多，但可能以後需要用到，後面一個對Drupal的全面介紹以及微信方面的擴展開發也很不錯。我們以前基本上都沒有特别參加外面的培訓，都是自己摸索學習的，有比較系統、深入的培訓肯定好了，所以

By James Qi, 2013年12月10日

反采集程序的報告解讀

　　最近把自己編寫的網站防采集程序進行了升級，添加了每日郵件報告的功能，各台服務器在每天淩晨将前一天被屏蔽的IP信息彙總發送郵件到指定郵箱。典型的郵件内容摘錄如下：

101 Bad IPs Found on 2013-12-11 from XXX.XXX.XXX.XXX

#count=1
request_time=>1386690568
remote_addr=>186.201.198.250
http_user_agent=>Mozilla/5.0 (

By James Qi, 2013年11月8日

　　在Drupal網站中使用PHP程序來屏蔽采集者效果還不錯，可以自己任意設定判斷标準。不過我們以前的MediaWiki平台上的網站還沒有使用這套PHP程序來屏蔽，最近發現采集又太多了，搞得服務器負載太高，老是從Apache日志人工排查太麻煩、太慢（以前的辦法見博文《Apache中設置屏蔽IP地址和URL網址來禁止采集》），今天花一些時間編寫了一個小程序來統計日志中的IP訪問數，程序很簡短，如下：

<?php
/*
* 統計Apache日志文件的IP，找出訪問最多的IP地址，方便發現采集者
* James Qi 2013-11-8
*/

//0

By James Qi, 2013年7月9日

自己編寫網站防采集程序

　　對于我們這種數據量很大的網站，面臨的一個麻煩是總有人來采集，以前多使用過人工檢查、屏蔽的辦法，這種辦法有效果但太費精力，前段時間也找了插件來自動限制最大連接數，但存在誤屏蔽搜索引擎的問題，最近老夫下決定親自操刀寫程序，把這些采集者都斬草除根，雖然

采集

采集