Email

這是 Email 分類的頁面，點擊下面标題查看詳細文章内容：

By James Qi, 2018年7月14日

屏蔽一種搜索Email的有害爬蟲

　　我們一些大數據量的網站總是淪為爬蟲獲取信息的對象，導緻大量消耗服務器資源。有些爬蟲是為了采集整個網頁，也有些隻來找尋郵箱等聯系方式信息。

　　前段時間發現有一陣爬蟲特别多，從apache日志裡面看到這樣的特征：

115.151.110.238 - - [14/Jul/2018:18:03:01 +0800] port:443 "liaoning.mingluji.com" "GET /%E5%AE%89%E5%BE%BD%E5%A5%BD%E6%80%9D%E5%AE%B6%E6%B6%82%E6%96%9

By James Qi, 2011年9月8日

帶Email的美國企業名錄數據：United States Business Directory Library

　　7月份搭建了不帶Email的美國企業名錄數據50個州子網站，雖然數量達到2000萬之巨，但導入、處理的速度比預期的2個月提前了1個月，于是多出來的8月份就可以将帶有Email的另外一套美國企業名錄也做成網站，這批數據也有900萬之多，到目前基本上都導入、處理完了，請看：

Email

站内搜索