搜索引擎

這是搜索引擎分類的頁面，點擊下面标題查看詳細文章内容：

By James Qi, 2022年7月1日

有人惡意刷百度關鍵詞陷害我們網站

一、問題的發現

去年11月份的時候，我們陸續有幾個網站發現流量大幅減少，一開始還以為是正常波動或其它常規原因而沒有引起重視，直到幾周後來自百度搜索的流量持續大幅下降、好幾個網站都情況類似，才去深入檢查原因。🕵️

二、問題的檢查

結果在百度資源平台中發現"流量與關鍵詞"的熱門關鍵詞裡面有些明顯異常的數據，例如：

紅框中的一些關鍵

By James Qi, 2022年6月15日

緊急降低搜索引擎爬蟲抓取網站速度的辦法

最近幾天我們國内的兩個網站都遇到訪問困難，檢查發現是百度爬蟲抓取量大增，是以前正常情況的很多倍，導緻Web服務器CPU、帶寬以及數據庫服務器都難以應付。Googlebot也曾經出現類似情況。

辦法一（站長平台設置）：

按照以前的辦法，我們是在百度資源平台或者Google Search Console中設置降低爬蟲的抓取速率，不過這樣設置後需要等待2-3天時間生效，而不能解決當時的問題。

By James Qi, 2021年9月15日

郵編庫與百度合作在搜索引擎中查詢郵政編碼直接出結果

我們郵編庫網站提供郵政編碼查詢的服務有20多年曆史了，真的是比所有其它郵編查詢網站提供的時間更長、也更專注，這麼多年一直不斷在這個小小的領域默默改進。即使現在郵政編碼的使用頻率越來越低，查詢郵編的人比以前少了很多，我們卻反而推出任意地址郵編查詢、微信公衆号改進、用IP地址或者手機定位獲取用戶位置及郵政編碼，今年還推出大的改版更新。

很多年前看到百度中搜索郵政編碼會出現直接結果，标注來自郵政官方某機構，這種方式當時叫着百度的阿拉丁計劃，我們也曾經想去申請，但似乎門檻很高，就沒有花力氣聯系。

今年初接到百度相關人員的聯系，主動詢問我們是否願意參加這種合

By James Qi, 2019年10月8日

假冒搜索引擎爬蟲的識别

　　标明訪問者屬性的User Agent是可以由軟件進行修改的，所以有很多采集者為了防止自己被屏蔽，就把User Agent改為搜索引擎爬蟲的特征，例如：

googlebot：Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
baiduspider：mozilla/5.0 (compatible; baiduspider/2.0; +http://www.baidu.com/search/spider.html)

By James Qi, 2018年12月19日

不要誤屏蔽搜索引擎認為需要的資源

　　昨天剛寫了一篇《不要誤屏蔽百度MIP的爬蟲》，順着我們就繼續檢查其它站是否有被誤屏蔽的事情，流量來源主要是百度的國内站可以看百度站長平台（百度搜索資源平台）裡面的信息，流量來源主要是Google的國外站可以看Google Webmaster Tools (Google Search Console)。

　　今天同事發現一個台灣繁體版站的索引情況有異常：

By James Qi, 2018年12月14日

常見搜索引擎爬蟲IP地址段

　　我們在采用《使用Apache模塊mod_qos反采集》的辦法以後，确實有一些效果，但從apache報錯日志中看到也有百度、Google等搜索引擎的IP被屏蔽了，現在來收集整理一下常見搜索引擎的IP地址段，以便加入白名單中：

Googlebot：

66.249.
203.208.60.
216.239.
66.102.
64.233.
72.14.

Baiduspider：

By James Qi, 2016年2月2日

修改Drupal的xmlsitemap模塊來控制搜索引擎爬取網站地圖速度

　　以前托管服務器或者租用的服務器一般都是100M共享的帶寬，很少出現機器帶寬被占滿的情況，去年開始采用阿裡雲平台後，帶寬就是一個不得不考慮的成本因素，我們一般都是每台ECS購買的10M左右帶寬，每年費用已經不少了，而投入使用後很輕易就會被占滿，關鍵是網站的流量并沒有特别提升，廣告收入沒有增加，成本卻在大幅提高，還導緻正常用戶訪問變慢、困難。

　　同事在Linux服務器上安裝了一個iftop來查看帶寬占用情況，很容易就發現了是搜索引擎的爬蟲抓取sitemap.xml這樣的網址占用了很大帶寬，我們網站系列多、頁面多、還有多語言或者手機版，網站地圖就特别的多，如果爬蟲來得

By James Qi, 2011年10月31日

修改Drupal網站的robots.txt來避免搜索引擎蜘蛛直接爬取cache路徑的内容

　　前些天收到Google Webmaster Tools的提醒郵件：

Googlebot 發現您的網站中包含大量的網址：http://jilin.youbianku.com/

October 24, 2011

Googlebot 在抓取您的網站“http://jilin.youbianku.com/”時遇到問題。
Googlebot 在您的網站上抓取到了非常多的鍊接。這可能表示您網站的網址結構存在問題。這樣可能會使 Googleb

By James Qi, 2011年4月7日

　　前段時間更換服務器後，将各種限制都打開了，讓各種爬蟲也都自由訪問，包括各種搜索引擎或者采集軟件。但這兩天發現新服務器都不堪重負，同事在Squid的日志中找到大量來自1.202.218.*, 1.202.219.*, 1.202.220.*, 1.202.221.*的訪問，查看User-Agent信息是gosospider Mozilla/5.0 (compatible; GosoSpider; +http://www.goso.cn/aboutus.html)，原來是偉大、光榮、正确的“狗搜”來訪，雖然有受寵若驚的感覺，但也讓我們服務器的鴨梨過大。

搜索引擎

搜索引擎

一、問題的發現

二、問題的檢查

辦法一（站長平台設置）：

站内搜索