AMP廣告終于可以在中國大陸顯示了
從2017年3月就準備開始使用Google推薦的AMP (Accelerated Mobile Pages) “加速移動網頁”,先後把Drupal網站和MediaWiki網站都
這是屏蔽分類的頁面,點擊下面标題查看詳細文章内容:
從2017年3月就準備開始使用Google推薦的AMP (Accelerated Mobile Pages) “加速移動網頁”,先後把Drupal網站和MediaWiki網站都
昨天剛寫了一篇《不要誤屏蔽百度MIP的爬蟲》,順着我們就繼續檢查其它站是否有被誤屏蔽的事情,流量來源主要是百度的國内站可以看百度站長平
我們很早前就開始做百度MIP版本頁面了,通過這種方式也獲得了流量的增長和比較好的用戶體驗。但最近流量不太穩定,有的站MIP流量曾經很高,但後來跌落很厲害。還有的站MIP流量下降後,對應的普通WEB版流量上升。
我們做了各種推測和試驗,今天發現了一條重要線索:百度的MIP爬蟲曾經被我們屏蔽。
最近新增了一些網站内容,結果正常的訪問者還沒有開始來,采集的爬蟲就來了,真像是嗜血的鲨魚,發現哪裡有美味馬上就盯上了😰。
近期也看了一些關于反采集的文章,世上沒有完美、一勞永逸的反采集辦法,成了與采集者的對峙,雙方不斷變換對抗辦法,成了一種體力活。
我們一些大數據量的網站總是淪為爬蟲獲取信息的對象,導緻大量消耗服務器資源。有些爬蟲是為了采集整個網頁,也有些隻來找尋郵箱等聯系方式信息。
前段時間發現有一陣爬蟲特别多,從apache日志裡面看到這樣的特征:
隻要是建有數據量比較多的網站,幾乎不可避免采集的情況,這方面我們已經有多年的對付經驗,主要是通過分析Web訪問日志,找到采集的規律,相應來設置屏蔽IP地址或者URL網址來解決。