最近幾天我們國内的兩個網站都遇到訪問困難,檢查發現是百度爬蟲抓取量大增,是以前正常情況的很多倍,導緻Web服務器CPU、帶寬以及數據庫服務器都難以應付。Googlebot也曾經出現類似情況。
辦法一(站長平台設置):
按照以前的辦法,我們是在百度資源平台或者Google Search Console中設置降低爬蟲的抓取速率,不過這樣設置後需要等待2-3天時間生效,而不能解決當時的問題。
最近幾天我們國内的兩個網站都遇到訪問困難,檢查發現是百度爬蟲抓取量大增,是以前正常情況的很多倍,導緻Web服務器CPU、帶寬以及數據庫服務器都難以應付。Googlebot也曾經出現類似情況。
按照以前的辦法,我們是在百度資源平台或者Google Search Console中設置降低爬蟲的抓取速率,不過這樣設置後需要等待2-3天時間生效,而不能解決當時的問題。
Google的Core Web Vitals(網站核心指标)指标推出後我們也一直在關注,但最主要是關注LCP(Largest Contentful Paint 顯示最大内容元素所需時間),對于FID(First Input Delay 首次輸入延遲/封鎖時間總計)和CLS(Cumulative Layout Shift 累計版面配置轉移)沒有非常在意。
最近在查看幾個主
IPSHU這個網站設立之初就是為用戶提供查詢IP地址對應地理位置服務的,不過實際上這方面的流量不多,競争很激烈,有很多網站提供非常類似的功能。
無心插柳柳成蔭,我們這個網站的内網IP地址頁面的訪問量還不錯,于是我們前幾年把内網IP頁面進行了全面改版,增加了很多用戶需要的信息,效果也是很明顯的。
為了讓外網IP頁面對用戶幫助更大、與其它網站有更大的不同,我
IPSHU網站最開始各種IP地址都用相同的格式顯示信息,都是顯示的IP地址的地理位置信息,但實際上内網IP和一些特殊IP地址是沒有地理位置信息的,幾年前将IP地址劃分為外網IP地址、内網IP地址和保留IP地址展示不同的信息,重點修改了内網IP地址的顯示内容,改為用戶更關心的路由器方面常見問答,效果應該是明顯的。
最近将保留IP地址的
前段時間對IP地址的AS自治系統分配、Whois的分配服務器、Whois的Json數據獲取等做了一些研究,編寫程序去把目前的IP地址段的Whois數據都獲取到、保存到數據庫表中,然後再去讀表、顯示。
下面是各洲的IP地址Whois頁面例子:
去年郵編庫與百度開展郵政編碼查詢合作後,效果還不錯,今年百度的人還主動找我們來做更多的智能小程序合作。我們很多年前就做工具類網站,所以也比較适合來做這一類小程序。下面是我們做的一個文字轉拼音的百度智能小程序。
這個功能很簡單所以也隻做了一個頁面,直接操作。不過對比其它類似網站或者小程序,我們還是有明顯優勢:添加了多音字的識别、增加了發音功能等。
下面是這個百度智能
有一段時間沒有更新博客了,剛才看到最新的一篇《IP地址查詢API來源收集》還是1月份寫的,現在正好在搜索一些IP地址查詢的數據庫,就接着記錄一篇吧。
這家算是國外名氣最大、最專業吧。有收費數據庫、免費數據庫,還有代理IP數據庫、API服務等,數據庫等字段很多,價格細分。其免費版本的精度稍差、字段少一些,使用時需要注明來源。
也是一家老牌的IP數據提供商,有收費數據庫、免費數據庫、代理數據庫、API服務等。免費數據庫的精度稍差,可以按照CC BY-SA 4.0注明
我們推出的ipshu.com做IP地址查詢有一些年了,甚至也推出過API,但沒有特别宣傳,後面就隻是公司其它項目在需要的時候調用,今年我們還準備做很多IP相關工作,其中也有重新推出IP查詢的API服務。
不過在推出之前,我們還要把數據質量做得更好一些,以及多對比其它IP查詢API的功能特點,下面是我收集整理的一些:
https://ipinfo.io/
這一個做得很專業,以前看到過報道,每日調用量超過了10億次,有比較強的全球團隊。免費版每月5萬次調用。收費有多種版本,每月從49美元到499美元,也可以定制版本或者行業解決方案。
EmojiAll.com網站沒有使用Drupal默認的搜索,以前使用我們自己PHP程序寫的搜索,可以在自建的表中進行搜索、匹配,在搜索不到内容的情況下也可以顯示Google Custom Search的結果,基本上可以滿足網友的搜索需求。
但是依然存在很明顯的問題,例如英文不是整個單詞匹配,而是字母匹配,中文也沒有詞組搜索等等,這個問題拖了很久,去年第4季度我們決定來改進,在商議使用辦法的時候主要有兩種:1、使用PHP程序來寫更複雜的搜索;2、使用Elastic Search來做更專業的搜索。
在反複商議權衡、請教公司使用過Elastic Sear
從2005年開始做AdSense到現在有10多年了,除了初始了解摸索階段以及我寫兩本書的階段,對AdSense及其它廣告平台的了解也沒有花費我們太多的時間,主要精力還是集中在網站内容、功能的發展上。前幾天剛剛進行了
2002-2023 v11.7 a-j-e-0