您在這裡

限制AdSense不支持的語言網站的爬取速度

James Qi 在 2019年12月8日 - 23:30 發表

  我們有好些都添加了多語言的支持,采取Google翻譯與人工翻譯結合的方式來做,最多做了大幾十、上百種語言的網站,有些偏門的小語種(例如斯瓦西裡語,估計用這種語言做的網站很少)還比較受Googlebot爬蟲的歡迎,每日抓取量居然幾百萬次,讓服務器的CPU、帶寬等無法承受,隻好在Google Search Console裡面做了部分限制。

  有個問題也需要一下,那就是這些語言是否有AdSense廣告投放,如果完全沒有廣告投放,這服務器的資源還是純投入,雖然說為一些小語種提供無償服務也是一種值得做的貢獻,但可以适當限制投入。

  下面是在Google AdSense幫助中心裡面找到的AdSense支持的語言種類列表:

序号 縮寫 英文名稱 中文名稱 人數
1 ar Arabic 阿拉伯語 3.6億
2 bn Bengali 孟加拉語 2.07億
3 bg Bulgarian 保加利亞語 1000萬
4 ca Catalan 加泰羅尼亞語 1200萬
5 zh-hans Chinese (simplified) 中文(簡體) 14億
6 zh-hant Chinese (traditional) 中文(繁體)  
7 hr Croatian 克羅地亞語 2100萬
8 cs Czech 捷克語 1200萬
9 da Danish 丹麥語 580萬
10 nl Dutch 荷蘭語 2700萬
11 en English 英語 10億
12 et Estonian 愛沙尼亞語 90萬
13 fil Filipino 菲律賓語 2100萬
14 fi Finnish 芬蘭語 600萬
15 fr French 法語 3.4億
16 de German 德語 1億
17 el Greek 希臘語 2200萬
18 he Hebrew 希伯來語 510萬
19 hi Hindi 印地語 9億
20 hu Hungarian 匈牙利語 1500萬
21 id Indonesian 印尼語 2.5億
22 it Italian 意大利語 8000萬
23 ja Japanese 日語 1.25億
24 ko Korean 韓語 7800萬
25 lv Latvian 拉脫維亞語 200萬
26 lt Lithuanian 立陶宛語 300萬
27 ms Malay 馬來語 2300萬
28 mr Marathi 馬拉地語 9000萬
29 no Norwegian 挪威語 480萬
30 pl Polish 波蘭語 4200萬
31 pt Portuguese 葡萄牙語 2億
32 ro Romanian 羅馬尼亞語 2800萬
33 ru Russian 俄語 2.8億
34 sr Serbian 塞爾維亞語
35 sk Slovak 斯洛伐克語 600萬
36 sl Slovenian 斯洛文尼亞語 200萬
37 es Spanish 西班牙語 5億
38   Spanish (Latin American) 西班牙語(拉丁美洲)  
39 sv Swedish 瑞典語 1000萬
40 ta Tamil 泰米爾語 7700萬
41 te Telugu 泰盧固語 8000萬
42 th Thai 泰語 6500萬
43 tr Turkish 土耳其語 7000萬
44 uk Ukrainian 烏克蘭語 4700萬
45 ur Urdu 烏爾都語 2.7億
46 vi Vietnamese 越南語 7900萬

  有些我們做過網站但語言不在上面之列的主要有:

序号 縮寫 英文名稱 中文名稱  
1 sw Swahili  斯瓦西裡語 5500萬
2 af Afrikaan 南非荷蘭語 620萬
3 am Amharic 阿姆哈拉語 1700萬
4 az Azerbaijani 阿塞拜疆語 3100萬
5 be Belarusian 白俄羅斯語 720萬
6 co Corsica 科西嘉語
7 bs Bosnian 波斯尼亞語
8 cy Wales 威爾士語 300萬
9 tg Tajik 塔吉克語 430萬
10 gd Scots Gaelic 蘇格蘭蓋爾語 58萬
11 eo Esperanto 世界語 200-2000萬
12 ga Irish 愛爾蘭語 26萬
13 ht Kreyòl Ayisyen 海地克裡奧耳語 850萬
14 km Cambodian 高棉語 2100萬
15 my BURMESE Myanmar 緬甸語 4200萬
16 ne NEPALI Nepal  尼泊爾語 4000萬
  ha HAUSA Nigeria 豪薩語 3900萬
  ig IGBO Nigeria 伊博語 3500萬
  uz UZBEK 烏茲别克語 2300萬
  kk KAZAKH Kazakhstan 哈薩克語 1200萬
  mn Mongolian 蒙古語 570萬
  fa FARSI WESTERN Iran 波斯語 8200萬
  jv JAVANESE Indonesia, Java, Bali 爪哇語 8000萬
  sd SINDHI Pakistan 信德語 5400萬
  gu GUJARATI India 古吉拉特語 4600萬
    MAITHILI India 邁蒂利語 4500萬
  kn KANNADA India 卡納達語 4400萬
  ps PASHTO, Pakistan 普什圖語 3800萬
  ml MALAYALAM India 馬拉雅拉姆語 3700萬
    ORIYA India 奧利亞語 3100萬
    Sundanese Indonesia 巽他語 2700萬
  zu ZULU South Africa 祖魯語 2600萬
  so SOMALI Somalia 索馬裡語 2500萬
  yo YORUBA Nigeria 約魯巴語 2500萬
    TAGALOG Philippines 他加祿語 2200萬
    AWADHI India 阿瓦德語 2000萬
  mg MALAGASY Madagascar 馬爾加什語 2000萬
    UYGHUR 維吾爾語 2000萬
  si SINHALA Sri Lanka 僧伽羅語 1900萬
    AKAN Ghana 阿坎語 1900萬
    ASSAMESE India 阿薩姆 1400萬
    RWANDA Rwanda 盧旺達語 1000萬
    TATAR Russia 鞑靼語 800萬
  ky Kyrgyz Kyrgyzstan 柯爾克孜語 500萬
  sq Shqip 阿爾巴尼亞語 450萬
  hy

hayeren Հայերեն

亞美尼亞語

700萬
  is Icelandic Íslenska 冰島語 30萬
  mt Maltese Malti 馬耳他語 30萬
  su Sudanese    
  yi Yiddish 意第緒語 180萬
  xh Xhosa 科薩語 890萬
  sm Samoan 薩摩亞語 37萬
  pa Punjabi 旁遮普語
  mi Māori 毛利語
  lo Laothian 老撾語 680萬
  ku Kurdish 庫爾德語 2000-4000萬
  ka Georgian 格魯吉亞語 390萬
  eu Basque Euskera 巴士克語
  ny Chichewa 齊切瓦語 500萬
  lb Luxembourgish 盧森堡語 30萬
  nb Norwegian Bokmål    
  sn Shona 紹納語 900萬
  st Sesotho 索托語
  mk Macedonian Македонски 馬其頓語 200萬
  gl Galician Galego 加裡西亞語 300萬
  fy Frysk、Frasch、Fresk或Friisk 弗裡西語 50萬
  la Latīna 拉丁語  
         
         

​等等

  後面準備在Google Search Console裡面更改 Googlebot 抓取速度,在資源的“抓取速度設置”頁面進行一些必要的限制。例如:調整我個人博客網站被Google抓取速度的鍊接(需要有相應權限才能看到)。


  2020年3月30日補充:和同事商議,在年前删除數十種語言子網站的基礎上,再把ipshu.com訪問量很低的6種語言(ig, fy, am, eo, la, jv)删除,2020年4月17日再删除不是真正需要訪問這種語言的5種語言(sw, co, af, cy, ht)。删除需要做的工作:

  • 修改.htaccess,要删除的子域名跳轉到對應的英文版頁面

    删除語言子目錄的例子:

    # 2021-04-23 delete some languages

    RewriteCond %{REQUEST_URI} ^\/(af|sq|hy|az|eo|gl|ka|is|ga|mk|mt|sw|cy)\/(.*)$
    RewriteRule .* https://%{HTTP_HOST}/%2 [R=301,L]

    RewriteCond %{REQUEST_URI} ^\/(af|sq|hy|az|eo|gl|ka|is|ga|mk|mt|sw|cy)$
    RewriteRule .* https://%{HTTP_HOST}/ [R=301,L]

  • 修改robots.txt,排除要删除的子域名的爬取、收錄(實際沒有進行)
  • 修改Drupal網站語言設置,删除這些語言種類,html裡面的<link rel="alternate" hreflang=以及語言切換<option value="https://代碼就會自動删除這些種語言,如果系列網站太多可以用drush批量設置:

    LA=(af sq hy az eo gl ka is ga mk mt sw cy)

    for j in "${LA[@]}";do
      echo language: $j
      $d language-disable $j
    done
     

  • 在Google Search Console中設置删除這些子域名站點(本來準備設置站點轉移的,但首頁跳轉驗證不通過,就删除站點算了),如果是子目錄形式多語言設置就不用這一步

2020年9月26日補充:感謝網友的反饋指出問題,我寫這篇博客的時候adsense支持46種語言,現在去看已經支持49種語言了,那後面新增了對幾種語言的支持,包括:卡納達語、馬拉雅拉姆語、古吉拉特語,以後也還會有變化。

發表新回應

Plain text

  • 不允許使用 HTML 標籤。
  • 自動將網址與電子郵件地址轉變為連結。
  • 自動斷行和分段。