当前位置

限制AdSense不支持的语言网站的爬取速度

James Qi 在 2019年12月8日 - 23:30 提交

  我们有好些都添加了多语言的支持,采取Google翻译与人工翻译结合的方式来做,最多做了大几十、上百种语言的网站,有些偏门的小语种(例如斯瓦西里语,估计用这种语言做的网站很少)还比较受Googlebot爬虫的欢迎,每日抓取量居然几百万次,让服务器的CPU、带宽等无法承受,只好在Google Search Console里面做了部分限制。

  有个问题也需要一下,那就是这些语言是否有AdSense广告投放,如果完全没有广告投放,这服务器的资源还是纯投入,虽然说为一些小语种提供无偿服务也是一种值得做的贡献,但可以适当限制投入。

  下面是在Google AdSense帮助中心里面找到的AdSense支持的语言种类列表:

序号 缩写 英文名称 中文名称 人数
1 ar Arabic 阿拉伯语 3.6亿
2 bn Bengali 孟加拉语 2.07亿
3 bg Bulgarian 保加利亚语 1000万
4 ca Catalan 加泰罗尼亚语 1200万
5 zh-hans Chinese (simplified) 中文(简体) 14亿
6 zh-hant Chinese (traditional) 中文(繁体)  
7 hr Croatian 克罗地亚语 2100万
8 cs Czech 捷克语 1200万
9 da Danish 丹麦语 580万
10 nl Dutch 荷兰语 2700万
11 en English 英语 10亿
12 et Estonian 爱沙尼亚语 90万
13 fil Filipino 菲律宾语 2100万
14 fi Finnish 芬兰语 600万
15 fr French 法语 3.4亿
16 de German 德语 1亿
17 el Greek 希腊语 2200万
18 he Hebrew 希伯来语 510万
19 hi Hindi 印地语 9亿
20 hu Hungarian 匈牙利语 1500万
21 id Indonesian 印尼语 2.5亿
22 it Italian 意大利语 8000万
23 ja Japanese 日语 1.25亿
24 ko Korean 韩语 7800万
25 lv Latvian 拉脱维亚语 200万
26 lt Lithuanian 立陶宛语 300万
27 ms Malay 马来语 2300万
28 mr Marathi 马拉地语 9000万
29 no Norwegian 挪威语 480万
30 pl Polish 波兰语 4200万
31 pt Portuguese 葡萄牙语 2亿
32 ro Romanian 罗马尼亚语 2800万
33 ru Russian 俄语 2.8亿
34 sr Serbian 塞尔维亚语
35 sk Slovak 斯洛伐克语 600万
36 sl Slovenian 斯洛文尼亚语 200万
37 es Spanish 西班牙语 5亿
38   Spanish (Latin American) 西班牙语(拉丁美洲)  
39 sv Swedish 瑞典语 1000万
40 ta Tamil 泰米尔语 7700万
41 te Telugu 泰卢固语 8000万
42 th Thai 泰语 6500万
43 tr Turkish 土耳其语 7000万
44 uk Ukrainian 乌克兰语 4700万
45 ur Urdu 乌尔都语 2.7亿
46 vi Vietnamese 越南语 7900万

  有些我们做过网站但语言不在上面之列的主要有:

序号 缩写 英文名称 中文名称  
1 sw Swahili  斯瓦西里语 5500万
2 af Afrikaan 南非荷兰语 620万
3 am Amharic 阿姆哈拉语 1700万
4 az Azerbaijani 阿塞拜疆语 3100万
5 be Belarusian 白俄罗斯语 720万
6 co Corsica 科西嘉语
7 bs Bosnian 波斯尼亚语
8 cy Wales 威尔士语 300万
9 tg Tajik 塔吉克语 430万
10 gd Scots Gaelic 苏格兰盖尔语 58万
11 eo Esperanto 世界语 200-2000万
12 ga Irish 爱尔兰语 26万
13 ht Kreyòl Ayisyen 海地克里奥耳语 850万
14 km Cambodian 高棉语 2100万
15 my BURMESE Myanmar 缅甸语 4200万
16 ne NEPALI Nepal  尼泊尔语 4000万
  ha HAUSA Nigeria 豪萨语 3900万
  ig IGBO Nigeria 伊博语 3500万
  uz UZBEK 乌兹别克语 2300万
  kk KAZAKH Kazakhstan 哈萨克语 1200万
  mn Mongolian 蒙古语 570万
  fa FARSI WESTERN Iran 波斯语 8200万
  jv JAVANESE Indonesia, Java, Bali 爪哇语 8000万
  sd SINDHI Pakistan 信德语 5400万
  gu GUJARATI India 古吉拉特语 4600万
    MAITHILI India 迈蒂利语 4500万
  kn KANNADA India 卡纳达语 4400万
  ps PASHTO, Pakistan 普什图语 3800万
  ml MALAYALAM India 马拉雅拉姆语 3700万
    ORIYA India 奥利亚语 3100万
    Sundanese Indonesia 巽他语 2700万
  zu ZULU South Africa 祖鲁语 2600万
  so SOMALI Somalia 索马里语 2500万
  yo YORUBA Nigeria 约鲁巴语 2500万
    TAGALOG Philippines 他加禄语 2200万
    AWADHI India 阿瓦德语 2000万
  mg MALAGASY Madagascar 马尔加什语 2000万
    UYGHUR 维吾尔语 2000万
  si SINHALA Sri Lanka 僧伽罗语 1900万
    AKAN Ghana 阿坎语 1900万
    ASSAMESE India 阿萨姆 1400万
    RWANDA Rwanda 卢旺达语 1000万
    TATAR Russia 鞑靼语 800万
  ky Kyrgyz Kyrgyzstan 柯尔克孜语 500万
  sq Shqip 阿尔巴尼亚语 450万
  hy

hayeren Հայերեն

亚美尼亚语

700万
  is Icelandic Íslenska 冰岛语 30万
  mt Maltese Malti 马耳他语 30万
  su Sudanese    
  yi Yiddish 意第绪语 180万
  xh Xhosa 科萨语 890万
  sm Samoan 萨摩亚语 37万
  pa Punjabi 旁遮普语
  mi Māori 毛利语
  lo Laothian 老挝语 680万
  ku Kurdish 库尔德语 2000-4000万
  ka Georgian 格鲁吉亚语 390万
  eu Basque Euskera 巴士克语
  ny Chichewa 齐切瓦语 500万
  lb Luxembourgish 卢森堡语 30万
  nb Norwegian Bokmål    
  sn Shona 绍纳语 900万
  st Sesotho 索托语
  mk Macedonian Македонски 马其顿语 200万
  gl Galician Galego 加里西亚语 300万
  fy Frysk、Frasch、Fresk或Friisk 弗里西语 50万
  la Latīna 拉丁语  
         
         

​等等

  后面准备在Google Search Console里面更改 Googlebot 抓取速度,在资源的“抓取速度设置”页面进行一些必要的限制。例如:调整我个人博客网站被Google抓取速度的链接(需要有相应权限才能看到)。


  2020年3月30日补充:和同事商议,在年前删除数十种语言子网站的基础上,再把ipshu.com访问量很低的6种语言(ig, fy, am, eo, la, jv)删除,2020年4月17日再删除不是真正需要访问这种语言的5种语言(sw, co, af, cy, ht)。删除需要做的工作:

  • 修改.htaccess,要删除的子域名跳转到对应的英文版页面

    删除语言子目录的例子:

    # 2021-04-23 delete some languages

    RewriteCond %{REQUEST_URI} ^\/(af|sq|hy|az|eo|gl|ka|is|ga|mk|mt|sw|cy)\/(.*)$
    RewriteRule .* https://%{HTTP_HOST}/%2 [R=301,L]

    RewriteCond %{REQUEST_URI} ^\/(af|sq|hy|az|eo|gl|ka|is|ga|mk|mt|sw|cy)$
    RewriteRule .* https://%{HTTP_HOST}/ [R=301,L]

  • 修改robots.txt,排除要删除的子域名的爬取、收录(实际没有进行)
  • 修改Drupal网站语言设置,删除这些语言种类,html里面的<link rel="alternate" hreflang=以及语言切换<option value="https://代码就会自动删除这些种语言,如果系列网站太多可以用drush批量设置:

    LA=(af sq hy az eo gl ka is ga mk mt sw cy)

    for j in "${LA[@]}";do
      echo language: $j
      $d language-disable $j
    done
     

  • 在Google Search Console中设置删除这些子域名站点(本来准备设置站点转移的,但首页跳转验证不通过,就删除站点算了),如果是子目录形式多语言设置就不用这一步

2020年9月26日补充:感谢网友的反馈指出问题,我写这篇博客的时候adsense支持46种语言,现在去看已经支持49种语言了,那后面新增了对几种语言的支持,包括:卡纳达语、马拉雅拉姆语、古吉拉特语,以后也还会有变化。

添加新评论

Plain text

  • 不允许使用HTML标签。
  • 自动将网址与电子邮件地址转变为链接。
  • 自动断行和分段。