By James Qi, 2023年2月20日 内部培訓:錯誤網址的糾正分享商議 這個周末花了一些時間找到和解決了兩種錯誤網址的問題,今天星期一上班趕緊與相關項目的運營和程序同事進行了分享商議,現在把要點放在下面: 一、發現錯誤網址的現象: 百度點擊搜索結果到找不到的頁面或者錯誤的頁面 百度快照中錯誤的亂碼 Drupal日志中的404中發現 Apache/N
By James Qi, 2023年2月20日 一種疑難的漢字網址編碼錯誤和解決辦法 以前寫過幾篇關于漢字網址編碼錯誤和解決辦法的博客,解決了我們一些網站中發現的報錯,這些基本上都是因為某些搜索引擎或者爬蟲程序對漢字的編碼識别和處理錯誤造成的。 但依然有一種錯誤情況我們始終沒有找到規律,URL中包含類似這樣的編碼:%C2%B1%C3%9C%C3%88%C3%BD%C3%89%C3%A1,更多截圖如下
By James Qi, 2023年2月19日 Emoji網址錯誤編碼問題和解決辦法 我們的EmojiAll.com網站中一些網址采用的是對Emoji進行直接URL編碼,一些對于UTF-8編碼處理不完善的爬蟲容易把我們正确的網址變換錯誤,導緻我們的Drupal日志中總是看到404報錯。百度爬蟲以前對網址都識别為GB2312,我們後來轉換糾正過,還有URL一次解碼、二次解碼變換我們都嘗試過,糾正了不少錯誤、跳轉到正确的網址。 但下面這種報錯一直存
By James Qi, 2019年1月24日 百度快照裡面中文網址顯示亂碼的問題 我們網站從很多年一直使用國外的開源平台MediaWiki和Drupal,都是用的UTF-8字符集來支持多語言,URL網址也是采用的系統自帶或者插件自帶的編碼方式,例如:查号吧網站裡面有個标題為“越南”頁面,URL網址不是“https://www.chahaoba.com/越南”,而是UTF-8編碼後的“https://www.chahaoba.com/%E8%B6%8A%E5%8D%97”,這在Google裡面、百度裡面搜索和展示也都沒有問題,用戶用各種浏覽器打開也都正常。 但我們發現在百