By James Qi, 2023年2月20日 一種疑難的漢字網址編碼錯誤和解決辦法 以前寫過幾篇關于漢字網址編碼錯誤和解決辦法的博客,解決了我們一些網站中發現的報錯,這些基本上都是因為某些搜索引擎或者爬蟲程序對漢字的編碼識别和處理錯誤造成的。 但依然有一種錯誤情況我們始終沒有找到規律,URL中包含類似這樣的編碼:%C2%B1%C3%9C%C3%88%C3%BD%C3%89%C3%A1,更多截圖如下
By James Qi, 2023年2月19日 Emoji網址錯誤編碼問題和解決辦法 我們的EmojiAll.com網站中一些網址采用的是對Emoji進行直接URL編碼,一些對于UTF-8編碼處理不完善的爬蟲容易把我們正确的網址變換錯誤,導緻我們的Drupal日志中總是看到404報錯。百度爬蟲以前對網址都識别為GB2312,我們後來轉換糾正過,還有URL一次解碼、二次解碼變換我們都嘗試過,糾正了不少錯誤、跳轉到正确的網址。 但下面這種報錯一直存