By James Qi, 2023年2月20日 内部培訓:錯誤網址的糾正分享商議 這個周末花了一些時間找到和解決了兩種錯誤網址的問題,今天星期一上班趕緊與相關項目的運營和程序同事進行了分享商議,現在把要點放在下面: 一、發現錯誤網址的現象: 百度點擊搜索結果到找不到的頁面或者錯誤的頁面 百度快照中錯誤的亂碼 Drupal日志中的404中發現 Apache/N
By James Qi, 2023年2月20日 一種疑難的漢字網址編碼錯誤和解決辦法 以前寫過幾篇關于漢字網址編碼錯誤和解決辦法的博客,解決了我們一些網站中發現的報錯,這些基本上都是因為某些搜索引擎或者爬蟲程序對漢字的編碼識别和處理錯誤造成的。 但依然有一種錯誤情況我們始終沒有找到規律,URL中包含類似這樣的編碼:%C2%B1%C3%9C%C3%88%C3%BD%C3%89%C3%A1,更多截圖如下
By James Qi, 2023年2月19日 Emoji網址錯誤編碼問題和解決辦法 我們的EmojiAll.com網站中一些網址采用的是對Emoji進行直接URL編碼,一些對于UTF-8編碼處理不完善的爬蟲容易把我們正确的網址變換錯誤,導緻我們的Drupal日志中總是看到404報錯。百度爬蟲以前對網址都識别為GB2312,我們後來轉換糾正過,還有URL一次解碼、二次解碼變換我們都嘗試過,糾正了不少錯誤、跳轉到正确的網址。 但下面這種報錯一直存
By James Qi, 2021年12月17日 百度對網址中查詢參數二次編碼的問題 最近同事從訪問日志和統計分析中發現有一些400報錯和一些錯誤網頁,我們自己訪問也打不開,是網址有問題,我翻看了以前寫的博客《百度對網址二次編碼的問題》,問題很類似。 以前的錯誤網址: https://tw.chahaoba.com/%25E8%25AE%25A8%25E8%25AE%25BA:80004911 .htaccess中寫的跳轉規則: RewriteCond %{REQUEST_URI} ^(.*)%(.*)$ RewriteRule ^.*$ https://%{HTTP_H
By James Qi, 2019年12月20日 百度對網址二次編碼的問題 昨天同事發現一個奇怪的事情,在百度APP中搜索一個關鍵詞,我們網站排在第一位,顯示的内容也是正常的,點擊這個鍊接進入我們網站卻顯示“無法找到頁面”,檢查是進入的網址在我們網站并不存在,是百度對我們的URL二次編碼造成的,例如: https://hanyucidian.18dao.cn/hanyu/%25E5%258F%25A3%25E8%2588%258C%25E5%2591%2586%25E9%2592%259D?mip 這個網址是不存在的,正确的網址應該是: https:/