由 James Qi, 2023年2月20日 内部培训:错误网址的纠正分享商议 这个周末花了一些时间找到和解决了两种错误网址的问题,今天星期一上班赶紧与相关项目的运营和程序同事进行了分享商议,现在把要点放在下面: 一、发现错误网址的现象: 百度点击搜索结果到找不到的页面或者错误的页面 百度快照中错误的乱码 Drupal日志中的404中发现 Apache/N
由 James Qi, 2023年2月20日 一种疑难的汉字网址编码错误和解决办法 以前写过几篇关于汉字网址编码错误和解决办法的博客,解决了我们一些网站中发现的报错,这些基本上都是因为某些搜索引擎或者爬虫程序对汉字的编码识别和处理错误造成的。 但依然有一种错误情况我们始终没有找到规律,URL中包含类似这样的编码:%C2%B1%C3%9C%C3%88%C3%BD%C3%89%C3%A1,更多截图如下
由 James Qi, 2023年2月19日 Emoji网址错误编码问题和解决办法 我们的EmojiAll.com网站中一些网址采用的是对Emoji进行直接URL编码,一些对于UTF-8编码处理不完善的爬虫容易把我们正确的网址变换错误,导致我们的Drupal日志中总是看到404报错。百度爬虫以前对网址都识别为GB2312,我们后来转换纠正过,还有URL一次解码、二次解码变换我们都尝试过,纠正了不少错误、跳转到正确的网址。 但下面这种报错一直存
由 James Qi, 2021年12月17日 百度对网址中查询参数二次编码的问题 最近同事从访问日志和统计分析中发现有一些400报错和一些错误网页,我们自己访问也打不开,是网址有问题,我翻看了以前写的博客《百度对网址二次编码的问题》,问题很类似。 以前的错误网址: https://tw.chahaoba.com/%25E8%25AE%25A8%25E8%25AE%25BA:80004911 .htaccess中写的跳转规则: RewriteCond %{REQUEST_URI} ^(.*)%(.*)$ RewriteRule ^.*$ https://%{HTTP_H
由 James Qi, 2019年12月20日 百度对网址二次编码的问题 昨天同事发现一个奇怪的事情,在百度APP中搜索一个关键词,我们网站排在第一位,显示的内容也是正常的,点击这个链接进入我们网站却显示“无法找到页面”,检查是进入的网址在我们网站并不存在,是百度对我们的URL二次编码造成的,例如: https://hanyucidian.18dao.cn/hanyu/%25E5%258F%25A3%25E8%2588%258C%25E5%2591%2586%25E9%2592%259D?mip 这个网址是不存在的,正确的网址应该是: https:/