由 James Qi, 2023年2月20日 一种疑难的汉字网址编码错误和解决办法 以前写过几篇关于汉字网址编码错误和解决办法的博客,解决了我们一些网站中发现的报错,这些基本上都是因为某些搜索引擎或者爬虫程序对汉字的编码识别和处理错误造成的。 但依然有一种错误情况我们始终没有找到规律,URL中包含类似这样的编码:%C2%B1%C3%9C%C3%88%C3%BD%C3%89%C3%A1,更多截图如下
由 James Qi, 2023年2月19日 Emoji网址错误编码问题和解决办法 我们的EmojiAll.com网站中一些网址采用的是对Emoji进行直接URL编码,一些对于UTF-8编码处理不完善的爬虫容易把我们正确的网址变换错误,导致我们的Drupal日志中总是看到404报错。百度爬虫以前对网址都识别为GB2312,我们后来转换纠正过,还有URL一次解码、二次解码变换我们都尝试过,纠正了不少错误、跳转到正确的网址。 但下面这种报错一直存