由 James Qi, 2023年2月20日 内部培训:错误网址的纠正分享商议 这个周末花了一些时间找到和解决了两种错误网址的问题,今天星期一上班赶紧与相关项目的运营和程序同事进行了分享商议,现在把要点放在下面: 一、发现错误网址的现象: 百度点击搜索结果到找不到的页面或者错误的页面 百度快照中错误的乱码 Drupal日志中的404中发现 Apache/N
由 James Qi, 2023年2月20日 一种疑难的汉字网址编码错误和解决办法 以前写过几篇关于汉字网址编码错误和解决办法的博客,解决了我们一些网站中发现的报错,这些基本上都是因为某些搜索引擎或者爬虫程序对汉字的编码识别和处理错误造成的。 但依然有一种错误情况我们始终没有找到规律,URL中包含类似这样的编码:%C2%B1%C3%9C%C3%88%C3%BD%C3%89%C3%A1,更多截图如下
由 James Qi, 2023年2月19日 Emoji网址错误编码问题和解决办法 我们的EmojiAll.com网站中一些网址采用的是对Emoji进行直接URL编码,一些对于UTF-8编码处理不完善的爬虫容易把我们正确的网址变换错误,导致我们的Drupal日志中总是看到404报错。百度爬虫以前对网址都识别为GB2312,我们后来转换纠正过,还有URL一次解码、二次解码变换我们都尝试过,纠正了不少错误、跳转到正确的网址。 但下面这种报错一直存
由 James Qi, 2019年1月24日 百度快照里面中文网址显示乱码的问题 我们网站从很多年一直使用国外的开源平台MediaWiki和Drupal,都是用的UTF-8字符集来支持多语言,URL网址也是采用的系统自带或者插件自带的编码方式,例如:查号吧网站里面有个标题为“越南”页面,URL网址不是“https://www.chahaoba.com/越南”,而是UTF-8编码后的“https://www.chahaoba.com/%E8%B6%8A%E5%8D%97”,这在Google里面、百度里面搜索和展示也都没有问题,用户用各种浏览器打开也都正常。 但我们发现在百