最近同事从访问日志和统计分析中发现有一些400报错和一些错误网页,我们自己访问也打不开,是网址有问题,我翻看了以前写的博客《百度对网址二次编码的问题》,问题很类似。
以前的错误网址:
https://tw.chahaoba.com/%25E8%25AE%25A8%25E8%25AE%25BA:80004911
.htaccess中写的跳转规则:
RewriteCond %{REQUEST_URI} ^(.*)%(.*)$ RewriteRule ^.*$ https://%{HTTP_H
这是 Apache 分类的页面,点击下面标题查看详细文章内容:
最近同事从访问日志和统计分析中发现有一些400报错和一些错误网页,我们自己访问也打不开,是网址有问题,我翻看了以前写的博客《百度对网址二次编码的问题》,问题很类似。
以前的错误网址:
https://tw.chahaoba.com/%25E8%25AE%25A8%25E8%25AE%25BA:80004911
.htaccess中写的跳转规则:
RewriteCond %{REQUEST_URI} ^(.*)%(.*)$ RewriteRule ^.*$ https://%{HTTP_H
去年就开始使用CloudFlare为网站加速,因为当时那个网站与访问者IP地址关系不大,所以没有特别处理CDN代理IP和访问者真实IP。今年添加的一个网站在做爬虫屏蔽的时候与用户真实IP有关,临时可以用简易的方式在PHP程序中获取:
if (isset($_SERVER['HTTP_CF_CONNECTING_IP'])) { $_SERVER['REMOTE_ADDR'] = $_SERVER['HTTP_CF_CONNECTING_IP']; } elseif (isset($_SERVER['
我们使用的MediaWiki和Drupal都支持LAMP架构,安装包中都带有一个默认的.htaccess来支持Apache的设置,我们虽然以前也看过文章建议有服务器完整权限的用户不要用.htaccess而是使用httpd.conf,但为了修改.htaccess随时生效就偷懒没有把.htaccess中的设置迁移到httpd.conf中。
最近把几台国外服务器从8核CPU、16G内存升级为12核高主频CPU、48G内存,在花钱添置硬件性能的同时,也考虑到通过其它软件的办法来让网站访问更快,找了几篇文章:
我们的Web服务器使用Apache有十年了,一直使用LAMP架构来做网站。很早也知道Nginx,据说性能上有明显优势,但怕麻烦就一直没有尝试。
最近有个网站在与某互联网大厂做合作对接,对方要求我们的API接口速度上达到99分位在300ms以内、可靠性上达到99.9%以上,我们初期测试是很难达到的,后来商议了各种措施来优化和保障,其中就说到使用一个单独的Nginx为对方提供API接口。
于是4月初就在服务器上安装了一套Nginx,测试速度还是有明显改善的,而且与其它网站使用的Apache独立开来,在稳定性上也更有保证,下面来记录一下安装和使用的一些要
Apache Rewrite是我们在网上中设置一些网址重定向常用的办法,我们在使用php程序替代robots.txt和sitemap.xml以及https替换http的时候都有用到。
其中robots.txt显示robots.php内容的部分是这样设置的:
# Rewrite robots.txt RewriteCond %{REQUEST_URI} ^\/robots\.txt$ RewriteRule ^(.*)$ /robots.php [L]
反采集一直都是我们需要进行的工作,特殊是国内互联网行业抄袭风气太盛,其实我们不介意这些采集者把我们原创内容采过去,反正采集者也影响不了我们自己多少,但老是导致我们服务器资源过载就很烦了。
以前一般用“Apache中设置屏蔽IP地址和URL网址来禁止采集”,高级一些的用法记录在“识别User Agent屏蔽一些Web爬虫防采集”,中途还专门“自己编写网站防采集程序”,但用起来也有些不完善。
这两个月提交百度熊掌号、MIP/AMP后,正常的爬虫多起来,流量也多一些,跟着
这些天接触了解SSL证书后,写了一篇《申请免费的SSL证书,开通https网站》博文,其中简单记录了Apache的设置,后来又涉及到多个域名、泛域名解析、通配符SSL证书、单服务器/多服务器、IP、端口等方方面面,去查了一些资料才在Apache上配置成功,干脆重新写一篇博文来记录。
先写各种可能的情况:
一个系列网站从drupal 6升级到drupal 7后日志中发现大量报错,都是以前可以正常访问的网址现在找不到了,发现以前drupal 6中是这样的:
http://ut.mingluji.com/business_directory/Western_Heating_%2526_Air_Conditioning
在google搜索中也是上面这样的网址,但升级后以上访问成了404 not found,而用下面这样的网址可以访问:
http://ut.mingluji.com/business_direc
Apache的httpd进程数量是个老问题,最开始使用Linux独立服务器的时候就摸索修改过。后来新购入服务器托管、租用国外服务器都是硬件配置相当强的,这个地方也都修改过。
不过前一阵子搬迁到阿里云服务器的时候,同事并没有修改这个地方,部分网站搬迁后感觉变慢了,而带宽、CPU等资源都没有用充分,后来在阿里云监控中检查发现httpd进程会达到一个限制平顶,再才排查原来是httpd最大连接数量没有修改。
最近又搬迁网站增加了阿里云服务器,以后估计还会搬迁、增加,所以专门记录在博客中:
步骤一:先修改./apache/co
这些年在使用MediaWiki和Drupal过程中难免要用到Apache的重写规则,最基本的是用于网址简洁化,去掉那些index.php?title=之内的东西,后来也用于跳转手机版判断、屏蔽采集者、纠正引导报错网址等,可以说是一个非常有力的工具,基本上是没法离开。
但在做一些临时性、测试性修改的时候,偶尔会忘记改还原而导致出现问题,例如因为服务器负载过高而临时屏蔽某个搜索引擎的User-Agent,后来忘记还原了导致搜索引擎爬虫无法抓取、收录量急剧下降等,如果能在临时设置的时候就限定时间就好,以前这样想过,但一直没有找办法。
今天在网
2002-2023 v11.7 a-j-e-0