反查主机域名来屏蔽爬虫采集

由 James Qi, 2018年12月14日

　　最近新增了一些网站内容，结果正常的访问者还没有开始来，采集的爬虫就来了，真像是嗜血的鲨鱼，发现哪里有美味马上就盯上了😰。

　　近期也看了一些关于反采集的文章，世上没有完美、一劳永逸的反采集办法，成了与采集者的对峙，双方不断变换对抗办法，成了一种体力活。

　　我们现在也不得不采取更严格的反采集措施，看到很多采集IP都来自amazon云计算，这就可以用hostname反查来进行屏蔽，以前曾经做过测试，今天再次测试并记录。

　　在apache的httpd.conf文件中添加一行：

HostnameLookups on

　　就是开启了来访IP的域名反查主机名，例如IP地址59.174.217.219反查到的主机名是219.217.174.59.broad.wh.hb.dynamic.163data.com.cn。

　　然后可以在.htaccess中设置屏蔽：

RewriteCond %{REMOTE_HOST} ^.*(\.174\.59\.broad\.wh\.hb\.dynamic\.163data\.com\.cn).*$
RewriteRule .* - [F,L]

　　这就把武汉电信163宽带59.174开头的IP的用户都屏蔽了。

　　增加了这个办法后，屏蔽的办法更灵活了，但有一点问题，就是开启了反查后比较消耗资源，服务器的负载会有所升高，返回用户的内容会有所延时。所以我看一般的介绍文章都说要关闭这个功能，但究竟开启这个后是否屏蔽更有效，还有待观察看看。

　　2019年4月10日补充：上面这样修改后就有了反向解析，但accesss日志文件中是显示反向解析后的域名、还是显示反向解析以前的IP，是可以控制设置的，例如这样是显示hostname：

LogFormat "%h %l %u %t port:%p \"%{Host}i\" \"%r\" %>s %b \"%{Referer}i\" \"%{User-Agent}i\"" combined

下面这行是显示ip：

LogFormat "%a %l %u %t port:%p \"%{Host}i\" \"%r\" %>s %b \"%{Referer}i\" \"%{User-Agent}i\"" combined

更多日志参数的含义如下：

%a 远端IP地址
%A 本机IP地址
%B 除HTTP头以外传送的字节数
%b 以CLF格式显示的除HTTP头以外传送的字节数，也就是当没有字节传送时显示’-'而不是0。
%{Foobar}C 在请求中传送给服务端的cookieFoobar的内容。
%D 服务器处理本请求所用时间，以微为单位。
%{FOOBAR}e 环境变量FOOBAR的值
%f 文件名
%h 远端主机
%H 请求使用的协议
%{Foobar}i 发送到服务器的请求头Foobar:的内容。
%l 远端登录名(由identd而来，如果支持的话)，除非IdentityCheck设为"On"，否则将得到一个"-"。
%m 请求的方法
%{Foobar}n 来自另一个模块的注解Foobar的内容。
%{Foobar}o 应答头Foobar:的内容。
%p 服务器服务于该请求的标准端口。
%P 为本请求提供服务的子进程的PID。
%{format}P 服务于该请求的PID或TID(线程ID)，format的取值范围为：pid和tid(2.0.46及以后版本)以及hextid(需要APR1.2.0及以上版本)
%q 查询字符串(若存在则由一个"?"引导，否则返回空串)
%r 请求的第一行
%s 状态。对于内部重定向的请求，这个状态指的是原始请求的状态，—%>s则指的是最后请求的状态。
%t 时间，用普通日志时间格式(标准英语格式)
%{format}t 时间，用strftime(3)指定的格式表示的时间。(默认情况下按本地化格式)
%T 处理完请求所花时间，以秒为单位。
%u 远程用户名(根据验证信息而来；如果返回status(%s)为401，可能是假的)
%U 请求的URL路径，不包含查询字符串。
%v 对该请求提供服务的标准ServerName。
%V 根据UseCanonicalName指令设定的服务器名称。
%X 请求完成时的连接状态：X= 连接在应答完成前中断。
+= 应答传送完后继续保持连接。
-= 应答传送完后关闭连接。

(在1.3以后的版本中，这个指令是%c，但这样就和过去的SSL语法：%{var}c冲突了)

%I 接收的字节数，包括请求头的数据，并且不能为零。要使用这个指令你必须启用mod_logio模块。
%O 发送的字节数，包括请求头的数据，并且不能为零。要使用这个指令你必须启用mod_logio模块。

修饰符

可以紧跟在"%"后面加上一个逗号分隔的状态码列表来限制记录的条目。例如，"%400,501{User-agent}i" 只记录状态码400和501发生时的User-agent头内容；不满足条件时用"-"代替。状态码前还可以加上"!"前缀表示否定，"%!200,304,302{Referer}i"记录所有不同于200,304,302的状态码发生时的Referer头内容。

"<"和">"修饰符可以用来指定对于已被内部重定向的请求是选择原始的请求还是选择最终的请求。默认情况下，%s, %U, %T, %D, %r 使用原始请求，而所有其他格式串则选择最终请求。例如，%>s 可以用于记录请求的最终状态，而 %<u 则记录一个已经被内部重定向到非认证资源的请求的原始认证用户。

一些说明

出于安全考虑，从2.0.46版本开始，%r, %i, %o 中的特殊字符，除了双引号(")和反斜线(\)分别用 \" 和 \\ 进行转义、空白字符用C风格(\n, \t 等)进行转义以外，非打印字符和其它特殊字符使用 \xhh 格式进行转义(hh是该字符的16进制编码)。在2.0.46以前的版本中，这些内容会被完整的按原样记录。这种做法将导致客户端可以在日志中插入控制字符，所以你在处理这些日志文件的时候要特别小心。

在2.0版本中(不同于1.3)，%b 和 %B 格式字符串并不表示发送到客户端的字节数，而只是简单的表示HTTP应答字节数(在连接中断或使用SSL时与前者有所不同)。mod_logio提供的 %O 格式字符串将会记录发送的实际字节数。

示例

一些常见的格式串：

通用日志格式(CLF)
"%h %l %u %t \"%r\" %>s %b"

带虚拟主机的通用日志格式
"%v %h %l %u %t \"%r\" %>s %b"

NCSA扩展/组合日志格式
"%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-agent}i\""

Referer日志格式
"%{Referer}i -> %U"

Agent(Browser)日志格式
"%{User-agent}i"

自由标签

域名

屏蔽

爬虫