最近几天我们国内的两个网站都遇到访问困难,检查发现是百度爬虫抓取量大增,是以前正常情况的很多倍,导致Web服务器CPU、带宽以及数据库服务器都难以应付。Googlebot也曾经出现类似情况。
办法一(站长平台设置):
按照以前的办法,我们是在百度资源平台或者Google Search Console中设置降低爬虫的抓取速率,不过这样设置后需要等待2-3天时间生效,而不能解决当时的问题。
最近几天我们国内的两个网站都遇到访问困难,检查发现是百度爬虫抓取量大增,是以前正常情况的很多倍,导致Web服务器CPU、带宽以及数据库服务器都难以应付。Googlebot也曾经出现类似情况。
按照以前的办法,我们是在百度资源平台或者Google Search Console中设置降低爬虫的抓取速率,不过这样设置后需要等待2-3天时间生效,而不能解决当时的问题。
Google的Core Web Vitals(网站核心指标)指标推出后我们也一直在关注,但最主要是关注LCP(Largest Contentful Paint 显示最大内容元素所需时间),对于FID(First Input Delay 首次输入延迟/封锁时间总计)和CLS(Cumulative Layout Shift 累计版面配置转移)没有非常在意。
最近在查看几个主
IPSHU这个网站设立之初就是为用户提供查询IP地址对应地理位置服务的,不过实际上这方面的流量不多,竞争很激烈,有很多网站提供非常类似的功能。
无心插柳柳成荫,我们这个网站的内网IP地址页面的访问量还不错,于是我们前几年把内网IP页面进行了全面改版,增加了很多用户需要的信息,效果也是很明显的。
为了让外网IP页面对用户帮助更大、与其它网站有更大的不同,我
IPSHU网站最开始各种IP地址都用相同的格式显示信息,都是显示的IP地址的地理位置信息,但实际上内网IP和一些特殊IP地址是没有地理位置信息的,几年前将IP地址划分为外网IP地址、内网IP地址和保留IP地址展示不同的信息,重点修改了内网IP地址的显示内容,改为用户更关心的路由器方面常见问答,效果应该是明显的。
最近将保留IP地址的
前段时间对IP地址的AS自治系统分配、Whois的分配服务器、Whois的Json数据获取等做了一些研究,编写程序去把目前的IP地址段的Whois数据都获取到、保存到数据库表中,然后再去读表、显示。
下面是各洲的IP地址Whois页面例子:
去年邮编库与百度开展邮政编码查询合作后,效果还不错,今年百度的人还主动找我们来做更多的智能小程序合作。我们很多年前就做工具类网站,所以也比较适合来做这一类小程序。下面是我们做的一个文字转拼音的百度智能小程序。
这个功能很简单所以也只做了一个页面,直接操作。不过对比其它类似网站或者小程序,我们还是有明显优势:添加了多音字的识别、增加了发音功能等。
下面是这个百度智能
有一段时间没有更新博客了,刚才看到最新的一篇《IP地址查询API来源收集》还是1月份写的,现在正好在搜索一些IP地址查询的数据库,就接着记录一篇吧。
这家算是国外名气最大、最专业吧。有收费数据库、免费数据库,还有代理IP数据库、API服务等,数据库等字段很多,价格细分。其免费版本的精度稍差、字段少一些,使用时需要注明来源。
也是一家老牌的IP数据提供商,有收费数据库、免费数据库、代理数据库、API服务等。免费数据库的精度稍差,可以按照CC BY-SA 4.0注明
我们推出的ipshu.com做IP地址查询有一些年了,甚至也推出过API,但没有特别宣传,后面就只是公司其它项目在需要的时候调用,今年我们还准备做很多IP相关工作,其中也有重新推出IP查询的API服务。
不过在推出之前,我们还要把数据质量做得更好一些,以及多对比其它IP查询API的功能特点,下面是我收集整理的一些:
https://ipinfo.io/
这一个做得很专业,以前看到过报道,每日调用量超过了10亿次,有比较强的全球团队。免费版每月5万次调用。收费有多种版本,每月从49美元到499美元,也可以定制版本或者行业解决方案。
EmojiAll.com网站没有使用Drupal默认的搜索,以前使用我们自己PHP程序写的搜索,可以在自建的表中进行搜索、匹配,在搜索不到内容的情况下也可以显示Google Custom Search的结果,基本上可以满足网友的搜索需求。
但是依然存在很明显的问题,例如英文不是整个单词匹配,而是字母匹配,中文也没有词组搜索等等,这个问题拖了很久,去年第4季度我们决定来改进,在商议使用办法的时候主要有两种:1、使用PHP程序来写更复杂的搜索;2、使用Elastic Search来做更专业的搜索。
在反复商议权衡、请教公司使用过Elastic Sear
从2005年开始做AdSense到现在有10多年了,除了初始了解摸索阶段以及我写两本书的阶段,对AdSense及其它广告平台的了解也没有花费我们太多的时间,主要精力还是集中在网站内容、功能的发展上。前几天刚刚进行了
2002-2023 v11.7 a-j-e-0