在百度、Google遇到网站抓取、收录、索引、展示等方面的问题,一般都是自己看数据、自己看帮助,或者在网上搜一些文章了解,但也有一些疑惑无法解开。好像没有找到人工咨询的渠道,百度、Google官方也给出交流论坛,但实际没有去发过帖子。
最近在熊掌号提交链接、MIP验证等方面一直有些问题不知道原因,找来找去在百度搜索资源平台的反馈中心发现可以留言、等待人工回复:
在百度、Google遇到网站抓取、收录、索引、展示等方面的问题,一般都是自己看数据、自己看帮助,或者在网上搜一些文章了解,但也有一些疑惑无法解开。好像没有找到人工咨询的渠道,百度、Google官方也给出交流论坛,但实际没有去发过帖子。
最近在熊掌号提交链接、MIP验证等方面一直有些问题不知道原因,找来找去在百度搜索资源平台的反馈中心发现可以留言、等待人工回复:
我们采用了直接建表方式搭建Drupal网站后,我记录了一篇《Drupal网站Views生成页面的XML网站地图构建》,这个办法很通用,一般都没有问题,只是在少量情况下可能需要修改MySQL查询语句,例如当数据量很大(如果超过100万条记录)的时候,SQL语句执行时间很长,容易造成RDS云服务器卡死。
陆续发现过几种情况,也采取措施解决了,但忘记记录博客了。今天再次发生一个站sitemap被爬堵住,导致整台数据库服务器卡住的情况,用下面办法解决,记录下来。
SELECT DISTINCT person FROM gongshang l
最近一段时间因为新书的出台,我也进入“高光时刻”:又是线上交流会、又是Google专访😁
下面这篇是刚刚谷歌广告联盟公众号发布的文章:《访问 AdSense 老大哥祁劲松老师》,我摘录如下:
访问 AdSense 老大哥祁劲松老师
原创: 谷歌广告联盟 谷歌广告联盟 2018年12月26日
本期文章我
上周应谷歌广告联盟Iris的邀请,进行了一次线上新书讨论会。在开始之前的一个星期Iris就给我写了预备的10个问题,如果讨论会没人提问就用,但实际上一个都没用用上,从第一个问题就是回答网友提出的问题,原定30-45分钟,一共用足了45分钟,网友还有不少问题,但也只好结束了。
线上讨论会使用的千聊软件平台,可以从微信进去,也可以下载app,我是直接使用的微信,头一天测试了一次,知道大概流程和用法,第二天正式使用中还算基本顺利,没有遇到特别的意外,当时都是用语音回答的,现场Iris都做了一个简短的文字小结,其内容在千聊平台永久保存,错过的同学可以随时去听:本次线上
我们做了这么多年的AdSense,在广告的摆放上还是很注意的,特别是位置,要让可见率提高非常重要。
当然,还有一些细节,例如前一阵子发现有些广告自动在手机端变成了全屏宽度,在某些地方遮盖住了页面中的边框线,显得不够美观,于是我们就改为了300x250的固定宽度。
接下来还有一个问题,300x250固定宽度广告在不同宽度的手机上的位置有时居中有时偏左,特别是大屏手机上,偏左也不好看,最好能居中显示。
请教美工设计同事后,给出了修改CSS的方案:
Linux中crontab是一个很有用的定时工具,可以设置很多定时任务,我们一直都在使用。
最近同事提出白天在服务器上导入数据会让负载增大、影响用户正常访问,希望能设置到晚上自动运行,这个应该很简单,只要把手工运行的导入程序命令放在一个定时批处理文件dingshi.sh中,设置crontab晚上自动运行就可以,但要考虑不能重复运行导入。
00 3 * * * root sh /root/dingshi.sh
避免重复的办法应该不止一种,我想到的办法是在这个dingshi.sh的最后一行写一条修改自己文件名
最近写了几段PHP程序,给同事来导入数据到MySQL数据库,同事偶尔反映遇到这样类似的报错:
PDOException: SQLSTATE[22001]: String data, right truncated: 1406 Data too long for column 'state' at row 1: UPDATE `table` SET `address` = 'xxx', `state` = '过长内容', `id` = 
昨天刚写了一篇《不要误屏蔽百度MIP的爬虫》,顺着我们就继续检查其它站是否有被误屏蔽的事情,流量来源主要是百度的国内站可以看百度站长平台(百度搜索资源平台)里面的信息,流量来源主要是Google的国外站可以看Google Webmaster Tools (Google Search Console)。
今天同事发现一个台湾繁体版站的索引情况有异常:
我们很早前就开始做百度MIP版本页面了,通过这种方式也获得了流量的增长和比较好的用户体验。但最近流量不太稳定,有的站MIP流量曾经很高,但后来跌落很厉害。还有的站MIP流量下降后,对应的普通WEB版流量上升。
我们做了各种推测和试验,今天发现了一条重要线索:百度的MIP爬虫曾经被我们屏蔽。
按照百度官方的说法,其MIP爬虫的User Agent是这样的:
Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Geck
最近和采集者杠上了,不断与这些采集者纠缠,周一一大早就看到网站监控报警,服务器带宽被占满,在从iftop -i eth1看到有两个IP段一直占据前列:
再仔细一查,这两个IP段是已经被我们在.htaccess里面屏蔽的,从tail -f access.log看这两个IP段的地址访问都是403被拒绝状态,但不知道是哪家的傻爬虫(220.243.135.*/220.243
2002-2023 v11.7 a-j-e-0