- 主题:本站内容主要是本人关注的互联网行业及个人爱好方面的主题,包括AdSense💲、MediaWiki👨💻、Drupal💻、马拉松🏃、架子鼓🥁等。
- 书讯:本人新书2018年12月出版《Google AdSense实战宝典 - 第二版📘》,欢迎关注。
前段时间了解了一些公开数据集(Public Datasets)的情况,特别是政府开放数据(Open Data),现在把各个国家/地区的政府开放数据公开网站情况收集整理一下,列出下面表格,以后还可以继续补充完善:
代码 | 国家/地区 | 公开数据网站名称 |
我們很久以前做的實用查詢Wiki網站中的漢語詞典、成語詞典都是從中文簡體字内容轉換過去的,雖然内容還比較適合台灣用戶,但裏面的發音都衹有大陸這邊的普通話拼音,沒有台灣那邊主要使用的注音符號。 今年上半年在做新版一把刀實用查詢網站時,拿到的漢語詞典原始數據中衹有注音而沒有拼音,當時就專門編寫了一個PHP程序來進行注音到拼音的轉換,有幾點需要注意:
![]() 多年前我們開始專門做網站運營的時候就考慮到多語言支持,特別是繁體版本,當時用MediaWiki搭建了一個專門的繁體版本實用查詢網站,內容與對應的簡體版本實用查詢網站基本一樣,後來看到繁體版本的瀏覽量一直不錯,而簡體版本的瀏覽量很少, 以前在翻看Drupal的Performance & Scalability插件的时候留意过有一个Fast 404模块,知道是专门处理404报错页面,如果网站有很多404,这个模块可以降低负载,但没有详细了解。 最近还在不断尝试降低MySQL服务器的负载,今天干脆把这个模块安装试了试,英文的说明看起来比较复杂,我就把README.txt中的内容把一些要点对照翻译如下吧:
最近一直在为降低MySQL服务器负载努力,Drupal网站中主要是排查Views引起的性能问题,而MediaWiki中也有一个与Drupal的Views对应的工具:Dynamic Page List (DPL动态页面列表),既可以灵活运用得到希望的信息展示效果,但同时也容易引起数据库负载过高、性能下降。 当网站打开很慢的时候,还是需要查看阿里云RDS数据管理控制台DMS(Data Management Service),查看诊断报告或者当前实例会话,查看慢查询语句,例如发现大量这样的语句: SELECT DISTINCT `jing MediaWiki的文件缓存(File Cache)在我们实际使用的网站中还是很重要的,可以让访问速度快很多,不过有些页面要求有一定的实时性,缓存过期时间不宜过长,我们以前都是设置的统一过期时间,然后部分页面不生成文件缓存,这些不生成文件缓存的页面往往成为了MySQL服务器中慢查询的来源。 今天先是想了一个办法,Linux服务器上设置crontab,定时执行一个批处理文件,来删除cache目录下的缓存文件,这样可以实现我们需要的对不同页面缓存不同的时间长度,但缺点是设置比较麻烦,而且执行磁盘查找、删除在数据量大的时候比较慢。 后来又想了 前段时间对我们一些中文网站添加了百度MIP版本,但因为刚开始也没有什么流量,就没有添加统计代码。现在发现有些MIP有些流量了,而同时以前网站的手机访问用户数据统计有下降,可能是转移到MIP版本了,还是需要让MIP版本也有统计数据才好,目前只是从百度联盟后台可以看到一些数据,毕竟不方便、不准确。 在“百度MIP移动加速页面”网站的MIP 组件列表中找到“mip-pix”、“mip-analytics”、“mip-stats-baidu”、“mip-stat Drupal中两种可以进行页面分类的工具是Taxonomy系统和Views方式,前者是专门的分类系统,用得比较多,而Views更加灵活,另外很早前也发现Views中有个叫着Taxonomy term的View,默认没有开启,如果开启的话,可以替代相同路径的分类页。 很早前为了降低数据库负载也曾在部分国外系列网站中启用过Taxonomy term View,现在发现RDS的慢查询语句中还有不少是默认分类页面的翻页计数SQL语句,现在全面使用Views Litepager,于是在把Taxonomy term这个View启用,还有几个措施: Drupal系统的Views是个功能强大的工具,但也可能引起MySQL数据库性能问题,为了排查可以打开一些Views的开关设置。 我一般常用的是:
自从做网站以来,大量自动抓取我们内容的爬虫一直是个问题,防范采集是个长期任务,这篇是我5年前的博客文章:《Apache中设置屏蔽IP地址和URL网址来禁止采集》,另外,还可以识别User Agent来辨别和屏蔽一些采集者,在Apache中设置的代码例子如下: RewriteCond %{HTTP_USER_AGENT} ^(.*)(DTS\sAgent|Creative\sAutoUpdate|HTTrack|YisouSpider|SemrushBot)(.*)$ RewriteRule .* - [F,L] 屏蔽User 站内搜索2002-2023 v11.7 a-j-e-0 |
---|