我們很久以前做的實用查詢Wiki網站中的漢語詞典、成語詞典都是從中文簡體字内容轉換過去的,雖然内容還比較適合台灣用戶,但裏面的發音都衹有大陸這邊的普通話拼音,沒有台灣那邊主要使用的注音符號。
今年上半年在做新版一把刀實用查詢網站時,拿到的漢語詞典原始數據中衹有注音而沒有拼音,當時就專門編寫了一個PHP程序來進行注音到拼音的轉換,有幾點需要注意:
- 留意音調的對照,台灣那邊也是4種音調和輕聲,但音調寫法不一樣;
- 有些寫到注音符號前面、有時可以寫到前面;
- 一、ㄧ、|這三個符合含義是一樣的
我們很久以前做的實用查詢Wiki網站中的漢語詞典、成語詞典都是從中文簡體字内容轉換過去的,雖然内容還比較適合台灣用戶,但裏面的發音都衹有大陸這邊的普通話拼音,沒有台灣那邊主要使用的注音符號。
今年上半年在做新版一把刀實用查詢網站時,拿到的漢語詞典原始數據中衹有注音而沒有拼音,當時就專門編寫了一個PHP程序來進行注音到拼音的轉換,有幾點需要注意:
多年前我們開始專門做網站運營的時候就考慮到多語言支持,特別是繁體版本,當時用MediaWiki搭建了一個專門的繁體版本實用查詢網站,內容與對應的簡體版本實用查詢網站基本一樣,後來看到繁體版本的瀏覽量一直不錯,而簡體版本的瀏覽量很少,
以前在翻看Drupal的Performance & Scalability插件的时候留意过有一个Fast 404模块,知道是专门处理404报错页面,如果网站有很多404,这个模块可以降低负载,但没有详细了解。
最近还在不断尝试降低MySQL服务器的负载,今天干脆把这个模块安装试了试,英文的说明看起来比较复杂,我就把README.txt中的内容把一些要点对照翻译如下吧:
Fast_404 is Super Fast and Super Amazing. It is also very aggressive
最近一直在为降低MySQL服务器负载努力,Drupal网站中主要是排查Views引起的性能问题,而MediaWiki中也有一个与Drupal的Views对应的工具:Dynamic Page List (DPL动态页面列表),既可以灵活运用得到希望的信息展示效果,但同时也容易引起数据库负载过高、性能下降。
当网站打开很慢的时候,还是需要查看阿里云RDS数据管理控制台DMS(Data Management Service),查看诊断报告或者当前实例会话,查看慢查询语句,例如发现大量这样的语句:
SELECT DISTINCT `jing
MediaWiki的文件缓存(File Cache)在我们实际使用的网站中还是很重要的,可以让访问速度快很多,不过有些页面要求有一定的实时性,缓存过期时间不宜过长,我们以前都是设置的统一过期时间,然后部分页面不生成文件缓存,这些不生成文件缓存的页面往往成为了MySQL服务器中慢查询的来源。
今天先是想了一个办法,Linux服务器上设置crontab,定时执行一个批处理文件,来删除cache目录下的缓存文件,这样可以实现我们需要的对不同页面缓存不同的时间长度,但缺点是设置比较麻烦,而且执行磁盘查找、删除在数据量大的时候比较慢。
后来又想了
前段时间对我们一些中文网站添加了百度MIP版本,但因为刚开始也没有什么流量,就没有添加统计代码。现在发现有些MIP有些流量了,而同时以前网站的手机访问用户数据统计有下降,可能是转移到MIP版本了,还是需要让MIP版本也有统计数据才好,目前只是从百度联盟后台可以看到一些数据,毕竟不方便、不准确。
在“百度MIP移动加速页面”网站的MIP 组件列表中找到“mip-pix”、“mip-analytics”、“mip-stats-baidu”、“mip-stat
Drupal中两种可以进行页面分类的工具是Taxonomy系统和Views方式,前者是专门的分类系统,用得比较多,而Views更加灵活,另外很早前也发现Views中有个叫着Taxonomy term的View,默认没有开启,如果开启的话,可以替代相同路径的分类页。
很早前为了降低数据库负载也曾在部分国外系列网站中启用过Taxonomy term View,现在发现RDS的慢查询语句中还有不少是默认分类页面的翻页计数SQL语句,现在全面使用Views Litepager,于是在把Taxonomy term这个View启用,还有几个措施:
Drupal系统的Views是个功能强大的工具,但也可能引起MySQL数据库性能问题,为了排查可以打开一些Views的开关设置。
我一般常用的是:
自从做网站以来,大量自动抓取我们内容的爬虫一直是个问题,防范采集是个长期任务,这篇是我5年前的博客文章:《Apache中设置屏蔽IP地址和URL网址来禁止采集》,另外,还可以识别User Agent来辨别和屏蔽一些采集者,在Apache中设置的代码例子如下:
RewriteCond %{HTTP_USER_AGENT} ^(.*)(DTS\sAgent|Creative\sAutoUpdate|HTTrack|YisouSpider|SemrushBot)(.*)$ RewriteRule .* - [F,L]
屏蔽User
10年前做的一把刀实用查询网站当时先是同事用Java开发了一个版本,但以后的持续改进、维护、开发不方便,我就又弄了一个MediaWiki平台,做了《中文简体》、《中文繁体》、《英文》三个版本,十年过后还一直有用户使用,几个版本的情况:
2002-2023 v11.7 a-j-e-0