你在这里


中文

名录集推出新站:广交会参展商 (Canton Fair Exhibitor)

James Qi 2012年12月25日 - 18:17 发布

  再介绍名录集系列新推出的一个站点:广交会参展商 (Canton Fair Exhibitor),关于广交会的数据和站点我们以前推出过多种了,有采购商名录、询盘数据和参展商,有英文的、中文的,这次专门把历届广交会参展商的中文资料汇总做成这个站,其中包含了近月刚刚结束的112届广交会数据,介绍如下:

The data of this website is from Canton Fair Exhibitor, including the 103rd, 104th, 105th ,106th, 107th, 108th, 109th, 110th, 111th, 112th Canton Fair.

(本站的数据来源于中国广交会参展商,包含第103届、第104届、第105届、第106届、第107届、第108届、第109届、第110届、第111届、第112届中国广交会参展商。)

New!:新到112届广交会参展商数据(112th Canton Fair Exhibitor Data)

邮编库推出中英文双语的“China Postal Code (中国邮政编码)”网站

James Qi 2011年5月11日 - 09:54 发布

  邮编库网站去年开始尝试多语言网站,推出10种语言的子网站,花了不少时间精力用MediaWiki搭建了框架,200多个国家有了独立页面,其中中国做得仔细一些。不过因为内容还不够丰富,难以满足浏览者用各种语言查询各国邮编的需求,所以整体浏览量还不够大。

  有了去年的尝试,我们还是积累了不少经验教训。今年以来加大了多语言方面的力度,同事先是将10种语言中的中国邮编内容从300多城市扩展到约3000区县,现在又在将200多个国家的页面内容进行丰富完善。

  不过人工来做多语言内容确实很费劲,一个一个页面创建、修改太麻烦,上个月开始我将170万中国邮编数据做成英文(中英文对照)网站,其中省份、地市、区县的英文是人工来翻译,再下级的街道、村组就用的汉语拼音,在title, meta及网站结构等方面充分考虑了SEO的因素,相信其内容具有独特性,能满足用英文查找中国各地邮政编码及中国各地详细地址信息的需求,应该在后期会有比较好的流量表现。

Drupal中使用Transliteration模块实现中文转拼音

James Qi 2011年1月31日 - 15:48 发布

  以前在MediaWiki中见过一个扩展程序可以实现汉字转拼音,但好像是固定汉字转换,不能是变量,所以也没有用。这几天在用Drupal的时候查到资料说Transliteration这个模块可以用于中文转拼音,而这个模块也用于将上传包含汉字字符文件名的文件自动转拼音文件名,以前就曾经安装用过,于是打开该模块的Readme查看,原来很简单就可以调用其中的函数来实现。

  汉字转换函数:

if (function_exists('transliteration_get')) {
   $transliterated = transliteration_get($text, $unknown, $source_langcode);
}

  文件名转换函数:

if (function_exists('transliteration_clean_filename')) {
   $transliterated = transliteration_clean_filename($filename, $source_langcode);
}

  注意$source_langcode是原始语言,可以使用系统默认语言:

$output = transliteration_get($text, '?', language_default('language'));

  这个功能很方便,不过自带的数据中拼音错误不少,还缺了一些汉字的拼音,需要用这个的数据替换办法来修改、补充。办法是先查出汉字的Unicode编码,然后找到对应的文件、对应的行列,核对自带数据是否错误或者缺失,如果要纠正,就在文件下面添加:

$variant['zh-hans'] = array(
0xCF => 'Yi ',
);

  除了Transliteration模块外,Autopath模块其实也带有汉字拼音转换功能,转换表中也有一些错误和缺失,可以参看:i18n-ascii-full.txt,或者下载保存。这些错误真是可恨,本来好好的功能给破坏了,要纠正起来还是要花不少时间去校对的,但愿以后有人来做好正确的。

  附几个例子,注意其中有多音字、错误拼音、缺失拼音的情况:

汉字转换好!=>Han Zi Zhuan Huan Hao !
汉=>Han
藏=>Zang
一=>Yi
癌=>Ai
肮=>Ang
“2”=>"2"
订阅 RSS - 中文