我們很久以前做的實用查詢Wiki網站中的漢語詞典、成語詞典都是從中文簡體字内容轉換過去的,雖然内容還比較適合台灣用戶,但裏面的發音都衹有大陸這邊的普通話拼音,沒有台灣那邊主要使用的注音符號。
今年上半年在做新版一把刀實用查詢網站時,拿到的漢語詞典原始數據中衹有注音而沒有拼音,當時就專門編寫了一個PHP程序來進行注音到拼音的轉換,有幾點需要注意:
- 留意音調的對照,台灣那邊也是4種音調和輕聲,但音調寫法不一樣;
- 有些寫到注音符號前面、有時可以寫到前面;
- 一、ㄧ、|這三個符合含義是一樣的,衹是寫法不一樣,可以統一成一種;
- 多個字的注音之間用全角空格隔開,而多個字的拼音之間用半角空格隔開;
- 特別需要留意的是轉換的順序,有些整體的注音不能用拆分的分開的注音來表示和轉換。
這幾天正在做“為台灣人民服務十多年的網站進行問卷調查”,不止一個用戶提出衹有拼音是不夠的,建議增加注音,於是我也把以前的注音轉拼音程序改了一下,來實現拼音到注音的轉換,除了上面那些需要注意的地方意外,還有幾個地方:
- 一、ㄧ、|這三個符合含義是一樣的,轉的時候可以約定使用統一的一種;
- 發輕聲的“ㄦ”有時情況特殊一些,需要看具體與什麽一起使用再檢查確定;
- 有些組合的注音拼音轉換還是有問題,可以用替換函數進行特別的轉換;
- 爲了驗證轉換后的結果是否正常,可以把轉換后的結果再反著轉一遍、與原始數據對比來發現可能的問題。
具體程序代碼就不放在這裏了。參考對照表可以看:《注音_百度百科》。
下一步我們還要把各個Drupal站、MediaWiki站相關的内頁、索引頁都進行修改、添加,方便用戶使用。
评论