您在這裡

一把刀實用查詢Wiki網站批量添加重定向頁面

James Qi 在 2017年12月3日 - 11:02 發表

  10年前做的一把刀實用查詢網站當時先是同事用Java開發了一個版本,但以後的持續改進、維護、開發不方便,我就又弄了一個MediaWiki平台,做了《中文簡體》、《中文繁體》、《英文》三個版本,十年過後還一直有用戶使用,幾個版本的情況:

  • https://cn.18dao.net 中文簡體:流量不大,雖然内容與繁體基本對應,質量還算不錯的,但百度不給與好的權重;
  • https://tw.18dao.net 中文繁體:流量一直不錯,主要來源是台灣用戶使用Google, Yahoo帶來的流量,也有不少回訪用戶;
  • https://en.18dao.net 英文:流量也不大,那确實是因為内容太少、質量不高。

  這些天在檢查阿裡雲RDS負載,看到實時查詢語句裡面有不少中文繁體版本的全文搜索SQL語句成了慢查詢,再去Google Analytics裡面看該站的搜索情況,發現每天還有2000-3000左右的内部搜索量,很多都是其中的“漢語詞典”、“成語詞典”相關的關鍵詞。

  但我們在用MediaWiki做這個站的時候,因為有大約100個欄目,頁面标題都是采用的“欄目名+文章名”的方式,例如“漢語詞典/中”、“成語詞典/刻舟求劍”,但用戶在站内搜索的時候往往都是直接輸入單字“中”或者成語“刻舟求劍”,這樣就會搜索出來包含關鍵詞的頁面列表,用戶再點擊進入相關頁面,其實應該是直接進入該字或者成語的頁面是最符合用戶預期的,而且也避免不必要的搜索讓數據庫負載增加。

  以前也想到過做一些重定向頁面來實現,就是增加“”、“刻舟求劍”這樣的頁面,用戶輸入這樣的關鍵詞後可以通過重定向頁面直接跳轉、看到“漢語詞典/中”、“成語詞典/刻舟求劍”頁面。這兩天嘗試了一下,發現這樣可行,于是就批量生成了重定向頁面,做成XML格式文件,用MediaWiki軟件中的maintenance/importDump.php來導入,XML文件示範如下:

<mediawiki xmlns="http://www.mediawiki.org/xml/export-0.10/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.mediawiki.org/xml/export-0.10/ http://www.mediawiki.org/xml/export-0.10.xsd" version="0.10" xml:lang="zh-cn">
  <siteinfo>
    <sitename>example</sitename>
    <dbname>example</dbname>
    <base>https://example</base>
    <generator>MediaWiki 1.27.0</generator>
    <case>first-letter</case>
    <namespaces>
      <namespace key="-2" case="first-letter">媒體文件</namespace>
      <namespace key="-1" case="first-letter">特殊</namespace>
      <namespace key="0" case="first-letter" />
      <namespace key="1" case="first-letter">讨論</namespace>
      <namespace key="2" case="first-letter">用戶</namespace>
      <namespace key="3" case="first-letter">用戶讨論</namespace>
      <namespace key="4" case="first-letter">Jamesqi</namespace>
      <namespace key="5" case="first-letter">Jamesqi讨論</namespace>
      <namespace key="6" case="first-letter">文件</namespace>
      <namespace key="7" case="first-letter">文件讨論</namespace>
      <namespace key="8" case="first-letter">MediaWiki</namespace>
      <namespace key="9" case="first-letter">MediaWiki讨論</namespace>
      <namespace key="10" case="first-letter">模闆</namespace>
      <namespace key="11" case="first-letter">模闆讨論</namespace>
      <namespace key="12" case="first-letter">幫助</namespace>
      <namespace key="13" case="first-letter">幫助讨論</namespace>
      <namespace key="14" case="first-letter">分類</namespace>
      <namespace key="15" case="first-letter">分類讨論</namespace>
      <namespace key="2300" case="first-letter">Gadget</namespace>
      <namespace key="2301" case="first-letter">Gadget talk</namespace>
      <namespace key="2302" case="case-sensitive">Gadget definition</namespace>
      <namespace key="2303" case="case-sensitive">Gadget definition talk</namespace>
    </namespaces>
  </siteinfo>
  <page>
    <title>一</title>
    <ns>0</ns>
    <id>0</id>
    <redirect title="漢語詞典/一" />
    <revision>
      <id>0</id>
      <parentid>0</parentid>
      <timestamp>2017-12-01T00:00:00Z</timestamp>
      <contributor>
        <username>Robot</username>
        <id>0</id>
      </contributor>
      <comment>重定向頁面至[[漢語詞典/一]]</comment>
      <model>wikitext</model>
      <format>text/x-wiki</format>
      <text xml:space="preserve" bytes="0">#REDIRECT [[漢語詞典/一]]</text>
      <sha1>0</sha1>
    </revision>
  </page>
  <page>
    <title>一丁不識</title>
    <ns>0</ns>
    <id>0</id>
    <redirect title="成語詞典/一丁不識" />
    <revision>
      <id>0</id>
      <parentid>0</parentid>
      <timestamp>2017-12-01T00:00:00Z</timestamp>
      <contributor>
        <username>Robot</username>
        <id>0</id>
      </contributor>
      <comment>重定向頁面至[[成語詞典/一丁不識]]</comment>
      <model>wikitext</model>
      <format>text/x-wiki</format>
      <text xml:space="preserve" bytes="0">#REDIRECT [[成語詞典/一丁不識]]</text>
      <sha1>0</sha1>
    </revision>
  </page>
</mediawiki>

  一共導入了數萬個這種重定向頁面,數量如下:

  後面再觀察一下,看MySQL數據庫的慢查詢是否有所減少、Google Analytics裡面搜索量、搜索引擎索引量、網站流量等是否有變化。如果效果好,還可以把其它用戶常搜索的欄目也增加對應的重定向頁面。

  另外,這個十多年的Wiki網站其實也還有一些改進餘地的,特别是繁體中文版,我們前一段時間增加了keywords/description、繁體簡體對照鍊接、指向新版一把刀實用查詢鍊接、調整版式、增加AMP/MIP版本等,還可以考慮增加台灣注音、台灣版漢語詞典、中文字典、英漢詞典、漢英詞典等内容。

 

發表新回應

Plain text

  • 不允許使用 HTML 標籤。
  • 自動將網址與電子郵件地址轉變為連結。
  • 自動斷行和分段。