更新了服務器硬件後,我們繼續向着大數據量網站擴展,前段時間在Drupal系統中導入了多達435萬的114電話查詢名錄數據,算是創造了我們單個網站數據量的新紀錄,此前最多也是100多萬,沒有到200萬的。
114的數據包含了全國29個省份的電話查詢名錄,主要按照地區、類型和區号三種方式進行分類,其中地區的信息原始數據中有缺少和錯誤的情況,費了好些力氣來進行判斷、處理。另外,435萬中有小部分(數十萬)是完全重複的,還有一個單位幾個号碼的情況,實際獨立單位數量大約是279萬。
這個站開啟了留言功能、未開啟注冊功能,也因為數據量巨大,暫時未開啟内部搜索功能。類似名錄數據的原始數據質量确實存在問題,但經過我們盡力整理後,可用性還是大大增強了,再加上本身數據量的龐大,應該是對感興趣的浏覽者會有幫助的。
網站網址如下:
评论