查号吧網站從2010年增加手機号段數據以來一直都保持着更新,《全國各地移動、聯通、電信手機号段數據,歸屬地查詢持續更新》這篇文章中有具體記錄,在2014年底之前都是很有規律地每月更新一次,數據對比、處理、導入都很習慣了。但2015年1月原來的數據來源出了一套大的更新版本後基本停止更新了,我們到2016年3月才再次尋找數據來源進行更新,因為數據來源、格式、字段都有一些變化,所以需要編寫程序來進行處理,現在把步驟記錄一下:
- 新數據準備:下載rar文件後解壓,有txt和xlsx兩個版本,用編輯器打開txt文件,轉換格式為utf8編碼、unix文件格式(如果直接轉換後看到文件後半部分出現亂碼,可能需要先替換/r/n為/n),另存為一個文件mobile-20160324-334447-u8unix.txt,上傳到服務器上/backup/mobile_7/2016-04;
- 原數據導出:運行export.sh(内容為mysql -hhostname -uusername -ppassword -e"use tablename;SELECT cl_sortkey FROM prefix_categorylinks where cl_to ='手機七位' and cl_type = 'page' limit 500000;" > export.txt)導出原來的号段數據到export.txt;
- 數據對比:運行自己編寫的程序 compare.php 對mobile-20160324-334447-u8unix.txt 和 export.txt 進行比較,生成output-2016-4.txt和output-2016-4.xml文件;
- 數據導入:進入:/alidata/www/wiki.site.com/maintenance/ ,運行: /alidata/server/php/bin/php importDump.php /backup/mobile_7/2016-04/output-2016-4-test.xml 就可以導入MediaWiki網站了。
用Drupal搭建的新版查号吧網站用了www.chahaoba.cn這個域名,去年導入了一次七位手機号段,但後來沒有更新,這次也進行更新,以後會與MediaWiki版本的同步進行每月數據更新,步驟如下:
- 新數據準備:與上面的基本一樣,下載rar文件後解壓,有txt和xlsx兩個版本,用編輯器打開txt文件,轉換格式為utf8編碼、unix文件格式(如果直接轉換後看到文件後半部分出現亂碼,可能需要先替換/r/n為/n),另存為一個文件mobile-20160324-334447-u8unix.txt,上傳到服務器上/alidata/www/drupal.chahaoba.com/sites/www.chahaoba.cn/files;
- Feeds導入設置:設置為csv導入node到number内容類型,跳過已經存在的頁面,映射字段number, province, city, operator, card_type, areacode, postcode;
- 數據導入:進入頁面/import/mobile ,輸入導入的文件名就可以導入了。
评论