更新了服务器硬件后,我们继续向着大数据量网站扩展,前段时间在Drupal系统中导入了多达435万的114电话查询名录数据,算是创造了我们单个网站数据量的新纪录,此前最多也是100多万,没有到200万的。
114的数据包含了全国29个省份的电话查询名录,主要按照地区、类型和区号三种方式进行分类,其中地区的信息原始数据中有缺少和错误的情况,费了好些力气来进行判断、处理。另外,435万中有小部分(数十万)是完全重复的,还有一个单位几个号码的情况,实际独立单位数量大约是279万。
这个站开启了留言功能、未开启注册功能,也因为数据量巨大,暂时未开启内部搜索功能。类似名录数据的原始数据质量确实存在问题,但经过我们尽力整理后,可用性还是大大增强了,再加上本身数据量的庞大,应该是对感兴趣的浏览者会有帮助的。
网站网址如下:
评论