- 主題:本站内容主要是本人關注的互聯網行業及個人愛好方面的主題,包括AdSense💲、MediaWiki👨💻、Drupal💻、馬拉松🏃、架子鼓🥁等。
- 書訊:本人新書2018年12月出版《Google AdSense實戰寶典 - 第二版📘》,歡迎關注。
前段時間了解了一些公開數據集(Public Datasets)的情況,特别是政府開放數據(Open Data),現在把各個國家/地區的政府開放數據公開網站情況收集整理一下,列出下面表格,以後還可以繼續補充完善:
代碼 | 國家/地區 | 公開數據網站名稱 |
我們很久以前做的實用查詢Wiki網站中的漢語詞典、成語詞典都是從中文簡體字内容轉換過去的,雖然内容還比較適合台灣用戶,但裏面的發音都衹有大陸這邊的普通話拼音,沒有台灣那邊主要使用的注音符號。 今年上半年在做新版一把刀實用查詢網站時,拿到的漢語詞典原始數據中衹有注音而沒有拼音,當時就專門編寫了一個PHP程序來進行注音到拼音的轉換,有幾點需要注意:
![]() 多年前我們開始專門做網站運營的時候就考慮到多語言支持,特別是繁體版本,當時用MediaWiki搭建了一個專門的繁體版本實用查詢網站,內容與對應的簡體版本實用查詢網站基本一樣,後來看到繁體版本的瀏覽量一直不錯,而簡體版本的瀏覽量很少, 以前在翻看Drupal的Performance & Scalability插件的時候留意過有一個Fast 404模塊,知道是專門處理404報錯頁面,如果網站有很多404,這個模塊可以降低負載,但沒有詳細了解。 最近還在不斷嘗試降低MySQL服務器的負載,今天幹脆把這個模塊安裝試了試,英文的說明看起來比較複雜,我就把README.txt中的内容把一些要點對照翻譯如下吧:
最近一直在為降低MySQL服務器負載努力,Drupal網站中主要是排查Views引起的性能問題,而MediaWiki中也有一個與Drupal的Views對應的工具:Dynamic Page List (DPL動态頁面列表),既可以靈活運用得到希望的信息展示效果,但同時也容易引起數據庫負載過高、性能下降。 當網站打開很慢的時候,還是需要查看阿裡雲RDS數據管理控制台DMS(Data Management Service),查看診斷報告或者當前實例會話,查看慢查詢語句,例如發現大量這樣的語句: SELECT DISTINCT `jing MediaWiki的文件緩存(File Cache)在我們實際使用的網站中還是很重要的,可以讓訪問速度快很多,不過有些頁面要求有一定的實時性,緩存過期時間不宜過長,我們以前都是設置的統一過期時間,然後部分頁面不生成文件緩存,這些不生成文件緩存的頁面往往成為了MySQL服務器中慢查詢的來源。 今天先是想了一個辦法,Linux服務器上設置crontab,定時執行一個批處理文件,來删除cache目錄下的緩存文件,這樣可以實現我們需要的對不同頁面緩存不同的時間長度,但缺點是設置比較麻煩,而且執行磁盤查找、删除在數據量大的時候比較慢。 後來又想了 前段時間對我們一些中文網站添加了百度MIP版本,但因為剛開始也沒有什麼流量,就沒有添加統計代碼。現在發現有些MIP有些流量了,而同時以前網站的手機訪問用戶數據統計有下降,可能是轉移到MIP版本了,還是需要讓MIP版本也有統計數據才好,目前隻是從百度聯盟後台可以看到一些數據,畢竟不方便、不準确。 在“百度MIP移動加速頁面”網站的MIP 組件列表中找到“mip-pix”、“mip-analytics”、“mip-stats-baidu”、“mip-stat Drupal中兩種可以進行頁面分類的工具是Taxonomy系統和Views方式,前者是專門的分類系統,用得比較多,而Views更加靈活,另外很早前也發現Views中有個叫着Taxonomy term的View,默認沒有開啟,如果開啟的話,可以替代相同路徑的分類頁。 很早前為了降低數據庫負載也曾在部分國外系列網站中啟用過Taxonomy term View,現在發現RDS的慢查詢語句中還有不少是默認分類頁面的翻頁計數SQL語句,現在全面使用Views Litepager,于是在把Taxonomy term這個View啟用,還有幾個措施: Drupal系統的Views是個功能強大的工具,但也可能引起MySQL數據庫性能問題,為了排查可以打開一些Views的開關設置。 我一般常用的是:
自從做網站以來,大量自動抓取我們内容的爬蟲一直是個問題,防範采集是個長期任務,這篇是我5年前的博客文章:《Apache中設置屏蔽IP地址和URL網址來禁止采集》,另外,還可以識别User Agent來辨别和屏蔽一些采集者,在Apache中設置的代碼例子如下: RewriteCond %{HTTP_USER_AGENT} ^(.*)(DTS\sAgent|Creative\sAutoUpdate|HTTrack|YisouSpider|SemrushBot)(.*)$ RewriteRule .* - [F,L] 屏蔽User 站内搜索2002-2023 v11.7 a-j-e-0 |
---|