去年在尋找公開數據的時候,就看到過GitHub上的“Awesome Public Datasets”,這是一個手工收集整理的各種公開數據集列表,按照主題可以分為下面這些大類:
- Agriculture 農業
- Biology 生物
- Climate+Weather 氣候+天氣
- ComplexNetworks 複雜網絡
- ComputerNetworks 計算機網絡
- DataChallenges 數據競賽
- EarthScience 地球科學
- Economics 經濟
- Education 教育
- Energy 能源
- Finance 金融
- GIS 地理信息
- Government 政府
- Healthcare 健康
- ImageProcessing 圖像處理
- MachineLearning 機器學習
- Museums 博物館
- NaturalLanguage 自然語言
- Neuroscience 神經科學
- Physics 物理
- Psychology+Cognition 心理學+認知
- PublicDomains 公共領域
- SearchEngines 搜索引擎
- SocialNetworks 社交網絡
- SocialSciences 社會科學
- Software 軟件
- Sports 運動
- TimeSeries 時間序列
- Transportation 運輸
- Complementary Collections 補充收集
具體下面有大幾百個數據集的鍊接,這個列表還在不斷補充完善中。
訪問網址:https://github.com/awesomedata/awesome-public-datasets
附帶另外幾個有用的鍊接:
- Data Search Engine (Google 自定義搜索)
- Popular public data searches on google.com (U.S.)
- 18 places to find data sets for data science projects
- [FiveThirtyEight] Dataset
评论