去年在寻找公开数据的时候,就看到过GitHub上的“Awesome Public Datasets”,这是一个手工收集整理的各种公开数据集列表,按照主题可以分为下面这些大类:
- Agriculture 农业
- Biology 生物
- Climate+Weather 气候+天气
- ComplexNetworks 复杂网络
- ComputerNetworks 计算机网络
- DataChallenges 数据竞赛
- EarthScience 地球科学
- Economics 经济
- Education 教育
- Energy 能源
- Finance 金融
- GIS 地理信息
- Government 政府
- Healthcare 健康
- ImageProcessing 图像处理
- MachineLearning 机器学习
- Museums 博物馆
- NaturalLanguage 自然语言
- Neuroscience 神经科学
- Physics 物理
- Psychology+Cognition 心理学+认知
- PublicDomains 公共领域
- SearchEngines 搜索引擎
- SocialNetworks 社交网络
- SocialSciences 社会科学
- Software 软件
- Sports 运动
- TimeSeries 时间序列
- Transportation 运输
- Complementary Collections 补充收集
具体下面有大几百个数据集的链接,这个列表还在不断补充完善中。
访问网址:https://github.com/awesomedata/awesome-public-datasets
附带另外几个有用的链接:
- Data Search Engine (Google 自定义搜索)
- Popular public data searches on google.com (U.S.)
- 18 places to find data sets for data science projects
- [FiveThirtyEight] Dataset
评论