去年开始使用Hugging Face来尝试一些新的大语言模型,普通免费用户可以调用API的数量和种类都有限制,我看Pro用户调用的种类多一些,额度也有每天20000次,就每个月交9美元成为Pro用户。
一开始都是用Hugging Face菜单中的Models功能,菜单中还有个Datasets看过但没有怎么用,近期在寻找AI生成图片的保存方式的时候偶然发现Hugging Face为Pro用户提供1T的私有存储空间,再去了解一下其实Hugging Face的Datasets主要是利用的AWS S3 存储数据(对应于阿里云的OSS对象存储),这用于保存图片也是一个不错的办法。
于是尝试了一下,确实可用,有下面几点限制需要注意:
- 每个用户(无论Pro还是免费)提供无限的公有存储空间,但上传内容需要符合相关规定
- 每个Pro用户提供1T私有存储空间
- 每个Dataset最多放置10万个文件
- 每个目录最多放置1万文件
这在放置大量文件的时候就有些麻烦,超过1万个文件需要划分目录,超过10万个文件需要划分数据集,找一些规律进行划分和对应。
上传的时候可以使用《Datasets帮助文档》中的说明,我是在Linux服务器上安装CLI命令行工具来进行批量上传的。
另外也使用了一点Python程序来获取已经上传的文件进行统计、对比。
一个例子是把《成语典》对应的数千个成语的配图上传到一个数据集datasets/chengyu中,刚开始是作为一个私有数据集,后来设置为公开数据集了,如果有更兴趣的朋友也可以去查看和下载研究,甚至一起共同改进。
这些图片上传到Hugging Face的Datasets后,除了可以单独访问、下载以外,还可以嵌入网站的网页中直接显示,节省服务器带宽和负载,如果再利用Cloudflare的Snippets新功能,甚至可以做到直接替代以前服务器上的文件而html没有任何改变,关于这方面我后面再写博客来介绍。
这种主要当作存储的用法偏离了Hugging Face提供Datasets主要用于模型训练等方面的初衷,但也是可能对感兴趣的人有用的,而且如果是私有空间的话,更是可以自己随意安排用途的,我也咨询了AI,这样使用没有任何问题。
我已经用这种办法上传了几个公有数据集和更多的私有数据集,以后还可以上传图片以外的其它类型文件。
评论