去年開始使用Hugging Face來嘗試一些新的大語言模型,普通免費用戶可以調用API的數量和種類都有限制,我看Pro用戶調用的種類多一些,額度也有每天20000次,就每個月交9美元成為Pro用戶。
一開始都是用Hugging Face菜單中的Models功能,菜單中還有個Datasets看過但沒有怎麼用,近期在尋找AI生成圖片的保存方式的時候偶然發現Hugging Face為Pro用戶提供1T的私有存儲空間,再去了解一下其實Hugging Face的Datasets主要是利用的AWS S3 存儲數據(對應于阿裡雲的OSS對象存儲),這用于保存圖片也是一個不錯的辦法。
于是嘗試了一下,确實可用,有下面幾點限制需要注意:
- 每個用戶(無論Pro還是免費)提供無限的公有存儲空間,但上傳内容需要符合相關規定
- 每個Pro用戶提供1T私有存儲空間
- 每個Dataset最多放置10萬個文件
- 每個目錄最多放置1萬文件
這在放置大量文件的時候就有些麻煩,超過1萬個文件需要劃分目錄,超過10萬個文件需要劃分數據集,找一些規律進行劃分和對應。
上傳的時候可以使用《Datasets幫助文檔》中的說明,我是在Linux服務器上安裝CLI命令行工具來進行批量上傳的。
另外也使用了一點Python程序來獲取已經上傳的文件進行統計、對比。
一個例子是把《成語典》對應的數千個成語的配圖上傳到一個數據集datasets/chengyu中,剛開始是作為一個私有數據集,後來設置為公開數據集了,如果有更興趣的朋友也可以去查看和下載研究,甚至一起共同改進。
這些圖片上傳到Hugging Face的Datasets後,除了可以單獨訪問、下載以外,還可以嵌入網站的網頁中直接顯示,節省服務器帶寬和負載,如果再利用Cloudflare的Snippets新功能,甚至可以做到直接替代以前服務器上的文件而html沒有任何改變,關于這方面我後面再寫博客來介紹。
這種主要當作存儲的用法偏離了Hugging Face提供Datasets主要用于模型訓練等方面的初衷,但也是可能對感興趣的人有用的,而且如果是私有空間的話,更是可以自己随意安排用途的,我也咨詢了AI,這樣使用沒有任何問題。
我已經用這種辦法上傳了幾個公有數據集和更多的私有數據集,以後還可以上傳圖片以外的其它類型文件。
评论