2024年上半年我們就為全本成語詞典每個成語配插圖和為全本字典每個字都配插圖,這個成語詞典和字典的圖片數量都是數千張,雖然生成的時間不短,但也還是相對比較容易控制。再後面為詞典、大詞典配圖數量就更多了,所以前前後後需要很長時間。
繁體的這部國語辭典有45,000個漢字和詞語(包含大約6,615漢字和38,390詞語),這個工作量就相當大了,我們當時是分了好幾個人、好幾台機器、好幾個賬号來生成,後面再來合并、檢查、上線,前前後後也是好幾個月時間,後來檢查、上線了38,349個圖片,剩下的部分以後再抽時間來補充。
特别地,對于多音字、多義詞我們也都單獨進行了配圖,例如:
烏龜 guī

龜茲 qiū

龜裂 jūn

多音字加多義詞:


2025年2月這些圖片也被我傳到Hugging Face的Datasets中去了,網站通過Cloudflare的Snippets中轉訪問。暫時設置的是私有數據集,如果以後有人對這種大批量的圖片數據感興趣,也可以考慮改為公開數據集。
這些圖片我自己還是很滿意的,雖然現在AI發展很快,文生圖的技術逐步成熟,但也沒有看到别人來為詞典大量配圖,說明做起來還是有一定難度、很辛苦的,希望這些圖片對浏覽者有幫助,也希望更多的人喜歡甚至參與一起編輯完善。
我們這邊使用AI文字生成圖片很有經驗了,Midjourney、DALL-E、Stable Diffusion、Flux等各種工具都使用過,特别是批量文生圖是我們擅長的,一些系列配圖都是成千上萬甚至數十萬的,流程順暢、質量也有保證,如果有朋友有批量生成配圖的需求可以找我聯系🤝
另外再次說明,上面一些圖片或者文字的鍊接可能要科學上網才能訪問。
评论