2024年上半年我们就为全本成语词典每个成语配插图和为全本字典每个字都配插图,这个成语词典和字典的图片数量都是数千张,虽然生成的时间不短,但也还是相对比较容易控制。再后面为词典、大词典配图数量就更多了,所以前前后后需要很长时间。
繁体的这部国语辞典有45,000个汉字和词语(包含大约6,615汉字和38,390词语),这个工作量就相当大了,我们当时是分了好几个人、好几台机器、好几个账号来生成,后面再来合并、检查、上线,前前后后也是好几个月时间,后来检查、上线了38,349个图片,剩下的部分以后再抽时间来补充。
特别地,对于多音字、多义词我们也都单独进行了配图,例如:
烏龜 guī

龜茲 qiū

龜裂 jūn

多音字加多义词:


2025年2月这些图片也被我传到Hugging Face的Datasets中去了,网站通过Cloudflare的Snippets中转访问。暂时设置的是私有数据集,如果以后有人对这种大批量的图片数据感兴趣,也可以考虑改为公开数据集。
这些图片我自己还是很满意的,虽然现在AI发展很快,文生图的技术逐步成熟,但也没有看到别人来为词典大量配图,说明做起来还是有一定难度、很辛苦的,希望这些图片对浏览者有帮助,也希望更多的人喜欢甚至参与一起编辑完善。
我们这边使用AI文字生成图片很有经验了,Midjourney、DALL-E、Stable Diffusion、Flux等各种工具都使用过,特别是批量文生图是我们擅长的,一些系列配图都是成千上万甚至数十万的,流程顺畅、质量也有保证,如果有朋友有批量生成配图的需求可以找我联系🤝
另外再次说明,上面一些图片或者文字的链接可能要科学上网才能访问。
评论