前段时间一直在为词典批量生成图片,最早做的是台湾繁体版本的《成語典》,感觉效果不错,比去年更早时候用Stable Diffusion生成的效果好,比OpenAI的Dall-E 2生成的图片质量要高,比用Mid Journey来生成又方便了许多,综合还是GPT-4 + Dall-E3的理解能力、图片质量和使用方便性要好很多。
几千个成语配图生成后我也是每幅图片都检查过,一次性合格率很高,需要重新绘制的不到5%,当然,如果质量要求更高的话,可能10-20%的图片需要再次尝试绘制来供比较挑选。
但AI对一些特殊成语的理解力还是有限,对一些特殊的事物也很难画出来,最后必须人工来改提示词绘图的情况也存在,例如:
例如:
上面这个成语让AI自动配图的时候,开始只画出“月”和“花”,没有画出真正的主角,直到人工修改提示词才画出一个“美人”。
又例如:
这里的为蛇画脚的过程至少让ChatGPT重绘了10多次,都是各种异常的蛇身、蛇足,因为现实生活中不存在这种组合,所以绘图AI也没有学习的对象。
这本成语典一共有5153个常用成语,配图的整个工作量还是相当大的,如果没有AI的加持就太难了。这也是我们目前看到配图最多的一套成语词典,希望得到用户的喜爱。
评论