Midjourney V5 上线后,网友们用它生成了数不清的惊叹作品。
在这个 AI 作画工具面前,人和人的差距,或许就体现在 prompt 上了。
去年在科罗拉多州博览会艺术比赛上用 AI 打败了人类的获奖者,花了 80 多个小时,经过 900 次迭代后,才用 Midjourney 完成了《太空歌剧院》这一艺术杰作。而 ta 直接拒绝分享出自己的 prompt。
是的,现在很多时候,一行完美又专业的 prompt,已经价值千金。
而 Midjourney 仿佛深知我们的需求,最近,它上线了一个新功能 ——/describe,可以帮我们从图像中反推 prompt。
从图像反推 prompt
现在,如果你有一个想模仿的图像,但你不知道要用什么样的 prompt 去描述它,这时候,describe 就帮你大忙了。比如,下图是新海诚的《言叶之庭》。
拖进图像后,Midjourney 生成了下面四种 prompt。
根据这四个 prompt,Midjourney 又生成了类似风格的四幅图。
简直完美。
并且,Midjourney 提供的描述也可以激发出用户的更多灵感。传统的画家可能会患有空白画布综合征,AI 艺术家有时也会词穷,很难找到描述照片的词语。
在 Midjourney 的 Discord 频道上,从「/describe」就可以启动文本描述过程了。
Midjourney 提供了一个拖放区,可以让你拖入图像。
然后按下回车键,就可以等待 prompt 了。
四个文本提示,包括描述性词语、样式详细信息和纵横比。宽高比在像素精确度方面与计算机类似,比如如果是一个 16:9 的图像,它会输出 504:283。
而四个文本提示生成后,你可以直接点击按钮,直接用它们生成图像,当然,在提交之前,你也可以选择自己优化提示。
作家的意外收获?
更有趣的是,Midjourney 的这个新功能,竟然意外地让作家们获得了帮手。
如果找不到完美的形容词来描绘一幅画,只需要把图像上传到 Midjourney,文采斐然的句子就自动蹦出来了。
而 Midjourney 返回的文本提示,真是让人惊喜连连。其中包括「palewave」、「cranberrycore」和「icepunk」等流行语,以及各种艺术家、摄影师和作者的姓名。
比如,上传 Ross Burgener 的一张绝佳的作品,Midjourney 会这样描述:"极光在 LED 照明的冰屋上跳舞,给雪的颜色带来了蓝色调"。
它认出了北极光,会在提示中给出建议 —— 可参考艺术家 Qlexis Gritchenko 和摄影师 Nathan Wirth。它采用的词汇包括 「极地冰山」、「发光的天空」和「空灵的雕塑」。
网友们大喜,已玩疯
现在,网友们已经玩疯了。
有网友利用 describe 功能,生成了许多穿白色蕾丝裙的美女。
有人输入了一堆珠宝的图像。
得到了如下的 prompt。
根据这些 prompt 生成的图像如下。
输入一个二次元萌妹。
输出的 prompt,出图效果很惊艳。
输入一只气质憨憨的大捻角羚的照片。
生成的 prompt 如下。
输出的 prompt 生成的大捻角羚,气质更为冷峻。
输入一只海滩上的狗。
Prompt 生出了四只埋在坑里的狗。
输入穿着燕尾服的动漫人物。
生成如下 prompt。
生成四张动漫人物。
是 RLHF?
可以看到,Midjourney 最近的进步,可以用飞速形容。
英伟达 AI 科学家 Jim Fan 猜测,Midjourney 一直在根据人类反馈进行大规模的强化学习,并且,这可能是有史以来规模最大的文本到图像强化学习。
当用户选择放大图像时,是因为他们更喜欢它。如果不把这个过程当作奖励信号,那真是巨大的浪费。这些数据收集起来很便宜,而且完全符合用户群的需求。
拥有的用户越多,可以做的 RLHF 就越好,然后获得的用户就越多。
他还给出了一个免责声明,表示这就是自己的一个脑洞,自己并不认识 Midjourney 的人。
但他们一定已经是这么做的,因为 UI 的格式看起来就像一个多项选择题。
最后,要注意的是,同图像生成一样,describe 功能需要使用积分,所以需要谨慎地考虑。
而且现在,Midjourney 的免费功能,已经彻底关闭了。
参考资料: