作者treasurehill (宝藏岩公社,你还未够班S)
看板AI_Art
标题Re: [闲聊] 负空间的由来
时间Wed Mar 4 12:18:30 2026
https://i.meee.com.tw/rJcfaxZ.png
https://i.meee.com.tw/4XtYiih.png
用你修正过後的prompt去MJ跑,还是没有出来啊
显然不是google Gemini3讲的那麽简单(下面补充说明)
※ 引述《evaras (牛排)》之铭言:
: ※ 引述《treasurehill (宝藏岩公社,你还未够班S)》之铭言:
: : 前面举过例子了,不再赘述
: : ChatGPT 生成就很正常:
: : https://i.meee.com.tw/cAYP3cu.png
: : 直接描述了一群年轻人站在独木舟上,低头往双腿间看,娜娜女鬼正在看他们的模样
: : 但midjourney生成结果的就是这样
: : https://i.meee.com.tw/qNuukVB.jpg
: : https://i.meee.com.tw/3GApD2E.jpg
: : 不管是6.1或7.0都一样,没有办法正确的生成完整语意的图形
: 我帮你把这问题丢给google Gemini3了
: Gemini 3 Flash 回答如下
: 这是一个非常经典的 「模型底层逻辑差异」。
: 您的这个发现揭露了目前 AI 绘图界最强两大势力(DALL-E 3 vs. Midjourney)完
: 全相反的操作哲学。
: 为什麽 ChatGPT (DALL-E 3) 能画对,
: 而更强大的 Midjourney (v6.1/7.0) 反而翻车了?
: 原因如下:
: 1. ChatGPT (DALL-E 3) 是「读题天才」
: ChatGPT(DALL-E 3)最强大的地方在於它内建了 「Prompt 重写与语义扩张」 机制。
: 它的行为: 当你把那段大杂烩丢给 ChatGPT 时,
: 它并不是直接拿那段话去画。
: 它会先背後**「翻译」**成一段极度详细、符合空间逻辑的描述。
: 为什麽能画对:
: 它理解「在船上」、「胯下看」、「女鬼」是故事的主线,
: 它会舍弃掉指令中不合理的干扰词(如佛像或僧侣),专注於帮你「圆梦」。
: 它甚至会自动脑补光影与物体的物理关系。
这句话对,ChatGPT(DALL-E 3),Gemini 3这种多模态的AI的确会先做prompt优化
而不是直接拿去Difussion层跑,所以出来的效果会比较好
: 2. Midjourney (v6.1/7.0) 是「美学偏见大师」
: Midjourney 的核心设计目标是 「每一张图都要像电影剧照般精美」,
: 而非「每一张图都要精确符合描述」。
: 标签中毒:
: 您提供的指令中有很多特定的「偏见词」。
: 对於 MJ 来说,The Buddha, Monk, Ancient 的视觉重量远大於 look between legs。
: 图片 1 vs. 图片 2 (MJ 的逻辑):
: 图片 1: MJ 抓到了 The Buddha 和 Monk,它的资料库告诉它「泰国古代恐怖 = 寺庙、
: 佛像」,所以它优先盖了一座庙,把你原本想在河上发生的事给「吞」了。
: 图片 2: MJ 抓到了 Horrifying 和 looking down。因为它无法理解「从两腿之间往後
: 看」这种诡异的几何姿势,它选择了一个在恐怖片中最合逻辑的构图:地板下的怪物。这
: 对它来说「更精美、更恐怖」,所以它自动「修正」了你的意图。
这里不太对,应该说像MJ这种直接运算的绘图模式
对於复合态的prompt是采用内插向量的方式解决
也就是说如果有A+B+C+D+E的prompt
他就是把A,B,C,D,E的向量去做内插
如果其中有比较强的cluster的如A,B,就会吃掉比较弱的C,D,E
: 3. 指令「长度」的反效果
: DALL-E 3: 越长越好,它会从中挑选故事。
: Midjourney v6/v7: 它们的 「注意力上限(Context Window)」 其实有限。
: 在您的指令中,Canoe (独木舟) 出现在快结尾的地方。
: 在 MJ 的处理排序里,
: 前面的 Chut Thai, Pee Mak, Ancient 早就占满了生成的「预算」。
: 当它读到最後面的 canoe 时,画面上已经塞了一尊佛像或一地板的木头,没地方放船了。
: 结论:两者的正确使用姿势
: ChatGPT (DALL-E 3):
: 适合「说故事」。你给它一堆关键字,它会帮你组织成一个合理的画面。
: Midjourney (v6/v7):
: 适合「精确控制美学」。你必须 「删繁就简」,直接告诉它:
: 不要写:The Buddha, Monk (如果不打算出现在画面中)。
: 必须写:On a small river boat, looking through legs POV。
: 实验证明
: 如果您现在去 Midjourney 测试这句精简版,它就极大概率能画对:
: /imagine prompt: Cinematic still, a man looking down through his legs on a
: river boat, a terrifying female ghost glaring behind him, ancient Thai
: atmosphere --ar 2:1
: 这就是为什麽您看到ChatGpt图片 (DALL-E 3) 最像您的预期,
: 而Midjourney图片 1 & 2 (Midjourney) 却各走各的路。
: MJ 虽然画质更生动,但它像是一个很有主见、不爱听长篇大论的摄影师。
: 您想要我(Google Gemini 3)帮您整理一份「Midjourney 避坑指南」,
: 教您如何把这种复杂的泰国故事精炼成它听得懂的专用语法吗?
同上,ChatGPT (DALL-E 3): 的多模态组的确会做prompt优化
让每个提示字都能合理出现,不会有强吃弱的现象
但MJ这种直接运算的方式就会出现强吃弱
甚且运算出原本训练集不存在的图片
PS.最後附上一个有趣的实验结果
https://i.meee.com.tw/GfgjFEj.png
当你要求既是狗又是鬼的时候
模型没学过就直接套用狗头鬼身了
直接验证我前面的说法
--
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 118.233.2.206 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/AI_Art/M.1772597913.A.CB1.html
※ 编辑: treasurehill (118.233.2.206 台湾), 03/04/2026 12:20:08
※ 编辑: treasurehill (118.233.2.206 台湾), 03/04/2026 12:25:05
※ 编辑: treasurehill (118.233.2.206 台湾), 03/04/2026 15:36:37
1F:嘘 Jotarun: 原文都删了 03/04 22:52