Re: [闲聊] 负空间的由来

时间Wed Mar 4 12:18:30 2026

https://i.meee.com.tw/rJcfaxZ.png

https://i.meee.com.tw/4XtYiih.png

用你修正过後的prompt去MJ跑，还是没有出来啊显然不是google Gemini3讲的那麽简单(下面补充说明) ※ 引述《evaras (牛排)》之铭言： : ※ 引述《treasurehill (宝藏岩公社，你还未够班S)》之铭言： : : 前面举过例子了，不再赘述 : : ChatGPT 生成就很正常： : : https://i.meee.com.tw/cAYP3cu.png

: : 直接描述了一群年轻人站在独木舟上，低头往双腿间看，娜娜女鬼正在看他们的模样 : : 但midjourney生成结果的就是这样 : : https://i.meee.com.tw/qNuukVB.jpg

: : https://i.meee.com.tw/3GApD2E.jpg

: : 不管是6.1或7.0都一样，没有办法正确的生成完整语意的图形 : 我帮你把这问题丢给google Gemini3了 : Gemini 3 Flash 回答如下 : 这是一个非常经典的「模型底层逻辑差异」。 : 您的这个发现揭露了目前 AI 绘图界最强两大势力（DALL-E 3 vs. Midjourney）完 : 全相反的操作哲学。 : 为什麽 ChatGPT (DALL-E 3) 能画对， : 而更强大的 Midjourney (v6.1/7.0) 反而翻车了？ : 原因如下： : 1. ChatGPT (DALL-E 3) 是「读题天才」 : ChatGPT（DALL-E 3）最强大的地方在於它内建了「Prompt 重写与语义扩张」机制。 : 它的行为：当你把那段大杂烩丢给 ChatGPT 时， : 它并不是直接拿那段话去画。 : 它会先背後**「翻译」**成一段极度详细、符合空间逻辑的描述。 : 为什麽能画对： : 它理解「在船上」、「胯下看」、「女鬼」是故事的主线， : 它会舍弃掉指令中不合理的干扰词（如佛像或僧侣），专注於帮你「圆梦」。 : 它甚至会自动脑补光影与物体的物理关系。这句话对，ChatGPT（DALL-E 3），Gemini 3这种多模态的AI的确会先做prompt优化而不是直接拿去Difussion层跑，所以出来的效果会比较好 : 2. Midjourney (v6.1/7.0) 是「美学偏见大师」 : Midjourney 的核心设计目标是「每一张图都要像电影剧照般精美」， : 而非「每一张图都要精确符合描述」。 : 标签中毒： : 您提供的指令中有很多特定的「偏见词」。 : 对於 MJ 来说，The Buddha, Monk, Ancient 的视觉重量远大於 look between legs。 : 图片 1 vs. 图片 2 (MJ 的逻辑)： : 图片 1： MJ 抓到了 The Buddha 和 Monk，它的资料库告诉它「泰国古代恐怖 = 寺庙、 : 佛像」，所以它优先盖了一座庙，把你原本想在河上发生的事给「吞」了。 : 图片 2： MJ 抓到了 Horrifying 和 looking down。因为它无法理解「从两腿之间往後 : 看」这种诡异的几何姿势，它选择了一个在恐怖片中最合逻辑的构图：地板下的怪物。这 : 对它来说「更精美、更恐怖」，所以它自动「修正」了你的意图。这里不太对，应该说像MJ这种直接运算的绘图模式对於复合态的prompt是采用内插向量的方式解决也就是说如果有A+B+C+D+E的prompt 他就是把A,B,C,D,E的向量去做内插如果其中有比较强的cluster的如A,B,就会吃掉比较弱的C,D,E : 3. 指令「长度」的反效果 : DALL-E 3：越长越好，它会从中挑选故事。 : Midjourney v6/v7：它们的「注意力上限（Context Window）」其实有限。 : 在您的指令中，Canoe (独木舟) 出现在快结尾的地方。 : 在 MJ 的处理排序里， : 前面的 Chut Thai, Pee Mak, Ancient 早就占满了生成的「预算」。 : 当它读到最後面的 canoe 时，画面上已经塞了一尊佛像或一地板的木头，没地方放船了。 : 结论：两者的正确使用姿势 : ChatGPT (DALL-E 3)： : 适合「说故事」。你给它一堆关键字，它会帮你组织成一个合理的画面。 : Midjourney (v6/v7)： : 适合「精确控制美学」。你必须「删繁就简」，直接告诉它： : 不要写：The Buddha, Monk (如果不打算出现在画面中)。 : 必须写：On a small river boat, looking through legs POV。 : 实验证明 : 如果您现在去 Midjourney 测试这句精简版，它就极大概率能画对： : /imagine prompt: Cinematic still, a man looking down through his legs on a : river boat, a terrifying female ghost glaring behind him, ancient Thai : atmosphere --ar 2:1 : 这就是为什麽您看到ChatGpt图片 (DALL-E 3) 最像您的预期， : 而Midjourney图片 1 & 2 (Midjourney) 却各走各的路。 : MJ 虽然画质更生动，但它像是一个很有主见、不爱听长篇大论的摄影师。 : 您想要我(Google Gemini 3)帮您整理一份「Midjourney 避坑指南」， : 教您如何把这种复杂的泰国故事精炼成它听得懂的专用语法吗？同上，ChatGPT (DALL-E 3)：的多模态组的确会做prompt优化让每个提示字都能合理出现，不会有强吃弱的现象但MJ这种直接运算的方式就会出现强吃弱甚且运算出原本训练集不存在的图片 PS.最後附上一个有趣的实验结果 https://i.meee.com.tw/GfgjFEj.png

当你要求既是狗又是鬼的时候模型没学过就直接套用狗头鬼身了直接验证我前面的说法 -- --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 118.233.2.206 (台湾) ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/AI_Art/M.1772597913.A.CB1.html ※ 编辑: treasurehill (118.233.2.206 台湾), 03/04/2026 12:20:08 ※ 编辑: treasurehill (118.233.2.206 台湾), 03/04/2026 12:25:05 ※ 编辑: treasurehill (118.233.2.206 台湾), 03/04/2026 15:36:37

1^F：嘘 Jotarun: 原文都删了 03/04 22:52

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

AI_Art 板

Re: [闲聊] 负空间的由来

热门看板

赞助商连结