作者treasurehill (寶藏巖公社,你還未夠班S)
看板AI_Art
標題Re: [閒聊] 負空間的由來
時間Mon Feb 23 09:00:01 2026
→ AoWsL: 那就是 文字對齊 問題啊 你把世間以知的文字 輸入產生圖像 02/23 08:41
→ AoWsL: 得不到相同解 02/23 08:41
→ AoWsL:
http://i.imgur.com/Dx3BPC2.jpg 02/23 08:42
→ AoWsL:
http://i.imgur.com/2IxTlpA.jpg 02/23 08:42
用一個簡單的例子來說明二者不同,
四不像就是最好的例子。
它不是鹿、不是馬、不是牛、也不是羊,
而是把各種特徵拆開再拼起來的東西。
AI 的生成其實也是這樣運作。
========================
如果只是文字對齊
「狗 / dog / puppy」
→ AI只會畫不同風格的正常狗。
因為答案本來就在訓練資料裡。
這只是換字而已。
===========================
但我在講的是另一件事(負空間)
AI學「狗」不是學一整隻狗,
而是學很多特徵:
毛茸茸
四條腿
某種表情
某種生物感
這些特徵在模型裡可以被拆開。
當你給矛盾指令:
「不要像狗,但要有狗感」
AI就會:
不能用狗的形狀
但要保留某些狗特徵
被迫把特徵拆開再重組
結果可能變成:
有狗氣質的煙霧
像狗皮的沙發
有狗眼神的不明物體
這些東西:
訓練資料裡沒有,是 AI 自己算出來的。
就像「四不像」。
============================
為什麼會這樣
可以把 AI 想成一張地圖:
https://i.meee.com.tw/bt91Pox.jpg
城市 → 已知物體(狗、人、貓)
荒野 → 沒被定義的區域
正常生成只走城市。
矛盾指令會把 AI 推到荒野。
那個荒野就是:
負空間(訓練資料外的區域)
總結
文字對齊是「地圖導航」,它帶你去已經命名的地點;
負空間是「地圖開拓」,它強迫 AI 用已有的零件,去組裝一個地圖上尚未標註的荒原。
https://i.meee.com.tw/bt91Pox.jpg
這就是為什麼「四不像」在 AI 藝術中反而更有生命力,因為它逃離了人類語言的定義,
觸碰到了那個**「無法被命名、只能被計算出來」**的視覺深處。
--
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.233.2.206 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/AI_Art/M.1771808403.A.293.html
1F:推 error405: 大哥哥...02/23 09:01
※ 編輯: treasurehill (118.233.2.206 臺灣), 02/23/2026 09:02:35
※ 編輯: treasurehill (118.233.2.206 臺灣), 02/23/2026 09:09:43
2F:推 Tosca: AI色色也是這樣 就是用來做平常辦不到的色色02/23 09:12
3F:→ Tosca: 好比在街上裸露這種 你在大部分國家做都會被抓去關02/23 09:12
4F:→ Tosca: 但你用AI做 很輕鬆就能把一個女優在街上脫光 嘻嘻02/23 09:12
5F:→ Tosca: 用AI做色圖就是要做這種阿 做全裸在沙發上拿手機幹嘛啦=.=02/23 09:13
https://i.meee.com.tw/bt91Pox.jpg
這張圖已經說明得很清楚了
=============================
資料密集、被文字標示的 cluster → 正空間
→ 訓練資料多、語意穩定、模型最熟的區域。
cluster 之間未被明確標示的稀疏區 → 負空間
→ 資料少或沒有定義,但向量仍然存在的邊界區。
==========================
模型平常生成會往:
高密度區(正空間)收斂。
但當 prompt 有矛盾或限制時:
模型會被推離高密度區,停在稀疏邊界。
稀疏暗區 / 星際真空 / 邊緣荒野 → 負空間
向量仍然存在,但樣本極少或完全沒有明確標註。
這裡沒有「狗」的明確cluster,但有無數狗相關的特徵向量(毛、眼神、四肢姿態、生
物氛圍)散落在附近。
當prompt強制「遠離狗形狀,但保留狗的靈魂/凝視/毛茸茸存在感」時,denoising過程
就被推離中心高密度區,掉進這些稀疏邊界,於是只好在「沒人住過的向量組合」裡找一
個低能量(或相對合理的)落點 → 四不像就誕生了。
※ 編輯: treasurehill (118.233.2.206 臺灣), 02/23/2026 09:17:55
8F:推 Tosca: 與其說四不像 我更喜歡用"混血"來描述02/23 09:18
9F:→ Tosca: 我以前就常用這種技巧來生成很夢幻的美女02/23 09:18
10F:→ Tosca: 同樣的情況可以生成 像被繩子捆綁身體的新娘禮服02/23 09:19
11F:→ Tosca: 或是新娘禮服風格的大熊外套等等02/23 09:20
12F:→ Tosca: 這些就是"四不像"的結果 也是現實中很難辦到的02/23 09:20
13F:→ Tosca: 然後我覺得你的討論比較侷限的點就是你侷限在文字生圖02/23 09:21
14F:→ Tosca: 所以你思維停留在文字prompt對AI產生的負空間這件事02/23 09:21
15F:→ Tosca: 但其實圖形也是一種prompt 這也是為何文+圖prompt比較好玩02/23 09:21
16F:→ Tosca: 更不用說現在修圖已經進展到多圖融合02/23 09:21
17F:→ Tosca: 所以已經是圖+圖prompt 這對AI能產生的四不像效果更強02/23 09:22
※ 編輯: treasurehill (118.233.2.206 臺灣), 02/23/2026 09:28:47
19F:→ AoWsL: 這是我對V7的理解喔 你可以把圖像視為躁聲02/23 09:29
這個跟我講的「負空間」是兩回事。
我講的負空間是:
https://i.meee.com.tw/bt91Pox.jpg
模型內已形成的語意簇群(cluster)之外的稀疏區域,
也就是沒有穩定標註、沒有明確物體定義、但向量仍然存在的殘餘空間。
那是:
cluster 外的邊界區
資料密度極低的區域
訓練資料沒有覆蓋的地方
而你講的語意擾動或對齊問題,
還是在 cluster 裡面的變動,
只是已知語意內的偏移或風格差異,沒有跳出原本語意區域。
簡單講:
你講的是 cluster 內的變動
我講的是 cluster 外的稀疏空間
層次完全不同。
※ 編輯: treasurehill (118.233.2.206 臺灣), 02/23/2026 09:36:55
20F:→ AoWsL: 你可以當作我上面沒有 整理納入的書籍 就是你想探討的書 也02/23 09:42
21F:→ AoWsL: 許給它一個分類 叫做課外讀物02/23 09:42
22F:推 Tosca: 我覺得就生圖生的開心就好 人家想生負空間style圖片02/23 09:50
23F:→ Tosca: 不用太糾結到底負空間是三小02/23 09:50
24F:→ Tosca: 何況人眼的可視光譜是很有限的02/23 09:50
25F:→ Tosca: AI其實照理說可以生出可視光譜以外的圖片02/23 09:50
26F:→ Tosca: 那就是人類肉眼已經看不到的負空間了02/23 09:51
29F:→ Jotarun: 自己用腦回答好嗎 不要一直丟AI回02/24 23:43
30F:推 yyykk: 我直覺這整篇就在一個白馬非馬的詭辯裡打轉。02/26 00:22
31F:→ yyykk: 直接上圖吧,既然你用狗來作例子,拿個提示詞和成果出來02/26 00:23
32F:→ yyykk: 看看到底「不像狗又有狗感」的圖到底長什麼樣子02/26 00:23
33F:推 Tosca: 其實你開頭用狗來比喻就已經bias了 因為狗是最不明確的概念02/26 09:45
34F:→ Tosca: 狗是人類花幾萬年從狼訓養出來的 純野外並沒有狗這種生物02/26 09:46
35F:→ Tosca: 然後因為長期訓養混種 所以狗的外型差異非常非常大02/26 09:46
36F:→ Tosca: 簡單講就是 並沒有"標準的狗"這種東西存在02/26 09:46
37F:→ Tosca: "狗感"更是一個連人類都無法定義的抽象概念02/26 09:47
38F:→ Tosca: 所以你用一個已經很抽象的概念來討論AI的負空間 當然更抽象02/26 09:47
39F:→ Tosca: 如果今天是一個明確的概念 好比"邊長一公分的立方體"02/26 09:48
40F:→ Tosca: 你要AI產生一個 像是立方體又不像立方體的東西02/26 09:48
41F:→ Tosca: 有立方體的感覺但又不是立方體 類似這樣 可能更有方向一點02/26 09:48
42F:推 Tosca: 然後說真的這幾年玩AI生圖下來 其實很明顯會發現一個兩面刃02/26 09:52
43F:→ Tosca: 那就是當AI性能越強 越懂人類在想啥 其實越無聊02/26 09:53
44F:→ Tosca: 很多時候其實是連人類自己都不知道自己在想三小XD02/26 09:53
45F:→ Tosca: 好比你講一個 狗 你腦袋出現的狗 跟我腦袋出現的狗02/26 09:53
46F:→ Tosca: 一定是不一樣啊 但你講一個 邊長一公分立方體02/26 09:53
47F:→ Tosca: 那大家腦袋出現的都是一樣的 因為立方體是定義非常明確的02/26 09:54
48F:推 Tosca: 所以其實是這樣 人類用一個定義模糊的名詞要AI生圖02/26 10:00
49F:→ Tosca: 好比 狗 女鬼 等等這些其實沒有明確定義的名詞02/26 10:00
50F:→ Tosca: 那AI當然生出沒有明確形體的東西 因為那東西本來就模糊02/26 10:00
51F:→ Tosca: 所以AI的發展過程說穿了就是要搞懂到你們人類想要三小02/26 10:01
52F:→ Tosca: 然後相對地當AI性能卻強就越無聊了 因為生出來就是那樣02/26 10:01
53F:→ Tosca: 他在也生不出不像狗的狗 不像鬼的鬼02/26 10:01
54F:→ Tosca: 因為他搞懂人類想要甚麼 永遠只會生出像狗的狗02/26 10:02
55F:→ Tosca: 有時候回去玩SD1.5會覺得永遠不知道會生出三小還是很好玩XD02/26 10:02
56F:推 galaxy4552: 觀點超強耶 BIAS旋鈕確實可以設計像"狗"率 抽"狗"02/26 10:13
57F:→ galaxy4552: token當一維訓練方式02/26 10:13
58F:→ yyykk: 所以我一開始就說「畫鬼最易」,但顯然原po 沒看懂02/26 18:15
看不懂的人是你吧,數學式在這,自己好好研究一下,不要再雞同鴨講了,用自己主觀的
東西來論證
https://i.meee.com.tw/Izyb6Sg.png
※ 編輯: treasurehill (101.10.58.207 臺灣), 02/26/2026 18:24:32