作者treasurehill (寶藏巖公社,你還未夠班S)
看板AI_Art
標題Re: [閒聊] 負空間的由來
時間Thu Feb 26 19:23:47 2026
→ yyykk: 所以我一開始就說「畫鬼最易」,但顯然原po 沒看懂 02/26 18:15
沒搞懂的人是你吧!
SD 的運作從頭到尾只有同一個數學機制,沒有什麼「某些詞比較特殊」或「AI用不同方
式生成」。唯一改變的只有條件向量 c 的數值,而 score 方程式本身完全相同。
先講訓練過程。
訓練時,模型會把一張真實圖片 x0 加入隨機噪聲:
x_t = x0 + epsilon
其中 epsilon ~ N(0, I)。
同時提示詞會經過 CLIP encoder 轉換為條件向量:
c = CLIP(prompt)
模型學習的目標,是預測目前這個帶噪圖像中的噪聲:
epsilon_theta(x_t, c)
也就是學習一個修正函數(score):
score(x_t, c) = - epsilon_theta(x_t, c)
白話講就是:
模型學會一個統一的函數,輸入「帶噪圖像 x_t」與「條件向量 c」,輸出「應該往哪個
方向修正,才能回到真實圖像分佈」。
https://i.meee.com.tw/EBPcFtR.png
關鍵點是:
這個 score 方程式本身永遠是同一個函數形式:
score(x_t, c) = - epsilon_theta(x_t, c)
不會因為 prompt 是 dog 或 ghost 就換一套生成公式。
唯一改變的是條件向量的數值:
c = CLIP(prompt)
不同 prompt,只是讓同一個 score 函數輸出不同的修正方向,而不是使用不同的生成機
制。
生成時則完全反過來。
從純噪聲開始:
x_T ~ N(0, I)
然後每一步使用完全相同的 score 方程式進行修正:
x_(t-1) = x_t - epsilon_theta(x_t, c)
也就是:
目前狀態 = 前一狀態 + score 修正
經過多次迭代後:
noise -> structure -> image
逐步收斂為符合條件向量 c 的圖像。
https://i.meee.com.tw/w1gd8fr.png
整個過程中,數學形式從未改變。
改變的只有:
c = CLIP(prompt)
也就是條件向量的數值不同。
因此,並不存在什麼「鬼比較容易生成,狗比較難生成」這種生成機制上的差異。
對所有 prompt,score 方程式都是同一個:
score(x_t, c) = - epsilon_theta(x_t, c)
以及同一個更新規則:
x_(t-1) = x_t - epsilon_theta(x_t, c)
完全相同。
差別只在於不同 prompt 對應到不同的 CLIP 向量 c,而這個向量會讓 score 指向不同
的收斂方向。
如果這個方向穩定一致,逆向去噪就會穩定收斂為完整圖像;如果條件本身包含互相競爭
或不一致的語意,score 在不同方向之間拉扯,就可能只局部收斂,形成拼湊、不完整或
不穩定的結構。
本質上,整個生成過程始終是同一個 score 方程式在運作,沒有任何例外。
所以不要再拿人類主觀認知來胡扯好嗎,那根本不是SD模型的運作方程式,OK?
--
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.233.2.206 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/AI_Art/M.1772105030.A.F6C.html
※ 編輯: treasurehill (118.233.2.206 臺灣), 02/26/2026 19:26:33
※ 編輯: treasurehill (118.233.2.206 臺灣), 02/26/2026 19:29:37
1F:推 Tosca: 鬼和狗都很難生成啦因為這些都是沒有明確定義的prompt02/26 19:33
2F:→ Tosca: 我說了 你給他一個明確定義的prompt 好比等邊的立方體02/26 19:33
3F:→ Tosca: 那他有沒有可能從生成立方體的過程中走歪 這樣才有意義02/26 19:34
4F:→ Tosca: 但你玩負空間 你其實一開始給的就是模糊的prompt了02/26 19:34
不對,只要訓練圖片有狗和鬼,就沒有什麼比較難生成的說法,因為都已經存在訓練集了
,問題只在狗+鬼的時候,他的CLIP轉換向量能否正確導引雜訊收斂
https://i.meee.com.tw/dtTz9De.png
※ 編輯: treasurehill (118.233.2.206 臺灣), 02/26/2026 19:37:20
※ 編輯: treasurehill (118.233.2.206 臺灣), 02/26/2026 19:40:29
※ 編輯: treasurehill (118.233.2.206 臺灣), 02/26/2026 19:53:21
5F:推 Tosca: 沒錯 我們用圖片來教AI模糊的概念 但他終究是模糊的 02/26 20:04
6F:→ Tosca: 就像你不太需要很多訓練圖片來教AI怎麼畫立方體 因為很明確 02/26 20:04
7F:→ Tosca: 但你需要一堆訓練圖片來教AI怎麼畫狗 因為狗本身並不明確 02/26 20:04
8F:→ Tosca: 我覺得你的討論會容易淪為空泛是因為你忽略很多背景知識 02/26 20:05
9F:→ Tosca: 像狗 我以前在台大上哲學概論 他第一堂課就是講抽象概念 02/26 20:05
10F:→ Tosca: 狗本身就是一個抽象概念 他並沒有明確定義 也沒明確模樣 02/26 20:05
11F:→ Tosca: 並不存在"標準的狗" 你腦袋的狗跟我腦袋的狗 一定不一樣 02/26 20:05
12F:→ Tosca: 但立方體 本身就是非常明確的概念 02/26 20:06
13F:→ Tosca: 你腦袋的立方體跟我腦袋的立方體 一定長的一樣 02/26 20:06
14F:推 Tosca: 我並不否認負空間存在 但我認為最容易理解就是把它當作"夢" 02/26 20:09
15F:→ Tosca: 人類被夢境困惑幾千年了 各民族都有解夢的傳說 02/26 20:10
16F:→ Tosca: 夢就是告訴我們 大腦運作有多複雜 不是我們能控制的 02/26 20:10
17F:→ Tosca: 夢裡面要形成甚麼東西 要怎麼走向 你無法控制你的大腦 02/26 20:10
18F:→ Tosca: 我認為負空間就像是AI的"夢" 02/26 20:10
19F:→ Tosca: 人類的夢 以前認為是大腦整理資訊的必要現象 02/26 20:11
20F:→ Tosca: 大腦需要睡眠 你如果剝奪老鼠的睡眠 他一定會死 02/26 20:11
21F:→ Tosca: 睡覺的時候作夢 因為那是大腦在整理他龐大的資訊 02/26 20:12
22F:→ Tosca: 所以我覺得負空間其實就是AI在整理他的資訊 02/26 20:12
23F:→ Tosca: 回過頭來說就是 我認為你誤以為 狗是一個很明確的prompt 02/26 20:13
24F:→ Tosca: 但我認為這就太自以為是了 狗一點都不明確 02/26 20:13
25F:→ Tosca: 你腦袋的狗跟我腦袋的狗 一定長不一樣 何況要AI生一隻狗 02/26 20:13
你還是把人類思考模式跟AI數學運算機制會為一談
AI並不懂狗或鬼
對AI而言,狗或鬼就只是一組向量加圖片而已
他學會如何利用這個向量對這張圖片加噪到完全模糊無法分辨
然後再逆向去噪
就這麼簡單
你頂多可以說狗的訓練變異圖片比鬼多
收斂範圍廣,但不代表概念模糊
這純粹就是訓練集的變異多寡生成而已
我只要改變訓練變異量就可以讓二者生成機率相等
※ 編輯: treasurehill (118.233.2.206 臺灣), 02/26/2026 20:22:01
※ 編輯: treasurehill (118.233.2.206 臺灣), 02/26/2026 20:25:20
26F:推 Tosca: 不是的 那是因為你從小就看到狗 所以你覺得狗很好懂 02/26 20:25
27F:→ Tosca: 我念醫學系的時候有一堂課叫病理學 要看病理切片 02/26 20:25
28F:→ Tosca: 病理切片 我們老師說是一種"型態學" 02/26 20:25
29F:→ Tosca: 為什麼這張看起來像盲腸炎? 世界上不可能有一樣的切片阿 02/26 20:26
30F:→ Tosca: 老師說這就是形態學 他們看起來很像 你看久就會懂XDDDDD 02/26 20:26
再說一次,AI不了解狗
他只知道數學運算,不要用人類的思考模式去解釋AI,這會導致錯誤的理解
https://i.meee.com.tw/dtTz9De.png
※ 編輯: treasurehill (118.233.2.206 臺灣), 02/26/2026 20:27:36
31F:→ Tosca: "狗"就是一個 你看多了所以你看懂的東西 02/26 20:26
32F:→ Tosca: 但我要說的是 以前我們用病理切片訓練人腦 02/26 20:26
33F:→ Tosca: 跟現在拿圖片訓練AI 我覺得並沒有太大不同 02/26 20:26
34F:→ Tosca: 這也是為什麼AI開始發展後 開始訓練AI看X光片 看病理切片 02/26 20:27
※ 編輯: treasurehill (118.233.2.206 臺灣), 02/26/2026 20:28:22
35F:→ Tosca: 不是阿 人類也不是天生就看懂病理切片阿XDDDDDDDDDDDDDDDDD 02/26 20:28
36F:→ Tosca: 你也不瞭解病理切片阿 但把你丟去病理科待十年 你也會懂 02/26 20:28
37F:→ Tosca: 就是拿一堆盲腸炎的片子給你看 跟你說 這就是盲腸炎 02/26 20:28
38F:→ Tosca: 拿一堆大腸癌的片子給你看 跟你說 這就是大腸癌 02/26 20:28
39F:→ Tosca: 你一開始也不懂 你看十年就會懂了 02/26 20:28
40F:→ Tosca: AI訓練過程也是這樣 不是嗎? 02/26 20:29
41F:→ Tosca: 並沒有跟人腦有那麼不一樣 這也是為何可以用AI取代人類 02/26 20:29
42F:→ peterturtle: AI的「思考」其實與人類有根本上的差異,AI並沒有神 02/26 20:44
43F:→ peterturtle: 經學上那種三元以上神經節點的拮抗功能,所以拿人類 02/26 20:44
44F:→ peterturtle: 與AI的學習方式直接比對其實很危險 02/26 20:44
45F:→ peterturtle: 雖然我們常說神經網路神經網路,不過那個模擬其實並 02/26 20:47
46F:→ peterturtle: 不真的與人類神經一模一樣,那是一種與現實神經元有 02/26 20:47
47F:→ peterturtle: 微妙偏差的近似,為了向GPU運算結構妥協 02/26 20:47
48F:推 Tosca: 說的也是這大概也是為何訓練AI看X光片和病理切片 一直不順 02/26 20:51
49F:→ Tosca: 本來以前我們很擔心AI要取代放射科醫師了 02/26 20:51
50F:→ Tosca: 想不到現在大量失業的是寫程式的QQ 02/26 20:51
51F:→ peterturtle: 總之千萬不要直接拿人類思考去與AI做比較,特別是沒 02/26 21:01
52F:→ peterturtle: 有思維練、多專家模式等反饋功能的AI,比如說產圖的A 02/26 21:01
53F:→ peterturtle: I基本上都沒什麼自我指涉功能。另外如果你是醫學系應 02/26 21:01
54F:→ peterturtle: 該知道人類的眼睛自帶初步思考功能吧?比如像強調邊 02/26 21:01
55F:→ peterturtle: 緣或強動態偵測這種,Diffusion 類的 AI 可沒那麼多 02/26 21:01
56F:→ peterturtle: 複雜的預處理,你不能把脖子上那團肉裡面亂七八糟的 02/26 21:01
57F:→ peterturtle: 思考迴路生出來的玩意兒直接比對到繪圖模型那麼低階 02/26 21:01
58F:→ peterturtle: 的玩意兒上 02/26 21:01
59F:→ peterturtle: 當然我不會說人類就永遠不會被AI「追上」了,因為實 02/26 21:08
60F:→ peterturtle: 際上的情形是,AI走了一條與我們不同南轅北轍的路, 02/26 21:08
61F:→ peterturtle: 我們走不了他們那條路、他們也走不了我們這條路,但 02/26 21:08
62F:→ peterturtle: 他們可能遲早會走的比我們更遠。 02/26 21:08
63F:推 Tosca: AI生圖沒有預處理但太多後處理 安全機制讓人惱怒=.= 02/26 21:13
64F:→ Tosca: QWEN 2509還能移植乳頭 2511直接把乳頭蓋起來 噗 02/26 21:13
65F:推 galaxy4552: 其實我也很想探討夢的議題 我曾經對惡夢的觸發機制 02/26 23:06
66F:→ galaxy4552: 做過AB TEST 就是身體蜷縮>容易做惡夢 02/26 23:07
67F:→ galaxy4552: 然後帶著便意 尿意觸發到快憋不住時 就會作夢 02/26 23:09
68F:→ galaxy4552: 這是正相關的嗎? 02/26 23:10
69F:→ yyykk: 我會比較想聽聽看 P 大對負空間的理解是什麼。我只有十分 02/27 02:44
70F:→ yyykk: 粗淺的認知,只是因為好奇去查了關鍵人名和書籍簡介的程度 02/27 02:44
71F:→ yyykk: 。我的理解是,它是類似底噪的存在,是模型在不知道抓取什 02/27 02:44
72F:→ yyykk: 麼的時候,會自然抓取的「什麼」。有點像是那種情境:迷路 02/27 02:44
73F:→ yyykk: 的時候,怎麼繞都會無意識的回到的某個地方。 02/27 02:44
74F:→ peterturtle: 我哪知道你們在討論啥,感覺雖然寫了很多,但這只是 02/27 03:20
75F:→ peterturtle: 在講碎形觀念中的非穩定邊緣區域吧?擴散模型基於迭 02/27 03:20
76F:→ peterturtle: 代,而圖片則是在條件迭代時最終的收斂穩定井,會「 02/27 03:20
77F:→ peterturtle: 回不去」是因為選擇的模型在這些點上是對起始條件極 02/27 03:20
78F:→ peterturtle: 敏感的混沌區域,於是系統在相空間上搖搖擺擺、沒能 02/27 03:20
79F:→ peterturtle: 落入周圍的穩定井中、而是因為在持續的精度損失中噴 02/27 03:20
80F:→ peterturtle: 到並落入一些更遠的收斂點去,那自然會變成「欸幹你 02/27 03:20
81F:→ peterturtle: 怎麼走到這邊」的情況了。推薦延伸閱讀:John Briggs 02/27 03:20
82F:→ peterturtle: 、F. David Peat 著,牛頓出版社翻譯的老書「混沌魔 02/27 03:20
83F:→ peterturtle: 鏡」,ISBN:9789576273490,已經是1993年的書了 02/27 03:20
84F:→ sudekoma: 總算有正經論述了 02/27 07:55
85F:→ sudekoma: (′・ω・`)我還以為這會一路狂歡到永遠 02/27 07:56
86F:推 galaxy4552: 好難喔 我還想不通loss有沒有等於noise 02/27 10:07
87F:→ yyykk: XDDDDDD 02/27 11:19