作者khara (逝)
看板AI_Art
標題[討論] 目前生圖AI對Unicode文字的辨識力如何?
時間Thu May 1 21:03:22 2025
由於似乎單個漢字已能成功被ChatGPT轉成圖像(似乎一串不太多的漢字也還可以?),
我想說測看看不同語言的整串文字結果如何。但出乎我意料的是,與ChatGPT對談時用
什麼德語法語俄語甚至梵語都能溝通(當然它本身是語言模型這是應有之義),可是要
在圖像上表現文字卻連普通的德文都會出錯!不過居然阿拉伯文「曾經」成功「正確」
一次!(但同樣的字串叫它第二次生成時就偷懶變形了)
不知道其他生圖AI模型如何,但猜測也未必會好到哪?
tensor.art似乎能把圖像弄得更美麗或封面弄得很精美但文字必定錯亂?
(結果是我用 tensor.art 修圖然後再人為把書名覆蓋貼上)
以下是幾組ChatGPT原始生成的女性讀書圖(但我是免費用戶而已):
德文:其中幾個字母變了!
https://reurl.cc/M3M0vX
原本該是 DIE WELT ALS WILLE UND VORSTELLUNG
被變成了 DIE WEL
Y A
IE WILLE UND VORSTE
FLLUNG
阿拉伯文:第一次居然沒出差錯
https://reurl.cc/GnGxVp
mā yalzam min al-Arabīyah
但我要求補上眼鏡而使用同一字串就偷懶了
https://reurl.cc/RY9rKr
yayalzam al-Arabīyah?
滿文:徹底亂七八糟但卻「長得很像回事」
https://reurl.cc/qGK5d3
之前生成單個漢字「兵」或「勇」基本能成功,看別人生成的似乎一串漢字也能成功,
可是德文這個大宗歐語的單詞轉成圖像居然會失敗這很奇怪。
結果就是我靠手動修改硬是改出幾個封面來。不過基本上我的電腦技術力限度也到此
為止了。什麼ControlNet或Sora的我都沒搞懂。看來目前只能這樣了。
https://i.imgur.com/xCSgmmG.png
https://i.imgur.com/9nHwqkP.png
https://i.imgur.com/jFSauk0.png
https://i.imgur.com/Kob8EtH.jpeg
另外還有個現象則是 ChatGPT 在生成圖像時似乎會把它給的內容混合
https://i.imgur.com/IH2Ji3u.jpeg
原本的討論採取它建議的第二方案就沒有梳妝鏡,但生成的結果是
https://reurl.cc/Dqb3nd
一手支撐身體,一手輕撫頭髮,
梳妝鏡卻神奇地以超能力漂浮在前面!
結果是我人為修改後才索性把梳妝鏡給去除掉:
https://i.imgur.com/Nm5Cbh7.png
--
Immer mit den einfachsten Beispielen anfangen.
David Hilbert
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.37.227.54 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/AI_Art/M.1746104610.A.331.html
1F:→ yeeouo: 他能辨識啊 只是會犯錯而已 就跟人類一樣 05/02 11:17
2F:→ yeeouo: 讓一個人同時學這麼多語言 錯誤率只會比AI高 05/02 11:17
應該說幾種語言模型不但能辨識而且能幫我校正,非常厲害!
但,語言模型本身能辨識,卻無法正確轉成圖像,
造成想製造特定文字作封面的圖還是只能自行手動修改了。
加一幅也是手動加封面的圖
https://i.imgur.com/mruRIxE.png
但手動加封面字樣畢竟看起來人為痕跡太重。
就不知道目前 AI 生圖能否直接在 prompt 中把給定的字樣直接變成封面上的字樣圖。
※ 編輯: khara (114.37.224.130 臺灣), 05/02/2025 13:10:19
附上 ChatGPT 給的答案:
https://i.imgur.com/x7dFeuQ.jpeg
結論似乎是現在要把文字轉成圖像(例如書封面或布條標語之類的),
或與英文以外的出錯率較高?
可能得再等待了。
另外就是圖像本身在AI識別之下也會改繪
https://i.imgur.com/A3rBezF.png
這本書的封面原本應該是傳教士穿清朝官服的彩繪,
經過AI改繪之後被變成像是個長髮嬉皮啦!
但我之前貼過的
https://i.imgur.com/APowwT8.jpeg
最神奇的是 Grok 在改掉幾乎所有背景後,
居然會保持這個蠟筆小新背包圖的樣式不變。
AI的圖像判別背後的機制還真是超謎!
※ 編輯: khara (114.37.197.206 臺灣), 05/02/2025 16:23:20
補充另外一個難題
https://i.imgur.com/lqmBH3Q.jpeg
除了生圖模型不像語言模型般能理解文字而往往生成偽文字外,
還有一點就是要讓文字恰好被遮擋這點似乎也無法單獨辦到?
不知道是否還有別的模型可以做到這點的,
或者也只能繼續等技術進步了?
※ 編輯: khara (114.37.226.186 臺灣), 05/02/2025 23:25:23
3F:→ tc22: 改成豆包呢? 05/03 02:17
感謝!我去找找豆包試用看看!
然後根據 ChatGPT 的建議,
只有英文書名較不會出錯,
於是我虛構了一個英文書名,成功在封面上顯現出來了。
但或許受到同一討論串的影響,
這英文書名上面還多了個偽阿拉伯文。(原prompt中只要求英文書名)
也真是微妙。
https://i.imgur.com/2oTX40Z.png
順帶提的是,同一個蠟筆小新的包包,這次被Grok變形了:
這是接近原版的圖(但當然也是AI改過的偽人,尤其腿部很詭異):
https://i.imgur.com/VbLLU2T.jpeg
這是 Grok的Bright Anime風,包包變形了但還存在:
https://i.imgur.com/BHbHFgV.jpeg
這是 Grok的Dark Anime風,包包徹底消失了:
https://i.imgur.com/zwdW9CC.jpeg
順帶給個 tensor,art 修改的,臉部精美得太多,但背後包包徹底消失:
https://i.imgur.com/dxb3h7t.png
總之就是測看看各式AI模型對於文字或其他圖樣的保存能力而已。
※ 編輯: khara (114.37.215.233 臺灣), 05/03/2025 20:18:02
嘗試了豆包,製圖可謂精美!
用豆包製作的鴨子坐:
https://i.imgur.com/LMqpz9x.png
不過書本封面它仍無法理解,只是讓人變漂亮:
https://i.imgur.com/ANTQiKf.png
注意看書本封面仍然是偽文字,看似漢字實非漢字。
(其實我是拿封面德文去改的。)
另外我玩了個へのへのもへじ臉:
https://i.imgur.com/KEj9jQ2.png
不過不如已有的精緻
https://www.art-meter.com/works/?ID=AW121388
只是更加寫實風而已。
我請求豆包把我這人為修改的臉改清晰些但保留へのへのもへじ臉
豆包卻只是改了個帥臉而未理解我所說的保留へのへのもへじ臉:
https://i.imgur.com/WZXiJWi.png
(倒是 tensor.art 改的臉也差不多是這樣。背後是同一模型?)
不過豆包的真人化確實好用。如果姑且不討論文字識別力,豆包確實很不錯。
※ 編輯: khara (114.37.215.233 臺灣), 05/03/2025 23:23:38
經過測試,ChatGPT「在相當程度上」保留了背景的蠟筆小新包包。
但書架上的書啥的全變形自由發揮去了。
https://i.imgur.com/YYXy8px.png
(然後題外話是由於OpenAI的政策限制,所以我得讓圖片中穿著盡量保守)
以下是ChatGPT給的答案,供參考。
https://i.imgur.com/gPKHPZf.jpeg
簡單說就是常見元素(無論是圖像或文字)有可能可生成或保留,
但罕見元素例如非主流文字串就會被變形了。
※ 編輯: khara (114.37.226.136 臺灣), 05/04/2025 12:49:23