作者khara (逝)
看板AI_Art
标题[讨论] 目前生图AI对Unicode文字的辨识力如何?
时间Thu May 1 21:03:22 2025
由於似乎单个汉字已能成功被ChatGPT转成图像(似乎一串不太多的汉字也还可以?),
我想说测看看不同语言的整串文字结果如何。但出乎我意料的是,与ChatGPT对谈时用
什麽德语法语俄语甚至梵语都能沟通(当然它本身是语言模型这是应有之义),可是要
在图像上表现文字却连普通的德文都会出错!不过居然阿拉伯文「曾经」成功「正确」
一次!(但同样的字串叫它第二次生成时就偷懒变形了)
不知道其他生图AI模型如何,但猜测也未必会好到哪?
tensor.art似乎能把图像弄得更美丽或封面弄得很精美但文字必定错乱?
(结果是我用 tensor.art 修图然後再人为把书名覆盖贴上)
以下是几组ChatGPT原始生成的女性读书图(但我是免费用户而已):
德文:其中几个字母变了!
https://reurl.cc/M3M0vX
原本该是 DIE WELT ALS WILLE UND VORSTELLUNG
被变成了 DIE WEL
Y A
IE WILLE UND VORSTE
FLLUNG
阿拉伯文:第一次居然没出差错
https://reurl.cc/GnGxVp
mā yalzam min al-Arabīyah
但我要求补上眼镜而使用同一字串就偷懒了
https://reurl.cc/RY9rKr
yayalzam al-Arabīyah?
满文:彻底乱七八糟但却「长得很像回事」
https://reurl.cc/qGK5d3
之前生成单个汉字「兵」或「勇」基本能成功,看别人生成的似乎一串汉字也能成功,
可是德文这个大宗欧语的单词转成图像居然会失败这很奇怪。
结果就是我靠手动修改硬是改出几个封面来。不过基本上我的电脑技术力限度也到此
为止了。什麽ControlNet或Sora的我都没搞懂。看来目前只能这样了。
https://i.imgur.com/xCSgmmG.png
https://i.imgur.com/9nHwqkP.png
https://i.imgur.com/jFSauk0.png
https://i.imgur.com/Kob8EtH.jpeg
另外还有个现象则是 ChatGPT 在生成图像时似乎会把它给的内容混合
https://i.imgur.com/IH2Ji3u.jpeg
原本的讨论采取它建议的第二方案就没有梳妆镜,但生成的结果是
https://reurl.cc/Dqb3nd
一手支撑身体,一手轻抚头发,
梳妆镜却神奇地以超能力漂浮在前面!
结果是我人为修改後才索性把梳妆镜给去除掉:
https://i.imgur.com/Nm5Cbh7.png
--
Immer mit den einfachsten Beispielen anfangen.
David Hilbert
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.37.227.54 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/AI_Art/M.1746104610.A.331.html
1F:→ yeeouo: 他能辨识啊 只是会犯错而已 就跟人类一样 05/02 11:17
2F:→ yeeouo: 让一个人同时学这麽多语言 错误率只会比AI高 05/02 11:17
应该说几种语言模型不但能辨识而且能帮我校正,非常厉害!
但,语言模型本身能辨识,却无法正确转成图像,
造成想制造特定文字作封面的图还是只能自行手动修改了。
加一幅也是手动加封面的图
https://i.imgur.com/mruRIxE.png
但手动加封面字样毕竟看起来人为痕迹太重。
就不知道目前 AI 生图能否直接在 prompt 中把给定的字样直接变成封面上的字样图。
※ 编辑: khara (114.37.224.130 台湾), 05/02/2025 13:10:19
附上 ChatGPT 给的答案:
https://i.imgur.com/x7dFeuQ.jpeg
结论似乎是现在要把文字转成图像(例如书封面或布条标语之类的),
或与英文以外的出错率较高?
可能得再等待了。
另外就是图像本身在AI识别之下也会改绘
https://i.imgur.com/A3rBezF.png
这本书的封面原本应该是传教士穿清朝官服的彩绘,
经过AI改绘之後被变成像是个长发嬉皮啦!
但我之前贴过的
https://i.imgur.com/APowwT8.jpeg
最神奇的是 Grok 在改掉几乎所有背景後,
居然会保持这个蜡笔小新背包图的样式不变。
AI的图像判别背後的机制还真是超谜!
※ 编辑: khara (114.37.197.206 台湾), 05/02/2025 16:23:20
补充另外一个难题
https://i.imgur.com/lqmBH3Q.jpeg
除了生图模型不像语言模型般能理解文字而往往生成伪文字外,
还有一点就是要让文字恰好被遮挡这点似乎也无法单独办到?
不知道是否还有别的模型可以做到这点的,
或者也只能继续等技术进步了?
※ 编辑: khara (114.37.226.186 台湾), 05/02/2025 23:25:23
3F:→ tc22: 改成豆包呢? 05/03 02:17
感谢!我去找找豆包试用看看!
然後根据 ChatGPT 的建议,
只有英文书名较不会出错,
於是我虚构了一个英文书名,成功在封面上显现出来了。
但或许受到同一讨论串的影响,
这英文书名上面还多了个伪阿拉伯文。(原prompt中只要求英文书名)
也真是微妙。
https://i.imgur.com/2oTX40Z.png
顺带提的是,同一个蜡笔小新的包包,这次被Grok变形了:
这是接近原版的图(但当然也是AI改过的伪人,尤其腿部很诡异):
https://i.imgur.com/VbLLU2T.jpeg
这是 Grok的Bright Anime风,包包变形了但还存在:
https://i.imgur.com/BHbHFgV.jpeg
这是 Grok的Dark Anime风,包包彻底消失了:
https://i.imgur.com/zwdW9CC.jpeg
顺带给个 tensor,art 修改的,脸部精美得太多,但背後包包彻底消失:
https://i.imgur.com/dxb3h7t.png
总之就是测看看各式AI模型对於文字或其他图样的保存能力而已。
※ 编辑: khara (114.37.215.233 台湾), 05/03/2025 20:18:02
尝试了豆包,制图可谓精美!
用豆包制作的鸭子坐:
https://i.imgur.com/LMqpz9x.png
不过书本封面它仍无法理解,只是让人变漂亮:
https://i.imgur.com/ANTQiKf.png
注意看书本封面仍然是伪文字,看似汉字实非汉字。
(其实我是拿封面德文去改的。)
另外我玩了个へのへのもへじ脸:
https://i.imgur.com/KEj9jQ2.png
不过不如已有的精致
https://www.art-meter.com/works/?ID=AW121388
只是更加写实风而已。
我请求豆包把我这人为修改的脸改清晰些但保留へのへのもへじ脸
豆包却只是改了个帅脸而未理解我所说的保留へのへのもへじ脸:
https://i.imgur.com/WZXiJWi.png
(倒是 tensor.art 改的脸也差不多是这样。背後是同一模型?)
不过豆包的真人化确实好用。如果姑且不讨论文字识别力,豆包确实很不错。
※ 编辑: khara (114.37.215.233 台湾), 05/03/2025 23:23:38
经过测试,ChatGPT「在相当程度上」保留了背景的蜡笔小新包包。
但书架上的书啥的全变形自由发挥去了。
https://i.imgur.com/YYXy8px.png
(然後题外话是由於OpenAI的政策限制,所以我得让图片中穿着尽量保守)
以下是ChatGPT给的答案,供参考。
https://i.imgur.com/gPKHPZf.jpeg
简单说就是常见元素(无论是图像或文字)有可能可生成或保留,
但罕见元素例如非主流文字串就会被变形了。
※ 编辑: khara (114.37.226.136 台湾), 05/04/2025 12:49:23