作者error405 (流河=L)
看板AI_Art
標題[情報] 百度ERNIE-Image開源圖像模型
時間Wed Apr 15 09:39:08 2026
https://x.com/ErnieforDevs/status/2044076352161362103
https://ernie.baidu.com/blog/posts/ernie-image/
https://pbs.twimg.com/media/HF4Eo0LasAIW6yl.jpg

ERNIE-Image 相關資訊整理(2026 年 4 月 15 日最新)百度 ERNIE 團隊於 2026 年 4
月 14 日 正式開源發布 ERNIE-Image,這是一款參數僅 8B 的開放權重(open weights
)文字生成圖像(text-to-image)模型,在多個基準測試中登上開放權重模型榜首,特
別擅長精準文字渲染、複雜指令遵循與結構化排版生成(海報、漫畫分鏡、多面板布局)
。
1. 模型規格與版本
核心架構:單流 Diffusion Transformer(DiT)+ latent diffusion(LDM)框架。
參數:主模型 8B DiT 參數,另附 3B Prompt Enhancer(基於 Ministral 3B 微調)。
兩種版本:
版本 特色 推理步數 適用情境
ERNIE-Image (SFT) 通用品質更強 ~50步 高品質需求
ERNIE-Image-Turbo 速度優化+美學強化(DMD + RL) ~8步 快速生成
硬體需求:僅需 24GB VRAM 即可運行,適合消費級 GPU 部署與微調。
2. 核心特色與優勢
精準文字渲染:支援英文、中文、多語言、長段文字、密集排版與對話框,文字清晰不模糊。
強大指令遵循:複雜提示、多物件關係、知識密集描述都能精準控制。
結構化生成:擅長海報、漫畫/動漫故事板、多面板布局、連續分鏡,保持角色一致性與
敘事節奏。
風格多樣:寫真攝影、電影感、平面設計、漫畫風等皆可。
Prompt Enhancer:內建 3B 輕量提示增強器,能把簡短輸入自動擴展成詳細結構化提示
(可再搭配 Gemini 等大型 LLM 進一步提升推理與世界知識)。
易用性高:已整合 ComfyUI 與 Diffusers 生態,開發者可快速上手。
3. 基準測試表現(開放權重模型 SOTA)
官方公告與 X 貼文附上詳細榜單,以下為重點:
GenEval(構圖能力):0.8856(開放權重 #1)
OneIG-EN:0.5750(#3)
OneIG-ZH:0.5543(#2)
LongTextBench(長文字保真度):0.9733(#2)
整體在四項基準中,ERNIE-Image(含/不含 PE) 均穩居開放權重模型第一,與 Nano
Banana 2.0、Seedream 4.5 等閉源模型競爭激烈。Turbo 版在速度與美學上也有優異表
現。
(X 貼文附有多張完整榜單截圖,可直接點擊原帖查看詳細數據。)
4. 存取與使用方式
Hugging Face 下載(官方權重):
ERNIE-Image:
https://huggingface.co/Baidu/ERNIE-Image
ERNIE-Image-Turbo:
https://huggingface.co/Baidu/ERNIE-Image-Turbo
提示畫廊(官方 Demo 與範例):
https://ernieimageprompt.com/
GitHub、Demo 與 Discord:X 公告中有完整連結,可加入 Discord 獲得免費 bot 使用
、每週挑戰賽與獎品。
授權:開放權重,非商業個人衍生創作 使用(官方未授權商業應用)。
5. 實際生成範例(官方展示重點)
多面板漫畫 / 故事板(分鏡清晰、文字氣泡完整)
文字密集海報(中英長段文字、排版專業)
電影感寫真、城市夜景、產品宣傳圖
動漫風格人物與場景(表情一致、動作流暢)
X 公告中的 collage 圖就展示了大量真實生成案例,包括漫畫分鏡、帶有大量中文文字
的宣傳海報、城市景觀與人物肖像,文字渲染與布局效果極佳。
6. 限制與注意事項
短提示效果較一般,強烈建議使用 Prompt Enhancer 或外部 LLM 輔助。
3B Prompt Enhancer 在極深度領域知識(如複雜數學推理)可能仍有不足。
目前定位為研究與個人創作,非商業用途。
總結
ERNIE-Image 是百度首款真正主打開放權重 + 實用性的圖像生成模型,8B 參數卻在
文字渲染與結構化生成上表現突出,尤其適合需要中文排版、海報設計、漫畫分鏡 的創
作者與開發者。模型已經準備好在 ComfyUI / Diffusers 生態中使用,值得立即體驗!
--
Grok整理
看起來像是Qwen-image同級模型? 開源就是爽 反觀那個wan
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.203.252 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/AI_Art/M.1776217153.A.E83.html
※ 編輯: error405 (114.36.203.252 臺灣), 04/15/2026 10:11:24
1F:→ v86861062: 可以色色ㄇ 04/15 14:41
2F:→ kf21517: 重點能色嗎 04/15 15:22
3F:推 Supasizeit: 聽說就跟Qwen 那種一樣 該有的沒有不該有的長出來 04/15 15:40
4F:→ error405: 還真是同級啊 04/15 15:41
5F:→ error405: 用tensor線上生個真人比基尼是可以的 04/15 15:59
6F:→ error405: 用turbo有時會三隻腳 04/15 16:05
7F:→ error405: 中文敘述可以 cartoon comic可以 動漫二次元anime無反應 04/15 16:47
8F:→ error405: japan comic style貌似有用 04/15 16:52
10F:→ error405: 本機生能否進一步不知 04/15 17:02
https://huggingface.co/spaces/baidu/ERNIE-Image-Turbo
也能線上測試
※ 編輯: error405 (114.36.203.252 臺灣), 04/15/2026 21:16:05
11F:推 Vulpix: 有點懷念ernie-virilg2.0,那種草稿感與不確定性其實挺能 04/16 03:12
12F:→ Vulpix: 激發靈感的。 04/16 03:12
14F:→ error405: 又一個開源圖片模型 先放這 04/16 09:55
16F:→ error405: civitai.red/models/2543046/ernie-image 全裸好像行 04/16 21:15
17F:→ error405: 發現要看能否色就去civit.red看就好 04/16 21:15