作者error405 (流河=L)
看板AI_Art
标题[情报] 百度ERNIE-Image开源图像模型
时间Wed Apr 15 09:39:08 2026
https://x.com/ErnieforDevs/status/2044076352161362103
https://ernie.baidu.com/blog/posts/ernie-image/
https://pbs.twimg.com/media/HF4Eo0LasAIW6yl.jpg

ERNIE-Image 相关资讯整理(2026 年 4 月 15 日最新)百度 ERNIE 团队於 2026 年 4
月 14 日 正式开源发布 ERNIE-Image,这是一款参数仅 8B 的开放权重(open weights
)文字生成图像(text-to-image)模型,在多个基准测试中登上开放权重模型榜首,特
别擅长精准文字渲染、复杂指令遵循与结构化排版生成(海报、漫画分镜、多面板布局)
。
1. 模型规格与版本
核心架构:单流 Diffusion Transformer(DiT)+ latent diffusion(LDM)框架。
参数:主模型 8B DiT 参数,另附 3B Prompt Enhancer(基於 Ministral 3B 微调)。
两种版本:
版本 特色 推理步数 适用情境
ERNIE-Image (SFT) 通用品质更强 ~50步 高品质需求
ERNIE-Image-Turbo 速度优化+美学强化(DMD + RL) ~8步 快速生成
硬体需求:仅需 24GB VRAM 即可运行,适合消费级 GPU 部署与微调。
2. 核心特色与优势
精准文字渲染:支援英文、中文、多语言、长段文字、密集排版与对话框,文字清晰不模糊。
强大指令遵循:复杂提示、多物件关系、知识密集描述都能精准控制。
结构化生成:擅长海报、漫画/动漫故事板、多面板布局、连续分镜,保持角色一致性与
叙事节奏。
风格多样:写真摄影、电影感、平面设计、漫画风等皆可。
Prompt Enhancer:内建 3B 轻量提示增强器,能把简短输入自动扩展成详细结构化提示
(可再搭配 Gemini 等大型 LLM 进一步提升推理与世界知识)。
易用性高:已整合 ComfyUI 与 Diffusers 生态,开发者可快速上手。
3. 基准测试表现(开放权重模型 SOTA)
官方公告与 X 贴文附上详细榜单,以下为重点:
GenEval(构图能力):0.8856(开放权重 #1)
OneIG-EN:0.5750(#3)
OneIG-ZH:0.5543(#2)
LongTextBench(长文字保真度):0.9733(#2)
整体在四项基准中,ERNIE-Image(含/不含 PE) 均稳居开放权重模型第一,与 Nano
Banana 2.0、Seedream 4.5 等闭源模型竞争激烈。Turbo 版在速度与美学上也有优异表
现。
(X 贴文附有多张完整榜单截图,可直接点击原帖查看详细数据。)
4. 存取与使用方式
Hugging Face 下载(官方权重):
ERNIE-Image:
https://huggingface.co/Baidu/ERNIE-Image
ERNIE-Image-Turbo:
https://huggingface.co/Baidu/ERNIE-Image-Turbo
提示画廊(官方 Demo 与范例):
https://ernieimageprompt.com/
GitHub、Demo 与 Discord:X 公告中有完整连结,可加入 Discord 获得免费 bot 使用
、每周挑战赛与奖品。
授权:开放权重,非商业个人衍生创作 使用(官方未授权商业应用)。
5. 实际生成范例(官方展示重点)
多面板漫画 / 故事板(分镜清晰、文字气泡完整)
文字密集海报(中英长段文字、排版专业)
电影感写真、城市夜景、产品宣传图
动漫风格人物与场景(表情一致、动作流畅)
X 公告中的 collage 图就展示了大量真实生成案例,包括漫画分镜、带有大量中文文字
的宣传海报、城市景观与人物肖像,文字渲染与布局效果极佳。
6. 限制与注意事项
短提示效果较一般,强烈建议使用 Prompt Enhancer 或外部 LLM 辅助。
3B Prompt Enhancer 在极深度领域知识(如复杂数学推理)可能仍有不足。
目前定位为研究与个人创作,非商业用途。
总结
ERNIE-Image 是百度首款真正主打开放权重 + 实用性的图像生成模型,8B 参数却在
文字渲染与结构化生成上表现突出,尤其适合需要中文排版、海报设计、漫画分镜 的创
作者与开发者。模型已经准备好在 ComfyUI / Diffusers 生态中使用,值得立即体验!
--
Grok整理
看起来像是Qwen-image同级模型? 开源就是爽 反观那个wan
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.36.203.252 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/AI_Art/M.1776217153.A.E83.html
※ 编辑: error405 (114.36.203.252 台湾), 04/15/2026 10:11:24
1F:→ v86861062: 可以色色ㄇ 04/15 14:41
2F:→ kf21517: 重点能色吗 04/15 15:22
3F:推 Supasizeit: 听说就跟Qwen 那种一样 该有的没有不该有的长出来 04/15 15:40
4F:→ error405: 还真是同级啊 04/15 15:41
5F:→ error405: 用tensor线上生个真人比基尼是可以的 04/15 15:59
6F:→ error405: 用turbo有时会三只脚 04/15 16:05
7F:→ error405: 中文叙述可以 cartoon comic可以 动漫二次元anime无反应 04/15 16:47
8F:→ error405: japan comic style貌似有用 04/15 16:52
10F:→ error405: 本机生能否进一步不知 04/15 17:02
https://huggingface.co/spaces/baidu/ERNIE-Image-Turbo
也能线上测试
※ 编辑: error405 (114.36.203.252 台湾), 04/15/2026 21:16:05
11F:推 Vulpix: 有点怀念ernie-virilg2.0,那种草稿感与不确定性其实挺能 04/16 03:12
12F:→ Vulpix: 激发灵感的。 04/16 03:12
14F:→ error405: 又一个开源图片模型 先放这 04/16 09:55
16F:→ error405: civitai.red/models/2543046/ernie-image 全裸好像行 04/16 21:15
17F:→ error405: 发现要看能否色就去civit.red看就好 04/16 21:15