作者error405 (流河=L)
看板AI_Art
标题[闲聊] Gemini3 Flash,单图生3D模型..本周AI新闻
时间Sun Dec 21 12:06:10 2025
https://www.youtube.com/watch?v=JxrVtFER1Q8
这部影片介绍了许多本周(2025年12月21日左右)发布的 AI 新技术与模型,内容相当丰
富。以下是各项新东西的详细简介:
核心大模型与开源模型
Xiaomi MiMo V2 Flash (小米):
被称为目前最强的开源模型,在 Agentic Coding(代理编码)和推理任务上表
现超越了 DeepSeek 和 Kimi k2 Thinking。
这是一个混合专家模型 (MoE),总参数 309B,但在运行时仅激活 15B,因此效
率极高。
在多个基准测试(如 SWE-bench Verified)中表现接近 GPT-5 和 Claude 4.5
等闭源模型。
Gemini 3 Flash (Google):
Google 发布的高效率模型,是目前性价比最高的选择。
速度比 Gemini 2.5 Pro 快 3 倍,成本仅为 Gemini 3 Pro 的四分之一,但性
能依然强大,在 Artificial Analysis 排行榜上名列第二(仅次於 GPT-5.2 和 Gemini
3 Pro)。
具备 100 万 token 的上下文窗口,并在多模态(影像、音讯理解)表现出色。
影片生成与编辑工具
Hunyuan World 1.5 (Tencent):
一个即时 (Real-time) 3D 世界生成器。
不像传统游戏是预先设计好的,它是随着你的移动(使用 WASD 键)即时生成场
景。
支援透过提示词即时改变环境(例如「木头冒烟」、「城堡失火」、「远处爆炸
」)。
已开源,且硬体需求相对较低(只需 14GB VRAM)。
SeaDance 1.5 Pro (ByteDance):
字节跳动推出的影片生成模型,被评价为比 Alibaba 的 Wan 2.6 更强。
在影片一致性、美学和动作流畅度上表现优异,且支援生成带有音讯的影片。
Wan 2.6 (Alibaba):
Wan 2.5 的小幅升级版,新增了 Reference to Video 功能(可上传参考影片来
生成新影片)。
虽然支援音讯生成,但在整体表现上被评价为不如 SeaDance 1.5 Pro,且目前
似乎是闭源的。
RealVideo (Zhipu AI / GLM Team):
即时人物说话影片生成器。
能根据输入的文字和一张照片,即时生成说话的 Avatar 影片,延迟仅约 2 秒
。
已开源,基於 CogVideoX 模型架构。
Long V2:
专门解决 AI 影片长度限制的问题,能生成长达 5 分钟 的超长影片,且保持场
景连贯性(大多现有模型仅能生成 10 秒左右)。
已开源,支援在消费级 GPU 上运行(需 14GB VRAM)。
Turbo Diffusion:
一个加速工具,能将本地影片生成速度提升 100 到 200 倍。
例如生成 5 秒影片仅需 2 秒(原先可能需数分钟),且几乎不牺牲画质。
已开源,适用於 Wan 2.1/2.2 等模型。
Ray 3 Modify (Luma Labs):
强大的影片重绘/修改工具。
能将现有影片转换风格(如夜间模式、冬季),或无缝替换影片中的角色(
Character Swap),甚至能将你自己演出的影片转换为电影场景。
EgoX:
能将第三人称视角的影片转换为第一人称视角 (Egocentric) 的 AI。
例如将一段踢球的影片,转换成「你自己正在踢球」的主观镜头。
图像与 3D 生成
Trellis 2 (Microsoft):
强大的开源 3D 模型生成器,从单张图片即可生成极高品质、细节丰富的 3D 模
型(包括毛发、复杂结构)。
采用了独特的 "Oxels" 技术(结合几何与材质的 3D 像素)。
Stereo Space:
能将普通 2D 照片转换为 3D 立体照片(需配戴红蓝 3D 眼镜观看,或使用交叉
眼观看法)。
能生成具有深度感的立体场景。
Qwen Image Layered (Alibaba):
能将一张图片拆解为多个透明图层(类似 Photoshop 的图层)。
允许你单独编辑背景、角色或文字,而不影响其他部分。
SVG Text-to-Image (Kling):
一种不使用 VAE (变分自编码器) 的新型图像生成架构,直接在视觉空间生成图
像。
虽然目前是实验性质,但证明了不依赖 Latent Space 也能生成不错的图像。
Flux 2 Max (Black Forest Labs):
Flux 系列最强模型,但在发布当天刚好撞上 OpenAI 的 GPT Image 1.5,且在
评测中略逊於 GPT Image 1.5 和 Nano Banana Pro (Google Imagen 3)。
角色动画与 Avatar
Scale:
目前最强的开源角色动画工具。
能将参考影片中的动作(甚至复杂的回旋踢、跳舞)完美迁移到任何角色(包括
动物、动漫人物)身上,且支援多角色同时动画化。
透过提取 3D 姿势 (3D Pose) 而非仅 2D 姿势来提高准确度。
LongCat Video Avatar (Meituan):
开源的照片转说话/唱歌影片工具。
只需一张照片 + 音讯,就能生成极其自然、表情丰富(甚至能大笑、呼吸)的
影片,被认为是目前该领域最强的开源工具。
其他工具
VRBGX (Adobe):
影片材质编辑工具。能将影片分解为 Albedo(颜色)、Normal(表面纹理)、
Material(材质)和 Irradiance(光照)四个属性,并允许你单独修改它们(例如把沙
发改成金属材质,或改变影片的光照环境)。
这周的 AI 进展涵盖了从基础模型、3D 生成、即时互动世界到影片编辑的全方位突破,
且许多强大的工具(如 Xiaomi MiMo, Trellis 2, Scale)都是开源的。
--
Gemini整理
一直进步一直爽
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 220.136.198.21 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/AI_Art/M.1766289972.A.71B.html
1F:→ error405: 嗯 他说让wan2.2快一百倍? 12/21 12:12
2F:推 Supasizeit: 那是没开任何加速下比 12/21 14:09
3F:→ necrophagist: 觉得吹太大 12/21 14:49
4F:推 patvessel: 看了一下 应该是self forcing机制 12/21 16:58
5F:→ patvessel: 说不牺牲画质..对但是也不对 因为会变成别的东西 12/21 16:58
6F:→ patvessel: 而不是降低画质 12/21 16:58
7F:推 patvessel: 从范例影片就能看的出来试用後的结果和原本的影片几乎 12/21 17:06
8F:→ patvessel: 完全不同 而且运镜和动态范围缩减 12/21 17:06
9F:→ patvessel: 这就是Self-forcing的特点之一 可能还他配蒸馏和其他 12/21 17:07
10F:→ patvessel: 注意力加速或量化手段 12/21 17:07