[闲聊] Gemini3 Flash,单图生3D模型..本周AI新闻

时间Sun Dec 21 12:06:10 2025

https://www.youtube.com/watch?v=JxrVtFER1Q8

这部影片介绍了许多本周（2025年12月21日左右）发布的 AI 新技术与模型，内容相当丰富。以下是各项新东西的详细简介：核心大模型与开源模型 Xiaomi MiMo V2 Flash (小米)：被称为目前最强的开源模型，在 Agentic Coding（代理编码）和推理任务上表现超越了 DeepSeek 和 Kimi k2 Thinking。这是一个混合专家模型 (MoE)，总参数 309B，但在运行时仅激活 15B，因此效率极高。在多个基准测试（如 SWE-bench Verified）中表现接近 GPT-5 和 Claude 4.5 等闭源模型。 Gemini 3 Flash (Google)： Google 发布的高效率模型，是目前性价比最高的选择。速度比 Gemini 2.5 Pro 快 3 倍，成本仅为 Gemini 3 Pro 的四分之一，但性能依然强大，在 Artificial Analysis 排行榜上名列第二（仅次於 GPT-5.2 和 Gemini 3 Pro）。具备 100 万 token 的上下文窗口，并在多模态（影像、音讯理解）表现出色。影片生成与编辑工具 Hunyuan World 1.5 (Tencent)：一个即时 (Real-time) 3D 世界生成器。不像传统游戏是预先设计好的，它是随着你的移动（使用 WASD 键）即时生成场景。支援透过提示词即时改变环境（例如「木头冒烟」、「城堡失火」、「远处爆炸」）。已开源，且硬体需求相对较低（只需 14GB VRAM）。 SeaDance 1.5 Pro (ByteDance)：字节跳动推出的影片生成模型，被评价为比 Alibaba 的 Wan 2.6 更强。在影片一致性、美学和动作流畅度上表现优异，且支援生成带有音讯的影片。 Wan 2.6 (Alibaba)： Wan 2.5 的小幅升级版，新增了 Reference to Video 功能（可上传参考影片来生成新影片）。虽然支援音讯生成，但在整体表现上被评价为不如 SeaDance 1.5 Pro，且目前似乎是闭源的。 RealVideo (Zhipu AI / GLM Team)：即时人物说话影片生成器。能根据输入的文字和一张照片，即时生成说话的 Avatar 影片，延迟仅约 2 秒。已开源，基於 CogVideoX 模型架构。 Long V2：专门解决 AI 影片长度限制的问题，能生成长达 5 分钟的超长影片，且保持场景连贯性（大多现有模型仅能生成 10 秒左右）。已开源，支援在消费级 GPU 上运行（需 14GB VRAM）。 Turbo Diffusion：一个加速工具，能将本地影片生成速度提升 100 到 200 倍。例如生成 5 秒影片仅需 2 秒（原先可能需数分钟），且几乎不牺牲画质。已开源，适用於 Wan 2.1/2.2 等模型。 Ray 3 Modify (Luma Labs)：强大的影片重绘/修改工具。能将现有影片转换风格（如夜间模式、冬季），或无缝替换影片中的角色（ Character Swap），甚至能将你自己演出的影片转换为电影场景。 EgoX：能将第三人称视角的影片转换为第一人称视角 (Egocentric) 的 AI。例如将一段踢球的影片，转换成「你自己正在踢球」的主观镜头。图像与 3D 生成 Trellis 2 (Microsoft)：强大的开源 3D 模型生成器，从单张图片即可生成极高品质、细节丰富的 3D 模型（包括毛发、复杂结构）。采用了独特的 "Oxels" 技术（结合几何与材质的 3D 像素）。 Stereo Space：能将普通 2D 照片转换为 3D 立体照片（需配戴红蓝 3D 眼镜观看，或使用交叉眼观看法）。能生成具有深度感的立体场景。 Qwen Image Layered (Alibaba)：能将一张图片拆解为多个透明图层（类似 Photoshop 的图层）。允许你单独编辑背景、角色或文字，而不影响其他部分。 SVG Text-to-Image (Kling)：一种不使用 VAE (变分自编码器) 的新型图像生成架构，直接在视觉空间生成图像。虽然目前是实验性质，但证明了不依赖 Latent Space 也能生成不错的图像。 Flux 2 Max (Black Forest Labs)： Flux 系列最强模型，但在发布当天刚好撞上 OpenAI 的 GPT Image 1.5，且在评测中略逊於 GPT Image 1.5 和 Nano Banana Pro (Google Imagen 3)。角色动画与 Avatar Scale：目前最强的开源角色动画工具。能将参考影片中的动作（甚至复杂的回旋踢、跳舞）完美迁移到任何角色（包括动物、动漫人物）身上，且支援多角色同时动画化。透过提取 3D 姿势 (3D Pose) 而非仅 2D 姿势来提高准确度。 LongCat Video Avatar (Meituan)：开源的照片转说话/唱歌影片工具。只需一张照片 + 音讯，就能生成极其自然、表情丰富（甚至能大笑、呼吸）的影片，被认为是目前该领域最强的开源工具。其他工具 VRBGX (Adobe)：影片材质编辑工具。能将影片分解为 Albedo（颜色）、Normal（表面纹理）、 Material（材质）和 Irradiance（光照）四个属性，并允许你单独修改它们（例如把沙发改成金属材质，或改变影片的光照环境）。这周的 AI 进展涵盖了从基础模型、3D 生成、即时互动世界到影片编辑的全方位突破，且许多强大的工具（如 Xiaomi MiMo, Trellis 2, Scale）都是开源的。 -- Gemini整理一直进步一直爽 --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 220.136.198.21 (台湾) ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/AI_Art/M.1766289972.A.71B.html

1^F：→ error405: 嗯他说让wan2.2快一百倍? 12/21 12:12

2^F：推 Supasizeit: 那是没开任何加速下比 12/21 14:09

3^F：→ necrophagist: 觉得吹太大 12/21 14:49

4^F：推 patvessel: 看了一下应该是self forcing机制 12/21 16:58

5^F：→ patvessel: 说不牺牲画质..对但是也不对因为会变成别的东西 12/21 16:58

6^F：→ patvessel: 而不是降低画质 12/21 16:58

7^F：推 patvessel: 从范例影片就能看的出来试用後的结果和原本的影片几乎 12/21 17:06

8^F：→ patvessel: 完全不同而且运镜和动态范围缩减 12/21 17:06

9^F：→ patvessel: 这就是Self-forcing的特点之一可能还他配蒸馏和其他 12/21 17:07

10^F：→ patvessel: 注意力加速或量化手段 12/21 17:07

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

AI_Art 板

[闲聊] Gemini3 Flash,单图生3D模型..本周AI新闻

热门看板

赞助商连结