作者error405 (流河=L)
看板AI_Art
标题[闲聊] AI打游戏 单图生场景 ..本周AI新闻
时间Sun Dec 28 12:00:13 2025
https://www.youtube.com/watch?v=1IZMwC3oDfc
这部影片整理了本周(2025年12月底,圣诞假期期间)发布的大量 AI 新技术与模型。以
下是各项重点新闻的详细简介:
核心 AI 模型与开源 (Open Source)
MiniMax M2.1 (Open Source):
被称为「最强开源模型」之一,特别擅长 Agentic Coding (代理编码) 和多步
骤推理。
在 SWE-bench Verified 和多语言编码测试中,成绩超越 Claude 4.5、Gemini
3 Pro 和 GPT-5.2 等闭源模型。
实测强大:能通过单一提示词(Zero-shot)生成包含物理碰撞与加速机制的
3D 赛车游戏,或制作带有互动图表的复杂财务报告。
本地运行:参数约 229B,需要企业级硬体(如 DGX),但已开源供下载。
GLM-4.7 (Zhipu AI):
另一个强大的开源模型,同样在编码、工具使用和复杂推理上表现顶尖。
能生成 Android 操作系统模拟器、功能完整的 SimCity 游戏、甚至是线上影片
编辑器。
在 Humanities Last Exam (人文学科终极考试) 中得分超越 GPT-5.2。
影片与图像生成/编辑工具
FlashPortrait (Alibaba TongYi Lab):
能生成无限长度的人物说话影片(Avatar),且保持角色一致性。
速度快 6 倍:比 Live Portrait、Hunyuan 等竞品更快,且支援长影片不崩坏
。
已开源代码和模型,可在消费级 GPU 上运行(10GB VRAM 即可)。
Qwen ImageEdit 2511 (Alibaba):
最新的开源图像编辑模型(原定 11/25 发布,延期至现在)。
被誉为最强开源图像编辑器(类似 Nano Banana 的本地版)。
整合了多种 LoRA 功能:内建重新打光 (Relighting)、视角转换 (Novel View
Synthesis) 和风格迁移。
已有 2-bit 量化版本,可在 8GB VRAM 显卡上运行。
IMC Cam:
能改变现有影片的摄影机运镜 (Camera Movement)。
例如将原本固定的镜头变成推拉、平移或环绕镜头,且保持角色和背景的一致性
。
已开源,但硬体需求极高(需 50GB+ VRAM)。
Dream Montage (ByteDance):
允许使用者上传多个关键影格 (Keyframes) 来精确控制影片内容。
AI 会自动生成影格之间的过渡动画(In-betweening),让影片按顺序呈现不同
场景(如从眼睛变焦到城市,再到蝴蝶)。
可在 Dreamina 平台上试用。
Generative Refocusing:
事後对照片进行重新对焦 (Refocus) 的 AI。
能修复失焦的照片,或改变景深(如模糊背景制造电影感,或让模糊的背景变清
晰)。
已开源,模型轻量(约 2.6GB)。
Rico (Region Constraint in Context Generation):
影片版的 Nano Banana,支援透过文字指令对影片进行局部编辑。
能替换影片中的角色(如男人变企鹅)、更改服装、新增或移除物体,甚至转换
整个影片的画风。
预计 2-3 周後开源。
游戏与 3D 技术
Nitrogen (NVIDIA):
能自主游玩几乎所有电子游戏的 AI Agent。
基於 Vision-Action 模型,透过像人类一样「看萤幕」和「操作手把」来玩游
戏,而非读取游戏代码。
训练数据包含 40,000 小时的游戏影片,涵盖 1,000 多种游戏。
AnyX (Animate Any Character in Any World):
能将任何 3D 角色放入任何 3D 场景中,并透过文字指令控制其动作(如跳舞、
弹竖琴、吃披萨)。
代码即将开源。
3D Regen:
从单张室内照片生成可编辑的完整 3D 场景。
能识别并重建房间内的所有家具与物件,让你能在 3D 空间中移动它们。
预计 2026 年 1 月底开源代码。
Spacia:
具备空间记忆 (Spatial Memory) 的影片生成模型。
生成的场景在时间和空间上保持一致(例如镜头移开後再移回来,原本的物体还
在原地),适合生成 VR 场景。
Carry 4D (NVIDIA):
从影片中重建人类与物体互动的 3D 模型。
能精确捕捉手部操作物体的细节,主要用於训练人形机器人模仿人类动作。
其他
Unitree Robot Demo:展示了新的人形机器人遥操作(Teleoperation)技术,人类
无需穿戴笨重设备即可实时控制机器人动作。
MV Inverse:从一张或多张照片反推场景的物理属性(如颜色、光照、材质粗糙度、
法线方向)。
这周的更新非常多,特别是在开源领域(MiniMax, GLM-4.7, FlashPortrait, Qwen
ImageEdit)有重大突破,让个人开发者也能使用顶尖的 AI 工具。
--
Gemini3整理
开源版香蕉 影片版香蕉 ..香蕉大拍卖
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.36.220.95 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/AI_Art/M.1766894415.A.446.html
1F:推 rex7788: gemini是不是很喜欢用 最强 超越 顶尖这些形容词 12/28 16:26
2F:→ error405: 强韧 无敌 最强 12/28 16:29
3F:推 Destiny6: minimax是套皮吗?看百度上的介绍感觉研发跟成长速度也 12/28 16:48
4F:→ Destiny6: 太快... 12/28 16:48
5F:推 Supasizeit: 都阿里系的 12/28 17:02
6F:推 jakkx: 期待3D regen与nv... 12/29 11:29