作者error405 (流河=L)
看板AI_Art
标题[闲聊] deepseek归来 实时3D世界 ..本周AI新闻
时间Sun Jan 4 12:30:40 2026
https://www.youtube.com/watch?v=7kPNA86G_GA
这部影片介绍了许多本周(2026年1月4日左右)发布的 AI 新技术与工具。以下是重点新
闻的详细简介:
影片与 3D 生成
StreamDiffusion VSSR (Video Super-Resolution):
即时影片画质提升:这是一个即时的影片超解析度工具,能将模糊的影片变清晰
,提升细节与锐利度。
极速运行:在 RTX 4090 上仅需 0.3 秒 即可处理,速度远快於传统
Diffusion VSSR(需数千秒),几乎达到即时效果。
已开源:代码已发布在 GitHub 上供下载使用。
UltraShape 1.0:
高拟真 3D 模型生成:能从单张图片生成极高细节的 3D 模型,特别擅长处理复
杂结构(如宝塔、龙)和角色(如美人鱼)。
超越竞品:品质优於 Trellis 2,生成的形状更准确,但目前仅能生成 3D 形
状 (Geometry),尚不支援纹理 (Texture) 生成。
已开源:提供代码和训练数据。
Ume 1.5:
互动式 3D 世界生成:能从图片或文字提示生成可探索的 3D 世界,并支援透过
键盘(WASD)即时移动。
动态事件:可透过文字指令在场景中加入角色或特效(如「女人走在街上」)。
低硬体需求:提供 Windows 一键安装包,可在 16GB VRAM 的笔电上运行。
HY Motion 1.0 (Tencent Hunyuan):
文字转 3D 动作:腾讯发布的 10 亿参数模型,能根据文字指令生成逼真的 3D
角色动画(如「蹲下」、「挥剑」、「拳击」)。
高品质数据:使用超过 3000 小时的动作数据训练,动作流畅自然。
已开源:可在消费级 GPU(如 24GB VRAM)上运行。
Space-Time Pilot:
影片运镜重制:能改变现有影片的摄影机角度与透视。
特效功能:支援「子弹时间 (Bullet Time)」冻结画面并旋转视角、影片倒转播
放同时改变运镜、以及慢动作重拍。
即将开源:代码目前在审核中。
HighStream:
影片生成加速:能将影片生成速度提升 100 倍以上。
原理:透过消除时间上的冗余计算(Temporal Redundancy)和空间压缩来加速
。
品质提升:不仅速度快,生成的画质甚至比原始模型更好。
图像生成与编辑
Qwen Image 2512 (Alibaba):
最新图像生成模型:相比旧版,生成的照片真实感大幅提升,皮肤质感更自然,
减少了 AI 的塑胶感。
文字渲染强:能准确生成长篇文字(如日记内容),但在手写风格上略显工整。
物理光影:在处理复杂的光影反射(如镜子中的模糊倒影)表现优於 Zimage
Turbo。
已开源:支援 ComfyUI,且有轻量化版本 (7.2GB) 可在 8GB VRAM 显卡上运行
。
Spot Edit:
局部图像编辑:允许使用者仅选择图片的特定区域进行修改(如把足球改成向日
葵),而不影响其他部分。
一致性高:相比重绘整张图,更能保持原图细节(如浮水印、背景物体)不变。
已开源:支援 Flux 和 Qwen Image 模型。
ProEdit:
统一编辑模型:同一个模型既能编辑图片,也能编辑影片。
功能:能移除物体、更换角色(如鹿变牛、红车变黑车),且在影片中保持动作
连贯。
即将开源:计划发布代码。
TwinFlow:
图像生成加速:能将 Zimage Turbo 的生成步数从 7-9 步减少到 1-2 步,速度
提升 4-5 倍。
大型语言模型 (LLM) 与其他
DeepSeek 新论文 (MHC):
Manifold Constrained Hyperconnections:DeepSeek 提出的一种新架构,旨在
解决模型变深後讯号不稳定的问题,让训练更稳定且高效。
MiniMax M2.1:
最强开源模型之一:在程式编码 (Coding) 和多步骤推理上表现极强,超越
GPT-5.2 和 Gemini 3 Pro。
实测强大:能写出完整的 Android 作业系统模拟器、复杂的财务报告图表。
已开源:提供模型下载,适合本地部署。
iQuest Coder V1:
程式码生成黑马:由量化交易公司背景的实验室开发,专精於程式码生成与
Debug。
Loop 架构:透过循环使用参数,让小模型 (40B) 也能达到大模型的效能。
已开源:提供多种尺寸的模型下载。
Jarvis GPT:
全能多模态模型:能理解并生成文字、音讯和影片。
端到端生成:可以直接从文字生成带有音效的影片(虽然目前画质尚可,但概念
先进)。
已开源:提供完整的训练代码。
这周的 AI 进展非常惊人,特别是在 3D 生成、即时影片处理以及 高效能开源模型 方面
都有重大突破。
--
deepseek的神奇论文
https://youtu.be/1ON0LuQmARM
矩阵算法优化性能
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.36.206.123 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/AI_Art/M.1767501042.A.986.html
1F:→ error405: (gemini3整理) 01/04 12:31
2F:推 potatotato: 感谢整理 01/04 19:13
3F:推 rex7788: 声音方面的ai工具好像进展比较慢 01/05 01:04
4F:推 avans: 推整理 01/05 02:22
5F:推 snowwolf725: 推 01/05 07:44
7F:→ avans: 看一下说明4090 720P每帧需要0.328秒处理时间,还是不即时 01/05 10:31
8F:推 qiaffvvf: 感谢整理 01/07 05:52
9F:推 lyxiang: Qwen Image 2512爆vram跑不动QQ 01/07 08:37
10F:→ avans: Qwen-Image模型很重,量化的gguf版本比较容易跑起来 01/07 09:45