作者error405 (流河=L)
看板AI_Art
标题[闲聊] AI代理人 开源音乐生成 ..本周AI新闻
时间Sun Jan 18 12:08:28 2026
https://www.youtube.com/watch?v=eHMVifFMq0Q
这部影片整理了 2026 年 1 月中旬多项重大的 AI 技术进展,涵盖了 AI 代理人、音讯
生成、3D 建模及影片生成等领域。以下是详细的简介:
AI 代理人与电脑操作
Show UI Aloha:这是一个能透过观察人类录制的操作流程来学习任务的 AI 代理人
。它能学习如订机票、编辑试算表等复杂流程,并在之後自主完成类似任务,表现优於
UI TARS 与 Claude 3.5 Sonnet [01:25]。
Show UI Pi:专门优化「滑鼠平滑移动」的 AI,能执行以往 AI 难以达成的拖放动
作,甚至能解开滑动验证码(Slider Captchas)或在画小画家中签名 [09:53]。
音讯与音乐生成
HeartMula:全新的开源音乐生成器,能根据文字提示和歌词生成完整歌曲。它支
援多国语言(英文、中文、日文、韩文、西班牙文),在旋律一致性与音质上接近业界领
先的 Suno v5 [20:59]。
Nova SR:仅有 50KB 的极小音讯模型,能以超过即时速度 3,500 倍的效率提升音讯
音质,使其听起来更清晰 [03:37]。
极轻量 TTS (文字转语音):仅有 1 亿参数的模型,延迟极低(200ms),可在一般
CPU(如 MacBook Air M4)上流畅运行,并支援语音复制与长文本阅读 [31:22]。
影片生成与 3D 技术
Verse Crafter (腾讯):能从单张图片生成影片,并允许使用者在 3D 空间中精确控
制摄影机轨迹与物体移动路径 [05:28]。
Unish:能将单一段影片转换为包含人物与场景的 3D 模型,并预测人体的姿势与位
置 [08:38]。
Meta Shape R:将场景的照片或影片转换为精确的 3D 模型。不同於以往,它能将场
景中各个物件分离成独立模型,方便後续编辑 [19:11]。
Rigmo:自动化 3D 模型的「骨架绑定(Rigging)」过程,让静态 3D 模型能快速变
为可随意调整动作的动画模型 [30:05]。
Pixverse R1:即时影片生成世界模型,使用者可以一边观看连续串流影片,一边输
入指令即时改变影片内容或风格 [34:31]。
图片编辑与深度预测
Flux 2 Klein & Vibe:超快速的开源图片生成与编辑器。Vibe 模型仅需 4 秒即可
在高效能 GPU 上生成 2K 解析度图片,且在保持图片原始细节的编辑能力上表现出色
[14:03]。
AnyDepth:高保真度的深度预测模型,能精确推算影片或图片中的景深,解析度与准
确度皆超越以往模型 [11:53]。
这部影片展示了 AI 正在朝向更轻量化(可在个人设备运行)与更高精确度(如 3D 建模
与精准控制)的方向发展。
--
gemini3整理
Flux 2 Klein听说不错?
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 220.136.197.234 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/AI_Art/M.1768709310.A.715.html
1F:→ error405: 说明漏了类香蕉改图的VIBE跟场景照转3D的ShapeR 01/18 13:03
※ 编辑: error405 (220.136.197.234 台湾), 01/18/2026 13:36:54
2F:推 Supasizeit: Klein 是给中低显卡用的 然後4B 是Apache license 01/18 13:47
3F:→ Supasizeit: 大显存的不如用flux.2 dev量化跟fp4 01/18 13:48
4F:推 kimwang: 感觉还能加个TranslateGemma? 强化的本地端翻译AI 01/18 21:01
5F:推 avans: 推有趣模型整理 01/19 00:20
9F:→ error405: 可惜HeartMula还没出gguf 01/20 13:04
10F:推 potatotato: 本来以为8gb vram跟heartmula无缘 没想到用wanGP跑起 01/24 15:48
11F:→ potatotato: 来了 01/24 15:48