作者error405 (流河=L)
看板AI_Art
标题[闲聊] 实时AI老婆 Qwen3.5 ..本周AI新闻
时间Sun Mar 1 12:00:03 2026
https://www.youtube.com/watch?v=8grIT-xK50M
https://i.meee.com.tw/tHZT5uD.png

这段影片由 YouTube 频道 AI Search 发布,汇整了本周重大的 AI 技术进展与工具更新
。以下是根据影片资讯栏时间轴整理的新闻简介:
[0:00] AI 新闻引言:概述本周 AI 界的疯狂进展,包含物理精确的影像编辑器、虚
拟伴侣、向量图形生成以及阿里巴巴新发布的 Qwen 3.5 模型。
[1:03] VBVR (Very Big Video Reasoning):这是一个建立在影片生成模型 Wan
2.1 之上的框架,让 AI 具备「推理」能力。它可以根据指令在影片中解决视觉谜题,例
如圈出特定字元或模拟物理平衡,表现优於 Sora 等模型。
[4:09] tttLRM:一种 3D 重建技术,透过多张照片生成高度逼真且细节丰富的 3D
模型,比传统的 3DGS 方法更清晰、一致性更高。
[6:37] DreamID Omni:字节跳动(ByteDance)开发的影片生成器,可同时输入文本
、图像和人物声音,精准生成具有特定声音与外貌的深伪(Deepfake)影片或进行编辑。
[9:40] Quiver Arrow (Aero 1):目前生成 SVG 向量图形最强的 AI 模型,能生成
可无限放大而不失真的数学路径图案,专精於标志与图示设计。
[12:22] Solaris:专门生成 Minecraft 游戏画面的 AI,特别之处在於它能同时生
成「两名玩家」在同一场景下的不同视角画面,并保持时空一致性。
[15:25] VideoMT:一种轻量级的影片分割(Segmentation)模型,能以极快的速度
(高达 160 FPS)追踪并标定影片中的多个物体(如移动中的斑马)。
[17:11] VecGlypher:帮助使用者透过文字描述或参考图片,直接生成整套向量字体
与字形结构(Glyphs)。
[19:26] Unitree Go2 (宇树科技):展示了新款机器狗在崎岖地形的高速奔跑能力,
以及承受超过自身重量六倍(105公斤)的负载能力。
[20:39] Agibot G2 (智元机器人):轮式工业级人型机器人,具备高度灵活的手部,
能进行亚毫米级精度的电子元件组装,并支援热插拔电池 24/7 运作。
[21:53] Gamma:AI 简报与网页制作工具,现在已整合进 Claude AI 介面中,可直
接从对话生成设计美观的投影片。
[23:59] LavaSR:超轻量音讯增强器,体积仅 50MB,能在 GPU 上以 5000 倍实时速
度运行,甚至能在手机上流畅运作,去除背景杂讯并提升人声品质。
[26:05] Qwen 3.5:阿里巴巴发布的新一代开源模型。除了最强大的版本外,还推出
了 2B、35B、27B 等不同规模的版本,让家用电脑也能执行具备顶尖智慧的 AI。
[27:40] EgoScale:Nvidia 的机器人学习系统,让机器人只需观看人类操作的影片
(如摺衣服、用螺丝起子),就能学会复杂的动作任务。
[29:46] Doc to Lora:Sakana AI 的新技术,将长篇文件或复杂指令「压缩」成一
个轻量化的 LoRA 模型,让 AI 拥有长久且高效的特定知识记忆,无需重复复制贴上文件
。
[33:06] PhysicEdit:物理精确的影像编辑器,能准确模拟现实物理现象,如杯中吸
管的折射、香蕉腐烂或泥土变硬的视觉效果。
[35:21] Generated Reality:根据使用者的头部与手部动作实时生成互动式第一人
称影片,是未来虚拟实境(VR)结合 AI 的雏形。
[36:24] MMHNet (Sony):Sony 发布的 AI,能为长达 5 分钟的影片自动生成并同步
音效,表现比以往的模型更具节奏感与一致性。
[39:17] Sarah:VR 中的实时全身 AI 虚拟伴侣,能感知使用者的位置并进行自然眼
神接触与肢体动作交流。
[42:03] LorWeb:Nvidia 推出的独特影像编辑器,使用者提供「修改前/後」的范例
图片与欲修改的目标图片,AI 就能精准复制特定风格到新图上。
[44:20] Nvidia GPU 抽奖:创作者与 Nvidia 合作,只要报名参加 GTC 2026 活动
,就有机会获得 RTX 5090 显卡。
--
Gemini3整理
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.36.246.126 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/AI_Art/M.1772337605.A.101.html
1F:→ error405: *Qwen目前没有2B版 这应该是笔误 03/01 12:20
2F:推 ct13579: 那些开源模型真能对标顶尖闭源模型? 03/01 12:52
3F:→ error405: 毕竟是开几万帐号去跟人家偷师的 03/01 13:03
4F:推 rex7788: 很多模型门槛都太高,阿里巴巴的轻量化方向才是正确的 03/01 14:20
5F:推 newyorker54: 用了几个开源模型真的很强 03/01 15:24
6F:→ newyorker54: 轻量化解决问题的能力还是有差 03/01 15:25
7F:推 YCL13: 那个是Qwen3.5 122B的口误让生成字幕出错了 03/01 17:26
8F:→ error405: 看日本那在用qwen破限版35B写黄文 03/01 19:24
9F:推 YCL13: 觉得Qwen3.5比Qwen3好的地方是模型全能多了,Qwen3各式模型 03/01 19:40
10F:→ YCL13: 我下载了一堆,目前看Qwen3.5推出的模型就没分那麽多种,就 03/01 19:40
11F:→ YCL13: 算思考也是下参数关掉就好 03/01 19:41
12F:推 Bustycat: 试了Qwen3.5 27B思考会鬼打墙不知是否我的问题 03/02 19:02
14F:推 Bustycat: 学了一些改善参数的办法再试了9B,中文小黄文能力很强 03/03 21:16
15F:→ Bustycat: system prompt把要的角色丢进去就很能带入了 03/03 21:18
16F:推 YCL13: 整体趋势而言,各家都在进步,现在7B的平均能力可以痛电2年 03/03 22:08
17F:→ YCL13: 前的13B甚至23B,去年前推出的LLM我几乎全删掉了...,不过 03/03 22:08
18F:→ YCL13: 还是得说Qwen3.5的表现确实让人惊艳 03/03 22:08
19F:推 stlinman: Qwen3.5 真的可以做到小而精 03/03 22:13
20F:→ error405: 坐等gguf 03/03 22:13
21F:推 YCL13: 9B的GGUF今天已经有十几个推出了呀 03/03 23:07
22F:→ YCL13: 应该说那4个小模型的GGUF都各有十几个以上 03/03 23:11
23F:推 Bustycat: 我昨天就用上MLX了,社群一直都很快 03/04 12:36
24F:推 Bustycat: 发现了,给Qwen3.5看特定照片会触发色情审查 03/04 21:07
25F:推 Bustycat: 有时同一张又不会,很谜 03/04 21:24