[闲聊] 更多机器老婆递回AI Agent..本周AI新闻

时间Sun May 3 13:32:49 2026

https://www.youtube.com/watch?v=7r_WJ9xpne0

1. OmniShotCut (0:50) 核心功能：自动化全景影片剪辑 OmniShotCut 是一个针对 360 度全景影片设计的智能剪辑框架。传统全景影片需要人工挑选视角，过程极其繁琐。技术特点：它能自动识别全景画面中的感兴趣区域（Region of Interest），并根据电影摄影原则自动产出流畅的透视影片（Perspective Video）。应用场景：极限运动记录、虚拟旅游导览的快速後制。 2. HappyHorse (2:05) 核心功能：阿里巴巴旗下的顶级影片生成模型这款由阿里巴巴推出的影片生成模型在发布之初便引起轰动，主要原因在於其数据指标与实际感官的巨大落差。数据神话：在 Artificial Analysis 的独立评测榜单中，HappyHorse 在「文字转影片」与「图像转影片」两项指标均位列世界第一，分数甚至超越了传奇的 SeedDance 2.0 近 100 分。实测翻车：尽管跑分极高，但在实际测试中，HappyHorse 的表现令人失望。它在处理复杂的物理规律、长指令的顺序逻辑（如动作先後顺序）方面明显力不从心，画面流畅度与一致性在侧评中皆逊於 SeedDance 2.0。 3. MoCapAnything V2 (5:27) 核心功能：万物皆可动捕（单目摄影机版） MoCapAnything 的第二代版本大幅提升了从普通 2D 影片中提取 3D 人体动作的精度。技术优势：不需要专业的红外线感应器或穿戴设备，仅凭单一镜头拍摄的影片（如 YouTube 或抖音影片），即可将人物动作转换为 3D 骨架。改进点：V2 优化了对复杂动作（如翻滚、遮挡）的处理能力，生成的动作数据更加平滑。 4. Ling-2.6-Flash (7:23) 核心功能：高效能百亿级参数大型语言模型 (LLM) 由 Inclusion AI（阿里巴巴另一独立实验室）发布，这是一款兼具规模与推理速度的模型，特别针对长文本处理进行了优化。模型规模：该模型总参数高达 1,040 亿 (104B)，但采用了混合专家架构（MoE），在运算时仅有约 7.4B 参数处於活动状态，这使其具备大型模型的推理深度，同时保有极快的反应速度。技术优势：在 Agentic（智能代理）基准测试中表现优异，且在长上下文（Long Context）情况下的推理效率远超同类模型，非常适合处理繁琐的长篇文献或复杂的对话任务。 5. Z-Anime (8:33) 核心功能：动漫风格专用生成模型这是一个在 Hugging Face 上备受关注的特定领域微调模型。技术特点：对动漫线条、上色风格与二次元构图有着极深的理解。用途：能精准还原高品质的日系动画风格，是创作者进行角色设计或同人创作的强大工具。 6. Recursive Multi-Agents (9:37) 核心功能：递回式多代理人系统这是一种新型的 AI 协作架构，让 AI 代理（Agent）能够像「俄罗斯娃娃」一样递回地解决问题。运作机制：当一个主 Agent 遇到复杂任务时，它会自动生成子 Agent 来处理特定环节，而子 Agent 还可以继续派生。价值：这种架构极大地提升了 AI 处理长期、多步骤任务（如撰写完整软体专案）的逻辑能力。 7. Vista4D (12:50) 核心功能：动态 4D 场景重建 Vista4D 专注於将稀疏视角的影片转换为可从任何角度观看的动态 4D 场景（3D + 时间）。技术手段：利用 Gaussian Splatting 或类似技术，即便摄像头捕捉到的资讯有限，也能补全动态物体背後的细节。应用：让观看者可以在一段动态影片中自由切换视角，彷佛身历其境。 8. Tuna-2 (15:47) 核心功能：Meta 推出的多模态图片生成与编辑模型 Tuna-2 是 Meta 最新的图像生成力作，其定位与 GPT Image 2 或 Nano Banana 类似，是一款功能强大的多模态创作工具。多模态生成：除了根据文字生成图像，它更擅长处理图片编辑任务。用户可以透过文字指令对现有图片进行风格转换（例如：将人物转为乐高风格或梵谷油画风）。强大的排版能力：该模型在文字渲染（Text Rendering）上表现出色，能精准地在海报或示意图中生成正确的字母与单词。发布争议：尽管技术领先，但 Meta 因内部政策限制，仅释出了性能受限（Layers 较少）的基础检查点（Foundation Checkpoint），而非完整的模型权重。 9. AnyRecon (17:02) 核心功能：通用型 3D 重建正如其名，AnyRecon 旨在实现「从任何来源进行重建」。技术突破：它不挑剔输入源（无论是网路图片还是手机随手拍），都能在极短时间内生成具有高几何精度的 3D 模型。优势：对弱光环境与纹理缺失区域具有较强的补偿能力。 10. Merlin AI (19:19) 核心功能：全方位浏览器 AI 助手 Merlin 是一款整合了多种底层模型（如 GPT-4、Claude）的生产力工具。功能涵盖：网页内容摘要、YouTube 影片重点提取、电子邮件代写以及即时搜寻。定位：它将复杂的 AI 技术包装成易用的 UI，是目前最受欢迎的个人 AI 效率工具之一。 (业配) 11. ARA (Agent-native Research Artifacts) [00:21:29] 核心概念：为 AI 时代打造的「原生科研工艺品」传统论文（PDF）是给人读的，往往隐藏了失败的实验与细碎的参数。ARA 试图改变这一点。技术特点：它不仅包含论文结论，还结构化地封装了完整的代码、配置、实验路径（包含失败的尝试）以及推理链条。价值：透过「Live Research Manager」系统自动捕捉研究过程，解决了科研中的「工程税（无法复现）」与「叙事税（只讲好听的故事）」，让 AI 代理能更高效地阅读与续写科研工作。 12. KAI (Kinetics AI) [00:24:52] 核心功能：超拟人化具身机器人 KAI 是一款具备极高灵活性与感知能力的通用机器人。硬体规格：全身上下拥有 115 个自由度（DoF），仅双手就有 36 个自由度，能执行拉拉链、玩乒乓球等精细动作。技术亮点：配备「全体触觉皮肤（Tactile Skin）」，机器人不仅能看到世界，还能「感觉」到接触压力，这使其在处理易碎品（如橘子）或与人互动时更安全。脑部架构：采用 KAI 世界模型（World Model），具备长序列任务规划与自我纠错能力。 13. Robot Era Factory (L7 机器人) [00:26:33] 应用场景：全自动化物流分拣展示了数十台 L7 人形机器人在物流中心协同作业的画面。技术特点：利用嵌入式视觉与深度感知，机器人能精确识别传送带上的包裹并进行分类。这预示着未来工厂将从「固定机械臂」转向「流动的人形机器人群」。 14. Neotix Head & TFBOT Ella [00:27:35] 核心功能：生化拟真机器人头部这两款技术致力於解决「恐怖谷效应」，提供极致的人机互动体验。 Neotix：专注於微表情，能实现极其自然的眨眼、视线转动与说话口型 TFBOT Ella：明确定位为「伴侣型机器人（Girlfriend Robot）」，外型虽然极其自然，但在眼神的灵动度上略逊於 Neotix。 15. SenseNova U1 (商汤日日新) [00:28:50] 核心功能：端到端统一多模态模型这不是单纯的图像生成器，而是一个「全才」模型。架构创新：采用 Neo Unifi 架构，舍弃了传统的分离式视觉编码器，直接将像素与文字进行端到端连结。技术优势：在处理海量文字的海报、长图、视觉逻辑谜题方面表现极其优异，能理解复杂的视觉层次感 16. Nemotron 3 Nano Omni (NVIDIA) [00:32:14] 核心功能：高效多模态推理代理 NVIDIA 推出的 30B 混合专家模型（MoE），仅需 3B 活跃参数即可运行。技术亮点：能同时输入影音、图片与文字，并在单一模型内完成推理。效率：在影片推理能力上提升了 9 倍系统容量，非常适合部署在终端设备上作为即时 AI 助理。 17. Claude Connectors [00:34:17] 核心功能：AI 接管专业软体介面 Anthropic 让 Claude 具备了直接操控第三方软体的能力。运作机制：透过「Connector」，Claude 可以直接调用 Adobe Creative Cloud、 Blender 或 Canva 的 API [00:34:38]。应用场景：你可以直接对 Claude 说「帮我在 Blender 里调整这个 3D 模型的灯光」，它会自动生成代码并执行指令，将 AI 从「聊天视窗」释放到「生产力工具」中。 18. Moonlake [00:35:34] 核心功能：3D 世界构建代理 (3D World Building Agent) 与传统生成 3D 模型不同，Moonlake 是像「人类专家」一样在 Blender 里操作。技术特点：它采用「闭环操作（Loop）」，会观察渲染结果、发现错误、进行修正，直到完成复杂的 3D 场景。这解决了 AI 难以生成结构正确（如合页可动、物理对齐）模型的问题 19. Talkie (1930s AI) [00:37:59] 核心实验：无污染的「复古」语言模型这是一个极其有趣的学术项目，训练数据仅限於 1930 年以前的资料。研究价值：因为该模型「从未见过」现代网路、电脑或 Python 代码，它是测试 AI 泛化能力的最佳对象。惊人发现：即便从未见过代码，在给予少量范例後，该模型竟能理解 Python 函数的基本概念 [00:39:47]，证明了语言逻辑具备跨领域迁移的可能性。 20. Grok 4.3 & Mistral 3.5 [00:42:07] 主流模型迭代 Grok 4.3：xAI 的最新力作，强化了沙盒电脑操作与文件处理能力，虽然进步显着，但在综合排名上仍略逊於 GPT-5.5 [00:42:50]。 Mistral Medium 3.5：欧洲 AI 巨头的 128B 大模型，主打 256K 超长上下文，但在第三方独立评测中表现一般，性价比略低於 DeepSeek 等模型 -- Gemini整理 GPTimage2还没研究完又多了几个生图AI了(Tuna-2,Z-Anime,SenseNova U1) 另外补充个听起来很强的语音生成/克隆叫VoxCPM2 虽然不确定不用Tokenizer是啥意思但大概很猛 https://x.com/Honcia13/status/2050262221226463573 --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.36.240.115 (台湾) ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/AI_Art/M.1777786371.A.97E.html

1^F：推 Bustycat: Mistral AI在欧洲独一档，严格守法的欧企只能选他们的 05/03 14:45

2^F：→ peterturtle: 不是没人作套娃 Agent 是套娃 Agent token 经费容易 05/03 16:32

3^F：→ peterturtle: 爆掉 www 05/03 16:32

4^F：推 rex7788: 这动画风格的危险，一下就会被版权盯上的 05/04 00:36

5^F：→ error405: https://x.com/ai_hakase_/status/2051059986067833258 05/04 09:16

6^F：→ error405: 动画+一张图生Anima Lora 05/04 09:16

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

AI_Art 板

[闲聊] 更多机器老婆递回AI Agent..本周AI新闻

热门看板

赞助商连结