作者error405 (流河=L)
看板AI_Art
标题[闲聊] 更多机器老婆 递回AI Agent..本周AI新闻
时间Sun May 3 13:32:49 2026
https://www.youtube.com/watch?v=7r_WJ9xpne0
1. OmniShotCut (0:50)
核心功能:自动化全景影片剪辑
OmniShotCut 是一个针对 360 度全景影片设计的智能剪辑框架。传统全景影片需要人工
挑选视角,过程极其繁琐。
技术特点:它能自动识别全景画面中的感兴趣区域(Region of Interest),并根据
电影摄影原则自动产出流畅的透视影片(Perspective Video)。
应用场景:极限运动记录、虚拟旅游导览的快速後制。
2. HappyHorse (2:05)
核心功能:阿里巴巴旗下的顶级影片生成模型
这款由阿里巴巴推出的影片生成模型在发布之初便引起轰动,主要原因在於其数据指标与
实际感官的巨大落差。
数据神话:在 Artificial Analysis 的独立评测榜单中,HappyHorse 在「文字转影
片」与「图像转影片」两项指标均位列世界第一,分数甚至超越了传奇的 SeedDance
2.0 近 100 分。
实测翻车:尽管跑分极高,但在实际测试中,HappyHorse 的表现令人失望。它在处
理复杂的物理规律、长指令的顺序逻辑(如动作先後顺序)方面明显力不从心,画面流畅
度与一致性在侧评中皆逊於 SeedDance 2.0。
3. MoCapAnything V2 (5:27)
核心功能:万物皆可动捕(单目摄影机版)
MoCapAnything 的第二代版本大幅提升了从普通 2D 影片中提取 3D 人体动作的精度。
技术优势:不需要专业的红外线感应器或穿戴设备,仅凭单一镜头拍摄的影片(如
YouTube 或抖音影片),即可将人物动作转换为 3D 骨架。
改进点:V2 优化了对复杂动作(如翻滚、遮挡)的处理能力,生成的动作数据更加
平滑。
4. Ling-2.6-Flash (7:23)
核心功能:高效能百亿级参数大型语言模型 (LLM)
由 Inclusion AI(阿里巴巴另一独立实验室)发布,这是一款兼具规模与推理速度的模
型,特别针对长文本处理进行了优化。
模型规模:该模型总参数高达 1,040 亿 (104B),但采用了混合专家架构(MoE),
在运算时仅有约 7.4B 参数处於活动状态,这使其具备大型模型的推理深度,同时保有极
快的反应速度。
技术优势:在 Agentic(智能代理)基准测试中表现优异,且在长上下文(Long
Context)情况下的推理效率远超同类模型,非常适合处理繁琐的长篇文献或复杂的对话
任务。
5. Z-Anime (8:33)
核心功能:动漫风格专用生成模型
这是一个在 Hugging Face 上备受关注的特定领域微调模型。
技术特点:对动漫线条、上色风格与二次元构图有着极深的理解。
用途:能精准还原高品质的日系动画风格,是创作者进行角色设计或同人创作的强大
工具。
6. Recursive Multi-Agents (9:37)
核心功能:递回式多代理人系统
这是一种新型的 AI 协作架构,让 AI 代理(Agent)能够像「俄罗斯娃娃」一样递回地
解决问题。
运作机制:当一个主 Agent 遇到复杂任务时,它会自动生成子 Agent 来处理特定环
节,而子 Agent 还可以继续派生。
价值:这种架构极大地提升了 AI 处理长期、多步骤任务(如撰写完整软体专案)的
逻辑能力。
7. Vista4D (12:50)
核心功能:动态 4D 场景重建
Vista4D 专注於将稀疏视角的影片转换为可从任何角度观看的动态 4D 场景(3D + 时间
)。
技术手段:利用 Gaussian Splatting 或类似技术,即便摄像头捕捉到的资讯有限,
也能补全动态物体背後的细节。
应用:让观看者可以在一段动态影片中自由切换视角,彷佛身历其境。
8. Tuna-2 (15:47)
核心功能:Meta 推出的多模态图片生成与编辑模型
Tuna-2 是 Meta 最新的图像生成力作,其定位与 GPT Image 2 或 Nano Banana 类似,
是一款功能强大的多模态创作工具。
多模态生成:除了根据文字生成图像,它更擅长处理图片编辑任务。用户可以透过文
字指令对现有图片进行风格转换(例如:将人物转为乐高风格或梵谷油画风)。
强大的排版能力:该模型在文字渲染(Text Rendering)上表现出色,能精准地在海
报或示意图中生成正确的字母与单词。
发布争议:尽管技术领先,但 Meta 因内部政策限制,仅释出了性能受限(Layers
较少)的基础检查点(Foundation Checkpoint),而非完整的模型权重。
9. AnyRecon (17:02)
核心功能:通用型 3D 重建
正如其名,AnyRecon 旨在实现「从任何来源进行重建」。
技术突破:它不挑剔输入源(无论是网路图片还是手机随手拍),都能在极短时间内
生成具有高几何精度的 3D 模型。
优势:对弱光环境与纹理缺失区域具有较强的补偿能力。
10. Merlin AI (19:19)
核心功能:全方位浏览器 AI 助手
Merlin 是一款整合了多种底层模型(如 GPT-4、Claude)的生产力工具。
功能涵盖:网页内容摘要、YouTube 影片重点提取、电子邮件代写以及即时搜寻。
定位:它将复杂的 AI 技术包装成易用的 UI,是目前最受欢迎的个人 AI 效率工具
之一。
(业配)
11. ARA (Agent-native Research Artifacts) [00:21:29]
核心概念:为 AI 时代打造的「原生科研工艺品」
传统论文(PDF)是给人读的,往往隐藏了失败的实验与细碎的参数。ARA 试图改变这一
点。
技术特点:它不仅包含论文结论,还结构化地封装了完整的代码、配置、实验路径(
包含失败的尝试)以及推理链条。
价值:透过「Live Research Manager」系统自动捕捉研究过程,解决了科研中的「
工程税(无法复现)」与「叙事税(只讲好听的故事)」,让 AI 代理能更高效地阅读与
续写科研工作。
12. KAI (Kinetics AI) [00:24:52]
核心功能:超拟人化具身机器人
KAI 是一款具备极高灵活性与感知能力的通用机器人。
硬体规格:全身上下拥有 115 个自由度(DoF),仅双手就有 36 个自由度,能执行
拉拉链、玩乒乓球等精细动作。
技术亮点:配备「全体触觉皮肤(Tactile Skin)」,机器人不仅能看到世界,还能
「感觉」到接触压力,这使其在处理易碎品(如橘子)或与人互动时更安全。
脑部架构:采用 KAI 世界模型(World Model),具备长序列任务规划与自我纠错能
力。
13. Robot Era Factory (L7 机器人) [00:26:33]
应用场景:全自动化物流分拣
展示了数十台 L7 人形机器人在物流中心协同作业的画面。
技术特点:利用嵌入式视觉与深度感知,机器人能精确识别传送带上的包裹并进行分
类。这预示着未来工厂将从「固定机械臂」转向「流动的人形机器人群」。
14. Neotix Head & TFBOT Ella [00:27:35]
核心功能:生化拟真机器人头部
这两款技术致力於解决「恐怖谷效应」,提供极致的人机互动体验。
Neotix:专注於微表情,能实现极其自然的眨眼、视线转动与说话口型
TFBOT Ella:明确定位为「伴侣型机器人(Girlfriend Robot)」,外型虽然极其自
然,但在眼神的灵动度上略逊於 Neotix。
15. SenseNova U1 (商汤日日新) [00:28:50]
核心功能:端到端统一多模态模型
这不是单纯的图像生成器,而是一个「全才」模型。
架构创新:采用 Neo Unifi 架构,舍弃了传统的分离式视觉编码器,直接将像素与
文字进行端到端连结。
技术优势:在处理海量文字的海报、长图、视觉逻辑谜题方面表现极其优异,能理解
复杂的视觉层次感
16. Nemotron 3 Nano Omni (NVIDIA) [00:32:14]
核心功能:高效多模态推理代理
NVIDIA 推出的 30B 混合专家模型(MoE),仅需 3B 活跃参数即可运行。
技术亮点:能同时输入影音、图片与文字,并在单一模型内完成推理。
效率:在影片推理能力上提升了 9 倍系统容量,非常适合部署在终端设备上作为即
时 AI 助理。
17. Claude Connectors [00:34:17]
核心功能:AI 接管专业软体介面
Anthropic 让 Claude 具备了直接操控第三方软体的能力。
运作机制:透过「Connector」,Claude 可以直接调用 Adobe Creative Cloud、
Blender 或 Canva 的 API [00:34:38]。
应用场景:你可以直接对 Claude 说「帮我在 Blender 里调整这个 3D 模型的灯光
」,它会自动生成代码并执行指令,将 AI 从「聊天视窗」释放到「生产力工具」中。
18. Moonlake [00:35:34]
核心功能:3D 世界构建代理 (3D World Building Agent)
与传统生成 3D 模型不同,Moonlake 是像「人类专家」一样在 Blender 里操作。
技术特点:它采用「闭环操作(Loop)」,会观察渲染结果、发现错误、进行修正,
直到完成复杂的 3D 场景。这解决了 AI 难以生成结构正确(如合页可动、物理对齐)模
型的问题
19. Talkie (1930s AI) [00:37:59]
核心实验:无污染的「复古」语言模型
这是一个极其有趣的学术项目,训练数据仅限於 1930 年以前的资料。
研究价值:因为该模型「从未见过」现代网路、电脑或 Python 代码,它是测试 AI
泛化能力的最佳对象。
惊人发现:即便从未见过代码,在给予少量范例後,该模型竟能理解 Python 函数的
基本概念 [00:39:47],证明了语言逻辑具备跨领域迁移的可能性。
20. Grok 4.3 & Mistral 3.5 [00:42:07]
主流模型迭代
Grok 4.3:xAI 的最新力作,强化了沙盒电脑操作与文件处理能力,虽然进步显着,
但在综合排名上仍略逊於 GPT-5.5 [00:42:50]。
Mistral Medium 3.5:欧洲 AI 巨头的 128B 大模型,主打 256K 超长上下文,但在
第三方独立评测中表现一般,性价比略低於 DeepSeek 等模型
--
Gemini整理
GPTimage2还没研究完 又多了几个生图AI了(Tuna-2,Z-Anime,SenseNova U1)
另外补充个听起来很强的语音生成/克隆 叫VoxCPM2
虽然不确定不用Tokenizer是啥意思但大概很猛
https://x.com/Honcia13/status/2050262221226463573
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.36.240.115 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/AI_Art/M.1777786371.A.97E.html
1F:推 Bustycat: Mistral AI在欧洲独一档,严格守法的欧企只能选他们的 05/03 14:45
2F:→ peterturtle: 不是没人作套娃 Agent 是套娃 Agent token 经费容易 05/03 16:32
3F:→ peterturtle: 爆掉 www 05/03 16:32
4F:推 rex7788: 这动画风格的危险,一下就会被版权盯上的 05/04 00:36
6F:→ error405: 动画+一张图生Anima Lora 05/04 09:16