AI_Art 板


LINE

https://www.youtube.com/watch?v=7r_WJ9xpne0
1. OmniShotCut (0:50) 核心功能:自动化全景影片剪辑 OmniShotCut 是一个针对 360 度全景影片设计的智能剪辑框架。传统全景影片需要人工 挑选视角,过程极其繁琐。 技术特点:它能自动识别全景画面中的感兴趣区域(Region of Interest),并根据 电影摄影原则自动产出流畅的透视影片(Perspective Video)。 应用场景:极限运动记录、虚拟旅游导览的快速後制。 2. HappyHorse (2:05) 核心功能:阿里巴巴旗下的顶级影片生成模型 这款由阿里巴巴推出的影片生成模型在发布之初便引起轰动,主要原因在於其数据指标与 实际感官的巨大落差。 数据神话:在 Artificial Analysis 的独立评测榜单中,HappyHorse 在「文字转影 片」与「图像转影片」两项指标均位列世界第一,分数甚至超越了传奇的 SeedDance 2.0 近 100 分。 实测翻车:尽管跑分极高,但在实际测试中,HappyHorse 的表现令人失望。它在处 理复杂的物理规律、长指令的顺序逻辑(如动作先後顺序)方面明显力不从心,画面流畅 度与一致性在侧评中皆逊於 SeedDance 2.0。 3. MoCapAnything V2 (5:27) 核心功能:万物皆可动捕(单目摄影机版) MoCapAnything 的第二代版本大幅提升了从普通 2D 影片中提取 3D 人体动作的精度。 技术优势:不需要专业的红外线感应器或穿戴设备,仅凭单一镜头拍摄的影片(如 YouTube 或抖音影片),即可将人物动作转换为 3D 骨架。 改进点:V2 优化了对复杂动作(如翻滚、遮挡)的处理能力,生成的动作数据更加 平滑。 4. Ling-2.6-Flash (7:23) 核心功能:高效能百亿级参数大型语言模型 (LLM) 由 Inclusion AI(阿里巴巴另一独立实验室)发布,这是一款兼具规模与推理速度的模 型,特别针对长文本处理进行了优化。 模型规模:该模型总参数高达 1,040 亿 (104B),但采用了混合专家架构(MoE), 在运算时仅有约 7.4B 参数处於活动状态,这使其具备大型模型的推理深度,同时保有极 快的反应速度。 技术优势:在 Agentic(智能代理)基准测试中表现优异,且在长上下文(Long Context)情况下的推理效率远超同类模型,非常适合处理繁琐的长篇文献或复杂的对话 任务。 5. Z-Anime (8:33) 核心功能:动漫风格专用生成模型 这是一个在 Hugging Face 上备受关注的特定领域微调模型。 技术特点:对动漫线条、上色风格与二次元构图有着极深的理解。 用途:能精准还原高品质的日系动画风格,是创作者进行角色设计或同人创作的强大 工具。 6. Recursive Multi-Agents (9:37) 核心功能:递回式多代理人系统 这是一种新型的 AI 协作架构,让 AI 代理(Agent)能够像「俄罗斯娃娃」一样递回地 解决问题。 运作机制:当一个主 Agent 遇到复杂任务时,它会自动生成子 Agent 来处理特定环 节,而子 Agent 还可以继续派生。 价值:这种架构极大地提升了 AI 处理长期、多步骤任务(如撰写完整软体专案)的 逻辑能力。 7. Vista4D (12:50) 核心功能:动态 4D 场景重建 Vista4D 专注於将稀疏视角的影片转换为可从任何角度观看的动态 4D 场景(3D + 时间 )。 技术手段:利用 Gaussian Splatting 或类似技术,即便摄像头捕捉到的资讯有限, 也能补全动态物体背後的细节。 应用:让观看者可以在一段动态影片中自由切换视角,彷佛身历其境。 8. Tuna-2 (15:47) 核心功能:Meta 推出的多模态图片生成与编辑模型 Tuna-2 是 Meta 最新的图像生成力作,其定位与 GPT Image 2 或 Nano Banana 类似, 是一款功能强大的多模态创作工具。 多模态生成:除了根据文字生成图像,它更擅长处理图片编辑任务。用户可以透过文 字指令对现有图片进行风格转换(例如:将人物转为乐高风格或梵谷油画风)。 强大的排版能力:该模型在文字渲染(Text Rendering)上表现出色,能精准地在海 报或示意图中生成正确的字母与单词。 发布争议:尽管技术领先,但 Meta 因内部政策限制,仅释出了性能受限(Layers 较少)的基础检查点(Foundation Checkpoint),而非完整的模型权重。 9. AnyRecon (17:02) 核心功能:通用型 3D 重建 正如其名,AnyRecon 旨在实现「从任何来源进行重建」。 技术突破:它不挑剔输入源(无论是网路图片还是手机随手拍),都能在极短时间内 生成具有高几何精度的 3D 模型。 优势:对弱光环境与纹理缺失区域具有较强的补偿能力。 10. Merlin AI (19:19) 核心功能:全方位浏览器 AI 助手 Merlin 是一款整合了多种底层模型(如 GPT-4、Claude)的生产力工具。 功能涵盖:网页内容摘要、YouTube 影片重点提取、电子邮件代写以及即时搜寻。 定位:它将复杂的 AI 技术包装成易用的 UI,是目前最受欢迎的个人 AI 效率工具 之一。 (业配) 11. ARA (Agent-native Research Artifacts) [00:21:29] 核心概念:为 AI 时代打造的「原生科研工艺品」 传统论文(PDF)是给人读的,往往隐藏了失败的实验与细碎的参数。ARA 试图改变这一 点。 技术特点:它不仅包含论文结论,还结构化地封装了完整的代码、配置、实验路径( 包含失败的尝试)以及推理链条。 价值:透过「Live Research Manager」系统自动捕捉研究过程,解决了科研中的「 工程税(无法复现)」与「叙事税(只讲好听的故事)」,让 AI 代理能更高效地阅读与 续写科研工作。 12. KAI (Kinetics AI) [00:24:52] 核心功能:超拟人化具身机器人 KAI 是一款具备极高灵活性与感知能力的通用机器人。 硬体规格:全身上下拥有 115 个自由度(DoF),仅双手就有 36 个自由度,能执行 拉拉链、玩乒乓球等精细动作。 技术亮点:配备「全体触觉皮肤(Tactile Skin)」,机器人不仅能看到世界,还能 「感觉」到接触压力,这使其在处理易碎品(如橘子)或与人互动时更安全。 脑部架构:采用 KAI 世界模型(World Model),具备长序列任务规划与自我纠错能 力。 13. Robot Era Factory (L7 机器人) [00:26:33] 应用场景:全自动化物流分拣 展示了数十台 L7 人形机器人在物流中心协同作业的画面。 技术特点:利用嵌入式视觉与深度感知,机器人能精确识别传送带上的包裹并进行分 类。这预示着未来工厂将从「固定机械臂」转向「流动的人形机器人群」。 14. Neotix Head & TFBOT Ella [00:27:35] 核心功能:生化拟真机器人头部 这两款技术致力於解决「恐怖谷效应」,提供极致的人机互动体验。 Neotix:专注於微表情,能实现极其自然的眨眼、视线转动与说话口型 TFBOT Ella:明确定位为「伴侣型机器人(Girlfriend Robot)」,外型虽然极其自 然,但在眼神的灵动度上略逊於 Neotix。 15. SenseNova U1 (商汤日日新) [00:28:50] 核心功能:端到端统一多模态模型 这不是单纯的图像生成器,而是一个「全才」模型。 架构创新:采用 Neo Unifi 架构,舍弃了传统的分离式视觉编码器,直接将像素与 文字进行端到端连结。 技术优势:在处理海量文字的海报、长图、视觉逻辑谜题方面表现极其优异,能理解 复杂的视觉层次感 16. Nemotron 3 Nano Omni (NVIDIA) [00:32:14] 核心功能:高效多模态推理代理 NVIDIA 推出的 30B 混合专家模型(MoE),仅需 3B 活跃参数即可运行。 技术亮点:能同时输入影音、图片与文字,并在单一模型内完成推理。 效率:在影片推理能力上提升了 9 倍系统容量,非常适合部署在终端设备上作为即 时 AI 助理。 17. Claude Connectors [00:34:17] 核心功能:AI 接管专业软体介面 Anthropic 让 Claude 具备了直接操控第三方软体的能力。 运作机制:透过「Connector」,Claude 可以直接调用 Adobe Creative Cloud、 Blender 或 Canva 的 API [00:34:38]。 应用场景:你可以直接对 Claude 说「帮我在 Blender 里调整这个 3D 模型的灯光 」,它会自动生成代码并执行指令,将 AI 从「聊天视窗」释放到「生产力工具」中。 18. Moonlake [00:35:34] 核心功能:3D 世界构建代理 (3D World Building Agent) 与传统生成 3D 模型不同,Moonlake 是像「人类专家」一样在 Blender 里操作。 技术特点:它采用「闭环操作(Loop)」,会观察渲染结果、发现错误、进行修正, 直到完成复杂的 3D 场景。这解决了 AI 难以生成结构正确(如合页可动、物理对齐)模 型的问题 19. Talkie (1930s AI) [00:37:59] 核心实验:无污染的「复古」语言模型 这是一个极其有趣的学术项目,训练数据仅限於 1930 年以前的资料。 研究价值:因为该模型「从未见过」现代网路、电脑或 Python 代码,它是测试 AI 泛化能力的最佳对象。 惊人发现:即便从未见过代码,在给予少量范例後,该模型竟能理解 Python 函数的 基本概念 [00:39:47],证明了语言逻辑具备跨领域迁移的可能性。 20. Grok 4.3 & Mistral 3.5 [00:42:07] 主流模型迭代 Grok 4.3:xAI 的最新力作,强化了沙盒电脑操作与文件处理能力,虽然进步显着, 但在综合排名上仍略逊於 GPT-5.5 [00:42:50]。 Mistral Medium 3.5:欧洲 AI 巨头的 128B 大模型,主打 256K 超长上下文,但在 第三方独立评测中表现一般,性价比略低於 DeepSeek 等模型 -- Gemini整理 GPTimage2还没研究完 又多了几个生图AI了(Tuna-2,Z-Anime,SenseNova U1) 另外补充个听起来很强的语音生成/克隆 叫VoxCPM2 虽然不确定不用Tokenizer是啥意思但大概很猛 https://x.com/Honcia13/status/2050262221226463573 --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.36.240.115 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/AI_Art/M.1777786371.A.97E.html
1F:推 Bustycat: Mistral AI在欧洲独一档,严格守法的欧企只能选他们的 05/03 14:45
2F:→ peterturtle: 不是没人作套娃 Agent 是套娃 Agent token 经费容易 05/03 16:32
3F:→ peterturtle: 爆掉 www 05/03 16:32
4F:推 rex7788: 这动画风格的危险,一下就会被版权盯上的 05/04 00:36
6F:→ error405: 动画+一张图生Anima Lora 05/04 09:16







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:iOS站内搜寻

TOP