作者error405 (流河=L)
看板AI_Art
标题[闲聊] 新Deepseek/GPT 做游戏Agent..本周AI新闻
时间Sun Apr 26 12:49:00 2026
https://www.youtube.com/watch?v=ZKfd9S9lOtc
00:48 | Multiworld:大规模多代理多视角影片世界模型
技术核心:由香港大学与 Sreal AI 合作开发。这是一个可扩展的世界模型,能
生成动作可控且多视角一致的影片。
关键机制:引入了 多代理条件模组 (MACM) 来精确控制多个个体,以及 全局状
态编码器 (GSE) 确保不同视角间的观测连贯性。
应用场景:适用於多人游戏模拟与多机器人协作任务,支援代理数量与视角的灵
活扩展。
02:46 | OpenGame:开放式游戏代理编程框架
技术核心:中大 MMLab 推出的首个开源代理框架,能将自然语言直接转化为可
运行的网页游戏。
模型驱动:搭载了专为游戏引擎设计的 GameCoder-27B 模型。
创新点:具备「游戏技能」进化机制,包含模板技能(积累项目骨架)与侦错技
能(建立验证修复协议),解决了传统 LLM 在生成复杂游戏时常见的跨文件不一致问题
。
04:25 | UniGenDet:图像生成与侦测的协同演化
技术核心:清华大学提出的统一框架,将「图像生成」与「伪造侦测」结合在一
个闭环中。
协同效应:利用生成知识来缩小侦测器的分布差距,同时透过侦测器的反馈来提
升生成图像的真实度。
解决痛点:有效缓解了侦测器开发总是落後於生成技术进步的「侦测滞後」问题
。
06:16 | Kimi K2.6:开源编码与代理群体技术
技术核心:月之暗面 (Moonshot AI) 的最新旗舰模型。主打长程执行能力(能
处理超过 1000 次工具调用)与 代理群体 (Agent Swarm)。
群体智慧:架构可水平扩展至 300 个子代理 同步执行,并能处理高达 4000 个
协调步骤。
实测表现:能自主完成极其复杂的任务,例如在 13 小时内优化八年前的金融撮
合引擎,程式码修改量达 4000 行。
09:35 | Open CoDesign:开源 AI 设计工具
定位:Claude Design 的开源替代方案,强调「自备模型 (BYO Model)」与「本
地优先」。
功能特色:提供 12 种内建设计技能模组(如仪表板、登陆页等),具备 AI 调
校滑杆(AI-tuned sliders),让使用者能直接调整参数而无需重复输入指令。
10:30 | Mimo v2.5:小米的最强 AI 代理模型
技术核心:显着提升了长程相干性(Long-horizon coherence)与软体工程能力
。
效率优势:在相同任务表现下,其 Token 消耗比 GPT-5.4 或 Claude 4.6 减少
了 40-60%。
案例证明:能自主在 4.3 小时内从零开始用 Rust 语言写出一个完整的 SysY
编译器。
12:55 | ML Intern:Hugging Face 的机器学习实习代理
技术核心:基於 smolagents 框架,旨在自动化 LLM 的後训练工作流。
自动化流程:能自动阅读 arXiv 论文、寻找数据集、编写代码并在本地或云端
GPU 上执行模型训练任务。
战绩:在科学推理基准测试 (GPQA) 中,表现优於 Anthropic 的 Claude Code
。
14:39 | 人形机器人超越人类马拉松纪录
技术突破:荣耀 (Honor) 开发的人形机器人「Lightning」在北京半程马拉松中
以 50 分 26 秒 夺冠,打破人类世界纪录。
硬体创新:采用液冷系统处理高速运动产生的热能,并模拟精英运动员的腿部长
度比例。
16:16 | Unitree 轮式人形机器人
技术突破:宇树科技展示了具备轮足切换能力的机器人,能执行 360 度旋转、
单腿旋转,甚至完成 前空翻 等高难度特技动作,显示出极强的平衡与动力控制能力。
18:14 | Higgsfield:电影级 AI 影片控制
技术核心:专为创作者设计的影片生成平台。提供「草图转影片」、「角色一键
替换」以及「虚拟语音唇形同步」等功能,赋予创作者精确控制摄影机运动与特效叠加的
能力。 (业配)
20:08 | GPT 5.5:OpenAI 的全自动化旗舰
最新动态:OpenAI 推出 GPT-5.5,分为「Thinking」与「Pro」版本。
核心强化:专注於端到端的复杂工作自动化,特别是在代理编码、电脑模拟操作
以及早期科学研究方面有显着提升,强调「多步规划与自我验证」能力。
20:42 | UniGeo:统一 3D 几何推理与生成框架
UniGeo 提出了一个将 2D 视觉感知与 3D 几何结构统一起来的创新模型。它不仅能理解
复杂的空间几何关系,还能根据几何约束生成精确的 3D 内容,显着提升了生成模型在空
间一致性与几何精度上的表现。
22:15 | EditCrafter:高保真图像编辑与内容迁移技术
EditCrafter 专注於提供极高精确度的图像编辑功能。它能够根据使用者提供的指令,对
图片中的局部细节进行无痕修改或风格迁移,同时确保图片整体的结构完整性与光影真实
感,是创作者进行高品质影像後制的强力工具。
23:40 | GPT Image 2:影像生成理解力再进化
此部分介绍了 GPT Image 2 在复杂构图理解上的突破。相较於前代,它在执行长文本指
令与处理细节特徵(如图像中的文字嵌入)方面有更强的逻辑性,让生成结果更符合使用
者的预期。
24:41 | LTX HDR:高动态范围视讯生成方案
LTX HDR 针对视讯生成的视觉品质进行了大幅优化。其核心技术在於生成具备高动态范围
(HDR)效果的影像,在光影过渡、色彩饱和度及暗部细节上展现出影视级别的质感。
25:43 | VisionBanana:前沿视觉辨识与多模态理解基准
VisionBanana 是一项专为提升图像辨识与理解能力而设计的技术(名称趣味地呼应了
NanoBanana)。它透过更精细的特徵提取算法,加强了模型对图像中复杂物件与背景关系
的辨别度,是目前衡量视觉语言模型(VLM)性能的重要技术指标。
28:41 | HY3:腾讯混元大语言模型最新进化版
HY3 是腾讯混元(Hunyuan)系列中新一代的大语言模型。此版本在逻辑推理、长文本理
解以及中文语境的处理能力上进行了全面优化,能提供更自然、更具深度的人机对话体验
,并支援更复杂的创意写作与专业分析任务。
30:53 | DeepSeek V4:深度求索模型全面升级
DeepSeek V4 正式发布,重点提升了逻辑推理、复杂代码编写及数学问题解决能力。作为
最新一代模型,它在多语言对话的自然度与知识储备的深度上皆有显着进步。
33:35 | CoInteract:人物与物品互动(电商销售)影片生成技术
CoInteract 专攻於生成极其自然的人物与物品互动影片。该技术特别适用於电商与销售
场景,能精确模拟人物展示商品、操作物品的动态过程,解决了以往生成影片中人物手部
动作与物体接触不自然的痛点。
35:01 | Qwen 3.6 27B:通义千问高效能平衡版
阿里巴巴 Qwen 3.6 系列中的 27B 参数模型。该版本在模型体积与运算效率间取得了绝
佳平衡,在多项第三方评测中,其逻辑处理能力展现出挑战更大型模型的实力。
36:42 | UniMesh:统一 3D 网格生成与重建技术
UniMesh 旨在简化 3D 建模流程,能从多样化的输入(如单张影像或点云资料)直接生成
高品质、具备拓扑结构的 3D 网格。这对於游戏开发与自动化工业建模具有极大的应用价
值。
--
Gemini整理
吹Deepseek的影片也看一些了 总觉得越做越强就更危险 像是学Mythos搞网攻什麽的
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 220.136.196.138 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/AI_Art/M.1777178942.A.6C9.html
※ 编辑: error405 (220.136.196.138 台湾), 04/26/2026 12:51:11
1F:推 gino0717: AI政变 04/26 13:06
2F:→ error405: Qwen image2.0出pro版了 但排到第九去 04/26 15:06
4F:→ error405: WAI-illustrious-SDXL 出v17版本了 04/26 15:10
6F:→ error405: Deepseek便宜归便宜但文长会崩 配套不足 04/26 19:39
7F:推 a159371153: 这边怎没人讨论anima? 理论上anima应该比ill强很多 04/27 01:43
9F:→ error405: wai牌Anima 04/27 09:59
11F:→ error405: deepseek又以为自己是claude了 04/27 20:40