作者error405 (流河=L)
看板AI_Art
标题[闲聊] Opus4.6 GPT5.3Codex ..本周AI新闻
时间Sun Feb 8 12:05:42 2026
https://www.youtube.com/watch?v=-D7o3E0eBf4
这部影片整理了当周多项重量级的 AI 技术与新闻,内容涵盖大型语言模型、影片生成、
机器人以及实用的工具。以下是根据资讯栏时间轴所做的简要重点整理:
核心语言模型与编码器
Claude Opus 4.6 (06:13):Anthropic 推出的最强模型,在知识工作、代理式搜寻
和视觉推理(Arc AGI 2)上表现极佳,在多个排行榜上名列前茅,但运行速度较慢且成
本最高。
GPT 5.3 Codex (09:34):OpenAI 专为编码设计的代理模型,具备「递归自我改进」
能力(开发团队用早期版本来辅助开发自身)。在编码基准测试中超越 Opus 4.6,能快
速生成游戏或 PowerPoint 简报。
StepFun 3.5 Flash (12:39):高效能的中型开源模型,在深度推理和科学研究上可
媲美顶级闭源模型,且生成速度极快。
Qwen3 Coder Next (24:20):阿里巴巴推出的开源编码代理,体积虽小(80B)但效
率极高,在处理复杂编码任务时表现稳定。
多模态与视觉处理
GLM OCR (01:17):强大的光学字元识别模型,能精准解析图像中的文字、表格、公
式甚至手写字迹,效能超越许多付费模型且可本地运行。
MiniCPM o4.5 (16:18):全能型(Omnimodal)模型,支援语音、影像、视讯输入。
它可以像真人一样进行语音对话,甚至模仿特定名人的声音(如 Elon Musk)。
PaperBanana (32:05):Google 研发的 AI,专为学术论文设计,能自动根据数据生
成精确且美观的图表与插图。
影片编辑与生成技术
Interactavatar (03:30):腾讯推出的技术,能让 AI 人物根据指令与物体互动(如
拿起桌上的耳机),而不仅仅是说话。
Context Forcing (30:27):显着提升影片生成的一致性,能产出比以往长 2 到 10
倍且背景、人物不变形的长影片。
Omnimatte Zero (35:51):能精准移除影片中的特定物体(包含倒影与阴影),或将
物体分离出来更换背景。
EditYourself (43:04):强大的影片编辑工具,能修改人物说话的内容,甚至移除口
吃,并自动调整对嘴(Lip-sync)使其看起来极为自然。
机器人与 3D 技术
SkinTokens (21:13):能自动为 3D 模型估算骨架(Rigging),让非人类角色(如
蛇、螃蟹)也能快速进行动画制作。
Husky 与 Unitree 冬季挑战 (27:59, 29:38):展示了 UniTree G1 机器人在极端环
境(-47°C)下的耐力,以及学会滑滑板并在不稳定表面保持平衡的能力。
3DiMo (38:00):不仅能将动作转移到新角色,还能同时控制相机视角(如缩放或环
绕拍摄)。
此外,影片中也提到了专门用於科学研究的 Intern S1 Pro (22:25),以及 ByteDance
推出的快速影片生成器 FSVideo (34:34)。这周的新闻显示 AI 正从单纯的文字处理,快
速扩展到更复杂的物理互动、精准影片编辑与专业科学领域。
--
Gemini3整理
居然没提到开源音乐的ace-step 1.5
https://www.youtube.com/watch?v=QzddQoCKKss
有demo可以玩
https://huggingface.co/spaces/ACE-Step/Ace-Step-v1.5
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.36.214.5 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/AI_Art/M.1770523544.A.0C3.html
1F:推 potatotato: ACE Step 1.5 用起来感觉比HeartMuLa 听话许多 02/08 14:18
3F:推 AoWsL: Claude Opus 4.6 听说是4.5六倍消耗..夭寿 02/08 14:42
5F:推 avans: 推介绍! 02/08 17:29