作者sam20135 (sam20135)

看板Stock

标题

[新闻] AI竞争愈烈 OpenAI测试新AI模型o3与o3 mi

时间Sat Dec 21 15:10:01 2024

https://news.cnyes.com/news/id/5815798 AI竞争愈烈 OpenAI测试新AI模型o3与o3 mini 钜亨网编译陈又嘉 OpenAI 周五 (20 日) 宣布，目前正在测试其最新的推理 AI 模型 o3 和 o3 mini。此举显示 AI 产业竞争日益激烈，包括 Google(GOOGL-US) 在内的竞争对手也致力於开发能处理复杂问题的更先进模型。 OpenAI 执行长 Sam Altman 表示，公司计划在 1 月底推出 o3 mini 模型，随後推出完整版本的 o3 模型。这些规模更大、更健全的语言模型预计将超越现有模型，有望吸引新的投资与用户。根据 OpenAI 一篇部落格文章，该公司於 9 月推出的 o1 模型已展示出解决科学、程式编码与数学等复杂任务的能力。即将推出的 o3 和 o3 mini 模型目前正在进行内部安全测试，其能力表现预计将远超过 o1 模型。为了让外部研究人员参与测试过程，OpenAI 启动了申请程序，开放有兴趣的人在公开发布前测试 o3 模型。这项申请程序将於 1 月 10 日截止。自 2022 年 11 月推出 ChatGPT 以来，OpenAI 已成为 AI 产业的关键企业，引发了一场可称为 AI 军备竞赛的浪潮。该公司凭藉日益增长的知名度及持续推出产品，已成功吸引了大量资金，在 10 月完成了 66 亿美元的融资。 OpenAI 在 AI 领域的主要竞争对手、Alphabet 旗下的 Google，则於 12 月初推出了其第二代 AI 模型 Gemini，盼藉此重返在 AI 科技竞赛中的领先地位。 ----------------------------------------------------------------------------- 1月底将推出 o3 mini，竞争越来越激烈了，又有突破性发展。 AGI「通用人工智能」(artificial general intelligence)，看来达到人类基本水平不远了。 https://today.line.me/hk/v2/article/BEWYRqj 这里有进一步数据解说 --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.42.212.34 (台湾) ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Stock/M.1734765005.A.31F.html

1^F：推 breathair : 人类剩几集？ 12/21 15:25

2^F：推 ohlong : 图表85%AGI觉得蛮胡兰的 12/21 15:26

3^F：推 k1k1832002 : 感觉2026就是新时代了 12/21 15:27

4^F：→ DAEVA : 一脸正经的胡说八道 12/21 15:30

5^F：推 bj45566 : 其实重点在於 Google 已经全面追上 OpenAI 了 12/21 15:42

6^F：推 bj45566 : 文字描述生成影片技术 Veo 2 > Sora 12/21 15:48

7^F：嘘 shinewind : 到底什麽时候才能搞好图表 12/21 15:50

8^F：→ shinewind : GPT分析图表都在鬼扯 12/21 15:50

9^F：推 sdbb : 呜呜，难怪昨天GG 挂190捡不到 12/21 16:07

10^F：推 SRNOB : 200美金一个月下次2000美金一个月赛博穷人用不起 12/21 16:16

11^F：推 bob1012 : 推传统科技业人才迟早会被人工智能的大浪淹没 12/21 16:28

12^F：→ lavign : google有人力财源和资料支持，奥特曼人才都跑了 12/21 16:30

13^F：推 mdkn35 : o@呢 12/21 17:06

14^F：→ mdkn35 : o2 12/21 17:06

15^F：推 y800122155 : 没救了 Google花不到一年时间就已经实现全面超越而 12/21 17:06

16^F：→ y800122155 : 且发展方向更广 12/21 17:06

17^F：推 strlen : 实际体感测试o1跟gemini 2.0 後者还是远远输啊 12/21 17:18

18^F：→ strlen : 不管是回应品质还是正确度都不行 Claude还比较好 12/21 17:18

19^F：推 Homeparty : GPT5.0呢 12/21 17:23

20^F：推 xkso : GG本益比还不到30真滴便宜 12/21 17:26

21^F：→ xkso : GOOG 12/21 17:26

22^F：推 aspwell520 : 难道没有人觉得AI连数学都会算错有点不聪明吗… 只 12/21 17:34

23^F：→ aspwell520 : 是内建计算机的事情而已 12/21 17:34

24^F：→ aspwell520 : 虽然这跟AI背後的演算法完全无关但很多日常AI应用 12/21 17:35

25^F：→ aspwell520 : 场景都需要精确的数学吧 12/21 17:35

26^F：推 newyorker54 : 很多人都不看O3展示就高谈阔论 12/21 17:40

27^F：→ newyorker54 : O3已经是博士级系统还没有开放，坐中间的工程师说下 12/21 17:43

28^F：→ newyorker54 : 一步就是做自我修改程式自我进化，奥图曼吓到立马说 12/21 17:43

29^F：→ newyorker54 : 不会那麽做 12/21 17:43

30^F：→ newyorker54 : 表示自我进化就是临门一脚，二十四小时自我评测自我 12/21 17:45

31^F：→ newyorker54 : 进化要怎麽输给人类 12/21 17:45

32^F：→ newyorker54 : 六月鸭子不知死活 12/21 17:46

33^F：→ newyorker54 : 坐中间的工程师奥数满分编码竞赛在人类记录2500多分 12/21 17:48

34^F：→ newyorker54 : ，这里一堆人在呛OpenAI?? 12/21 17:48

35^F：推 newyorker54 : 他说Illya3000分，天才啊 12/21 17:52

36^F：→ MoonCode : 楼上你在说啥= = 12/21 17:54

37^F：推 Heedictator : 看 sora 就知道这间公司不行了 12/21 18:00

38^F：推 tsubasawolfy: 他在说OPENAI那片的内容 O3的写程式分数已经赢中间 12/21 18:13

39^F：→ tsubasawolfy: 那位穿白衣介绍的只比首席工程师低一点 12/21 18:13

40^F：→ tsubasawolfy: 数学问题的话 O3目前美国数学奥林匹亚已经96.7% 因 12/21 18:15

41^F：→ tsubasawolfy: 为有一题不论怎样算都错。 12/21 18:16

42^F：→ tsubasawolfy: 传统数学满足不了就跑去算给数学家在玩得未发表数学 12/21 18:16

43^F：→ tsubasawolfy: 问题正确率25% 其他模型都只有妮趴 12/21 18:17

44^F：嘘 GodtoneIsGod: openAI命名越来越乱了 3.5 4 4o o1 o3 12/21 18:17

45^F：→ tsubasawolfy: AGI部分那测验是考推理能力虽然他是87.5%通过人类 12/21 18:18

46^F：→ tsubasawolfy: 85%的门槛不过那是开大招所有资源全上算16小时 12/21 18:18

47^F：→ tsubasawolfy: 不到两年时间可以用LLM+自我强化推到这程度 12/21 18:19

48^F：→ tsubasawolfy: 看更详细的解说有提到o3是o1自我强化来没有重新预 12/21 18:20

49^F：→ tsubasawolfy: 训练省去时间跟金钱 12/21 18:20

50^F：→ tsubasawolfy: 不过85%门槛大概是为了降低恐慌纽约大学找1400人测 12/21 18:29

51^F：→ tsubasawolfy: 通过率只有73-77% 12/21 18:29

52^F：推 bj45566 : 1. OpenAI o3 离真正的 AGI 还明显有一段距离 12/21 18:33

53^F：→ strlen : https://tinyurl.com/4zrzh8e8 真的耶昨天没注意到 12/21 18:34

54^F：→ strlen : 超人力霸王你怕惹吗？呵呵呵 12/21 18:34

55^F：推 newyorker54 : 谢谢楼上解说，专业的 12/21 18:35

56^F：推 bj45566 : 2. AIME 只是美国国内数学奥林匹克选拔赛的资格赛 12/21 18:35

57^F：→ newyorker54 : 我是说tsubasawolfy 12/21 18:36

58^F：→ newyorker54 : 应该是美国国内决赛吧？ 12/21 18:38

59^F：→ newyorker54 : 这片看来离AGI只有一步之遥，祂已经能自我评测，要 12/21 18:40

60^F：→ newyorker54 : 不要加入自我修改程式的能力只看奥图曼要不要了 12/21 18:40

61^F：推 bj45566 : "ARC-AGI 并不是AGI的试金石，它只是一种研究工具， 12/21 18:47

62^F：→ bj45566 : 旨在聚焦 AI 领域中最具挑战性的未解决问题。通过 A 12/21 18:47

63^F：→ bj45566 : RC-AGI，并不意味着实现 AGI。" 12/21 18:47

64^F：→ strlen : 老黄去年就说惹如果AGI指的是所有测验都打爆人类 12/21 18:57

65^F：→ strlen : 那就五年啊如果你要自己随便定义啥是AGI 那大概永 12/21 18:57

66^F：→ strlen : 远达不到话随便你讲罗 12/21 18:57

67^F：推 jo4 : 所以AGI定义是什麽 12/21 19:00

68^F：嘘 bj45566 : AGI 什麽时候是定义在标准测验打败人类，笑死 wwww 12/21 19:06

69^F：→ bj45566 : 连 Google scholar AGI 都不会，AI 第一个要淘汰的 12/21 19:14

70^F：→ bj45566 : 就是这种人 12/21 19:14

71^F：→ strlen : 我可没说AGI是测验都过是老黄说的事实上根本没 12/21 19:17

72^F：→ strlen : 人知道AGI定义是三洨所以就看某人胡说八道笑死 12/21 19:17

73^F：→ strlen : 没有定义没有测量方式还整天在那边说啊你这葛根本 12/21 19:19

74^F：→ strlen : 不是AGI 这跟性别认同是战斗直升机一样经典 12/21 19:19

75^F：→ strlen : 我还希望AI赶快淘汰我勒太慢了老黄何时再回300？ 12/21 19:21

76^F：→ strlen : 我成本就300啊嘻嘻 12/21 19:21

77^F：推 sdbb : 上上次拆股前的300，羡慕 12/21 19:21

78^F：嘘 bj45566 : 什麽资料都不会去查就信口开河说没有人知道什麽是 A 12/21 19:33

79^F：→ bj45566 : GI，笑死人有够好笑 wwww 12/21 19:33

80^F：→ mic73528 : google ai有人用喔?????gpt跟claude不就分完了 12/21 19:34

81^F：嘘 bj45566 : 如果照____的八奇逻辑这世界根本没有 AGI 的定义， 12/21 19:38

82^F：→ bj45566 : 那 OpenAI 刚问世时是不是就可以自称为 AGI？尽讲这 12/21 19:38

83^F：→ bj45566 : 种弱智至极无法自洽的话还拼命出来丢人现眼，笑死！ 12/21 19:38

84^F：→ strlen : https://i.imgur.com/cbcioVF.png 真的越说越可悲 12/21 19:40

85^F：→ strlen : 你找出OpenAI CEO哪一次说自己是AGI 找啊 12/21 19:40

86^F：→ strlen : 还在胡扯唉 12/21 19:40

87^F：→ bj45566 : 这世界上没有 AGI 的定义，但公布 OpenAI o3 却还是 12/21 19:42

88^F：→ bj45566 : 要公开拿来跑测 ARC-AGI？嘻嘻 12/21 19:42

89^F：→ strlen : 反正你也不认为那些狗屎测验是AGI啊所以我才说随便 12/21 19:43

90^F：→ strlen : 你讲啊嘻嘻你高兴就豪 12/21 19:43

91^F：→ bj45566 : 自成立以来，OpenAI 一直强调，他们的核心目标是打 12/21 19:45

92^F：→ bj45566 : 造一个能造福全人类的安全 AGI 12/21 19:45

93^F：→ bj45566 : OpenAI 的成立目的就是 AGI, 如果已经达到了，怎麽 12/21 19:47

94^F：→ bj45566 : 不敢向世人说 o3 就是 AGI 了？弱智 wwww 12/21 19:47

95^F：→ sdbb : Ai:韬光养晦 12/21 19:49

96^F：推 bj45566 : 讲一个最简单的，如果是 AGI, 考人类的数学测验只要 12/21 20:19

97^F：→ bj45566 : 让 o3 配个摄影镜头就直接能理解题目并写出、画出 12/21 20:19

98^F：→ bj45566 : 答案和附上推理过程 -- 结果 o3 还是要靠人类输入 12/21 20:19

99^F：→ bj45566 : 问题，然後碰到题目里有复杂图案的几何问题也没办法 12/21 20:19

100^F：→ bj45566 : 自己看懂，AGI 个鬼！ 12/21 20:19

101^F：推 newyorker54 : 看奥图曼的反应，明显可以做出他认定的AGI 但是不是 12/21 20:22

102^F：→ newyorker54 : 安全的AGI ，所以中间那个工程师说要接着做自我修正 12/21 20:22

103^F：→ newyorker54 : 程式码的AI奥图曼立刻完全没停顿说we may be not 12/21 20:22

104^F：→ newyorker54 : 我看你是不懂喔！祂不是看不懂图祂在思考问题的逻辑 12/21 20:24

105^F：推 tsubasawolfy: mac的GPT app现在有开放捕捉桌面了 WIN的还没开 12/21 20:24

106^F：→ tsubasawolfy: 手机的倒是可以试试看直接开镜头让他算 12/21 20:24

107^F：→ newyorker54 : 祂後来有解出来，你根本完全没有看就在这里呛。唉， 12/21 20:25

108^F：→ newyorker54 : 程度的差距 12/21 20:25

109^F：→ newyorker54 : 我直接截图给GPT算都能解答了，有差摄影机吗？ 12/21 20:26

110^F：→ newyorker54 : 呛人的是腿多久了，还停留在以前的印象 12/21 20:28

111^F：嘘 bj45566 : 哪里有直接开镜头不用任何人工辅助让 o3 解决复杂 12/21 20:30

112^F：→ bj45566 : 的几何问题的影片请丢出来让大家闻香好吗？ 12/21 20:30

113^F：推 newyorker54 : 你有付我钱吗？笑死 12/21 20:31

114^F：嘘 bj45566 : 还有，ChatGPT o3 通过率 25.2% 的 Frontier Math 12/21 20:33

115^F：→ bj45566 : 不是 open problems 好吗！那些是难度特别高但都已 12/21 20:33

116^F：→ bj45566 : 经被人类解决了的问题 12/21 20:33

117^F：→ yunf : 你自己去用看看弄出什麽东西 12/21 20:33

118^F：→ bj45566 : 拿不出来就找各种蹩脚藉口了，笑死 wwww 12/21 20:34

119^F：→ yunf : 炒股画梦很厉害一般人用不出来 12/21 20:34

120^F：→ bj45566 : 少在那边误导人以为 OpenAI o3 能够解决 open probl 12/21 20:36

121^F：→ bj45566 : ems 那样屌到天边 wwww 12/21 20:36

122^F：推 shawshien : AI产品那麽多我到底要付费订阅哪个帮我工作? 12/21 20:45

123^F：推 bj45566 : 在 OpenAI o3 发布的官方影片上出现的： 12/21 20:50

124^F：嘘 bj45566 : "we have early indications that ARC-AGI-2 will r 12/21 20:52

125^F：→ bj45566 : emain extremely challenging for (OpenAI) o3" 12/21 20:52

126^F：→ yunf : #1aeDGByS 12/21 20:55

127^F：→ yunf : 问题一堆搞钱很会 12/21 20:55

128^F：→ yunf : 之前就讲过我已经在他发展技术的终点等他了 12/21 20:57

129^F：推 tsubasawolfy: 当然要解决才能对答案呀这是比较级的跟其他模型 12/21 21:04

130^F：→ tsubasawolfy: 也是 GOOGLE跟META不知道有没有测 12/21 21:04

131^F：→ tsubasawolfy: ARC2那边没看到有相对人类的发表再等等吧 12/21 21:05

132^F：→ tsubasawolfy: 不过我觉得这东西还是跟使用GOOGLE一样看个人能力 12/21 21:06

133^F：推 bj45566 : 根据今年的战况，Google 很可能会在三个月左右後发 12/21 21:08

134^F：→ bj45566 : 表效能相等或更佳的产品 12/21 21:08

135^F：推 j3 : ai训练ai ai自动进化的奇点快到了 12/21 21:17

136^F：推 bj45566 : 是啊，对 Google 这工具的掌握度可以让两个人学习和 12/21 21:22

137^F：→ bj45566 : 工作能力相差十几倍甚至几十倍，加入 AI 後可能相差 12/21 21:22

138^F：→ bj45566 : 到百倍 12/21 21:22

139^F：推 ohlong : Google稳超车的 openAI大咖跑掉其实从最近动作就 12/21 21:41

140^F：→ ohlong : 看得出来密切在跟G合作 12/21 21:41

141^F：→ ohlong : 而且G光旗下像youtube背後长期分析的database 就注 12/21 21:44

142^F：→ ohlong : 定sora被屌打 12/21 21:44

143^F：→ yunf : https://tinyurl.com/2atpbtfl 你看ai後面谁在支持 12/21 21:48

144^F：→ yunf : 看金主爸爸最准 12/21 21:49

145^F：推 chaohsiung : O1 就已经看的懂图了。一堆没在用的以为ai还停留在g 12/21 21:50

146^F：→ chaohsiung : pt3.5的时代 12/21 21:50

147^F：推 bj45566 : 不要只会嘴，秀一段 o1 能看懂有深度的数学几何题 12/21 21:55

148^F：→ bj45566 : 目并解答的影片出来啊 12/21 21:55

149^F：嘘 bj45566 : 才刚看到一个在 Google 工作过的软体工程师拍影片 12/21 22:01

150^F：→ bj45566 : 让 OpenAI o1 解台湾指考题目时说 o1 没办法直接吃 12/21 22:01

151^F：→ bj45566 : 题目中的几何图形 12/21 22:01

152^F：嘘 bj45566 : 看来 PTT 键盘侠比 Google 软体工程师更懂怎麽运用 12/21 22:03

153^F：→ bj45566 : 生成式 AI，嘻嘻 12/21 22:03

154^F：嘘 bj45566 : 再强调一次，不能用手机或电脑镜头扫瞄数学试卷就 12/21 22:11

155^F：→ bj45566 : 给出解答的 AI 连 AGI 的最低门槛「整合感官与思考 12/21 22:11

156^F：→ bj45566 : 推理」都过不了关啦 12/21 22:11

157^F：→ bj45566 : 人类智慧最基本的功能就是在看一道数学试题时能正确 12/21 22:20

158^F：→ bj45566 : 分辨那些影像该被解读成文字说明、那些影像该被解 12/21 22:20

159^F：→ bj45566 : 读成符号数学式、那些影像该被解读成具有特定特徵(e 12/21 22:20

160^F：→ bj45566 : .g., 座标轴、平行线、椭圆,...)的几何图案 12/21 22:20

161^F：推 tsubasawolfy: 你说的是两个月前刚开放o1还没开放pro那时候吧 12/21 22:22

162^F：→ tsubasawolfy: 那时候还没开200美去输入图片 12/21 22:22

163^F：推 bj45566 : 不是输入图片，上面说了 AGI 的最低门槛是整合感官 12/21 22:31

164^F：→ bj45566 : 与思考推理 -- 就问有没有人能秀一段影片证实 OpenA 12/21 22:31

165^F：→ bj45566 : I 能用镜头扫瞄实体的数学试卷就直接算出解答？尤 12/21 22:31

166^F：→ bj45566 : 其是包含几何图案的数学问题 12/21 22:31

167^F：推 tsubasawolfy: 你说的指考那影片是当初还没开放影像输入功能的限制 12/21 22:32

168^F：→ bj45566 : 如果连这都办不到就不要吹什麽 AGI 12/21 22:32

169^F：→ tsubasawolfy: 我看到那影片下面三天前有人要他用PRO再测一次 12/21 22:32

170^F：→ bj45566 : 就请你拿出反驳的影片啊，那麽难吗？？？ 12/21 22:33

171^F：→ tsubasawolfy: 不过这边有人拿ARC的测试图喂o1 pro 12/21 22:33

172^F：→ tsubasawolfy: https://youtu.be/gwIlrlAourw 12/21 22:33

173^F：→ bj45566 : 而且我说的指考试题解答，连不含图片的题目本身都 12/21 22:34

174^F：→ bj45566 : 还要依靠人类手动输入给 o1 12/21 22:34

175^F：→ tsubasawolfy: 看起来那个ARC 30%(o1)都有点怀疑了 12/21 22:35

176^F：→ tsubasawolfy: 24:40那边他开始测试 12/21 22:36

177^F：→ tsubasawolfy: https://youtu.be/ln1zq-VpNhw 这应该是指考那片吧 12/21 22:36

178^F：→ tsubasawolfy: 没开放的功能当然没办法测 7:31那边有说 12/21 22:36

179^F：嘘 bj45566 : 你给的影片和我要求的基本人脑能力压根没关系 12/21 22:38

180^F：推 tsubasawolfy: 如果瞎子可以看数学考卷的图并算出来就叫神了 12/21 22:41

181^F：嘘 bj45566 : 你给的影片是做 ARC-1 level 的图形推理，根本不是 12/21 22:41

182^F：→ bj45566 : 扫瞄一个几何问题後给出解答 12/21 22:41

183^F：→ tsubasawolfy: ARC那个代表Pro开放图片输入了这样才可以达成你说 12/21 22:42

184^F：→ tsubasawolfy: 的看考卷的功能 12/21 22:42

185^F：→ bj45566 : 问题 AI 并不是瞎子，电脑视觉科技都发展多远了？！ 12/21 22:42

186^F：→ tsubasawolfy: 所以数学考卷那题看那个Roger会不会拿Pro玩吧 12/21 22:43

187^F：→ bj45566 : 再继续胡扯吧 =.= 12/21 22:43

188^F：嘘 bj45566 : 就说解答指考试题时就算是没有图案的题目都得靠人 12/21 22:45

189^F：→ bj45566 : 类输入题目内容 12/21 22:45

190^F：推 guanting886 : ㄟ…. 别花时间吵一个未来可以解决的事毫无意义 12/21 22:47

191^F：→ guanting886 : 白生气的反正科技巨头会自己解决 12/21 22:47

192^F：推 tsubasawolfy: 他当时就没开放影片或图像输入不靠人输入文字不然 12/21 22:47

193^F：→ tsubasawolfy: 要怎样输入? 12/21 22:48

194^F：→ guanting886 : 时间早晚而已 12/21 22:48

195^F：→ lavign : openAI在吃transformer架构的老本，deepMind一直在 12/21 22:48

196^F：→ lavign : 研究新架构 12/21 22:48

197^F：嘘 bj45566 : ARC 那边则是靠人类输入电脑能理解的几何结构，而 12/21 22:48

198^F：→ bj45566 : 不是只靠眼睛(镜头)扫描就能分辨出并特徵化题目中 12/21 22:48

199^F：→ bj45566 : 的几何图案 12/21 22:48

200^F：→ tsubasawolfy: ARC那一个他在直播内是直接贴图要答案只是第一次给 12/21 22:49

201^F：→ tsubasawolfy: 的答案不对所以他想说是不是要说明但第二次测试 12/21 22:50

202^F：→ tsubasawolfy: 没跑完就被斗内的新问题拉走了 12/21 22:50

203^F：嘘 bj45566 : 要说几遍？？？现在连 o3 都公布了，你就找出一段 O 12/21 22:50

204^F：→ bj45566 : penAI 光靠镜头扫瞄一道几何题目就能自动解答的影 12/21 22:50

205^F：→ bj45566 : 片啊！有那麽那麽难吗？？？ 12/21 22:50

206^F：嘘 bj45566 : 再稍微看一下你贴的 ARC-1 test -- 笑死！结果是 AI 12/21 23:03

207^F：→ bj45566 : 连超级简单的图案题目都答错 -- 而且甚至不懂得把( 12/21 23:03

208^F：→ bj45566 : 错误的)答案画在格子里！ 12/21 23:03

209^F：嘘 bj45566 : 那只证明了 o1 连「只有几何图案本身」的超级简单 12/21 23:07

210^F：→ bj45566 : 问题都无法回答，而且只能很粗略地理解几何图案， 12/21 23:07

211^F：→ bj45566 : 所以它完全无法把格子涂好 12/21 23:07

212^F：推 tsubasawolfy: https://youtu.be/hkTpMmkVAok 这大概是最接近的了 12/21 23:11

213^F：→ tsubasawolfy: 因为YT搜出来的o1 pro数学测试还真的复制贴上 12/21 23:11

214^F：→ tsubasawolfy: 这一个里面有把几何图形跟题目同时贴给o1 pro 但还 12/21 23:12

215^F：→ tsubasawolfy: 是答错他後面的数学题一样是用复制贴上 12/21 23:12

216^F：推 bj45566 : 这还是只把要处理的几何图案直接贴给 o1 Pro 的结果 12/21 23:13

217^F：→ bj45566 : ，如果几何图案是嵌在整个题目里而且 non-trivial， 12/21 23:13

218^F：→ bj45566 : 我完全无法想像 OpenAI 要怎麽把几何图案切割出来 12/21 23:13

219^F：→ bj45566 : 而且正确理解它的几何意义 12/21 23:13

220^F：→ tsubasawolfy: 不过分数还是在前1~2% 12/21 23:13

221^F：→ tsubasawolfy: 这看起来比较像影像辨识它们要去怎样精进了文字OK 12/21 23:14

222^F：→ tsubasawolfy: 但影像就拆不出来 12/21 23:14

223^F：→ tsubasawolfy: o1在Arc的测试在OPENAI提供的图是落在25-32%正确率 12/21 23:16

224^F：→ tsubasawolfy: 区间但从那个只贴图没有指示的结果看来有点怀疑 12/21 23:16

225^F：推 bj45566 : 所以 OpenAI 还是无法正确解答啊！而且原档是 pdf - 12/21 23:22

226^F：→ bj45566 : - 这让 OpenAI 跳过了分辨哪部分内容是文字/符号， 12/21 23:22

227^F：→ bj45566 : 哪部分内容是几乎图案的重大挑战耶 12/21 23:22

228^F：推 bj45566 : 这难度和直接请 AI 用镜头看题目并先能正确切割出 12/21 23:25

229^F：→ bj45566 : 文字叙述、符号数字、几何图案(并理解各种几何特徵) 12/21 23:25

230^F：→ bj45566 : 相差很远耶！ 12/21 23:25

231^F：推 tsubasawolfy: https://youtu.be/pb0mjgk1CtY 从1:29:20-1:34:00 12/21 23:52

232^F：→ tsubasawolfy: 他用手机镜头去辨识比较难的数学题看起来影像辨识 12/21 23:52

233^F：→ tsubasawolfy: 在拆特殊符号时候会认不到 12/21 23:53

234^F：→ JuiFu617 : 前面到底在争执agi的定义完全不需要，只要能提升人 12/21 23:56

235^F：→ JuiFu617 : 类能力上限就够了，人作为意识源，AI作为能力放大 12/21 23:56

236^F：→ JuiFu617 : 器。 12/21 23:56

237^F：→ fairyofmoon : 要被淘汰了吧都快2025还在生成一些玩具干什麽 12/22 00:06

238^F：推 bj45566 : 我在猜那些让 o3 解答的数学题目是不是都先改写成 L 12/22 00:10

239^F：→ bj45566 : aTeX 格式，包括题目里所有的图表和几何图案？因为 12/22 00:10

240^F：→ bj45566 : 这是现今生成式 AI 最方便理解的格式 12/22 00:10

241^F：推 bj45566 : 不过抛开某些____无谓又无聊的 AGI 执着，OpenAI o3 12/22 00:13

242^F：→ bj45566 : 在解答数学和程式编写上的进步让人印象很深刻 12/22 00:13

243^F：→ bj45566 : @tsubasawolfy：感谢你一直提供具参考价值的影片 12/22 00:14

244^F：推 bj45566 : 还好我过几年就打算退休了，生成式 AI 这两年进步得 12/22 00:16

245^F：→ bj45566 : 让人瞠目结舌 12/22 00:16

246^F：推 imba789 : 训练超级耗电 12/22 00:53

247^F：→ jcaosola : 全台湾现下只有3个id 能在codecforces 拿到 12/22 01:29

248^F：→ jcaosola : rating 2700, o3有2727金变态 12/22 01:29

249^F：→ yunf : #1c1h1UtD (Tech_Job) 12/22 01:51

250^F：推 seemoon2000 : 之前openai本来就没领先很多所以之前内斗才白痴啊 12/22 01:52

251^F：→ yunf : 他强的就是逻辑能力但是你叫他写东西出来就是没有 12/22 01:52

252^F：→ yunf : 好作品 12/22 01:52

253^F：→ yunf : 跟你说他们根本就是一个熔炉而已 12/22 01:53

254^F：→ seemoon2000 : 之前假道德担心自家可能开发出危险的AI 但却忘了 12/22 01:53

255^F：→ seemoon2000 : 自己并没有领先Meta和google多少这发展很正常 12/22 01:53

256^F：→ yunf : 因为台湾从来没看过这东西所以觉得很新奇 12/22 01:56

257^F：→ yunf : https://tinyurl.com/2xk7gnuc 12/22 01:58

258^F：→ yunf : 不知道你们有没有看过这个 12/22 01:58

259^F：→ yunf : 洋玩意 12/22 01:59

260^F：→ yunf : 後面代表的是西方的圣火 12/22 02:00

261^F：→ yunf : 每几百年就会来侵袭一次 12/22 02:01

262^F：→ yunf : https://tinyurl.com/2dnk2v7c 12/22 04:45

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

Stock 板

[新闻] AI竞争愈烈 OpenAI测试新AI模型o3与o3 mi

热门看板

赞助商连结