作者sam20135 (sam20135)

看板Stock

標題

[新聞] AI競爭愈烈 OpenAI測試新AI模型o3與o3 mi

時間Sat Dec 21 15:10:01 2024

https://news.cnyes.com/news/id/5815798 AI競爭愈烈 OpenAI測試新AI模型o3與o3 mini 鉅亨網編譯陳又嘉 OpenAI 周五 (20 日) 宣布，目前正在測試其最新的推理 AI 模型 o3 和 o3 mini。此舉顯示 AI 產業競爭日益激烈，包括 Google(GOOGL-US) 在內的競爭對手也致力於開發能處理複雜問題的更先進模型。 OpenAI 執行長 Sam Altman 表示，公司計劃在 1 月底推出 o3 mini 模型，隨後推出完整版本的 o3 模型。這些規模更大、更健全的語言模型預計將超越現有模型，有望吸引新的投資與用戶。根據 OpenAI 一篇部落格文章，該公司於 9 月推出的 o1 模型已展示出解決科學、程式編碼與數學等複雜任務的能力。即將推出的 o3 和 o3 mini 模型目前正在進行內部安全測試，其能力表現預計將遠超過 o1 模型。為了讓外部研究人員參與測試過程，OpenAI 啟動了申請程序，開放有興趣的人在公開發布前測試 o3 模型。這項申請程序將於 1 月 10 日截止。自 2022 年 11 月推出 ChatGPT 以來，OpenAI 已成為 AI 產業的關鍵企業，引發了一場可稱為 AI 軍備競賽的浪潮。該公司憑藉日益增長的知名度及持續推出產品，已成功吸引了大量資金，在 10 月完成了 66 億美元的融資。 OpenAI 在 AI 領域的主要競爭對手、Alphabet 旗下的 Google，則於 12 月初推出了其第二代 AI 模型 Gemini，盼藉此重返在 AI 科技競賽中的領先地位。 ----------------------------------------------------------------------------- 1月底將推出 o3 mini，競爭越來越激烈了，又有突破性發展。 AGI「通用人工智能」(artificial general intelligence)，看來達到人類基本水平不遠了。 https://today.line.me/hk/v2/article/BEWYRqj 這裡有進一步數據解說 --

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.42.212.34 (臺灣) ※ 文章網址: https://webptt.com/m.aspx?n=bbs/Stock/M.1734765005.A.31F.html

1^F：推 breathair : 人類剩幾集？ 12/21 15:25

2^F：推 ohlong : 圖表85%AGI覺得蠻胡蘭的 12/21 15:26

3^F：推 k1k1832002 : 感覺2026就是新時代了 12/21 15:27

4^F：→ DAEVA : 一臉正經的胡說八道 12/21 15:30

5^F：推 bj45566 : 其實重點在於 Google 已經全面追上 OpenAI 了 12/21 15:42

6^F：推 bj45566 : 文字描述生成影片技術 Veo 2 > Sora 12/21 15:48

7^F：噓 shinewind : 到底什麼時候才能搞好圖表 12/21 15:50

8^F：→ shinewind : GPT分析圖表都在鬼扯 12/21 15:50

9^F：推 sdbb : 嗚嗚，難怪昨天GG 掛190撿不到 12/21 16:07

10^F：推 SRNOB : 200美金一個月下次2000美金一個月賽博窮人用不起 12/21 16:16

11^F：推 bob1012 : 推傳統科技業人才遲早會被人工智能的大浪淹沒 12/21 16:28

12^F：→ lavign : google有人力財源和資料支持，奧特曼人才都跑了 12/21 16:30

13^F：推 mdkn35 : o@呢 12/21 17:06

14^F：→ mdkn35 : o2 12/21 17:06

15^F：推 y800122155 : 沒救了 Google花不到一年時間就已經實現全面超越而 12/21 17:06

16^F：→ y800122155 : 且發展方向更廣 12/21 17:06

17^F：推 strlen : 實際體感測試o1跟gemini 2.0 後者還是遠遠輸啊 12/21 17:18

18^F：→ strlen : 不管是回應品質還是正確度都不行 Claude還比較好 12/21 17:18

19^F：推 Homeparty : GPT5.0呢 12/21 17:23

20^F：推 xkso : GG本益比還不到30真滴便宜 12/21 17:26

21^F：→ xkso : GOOG 12/21 17:26

22^F：推 aspwell520 : 難道沒有人覺得AI連數學都會算錯有點不聰明嗎… 只 12/21 17:34

23^F：→ aspwell520 : 是內建計算機的事情而已 12/21 17:34

24^F：→ aspwell520 : 雖然這跟AI背後的演算法完全無關但很多日常AI應用 12/21 17:35

25^F：→ aspwell520 : 場景都需要精確的數學吧 12/21 17:35

26^F：推 newyorker54 : 很多人都不看O3展示就高談闊論 12/21 17:40

27^F：→ newyorker54 : O3已經是博士級系統還沒有開放，坐中間的工程師說下 12/21 17:43

28^F：→ newyorker54 : 一步就是做自我修改程式自我進化，奧圖曼嚇到立馬說 12/21 17:43

29^F：→ newyorker54 : 不會那麼做 12/21 17:43

30^F：→ newyorker54 : 表示自我進化就是臨門一腳，二十四小時自我評測自我 12/21 17:45

31^F：→ newyorker54 : 進化要怎麼輸給人類 12/21 17:45

32^F：→ newyorker54 : 六月鴨子不知死活 12/21 17:46

33^F：→ newyorker54 : 坐中間的工程師奧數滿分編碼競賽在人類記錄2500多分 12/21 17:48

34^F：→ newyorker54 : ，這裡一堆人在嗆OpenAI?? 12/21 17:48

35^F：推 newyorker54 : 他說Illya3000分，天才啊 12/21 17:52

36^F：→ MoonCode : 樓上你在說啥= = 12/21 17:54

37^F：推 Heedictator : 看 sora 就知道這間公司不行了 12/21 18:00

38^F：推 tsubasawolfy: 他在說OPENAI那片的內容 O3的寫程式分數已經贏中間 12/21 18:13

39^F：→ tsubasawolfy: 那位穿白衣介紹的只比首席工程師低一點 12/21 18:13

40^F：→ tsubasawolfy: 數學問題的話 O3目前美國數學奧林匹亞已經96.7% 因 12/21 18:15

41^F：→ tsubasawolfy: 為有一題不論怎樣算都錯。 12/21 18:16

42^F：→ tsubasawolfy: 傳統數學滿足不了就跑去算給數學家在玩得未發表數學 12/21 18:16

43^F：→ tsubasawolfy: 問題正確率25% 其他模型都只有妮趴 12/21 18:17

44^F：噓 GodtoneIsGod: openAI命名越來越亂了 3.5 4 4o o1 o3 12/21 18:17

45^F：→ tsubasawolfy: AGI部分那測驗是考推理能力雖然他是87.5%通過人類 12/21 18:18

46^F：→ tsubasawolfy: 85%的門檻不過那是開大招所有資源全上算16小時 12/21 18:18

47^F：→ tsubasawolfy: 不到兩年時間可以用LLM+自我強化推到這程度 12/21 18:19

48^F：→ tsubasawolfy: 看更詳細的解說有提到o3是o1自我強化來沒有重新預 12/21 18:20

49^F：→ tsubasawolfy: 訓練省去時間跟金錢 12/21 18:20

50^F：→ tsubasawolfy: 不過85%門檻大概是為了降低恐慌紐約大學找1400人測 12/21 18:29

51^F：→ tsubasawolfy: 通過率只有73-77% 12/21 18:29

52^F：推 bj45566 : 1. OpenAI o3 離真正的 AGI 還明顯有一段距離 12/21 18:33

53^F：→ strlen : https://tinyurl.com/4zrzh8e8 真的耶昨天沒注意到 12/21 18:34

54^F：→ strlen : 超人力霸王你怕惹嗎？呵呵呵 12/21 18:34

55^F：推 newyorker54 : 謝謝樓上解說，專業的 12/21 18:35

56^F：推 bj45566 : 2. AIME 只是美國國內數學奧林匹克選拔賽的資格賽 12/21 18:35

57^F：→ newyorker54 : 我是說tsubasawolfy 12/21 18:36

58^F：→ newyorker54 : 應該是美國國內決賽吧？ 12/21 18:38

59^F：→ newyorker54 : 這片看來離AGI只有一步之遙，祂已經能自我評測，要 12/21 18:40

60^F：→ newyorker54 : 不要加入自我修改程式的能力只看奧圖曼要不要了 12/21 18:40

61^F：推 bj45566 : "ARC-AGI 並不是AGI的試金石，它只是一種研究工具， 12/21 18:47

62^F：→ bj45566 : 旨在聚焦 AI 領域中最具挑戰性的未解決問題。通過 A 12/21 18:47

63^F：→ bj45566 : RC-AGI，並不意味著實現 AGI。" 12/21 18:47

64^F：→ strlen : 老黃去年就說惹如果AGI指的是所有測驗都打爆人類 12/21 18:57

65^F：→ strlen : 那就五年啊如果你要自己隨便定義啥是AGI 那大概永 12/21 18:57

66^F：→ strlen : 遠達不到話隨便你講囉 12/21 18:57

67^F：推 jo4 : 所以AGI定義是什麼 12/21 19:00

68^F：噓 bj45566 : AGI 什麼時候是定義在標準測驗打敗人類，笑死 wwww 12/21 19:06

69^F：→ bj45566 : 連 Google scholar AGI 都不會，AI 第一個要淘汰的 12/21 19:14

70^F：→ bj45566 : 就是這種人 12/21 19:14

71^F：→ strlen : 我可沒說AGI是測驗都過是老黃說的事實上根本沒 12/21 19:17

72^F：→ strlen : 人知道AGI定義是三洨所以就看某人胡說八道笑死 12/21 19:17

73^F：→ strlen : 沒有定義沒有測量方式還整天在那邊說啊你這葛根本 12/21 19:19

74^F：→ strlen : 不是AGI 這跟性別認同是戰鬥直升機一樣經典 12/21 19:19

75^F：→ strlen : 我還希望AI趕快淘汰我勒太慢了老黃何時再回300？ 12/21 19:21

76^F：→ strlen : 我成本就300啊嘻嘻 12/21 19:21

77^F：推 sdbb : 上上次拆股前的300，羨慕 12/21 19:21

78^F：噓 bj45566 : 什麼資料都不會去查就信口開河說沒有人知道什麼是 A 12/21 19:33

79^F：→ bj45566 : GI，笑死人有夠好笑 wwww 12/21 19:33

80^F：→ mic73528 : google ai有人用喔?????gpt跟claude不就分完了 12/21 19:34

81^F：噓 bj45566 : 如果照____的八奇邏輯這世界根本沒有 AGI 的定義， 12/21 19:38

82^F：→ bj45566 : 那 OpenAI 剛問世時是不是就可以自稱為 AGI？盡講這 12/21 19:38

83^F：→ bj45566 : 種弱智至極無法自洽的話還拼命出來丟人現眼，笑死！ 12/21 19:38

84^F：→ strlen : https://i.imgur.com/cbcioVF.png 真的越說越可悲 12/21 19:40

85^F：→ strlen : 你找出OpenAI CEO哪一次說自己是AGI 找啊 12/21 19:40

86^F：→ strlen : 還在胡扯唉 12/21 19:40

87^F：→ bj45566 : 這世界上沒有 AGI 的定義，但公佈 OpenAI o3 卻還是 12/21 19:42

88^F：→ bj45566 : 要公開拿來跑測 ARC-AGI？嘻嘻 12/21 19:42

89^F：→ strlen : 反正你也不認為那些狗屎測驗是AGI啊所以我才說隨便 12/21 19:43

90^F：→ strlen : 你講啊嘻嘻你高興就豪 12/21 19:43

91^F：→ bj45566 : 自成立以來，OpenAI 一直強調，他們的核心目標是打 12/21 19:45

92^F：→ bj45566 : 造一個能造福全人類的安全 AGI 12/21 19:45

93^F：→ bj45566 : OpenAI 的成立目的就是 AGI, 如果已經達到了，怎麼 12/21 19:47

94^F：→ bj45566 : 不敢向世人說 o3 就是 AGI 了？弱智 wwww 12/21 19:47

95^F：→ sdbb : Ai:韜光養晦 12/21 19:49

96^F：推 bj45566 : 講一個最簡單的，如果是 AGI, 考人類的數學測驗只要 12/21 20:19

97^F：→ bj45566 : 讓 o3 配個攝影鏡頭就直接能理解題目並寫出、畫出 12/21 20:19

98^F：→ bj45566 : 答案和附上推理過程 -- 結果 o3 還是要靠人類輸入 12/21 20:19

99^F：→ bj45566 : 問題，然後碰到題目裏有複雜圖案的幾何問題也沒辦法 12/21 20:19

100^F：→ bj45566 : 自己看懂，AGI 個鬼！ 12/21 20:19

101^F：推 newyorker54 : 看奧圖曼的反應，明顯可以做出他認定的AGI 但是不是 12/21 20:22

102^F：→ newyorker54 : 安全的AGI ，所以中間那個工程師說要接著做自我修正 12/21 20:22

103^F：→ newyorker54 : 程式碼的AI奧圖曼立刻完全沒停頓說we may be not 12/21 20:22

104^F：→ newyorker54 : 我看你是不懂喔！祂不是看不懂圖祂在思考問題的邏輯 12/21 20:24

105^F：推 tsubasawolfy: mac的GPT app現在有開放捕捉桌面了 WIN的還沒開 12/21 20:24

106^F：→ tsubasawolfy: 手機的倒是可以試試看直接開鏡頭讓他算 12/21 20:24

107^F：→ newyorker54 : 祂後來有解出來，你根本完全沒有看就在這裡嗆。唉， 12/21 20:25

108^F：→ newyorker54 : 程度的差距 12/21 20:25

109^F：→ newyorker54 : 我直接截圖給GPT算都能解答了，有差攝影機嗎？ 12/21 20:26

110^F：→ newyorker54 : 嗆人的是腿多久了，還停留在以前的印象 12/21 20:28

111^F：噓 bj45566 : 哪裏有直接開鏡頭不用任何人工輔助讓 o3 解決複雜 12/21 20:30

112^F：→ bj45566 : 的幾何問題的影片請丟出來讓大家聞香好嗎？ 12/21 20:30

113^F：推 newyorker54 : 你有付我錢嗎？笑死 12/21 20:31

114^F：噓 bj45566 : 還有，ChatGPT o3 通過率 25.2% 的 Frontier Math 12/21 20:33

115^F：→ bj45566 : 不是 open problems 好嗎！那些是難度特別高但都已 12/21 20:33

116^F：→ bj45566 : 經被人類解決了的問題 12/21 20:33

117^F：→ yunf : 你自己去用看看弄出什麼東西 12/21 20:33

118^F：→ bj45566 : 拿不出來就找各種蹩腳藉口了，笑死 wwww 12/21 20:34

119^F：→ yunf : 炒股畫夢很厲害一般人用不出來 12/21 20:34

120^F：→ bj45566 : 少在那邊誤導人以為 OpenAI o3 能夠解決 open probl 12/21 20:36

121^F：→ bj45566 : ems 那樣屌到天邊 wwww 12/21 20:36

122^F：推 shawshien : AI產品那麼多我到底要付費訂閱哪個幫我工作? 12/21 20:45

123^F：推 bj45566 : 在 OpenAI o3 發佈的官方影片上出現的： 12/21 20:50

124^F：噓 bj45566 : "we have early indications that ARC-AGI-2 will r 12/21 20:52

125^F：→ bj45566 : emain extremely challenging for (OpenAI) o3" 12/21 20:52

126^F：→ yunf : #1aeDGByS 12/21 20:55

127^F：→ yunf : 問題一堆搞錢很會 12/21 20:55

128^F：→ yunf : 之前就講過我已經在他發展技術的終點等他了 12/21 20:57

129^F：推 tsubasawolfy: 當然要解決才能對答案呀這是比較級的跟其他模型 12/21 21:04

130^F：→ tsubasawolfy: 也是 GOOGLE跟META不知道有沒有測 12/21 21:04

131^F：→ tsubasawolfy: ARC2那邊沒看到有相對人類的發表再等等吧 12/21 21:05

132^F：→ tsubasawolfy: 不過我覺得這東西還是跟使用GOOGLE一樣看個人能力 12/21 21:06

133^F：推 bj45566 : 根據今年的戰況，Google 很可能會在三個月左右後發 12/21 21:08

134^F：→ bj45566 : 表效能相等或更佳的產品 12/21 21:08

135^F：推 j3 : ai訓練ai ai自動進化的奇點快到了 12/21 21:17

136^F：推 bj45566 : 是啊，對 Google 這工具的掌握度可以讓兩個人學習和 12/21 21:22

137^F：→ bj45566 : 工作能力相差十幾倍甚至幾十倍，加入 AI 後可能相差 12/21 21:22

138^F：→ bj45566 : 到百倍 12/21 21:22

139^F：推 ohlong : Google穩超車的 openAI大咖跑掉其實從最近動作就 12/21 21:41

140^F：→ ohlong : 看得出來密切在跟G合作 12/21 21:41

141^F：→ ohlong : 而且G光旗下像youtube背後長期分析的database 就註 12/21 21:44

142^F：→ ohlong : 定sora被屌打 12/21 21:44

143^F：→ yunf : https://tinyurl.com/2atpbtfl 你看ai後面誰在支持 12/21 21:48

144^F：→ yunf : 看金主爸爸最準 12/21 21:49

145^F：推 chaohsiung : O1 就已經看的懂圖了。一堆沒在用的以為ai還停留在g 12/21 21:50

146^F：→ chaohsiung : pt3.5的時代 12/21 21:50

147^F：推 bj45566 : 不要只會嘴，秀一段 o1 能看懂有深度的數學幾何題 12/21 21:55

148^F：→ bj45566 : 目並解答的影片出來啊 12/21 21:55

149^F：噓 bj45566 : 才剛看到一個在 Google 工作過的軟體工程師拍影片 12/21 22:01

150^F：→ bj45566 : 讓 OpenAI o1 解台灣指考題目時說 o1 沒辦法直接吃 12/21 22:01

151^F：→ bj45566 : 題目中的幾何圖形 12/21 22:01

152^F：噓 bj45566 : 看來 PTT 鍵盤俠比 Google 軟體工程師更懂怎麼運用 12/21 22:03

153^F：→ bj45566 : 生成式 AI，嘻嘻 12/21 22:03

154^F：噓 bj45566 : 再強調一次，不能用手機或電腦鏡頭掃瞄數學試卷就 12/21 22:11

155^F：→ bj45566 : 給出解答的 AI 連 AGI 的最低門檻「整合感官與思考 12/21 22:11

156^F：→ bj45566 : 推理」都過不了關啦 12/21 22:11

157^F：→ bj45566 : 人類智慧最基本的功能就是在看一道數學試題時能正確 12/21 22:20

158^F：→ bj45566 : 分辨那些影像該被解讀成文字說明、那些影像該被解 12/21 22:20

159^F：→ bj45566 : 讀成符號數學式、那些影像該被解讀成具有特定特徵(e 12/21 22:20

160^F：→ bj45566 : .g., 座標軸、平行線、橢圓,...)的幾何圖案 12/21 22:20

161^F：推 tsubasawolfy: 你說的是兩個月前剛開放o1還沒開放pro那時候吧 12/21 22:22

162^F：→ tsubasawolfy: 那時候還沒開200美去輸入圖片 12/21 22:22

163^F：推 bj45566 : 不是輸入圖片，上面說了 AGI 的最低門檻是整合感官 12/21 22:31

164^F：→ bj45566 : 與思考推理 -- 就問有沒有人能秀一段影片證實 OpenA 12/21 22:31

165^F：→ bj45566 : I 能用鏡頭掃瞄實體的數學試卷就直接算出解答？尤 12/21 22:31

166^F：→ bj45566 : 其是包含幾何圖案的數學問題 12/21 22:31

167^F：推 tsubasawolfy: 你說的指考那影片是當初還沒開放影像輸入功能的限制 12/21 22:32

168^F：→ bj45566 : 如果連這都辦不到就不要吹什麼 AGI 12/21 22:32

169^F：→ tsubasawolfy: 我看到那影片下面三天前有人要他用PRO再測一次 12/21 22:32

170^F：→ bj45566 : 就請你拿出反駁的影片啊，那麼難嗎？？？ 12/21 22:33

171^F：→ tsubasawolfy: 不過這邊有人拿ARC的測試圖餵o1 pro 12/21 22:33

172^F：→ tsubasawolfy: https://youtu.be/gwIlrlAourw 12/21 22:33

173^F：→ bj45566 : 而且我說的指考試題解答，連不含圖片的題目本身都 12/21 22:34

174^F：→ bj45566 : 還要依靠人類手動輸入給 o1 12/21 22:34

175^F：→ tsubasawolfy: 看起來那個ARC 30%(o1)都有點懷疑了 12/21 22:35

176^F：→ tsubasawolfy: 24:40那邊他開始測試 12/21 22:36

177^F：→ tsubasawolfy: https://youtu.be/ln1zq-VpNhw 這應該是指考那片吧 12/21 22:36

178^F：→ tsubasawolfy: 沒開放的功能當然沒辦法測 7:31那邊有說 12/21 22:36

179^F：噓 bj45566 : 你給的影片和我要求的基本人腦能力壓根沒關係 12/21 22:38

180^F：推 tsubasawolfy: 如果瞎子可以看數學考卷的圖並算出來就叫神了 12/21 22:41

181^F：噓 bj45566 : 你給的影片是做 ARC-1 level 的圖形推理，根本不是 12/21 22:41

182^F：→ bj45566 : 掃瞄一個幾何問題後給出解答 12/21 22:41

183^F：→ tsubasawolfy: ARC那個代表Pro開放圖片輸入了這樣才可以達成你說 12/21 22:42

184^F：→ tsubasawolfy: 的看考卷的功能 12/21 22:42

185^F：→ bj45566 : 問題 AI 並不是瞎子，電腦視覺科技都發展多遠了？！ 12/21 22:42

186^F：→ tsubasawolfy: 所以數學考卷那題看那個Roger會不會拿Pro玩吧 12/21 22:43

187^F：→ bj45566 : 再繼續胡扯吧 =.= 12/21 22:43

188^F：噓 bj45566 : 就說解答指考試題時就算是沒有圖案的題目都得靠人 12/21 22:45

189^F：→ bj45566 : 類輸入題目內容 12/21 22:45

190^F：推 guanting886 : ㄟ…. 別花時間吵一個未來可以解決的事毫無意義 12/21 22:47

191^F：→ guanting886 : 白生氣的反正科技巨頭會自己解決 12/21 22:47

192^F：推 tsubasawolfy: 他當時就沒開放影片或圖像輸入不靠人輸入文字不然 12/21 22:47

193^F：→ tsubasawolfy: 要怎樣輸入? 12/21 22:48

194^F：→ guanting886 : 時間早晚而已 12/21 22:48

195^F：→ lavign : openAI在吃transformer架構的老本，deepMind一直在 12/21 22:48

196^F：→ lavign : 研究新架構 12/21 22:48

197^F：噓 bj45566 : ARC 那邊則是靠人類輸入電腦能理解的幾何結構，而 12/21 22:48

198^F：→ bj45566 : 不是只靠眼睛(鏡頭)掃描就能分辨出並特徵化題目中 12/21 22:48

199^F：→ bj45566 : 的幾何圖案 12/21 22:48

200^F：→ tsubasawolfy: ARC那一個他在直播內是直接貼圖要答案只是第一次給 12/21 22:49

201^F：→ tsubasawolfy: 的答案不對所以他想說是不是要說明但第二次測試 12/21 22:50

202^F：→ tsubasawolfy: 沒跑完就被斗內的新問題拉走了 12/21 22:50

203^F：噓 bj45566 : 要說幾遍？？？現在連 o3 都公佈了，你就找出一段 O 12/21 22:50

204^F：→ bj45566 : penAI 光靠鏡頭掃瞄一道幾何題目就能自動解答的影 12/21 22:50

205^F：→ bj45566 : 片啊！有那麼那麼難嗎？？？ 12/21 22:50

206^F：噓 bj45566 : 再稍微看一下你貼的 ARC-1 test -- 笑死！結果是 AI 12/21 23:03

207^F：→ bj45566 : 連超級簡單的圖案題目都答錯 -- 而且甚至不懂得把( 12/21 23:03

208^F：→ bj45566 : 錯誤的)答案畫在格子裏！ 12/21 23:03

209^F：噓 bj45566 : 那只證明了 o1 連「只有幾何圖案本身」的超級簡單 12/21 23:07

210^F：→ bj45566 : 問題都無法回答，而且只能很粗略地理解幾何圖案， 12/21 23:07

211^F：→ bj45566 : 所以它完全無法把格子塗好 12/21 23:07

212^F：推 tsubasawolfy: https://youtu.be/hkTpMmkVAok 這大概是最接近的了 12/21 23:11

213^F：→ tsubasawolfy: 因為YT搜出來的o1 pro數學測試還真的複製貼上 12/21 23:11

214^F：→ tsubasawolfy: 這一個裡面有把幾何圖形跟題目同時貼給o1 pro 但還 12/21 23:12

215^F：→ tsubasawolfy: 是答錯他後面的數學題一樣是用複製貼上 12/21 23:12

216^F：推 bj45566 : 這還是只把要處理的幾何圖案直接貼給 o1 Pro 的結果 12/21 23:13

217^F：→ bj45566 : ，如果幾何圖案是嵌在整個題目裏而且 non-trivial， 12/21 23:13

218^F：→ bj45566 : 我完全無法想像 OpenAI 要怎麼把幾何圖案切割出來 12/21 23:13

219^F：→ bj45566 : 而且正確理解它的幾何意義 12/21 23:13

220^F：→ tsubasawolfy: 不過分數還是在前1~2% 12/21 23:13

221^F：→ tsubasawolfy: 這看起來比較像影像辨識它們要去怎樣精進了文字OK 12/21 23:14

222^F：→ tsubasawolfy: 但影像就拆不出來 12/21 23:14

223^F：→ tsubasawolfy: o1在Arc的測試在OPENAI提供的圖是落在25-32%正確率 12/21 23:16

224^F：→ tsubasawolfy: 區間但從那個只貼圖沒有指示的結果看來有點懷疑 12/21 23:16

225^F：推 bj45566 : 所以 OpenAI 還是無法正確解答啊！而且原檔是 pdf - 12/21 23:22

226^F：→ bj45566 : - 這讓 OpenAI 跳過了分辨哪部分內容是文字/符號， 12/21 23:22

227^F：→ bj45566 : 哪部分內容是幾乎圖案的重大挑戰耶 12/21 23:22

228^F：推 bj45566 : 這難度和直接請 AI 用鏡頭看題目並先能正確切割出 12/21 23:25

229^F：→ bj45566 : 文字敘述、符號數字、幾何圖案(並理解各種幾何特徵) 12/21 23:25

230^F：→ bj45566 : 相差很遠耶！ 12/21 23:25

231^F：推 tsubasawolfy: https://youtu.be/pb0mjgk1CtY 從1:29:20-1:34:00 12/21 23:52

232^F：→ tsubasawolfy: 他用手機鏡頭去辨識比較難的數學題看起來影像辨識 12/21 23:52

233^F：→ tsubasawolfy: 在拆特殊符號時候會認不到 12/21 23:53

234^F：→ JuiFu617 : 前面到底在爭執agi的定義完全不需要，只要能提升人 12/21 23:56

235^F：→ JuiFu617 : 類能力上限就夠了，人作為意識源，AI作為能力放大 12/21 23:56

236^F：→ JuiFu617 : 器。 12/21 23:56

237^F：→ fairyofmoon : 要被淘汰了吧都快2025還在生成一些玩具幹什麼 12/22 00:06

238^F：推 bj45566 : 我在猜那些讓 o3 解答的數學題目是不是都先改寫成 L 12/22 00:10

239^F：→ bj45566 : aTeX 格式，包括題目裏所有的圖表和幾何圖案？因為 12/22 00:10

240^F：→ bj45566 : 這是現今生成式 AI 最方便理解的格式 12/22 00:10

241^F：推 bj45566 : 不過拋開某些____無謂又無聊的 AGI 執著，OpenAI o3 12/22 00:13

242^F：→ bj45566 : 在解答數學和程式編寫上的進步讓人印象很深刻 12/22 00:13

243^F：→ bj45566 : @tsubasawolfy：感謝你一直提供具參考價值的影片 12/22 00:14

244^F：推 bj45566 : 還好我過幾年就打算退休了，生成式 AI 這兩年進步得 12/22 00:16

245^F：→ bj45566 : 讓人瞠目結舌 12/22 00:16

246^F：推 imba789 : 訓練超級耗電 12/22 00:53

247^F：→ jcaosola : 全台灣現下只有3個id 能在codecforces 拿到 12/22 01:29

248^F：→ jcaosola : rating 2700, o3有2727金變態 12/22 01:29

249^F：→ yunf : #1c1h1UtD (Tech_Job) 12/22 01:51

250^F：推 seemoon2000 : 之前openai本來就沒領先很多所以之前內鬥才白癡啊 12/22 01:52

251^F：→ yunf : 他強的就是邏輯能力但是你叫他寫東西出來就是沒有 12/22 01:52

252^F：→ yunf : 好作品 12/22 01:52

253^F：→ yunf : 跟你說他們根本就是一個熔爐而已 12/22 01:53

254^F：→ seemoon2000 : 之前假道德擔心自家可能開發出危險的AI 但卻忘了 12/22 01:53

255^F：→ seemoon2000 : 自己並沒有領先Meta和google多少這發展很正常 12/22 01:53

256^F：→ yunf : 因為台灣從來沒看過這東西所以覺得很新奇 12/22 01:56

257^F：→ yunf : https://tinyurl.com/2xk7gnuc 12/22 01:58

258^F：→ yunf : 不知道你們有沒有看過這個 12/22 01:58

259^F：→ yunf : 洋玩意 12/22 01:59

260^F：→ yunf : 後面代表的是西方的聖火 12/22 02:00

261^F：→ yunf : 每幾百年就會來侵襲一次 12/22 02:01

262^F：→ yunf : https://tinyurl.com/2dnk2v7c 12/22 04:45

	[問題/行為] 貓晚上進房間會不會有憋尿問題
	Re: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一張
	[心得] EMS高領長版毛衣.墨小樓MC1002
	[分享] 丹龍隔熱紙GE55+33+22
	[問題] 清洗洗衣機
	[尋物] 窗台下的空間
	[閒聊] 双極の女神1 木魔爵
	[售車] 新竹 1997 march 1297cc 白色四門
	[討論] 能從照片感受到攝影者心情嗎
	[狂賀] 賀賀賀賀賀！島村卯月！總選舉NO.1
	[難過] 羨慕白皮膚的女生
	閱讀文章
	[黑特]
	[問題] SBK S1安裝於安全帽位置
	[分享] 舊woo100絕版開箱!!
	Re: [無言] 關於小包衛生紙
	[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
	[心得] 蒼の海賊龍地獄執行者16PT
	[售車] 1999年Virage iO 1.8EXi
	[心得] 挑戰33 LV10 獅子座pt solo
	[閒聊] 手把手教你不被桶之新手主購教學
	[分享] Civic Type R 量產版官方照無預警流出
	[售車] Golf 4 2.0 銀色自排
	[出售] Graco提籃汽座（有底座）2000元誠可議
	[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
	[問題] 44th 單曲生寫竟然都給重複的啊啊！
	[心得] 華南紅卡/icash 核卡
	[問題] 拔牙矯正這樣正常嗎
	[贈送] 老莫高業初業 102年版
	[情報] 三大行動支付本季掀戰火
	[寶寶] 博客來Amos水蠟筆5/1特價五折
	Re: [心得] 新鮮人一些面試分享
	[心得] 蒼の海賊龍地獄麒麟25PT
	Re: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
	Re: [閒聊] OGN中場影片：失蹤人口局 (英文字幕)
	[問題] 台灣大哥大4G訊號差
	[出售] [全國]全新千尋侘草LED燈, 水草

WEB批踢踢(PTT)

Stock 板

[新聞] AI競爭愈烈 OpenAI測試新AI模型o3與o3 mi

熱門看板

贊助商連結