新浪新闻

OpenAI o3 详解:并非 AGI,比 o1 贵 1000倍(另附内测申请)

新浪AI

关注

今日发布

o3

o3 - 更强的 o1

按计算量:1000 倍的成本

(o3-high 对比 o1-high)

根据 ARC-AGI 测试标准

单任务成本,大概 3500 美金

问一句「9.09 和 9.11 谁更大」

2万人民币就没了

模型的代号为 α

也可以叫他猎户座

模型尚未开放

可在这里申请内测

https://openai.com/index/early-access-for-safety-testing/

之后会有一个缩水版的 o3-mini

预计明年 1 月底开放

接下来

我们先谈成绩

再说问题

很会编程

在编程领域,非常优秀

Codeforces 2727 分

2727 分

相当于 CF 编程大神榜单 175 名

怎么评价呢

OpenAI 现任首席科学家

以前也是玩 Codeforces 的

历史最高得分是 2655

很会数学

在数学难题解答上

也是遥遥领先

Frontier Math

包含一个数据集

里面都是未发布的超高难度数学问题

即便是优秀的专业人员

解答其中的一个问题

也需要数小时到数天

在之前的测试中

AI 的最好成绩是解决了 2% 的问题

而 o3 解决了 25.2% 的问题

再说问题

很贵

非常离谱的贵

o 系列模型

会有多种算力模式

比如:low/medium/high

在 ARC-AGI 测试中

对于 o3 - low

单任务成本约 20 美金

是 o1 - low 的 10 倍

对于 o3 - high

单任务成本约 3500 美金

是 o1-high 的 2000 倍

以上数据,来源 ARC

注意:o3-high 价格尚未确定,根据计算量进行成本推算

并非 AGI

上面提到的 ARC

是 OpenAI 的新晋测试伙伴

提供关于 AGI 的测试基准

(马上我会详细讲)

虽然 o3 在这个测试中

取得了不错的成绩

但远达不到 AGI 的标准

ARC 的官方说法是这样

I don't think o3 is AGI yet

我不认为 o3 是 AGI

o3 still fails on some very easy tasks

o3 在很多简单问题上,做得很差。

indicating fundamental differences with human intelligence

这说明他和人类之间还是有根本性差距的

同时,ARC 官方也表示

在第2版榜单里

人类的基准成绩是 95%

而 o3 的成绩会跌到不到 30%

说说 ARC-AGI

这是 Keras 创始人 Chollet,在 2019 年搞出来的一个基准测试,来测测 AI 到底有多会"学习"。最开始发表在论文《On the Measure of Intelligence》。

https://arxiv.org/abs/1911.01547

怎么测的

给被测试的 AI,一些彩色网格的示例对。然后再给一个新的输入,让他预测输出。

每个格子可以是十种颜色之一,网格大小从 1x1 到 30x30 不等。

目前,o1 的正确率在 30% 左右,o3-high 则达到了 88%。

在定向任务的团队中,目前的最好成绩是 the ARChitects,正确率 53.5%。

代码:

https://www.kaggle.com/code/gregkamradt/arc-prize-v8?scriptVersionId=211457842

论文:

https://github.com/da-fr/arc-prize-2024/blob/main/the_architects.pdf

为啥有这个测试

对于 AGI 是啥,有很多种表述,一个主流的说法是"能把大部分有经济价值工作,进行自动化的系统"。

Chollet 觉得,这个定义有点偏离:真正的智能不是你会多少技能,而是你有多会学习。毕竟,现在的大模型,你只要给他足够的数据,他就会有对应的技能,看不出到底有多聪明。

于是 Chollet 搞出来了这个 ARC-AGI 的基准测试,用来评估那些 “没有出现过的问题”,也是目前唯一一个专门测量 AGI 进展的测试。

o3 的测试

测试在两个数据集上进行:

  • 一个是 100 道私密题目

  • 另一个是 400 道公开题目

o3-low 的成绩是 75.7%,而 o3-high(172 倍消耗) 则能达到 87.5%。在公开数据集上的表现更好,分别达到了 82.8% 和 91.5%。而之前最好的大模型成绩,是 30%。

这个事儿也证明了一点,对于创新性任务,只靠碓数据和加大算力(Scaling Laws),是不够的,毕竟给 GPT-4 再多的算力也不行。

顺道说一下,找外包来处理这些题目,人力成本大概是... 5 美金/题(放在国内,相信能卷到 1 块钱一题),而即便是最便宜的 o3-low,也需要 20 美金。

所以,就目前来说:由于人工队工资低,饭碗还能保住。(什么逆天言论)

你比 o3 更聪明

这里有几个 o3 没有解决的难题,可以来试试。相信你比 o3 更聪明

Task ID: c6e1b8da

Task ID: 0d87d2a6

Task ID: b457fec5

一定要注意

即便某个 AI 完美通过 ARC-AGI,并不意味着已经实现 AGI。

另外的:由于 o3 在很多简单问题上,做得很差,这说明他和人类之间还是有根本性差距的,更不能说 o3 探明了 AGI 之路

此外,ARC-AGI-2 的测试标准即将亮相。即便是 o3-high,其得分也只不到 30% ,而聪明的人类则在在 95%,这还是基于无任何训练的前提。

以及,Claude 和 OpenAI 在 ARC-AGI 的测试结果,可以在这里看到:

https://github.com/arcprizeorg/model_baseline/tree/main/results

OpenAI 的12天发布

美国时间 12 月 4 日,山姆奥特曼在推特上表示,要连发 12 天的货。赛博禅心为此做了全程记录,让我们一起来回顾下。

Day 1:o1 / ChatGPT Pro

Plus 用户,每月支付 20 美金:o1 会获得更新,支持图片上传

Pro 用户,每月支付 200 美金:无限使用 o1,并且可用 o1 pro mode

Day 3:Sora

年初展示的 Sora,终于发货了,同时带来的,还有一整套在线编辑工具。

Day 4:o1 / ChatGPT Pro

ChatGPT 中的画板功能获得更新,可在其中直接运行 Python,类似 Jupyter/Colab

Day 6:高级语音模式更新

手机版 ChatGPT 支持和 AI 进行视频通话了,还可以和 AI 共享屏幕。

Day 7:Projects

ChatGPT 有了“文件夹”,在对话之间,可以共享文件。

Day 8:o1 / ChatGPT Pro

ChatGPT 的搜索功能,更新了交互样式,并且在语音对话的过程中,也能用。

Day 9:API 接口更新

对于开发者来说,这是一个海量更新,包括不仅限于:o1 支持了 Function Call, Realtime API 新货调价 & 发布 SDK,新增模型微调,新增 Java 和 Go 的 SDK...

Day 10:电话接入

拨打 +1 800 242 8478,可以和 ChatGPT 聊天了。也可以通过 WhatsAPP 和 ChatGPT 发短信

在下面这篇里,我做了一个非常好玩的 SVG 👇

Day 11:ChatGPT 的新玩法

ChatGPT 桌面版,能读到别的应用信息了,在语音模式下更丝滑。

这是一个冷饭级别的发布(之前就更新了)

Day 12:o3

也就是本篇:一个遥遥领先,但贵但匪夷所思的模型,期待调价。

加载中...