新浪新闻

ChatGPT-4o登顶大模型竞技场,OpenAI重夺第一宝座

微资讯

关注

在今日的OpenAI开发者日新加坡站活动中,ChatGPT再次展现了其强大的竞争力。最新版本的ChatGPT-4o(以下简称4o)在更新后,成功击败了此前排名第一的谷歌Gemini,重新夺回了大模型竞技场的冠军宝座。

此次4o的更新主要集中在“创意写作能力”上。据OpenAI官方介绍,新版模型能够完成更自然、更有吸引力、更具针对性的写作,文本相关性和可读性也得到了显著提升。此外,4o还能更好地处理上传的文件,提供更深入的见解和更全面的响应。

作为Canvas功能的一部分,OpenAI希望通过改进写作来推动人机协作方式的变革,更具创造性地完成写作任务。o1核心贡献者Karina Nguyen表示,尽管写作这一研究领域非常主观且开放,但4o在写作方面的进展是AGI(通用人工智能)创造性智能的关键。

在大模型竞技场的创意写作分榜上,新版4o(ChatGPT-4o-1120)的分数从上个版本的1365提升到了1402,确实展现出了明显的提升。而在其他能力分榜上,4o也取得了不俗的成绩。在代码能力方面,从第2位升至第1位;在数学能力方面,从第4位升至第3位;在困难任务方面,同样从第2位升至第1位。此外,在风格控制分榜上,4o依然位居首位。

在与其他模型的对比中,新版4o也展现出了强大的竞争力。在对上此前登顶的Gemini-Exp-1114时,胜率为59%;对上Claude 3.5 Sonnet时,胜率为69%;而对上5月版本的4o时,更是在72%的情况下都能取胜。

然而,尽管4o取得了如此优异的成绩,但不少网友仍然对OpenAI未能推出传闻中的o1满血版表示不满。有人认为,OpenAI此次更新4o只是为了夺回竞技场的第一名,而并非真正满足用户的期待。不过,也有网友对4o的更新进行了认真研究,并发现了其在系统提示词方面的改进,如新增了一道护栏,确保ChatGPT不在敏感话题上胡说八道。

总的来说,ChatGPT-4o的更新无疑为OpenAI重夺大模型竞技场的第一宝座增添了新的动力。尽管仍有一些用户对其未能推出o1满血版表示不满,但4o在创意写作能力等方面的提升仍然值得肯定。未来,随着技术的不断进步和用户需求的不断变化,ChatGPT将继续努力提升自己的能力,为用户提供更加优质、便捷的服务。

现在,如果你对新版4o的创意写作能力感兴趣,可以前往大模型竞技场进行免费试用。相信你会被它的强大功能所折服。

原创文章,作者:AI,如若转载,请注明出处:https://www.kejixun.com/article/694548.html

加载中...