新浪新闻

大模型评测新方式:玩怀旧小游戏,DeepSeek上榜o3-pro领先

新浪人工智能

关注

俄罗斯方块、推箱子、2048…AI为何卷起了小游戏? 大模型最新评测方式,竟然是让它们玩各种怀旧小游戏!DeepSeek上榜,o3-pro断层领先……这个Benchmark叫Lmgame,出自UCSD的Hao AI Lab。#AI在抖音 #benchmark #大模型竞技场 #LMgame #怀旧小游戏

加载中...