大模型评测新方式：玩怀旧小游戏，DeepSeek上榜o3-pro领先

新浪人工智能

2025.06.2212:00

关注

俄罗斯方块、推箱子、2048…AI为何卷起了小游戏？大模型最新评测方式，竟然是让它们玩各种怀旧小游戏！DeepSeek上榜，o3-pro断层领先……这个Benchmark叫Lmgame，出自UCSD的Hao AI Lab。#AI在抖音 #benchmark #大模型竞技场 #LMgame #怀旧小游戏