大模型评测新方式:玩怀旧小游戏,DeepSeek上榜o3-pro领先

新浪人工智能
俄罗斯方块、推箱子、2048…AI为何卷起了小游戏? 大模型最新评测方式,竟然是让它们玩各种怀旧小游戏!DeepSeek上榜,o3-pro断层领先……这个Benchmark叫Lmgame,出自UCSD的Hao AI Lab。#AI在抖音 #benchmark #大模型竞技场 #LMgame #怀旧小游戏
俄罗斯方块、推箱子、2048…AI为何卷起了小游戏? 大模型最新评测方式,竟然是让它们玩各种怀旧小游戏!DeepSeek上榜,o3-pro断层领先……这个Benchmark叫Lmgame,出自UCSD的Hao AI Lab。#AI在抖音 #benchmark #大模型竞技场 #LMgame #怀旧小游戏