
又是一场酣畅淋漓的战斗!配资论坛门户网
宝可梦主播 GPT-5 在直播间鏖战一小时,成功击败赤爷(Red),公屏瞬间刷满 GG(Good Game)。

根据推特博主 Clad3815 的最新战报,GPT-5 仅用 9517 步就放倒了赤爷,通关《宝可梦水晶》。
相比之下,o3 则用了 27040 步,所用步数几乎是 GPT-5 的三倍。
换句话说,GPT-5 不吃不喝连肝一周多一点(202 小时)就能通关的《宝可梦水晶》,换成 o3 需要近一个月。
如果把视角拉回到普通人类玩家身上,通关《宝可梦水晶》的时间通常在 5 天左右(每天 8 小时)。
基于此,不少玩家已经开始留言,请继续征战下一代宝可梦!

那么,GPT-5 是怎么做到的?
赤爷不语,GPT-5 登顶宝可梦
在《宝可梦水晶》的剧情中,玩家从小镇出发,选择宝可梦,挑战道馆馆主、收集徽章,阻止火箭队的阴谋,最终迎战最强训练家——赤红(《宝可梦红 / 蓝》的主角)
而这次,GPT-5 就化身小智,成为了新的挑战者——并一举击败赤爷,登顶宝可梦。

除了我们开头提到的,GPT-5 仅用了 o3 三分之一的步数就实现了通关,在《宝可梦水晶》全部的主线任务中,GPT-5 也是按照剧情一路平推,效率远超 o3 好几倍。
(注:在《宝可梦水晶》中,玩家击败 boss 后仍然可以自由探索收集宝可梦,所以直播还开着。)
例如,在收集全部 16 枚游戏徽章的主线中,GPT-5 仅用了 9205 步,而 o3 则耗费了 22334 步。
更惊人的是,从收集完所有徽章到战胜赤爷,o3 还需要近5000步,而 GPT-5 仅用了312步,加速了十几倍。

同样的,在四天王和冠军的剧情中,GPT-5 也是仅花了 7329 步,而 o3 则用了两倍多的步数(18115 步)。

此外,在通关《宝可梦水晶》之前,GPT-5 还被用来通关《宝可梦红》(游戏长度约为《宝可梦水晶》的一半)。

赤爷不语,依旧是 3 倍的效率碾压。
对此,OpenAI 的总裁兼联合创始人 Greg Brockman 也是亲自转发表示认可!

看到 GPT-5 的生猛表现,Clad 老哥总结了这么几个原因:
幻觉少,速度快:GPT-5 的"幻觉"明显比 o3 少,这也是它速度提升的主要原因。
空间推理强:o3 经常试图硬穿墙,复杂区域容易迷路,而 GPT-5 能规划较长行动序列,几乎不出错,节省大量时间。
目标规划更好:GPT-5 在规划自身目标并执行上表现出色。
难道说,GPT-5 模型能力的提升,在宝可梦这个舞台上才被完全体现出来?

(让子弹多飞一会儿)
不过,必须说明的是——让大模型玩宝可梦并不新鲜。
早在 GPT-5 之前,Google 的 Gemini 和 Anthropic 的 Claude 就曾挑战过宝可梦。
其中,Gemini 2.5 Pro 在今年五月的直播中,成功通关了《宝可梦蓝》,而 Claude 就比较惨了,至今仍被困于火箭队。

那么问题来了:为啥 AI 大模型都如此偏爱这款上世纪的怀旧游戏呢?
宝可梦是新的 benchmark?
要回答上面的问题,我们得先知道大模型是怎么玩宝可梦的。
一般来说,大模型玩宝可梦的基本步骤如下:
提供一个系统提示,包含关于如何进行游戏的实质性建议
提供带有额外信息叠加的游戏截图
提供来自游戏内存(RAM)的关键信息
提供保存文本以进行规划的能力
提供一个工具,可以将文本指令转换为模拟器中的按键操作
提供路径规划工具
让上下文能够被自动清理并定期总结
一个额外的用来"自我批评"的 Critic/Guide 模型。它们定期对主模型进行评审,并配备系统提示以帮助主模型避免常见失败模式。

此外,大模型还会专门构建一个带标记的小地图,帮助其在游戏世界里定位,这类似于人类玩家在玩游戏时脑补地图的方式。

综上,我们就获得了一个基本印象:在宝可梦游戏中,大模型通过多层信息整合、规划、执行与自我纠错,实现了接近人类玩家的决策能力。
由此,宝可梦游戏就能作为衡量模型上下文能力、决策规划、界面控制能力的指标之一。
可惜的是,这场考试的报名费可并不便宜。
根据网友分析,在 GPT-5 通关游戏长度仅为《宝可梦水晶》一半的《宝可梦红》中,就花费了约 3500 美元(约 2 万五人民币)的 GPT-5 API 额度。其中,每个 token 的花费就达到了 4 块多人民币。
所以,除非你在 OpenAI 工作,否则想把宝可梦当作 benchmark,还得先掂量一下钱包够不够厚。

参考链接
[ 1 ] https://x.com/Clad3815/status/1959856362059387098
[ 2 ] https://www.twitch.tv/videos/2549204340?t=0h8m43s
[ 3 ] https://gpt-plays-pokemon.clad3815.dev/crystal/game-data
[ 4 ] https://www.techradar.com/ai-platforms-assistants/chatgpt/gpt-5-just-completed-pokemon-red-in-a-new-world-record-time-claude-gemini-and-chatgpt-o3-arent-even-close
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
专属 AI 产品从业者的实名社群,只聊 AI 产品最落地的真问题 扫码添加小助手,发送「姓名 + 公司 + 职位」申请入群~
进群后,你将直接获得:
� � 最新最专业的 AI 产品信息及分析 � �
� � 不定期发放的热门产品内测码 � �
� � 内部专属内容与专业讨论 � �
� � 点亮星标 � �
科技前沿进展每日见配资论坛门户网
瑞民配资提示:文章来自网络,不代表本站观点。