2025年10月的事情挺有趣的啦,一个是陶哲轩拿着GPT-5Pro在解微分几何的题,人工智能把那些公式排得整整齐齐,推理看着也没啥问题,但题目还是没解出来。
另一头,这套AI又在全球最难的数学考试FrontierMath上拿了13%的成绩,居然排在第一名。
这事挺让人捉摸的,你说它挺牛逼的,可苦恼的是关键题都没法解出来。
要说它不行吧,又偏偏能在比赛里拿高分。
其实说到底就一个事儿,AI到底是真懂数学,还是只是会做题罢了。
我平时挺喜欢研究科技和数学结合的那些事情,总感觉AI的“灵光”跟人类的“理解”可不是一回事儿。
这次陶哲轩的试验,简直把这都揭得一清二楚。
陶哲轩挑的这个题,挺讲究,不是那种题库里的老熟面孔,而是放在MathOverflow上挂了整整三年的公开难题。
在三维空间里,如果一个光滑球面上所有点的主曲率都不超过1,那它包围的体积,能不能比单位球还大呢?
这题算是微分几何里的问题,陶哲轩自己对这块也不算 specialize,主要是想试试AI能不能碰出点新点子。
一开始,他让AI先搞定个简单的“星形区域”,也就是说,从球心往外看,能看到的区域都长啥样。
没过多久,AI就搞出了答案,不仅算得准确,还用了三个定理,其中一个是Minkowski第一积分公式,陶哲轩自己都没提过的,AI主动发现了,还提供了两种证明方式。
陶哲轩后来都说:“这部分没得说,跟个技术娴熟的研究生似的,帮我节省了不少算账的时间。”
接下来就出状况了,陶哲轩打算试试“曲面离球形有点远”的那种情况,他自己先琢磨出个想法,想用“有限计算”来简化一下。
结果AI沿着这个思路往下推,算得挺仔细,公式也没出错,可偏偏方向搞反了。
陶哲轩后来发博客写道,这东西就跟着我那错误的想法走,不去怀疑,还能用复杂的公式把错的掩盖得让人觉得对的。
这次失误反倒帮了陶哲轩,他专注于AI那错误的推断,忽然领悟到问题的核心不在“近似球形”,而是那些“又细又长的非凸曲面”。
这种曲面可以被拉得很长,但几乎不增加体积,正是导致体积下限难以确定的关键所在。
你瞧,AI虽然没直接给出答案,但帮陶哲轩搞明白了题目的核心所在。
陶哲轩那句话说得真有道理,“AI就像一面镜子,帮我把自己思维的界限看得清清楚楚。”
其实,这情况跟工作中碰到的事儿挺像的,你让助理帮忙处理点琐事,他能把表格整理得井井有条,数据也算得一点不过错,但要是你给的方向歪了,他可不会提醒你,反倒会沿着错的方向一岗一岗地干下去。
这个阶段的AI啊,基本上就是擅长拿任务来干,执行力没话说,可要叫它自己做决定,真得说它还差点儿火候。
这会儿陶哲轩还在研究AI的限制在哪儿,另一边,全球最难的数学考核FrontierMath的成绩也出来啦。
这个测试跟平时的考试不一样,题目难得连专家都得费几周甚至几个月才搞定,考的不是“会不会算”,而是“能不能想”。
七月刚出来的时候,没一个AI能拿到超过5分。
八月的时候,谷歌的Gemini2.5Pro新增了“重试机制”,如果算错了还能自己调整,结果得分提升到了12%。
到了十月,GPT-5Pro以13%的得分名列第一,其实也就比Gemini多答对一道题,统计上基本没有差距。
挺有趣的是,GPT-5Pro的高分主要集中在代数、线性系统这些“符号化”强烈的题目上。
这些题基本上都跟固定套路相关,只要推理的链条够长,计算能力够强,基本都能搞定。
要是碰到几何构造或者偏微分方程这种得靠直觉的题目,他就基本上卡壳了,几乎没有做对的。
EpochAI也提到,这更像是“算法上的一次小胜,倒不是真正的数学突破”啊。
让我想起以前教我数学的老师说过的话,“会做题的人挺多,但能搞懂题后面逻辑的,可就不多啦。”
就像那个只会背公式、不爱琢磨逻辑的学生一样,AI现在也差不多,背了一堆套路和技巧,面对熟悉的题目还能应付得来,一旦遇到得动脑子、的创新的题,它就真就束手无策了。
陶哲轩后来将这两点联系在一起讲,他说:“AI的聪明是线性的,一步步往前推;而人类的理解则像拓扑一样,能够洞察整体的结构。”
这句话挺贴切的,AI能把每一步都算得很好,但却没法理解这些步骤背后那个整体的逻辑关系。
人类或许会算错几步,但偏偏能一瞬间抓住题目的关键所在。
说到底,无论是陶哲轩的试验,还是FrontierMath拿到的高分,都在强调一件事:当下的AI,最该干的事儿,就是帮人类干活,而不是去取代咱们思考的声音。
陶哲轩以后又搞了个实验,用工具让AI自己验证证明的每一步,结果一连几十行下来,AI验证完了,他反而看不明白整体的逻辑是怎么回事了。
他说:“最好的自动化并不是搞到0%,也不是做到100%”,意思是每个环节都得留点人类的“空白”,让AI去算题,人类则把控整体的方向。
让AI负责写出初稿,然后有人来把关,调整逻辑。
我觉得,这才是真正的AI和人类之间最合适的相处方式。
别指望AI能像陶哲轩那样提出崭新的理论,省下那些繁琐的计算和查资料的时间,让数学家有更多精力去思考“为什么”,就已经相当不错了。
说到底,数学的价值从来都不在于拿到那个答案,而是在于搞懂为什么这个答案还没有出来。
这点,AI暂时还搞不懂,也正是人类最应该牢牢记住的东西。
懂得生活网为大家提供:生活,学习,工作,技巧,常识等内容。