據(jù)美國趣味科學(xué)網(wǎng)站7月12日?qǐng)?bào)道,5月中旬的一個(gè)周末,美國加利福尼亞州的伯克利召開了一次秘密的閉門數(shù)學(xué)會(huì)議。30位全世界最著名的數(shù)學(xué)家來到這里,其中有些人從英國遠(yuǎn)道而來。他們?cè)谶@里與一個(gè)“推理”聊天機(jī)器人展開對(duì)決,后者的任務(wù)是解答數(shù)學(xué)家們?yōu)闇y(cè)試其數(shù)學(xué)能力而設(shè)計(jì)的問題。
研究人員在兩天時(shí)間里向機(jī)器人拋出教授級(jí)別的問題,然后驚訝地發(fā)現(xiàn),它能夠回答全世界最難解決的一些問題。
弗吉尼亞大學(xué)的數(shù)學(xué)家、此次會(huì)議的牽頭人和評(píng)委小野健(音)說:“我的同事們確實(shí)說,這些模型接近數(shù)學(xué)天才的水平。”
他討論的聊天機(jī)器人由o4-mini——一個(gè)所謂的推理大型語言模型(LLM)——提供支持。美國開放人工智能研究中心(OpenAI)對(duì)它進(jìn)行了訓(xùn)練,使它能夠進(jìn)行高度復(fù)雜的推理。谷歌的同類產(chǎn)品——Gemini 2.5 Flash——也有類似功能。就像為早期版本聊天生成預(yù)訓(xùn)練轉(zhuǎn)換器(ChatGPT)提供支持的LLM一樣,o4-mini學(xué)會(huì)了預(yù)測(cè)序列中的下一個(gè)單詞。然而,與早期的LLM相比,o4-mini及其同類模型更輕量,更靈活,可以在專門的數(shù)據(jù)集上進(jìn)行訓(xùn)練,并獲得人類更強(qiáng)的強(qiáng)化。這種方法使得聊天機(jī)器人能夠遠(yuǎn)比傳統(tǒng)的LLM更深入研究復(fù)雜的數(shù)學(xué)問題。
為了追蹤o4-mini的進(jìn)展,OpenAI之前委托美國人工智能時(shí)代研究所(一家對(duì)LLM進(jìn)行基準(zhǔn)測(cè)試的非營利組織)提出300道尚未公布答案的數(shù)學(xué)問題。就連傳統(tǒng)的LLM都能正確回答許多復(fù)雜的數(shù)學(xué)問題。不過,當(dāng)人工智能時(shí)代研究所向幾個(gè)這樣的模型提出這些問題(與它們訓(xùn)練過的問題不同)時(shí),最成功的模型能夠解決的問題不到2%,表明這些LLM缺乏推理能力。但事實(shí)會(huì)證明,o4-mini完全不同。
人工智能時(shí)代研究所于2024年9月聘請(qǐng)剛剛拿到數(shù)學(xué)博士學(xué)位的埃利奧特·格拉澤加入了名為FrontierMath的新基準(zhǔn)合作項(xiàng)目。該項(xiàng)目收集了不同難度級(jí)別的新問題,前三個(gè)級(jí)別涵蓋了本科、研究生和研究級(jí)別的挑戰(zhàn)。到2025年4月,格拉澤發(fā)現(xiàn)o4-mini可以解決大約20%的問題。然后,他進(jìn)入了第四個(gè)級(jí)別:一組甚至?xí)?duì)學(xué)術(shù)數(shù)學(xué)家構(gòu)成挑戰(zhàn)的問題。全世界只有一小部分人有能力提出這樣的問題,更不要說回答了。參與的數(shù)學(xué)家必須簽署一份保密協(xié)議,要求他們只能通過即時(shí)通訊應(yīng)用軟件“信號(hào)”進(jìn)行交流。其他聯(lián)系方式——比如傳統(tǒng)的電子郵件——可能會(huì)被LLM掃描并在無意中訓(xùn)練它,從而污染數(shù)據(jù)集。
每提出一個(gè)o4-mini解答不了的問題,想出這個(gè)問題的數(shù)學(xué)家就會(huì)得到7500美元的獎(jiǎng)勵(lì)。該小組在尋找問題方面取得了緩慢而穩(wěn)步的進(jìn)展。但格拉澤希望加快進(jìn)度,所以人工智能時(shí)代研究所在5月17日和18日舉行了面對(duì)面的會(huì)議。會(huì)上,參與者確定最后一批挑戰(zhàn)問題。30名與會(huì)者被分成六人一組。在兩天的時(shí)間里,學(xué)者們相互競(jìng)爭,設(shè)計(jì)出他們自己能夠解決但會(huì)讓人工智能推理機(jī)器人出錯(cuò)的問題。
在那個(gè)星期六的夜晚結(jié)束時(shí),這個(gè)機(jī)器人出人意料的數(shù)學(xué)能力阻礙了小組的進(jìn)展。小野說:“我想出了一個(gè)問題,我這個(gè)領(lǐng)域的專家會(huì)認(rèn)為這是數(shù)論中的開放問題——一個(gè)很好的博士級(jí)問題。”他要求o4-mini解答這個(gè)問題。
在接下來的10分鐘里,小野瞠目結(jié)舌地看著機(jī)器人實(shí)時(shí)展示解法,還展示了它的推理過程。機(jī)器人先是花了兩分鐘時(shí)間查找并掌握該領(lǐng)域的相關(guān)文獻(xiàn)。然后,它在屏幕上寫道,它想嘗試解決一個(gè)比較簡單的“游戲”版本問題,以便學(xué)習(xí)。數(shù)分鐘后,它寫道,它終于準(zhǔn)備好解答比較難的問題了。五分鐘后,o4-mini拿出了正確但俏皮的解法。同時(shí)也是人工智能時(shí)代研究所的自由數(shù)學(xué)顧問的小野說:“它開始變得非常厚臉皮。最后,它說:‘不需要引用,因?yàn)樯衩財(cái)?shù)字是我算出來的!’”
微信審核 | 陳向陽