色综合天天综合,欧美网站大全在线观看,亚洲一区二区三区三

據(jù)美國趣味科學(xué)網(wǎng)站7月12日?qǐng)?bào)道，5月中旬的一個(gè)周末，美國加利福尼亞州的伯克利召開了一次秘密的閉門數(shù)學(xué)會(huì)議。30位全世界最著名的數(shù)學(xué)家來到這里，其中有些人從英國遠(yuǎn)道而來。他們?cè)谶@里與一個(gè)“推理”聊天機(jī)器人展開對(duì)決，后者的任務(wù)是解答數(shù)學(xué)家們?yōu)闇y(cè)試其數(shù)學(xué)能力而設(shè)計(jì)的問題。

研究人員在兩天時(shí)間里向機(jī)器人拋出教授級(jí)別的問題，然后驚訝地發(fā)現(xiàn)，它能夠回答全世界最難解決的一些問題。

弗吉尼亞大學(xué)的數(shù)學(xué)家、此次會(huì)議的牽頭人和評(píng)委小野健(音)說：“我的同事們確實(shí)說，這些模型接近數(shù)學(xué)天才的水平。”

他討論的聊天機(jī)器人由o4-mini——一個(gè)所謂的推理大型語言模型(LLM)——提供支持。美國開放人工智能研究中心(OpenAI)對(duì)它進(jìn)行了訓(xùn)練，使它能夠進(jìn)行高度復(fù)雜的推理。谷歌的同類產(chǎn)品——Gemini 2.5 Flash——也有類似功能。就像為早期版本聊天生成預(yù)訓(xùn)練轉(zhuǎn)換器(ChatGPT)提供支持的LLM一樣，o4-mini學(xué)會(huì)了預(yù)測(cè)序列中的下一個(gè)單詞。然而，與早期的LLM相比，o4-mini及其同類模型更輕量，更靈活，可以在專門的數(shù)據(jù)集上進(jìn)行訓(xùn)練，并獲得人類更強(qiáng)的強(qiáng)化。這種方法使得聊天機(jī)器人能夠遠(yuǎn)比傳統(tǒng)的LLM更深入研究復(fù)雜的數(shù)學(xué)問題。

為了追蹤o4-mini的進(jìn)展，OpenAI之前委托美國人工智能時(shí)代研究所(一家對(duì)LLM進(jìn)行基準(zhǔn)測(cè)試的非營利組織)提出300道尚未公布答案的數(shù)學(xué)問題。就連傳統(tǒng)的LLM都能正確回答許多復(fù)雜的數(shù)學(xué)問題。不過，當(dāng)人工智能時(shí)代研究所向幾個(gè)這樣的模型提出這些問題(與它們訓(xùn)練過的問題不同)時(shí)，最成功的模型能夠解決的問題不到2%，表明這些LLM缺乏推理能力。但事實(shí)會(huì)證明，o4-mini完全不同。

人工智能時(shí)代研究所于2024年9月聘請(qǐng)剛剛拿到數(shù)學(xué)博士學(xué)位的埃利奧特·格拉澤加入了名為FrontierMath的新基準(zhǔn)合作項(xiàng)目。該項(xiàng)目收集了不同難度級(jí)別的新問題，前三個(gè)級(jí)別涵蓋了本科、研究生和研究級(jí)別的挑戰(zhàn)。到2025年4月，格拉澤發(fā)現(xiàn)o4-mini可以解決大約20%的問題。然后，他進(jìn)入了第四個(gè)級(jí)別：一組甚至?xí)?duì)學(xué)術(shù)數(shù)學(xué)家構(gòu)成挑戰(zhàn)的問題。全世界只有一小部分人有能力提出這樣的問題，更不要說回答了。參與的數(shù)學(xué)家必須簽署一份保密協(xié)議，要求他們只能通過即時(shí)通訊應(yīng)用軟件“信號(hào)”進(jìn)行交流。其他聯(lián)系方式——比如傳統(tǒng)的電子郵件——可能會(huì)被LLM掃描并在無意中訓(xùn)練它，從而污染數(shù)據(jù)集。

每提出一個(gè)o4-mini解答不了的問題，想出這個(gè)問題的數(shù)學(xué)家就會(huì)得到7500美元的獎(jiǎng)勵(lì)。該小組在尋找問題方面取得了緩慢而穩(wěn)步的進(jìn)展。但格拉澤希望加快進(jìn)度，所以人工智能時(shí)代研究所在5月17日和18日舉行了面對(duì)面的會(huì)議。會(huì)上，參與者確定最后一批挑戰(zhàn)問題。30名與會(huì)者被分成六人一組。在兩天的時(shí)間里，學(xué)者們相互競(jìng)爭，設(shè)計(jì)出他們自己能夠解決但會(huì)讓人工智能推理機(jī)器人出錯(cuò)的問題。

在那個(gè)星期六的夜晚結(jié)束時(shí)，這個(gè)機(jī)器人出人意料的數(shù)學(xué)能力阻礙了小組的進(jìn)展。小野說：“我想出了一個(gè)問題，我這個(gè)領(lǐng)域的專家會(huì)認(rèn)為這是數(shù)論中的開放問題——一個(gè)很好的博士級(jí)問題。”他要求o4-mini解答這個(gè)問題。

在接下來的10分鐘里，小野瞠目結(jié)舌地看著機(jī)器人實(shí)時(shí)展示解法，還展示了它的推理過程。機(jī)器人先是花了兩分鐘時(shí)間查找并掌握該領(lǐng)域的相關(guān)文獻(xiàn)。然后，它在屏幕上寫道，它想嘗試解決一個(gè)比較簡單的“游戲”版本問題，以便學(xué)習(xí)。數(shù)分鐘后，它寫道，它終于準(zhǔn)備好解答比較難的問題了。五分鐘后，o4-mini拿出了正確但俏皮的解法。同時(shí)也是人工智能時(shí)代研究所的自由數(shù)學(xué)顧問的小野說：“它開始變得非常厚臉皮。最后，它說：‘不需要引用，因?yàn)樯衩財(cái)?shù)字是我算出來的！’”

微信審核 | 陳向陽

到2025年4月，格拉澤發(fā)現(xiàn)o4-mini可以解決大約20%的問題

科技信息更多>>