小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

剛剛,谷歌發(fā)布71頁AI科研報告,6大領(lǐng)域全面超越專家,幾小時頂幾個月

 圖志軒 2025-09-12 發(fā)布于四川

谷歌最新71頁論文震驚科研界:AI不止能寫代碼,還能像科學(xué)家一樣提出新方法、跑實驗,甚至在六大領(lǐng)域全面超越專家!過去要花幾個月的探索,如今幾小時就能完成,科研節(jié)奏正在被AI改寫。

一圖看透全球大模型!新智元十周年鉅獻,2025 ASI前沿趨勢報告37頁首發(fā)

在最新一篇長達71頁的論文里,谷歌給科研界丟下了一顆重磅炸彈。

過去一年,DeepMind的FunSearch已經(jīng)展示了AI在數(shù)學(xué)發(fā)現(xiàn)中的潛力,MIT等團隊也提出了AI co-scientist的概念。

但與這些探索相比,谷歌這次的系統(tǒng)走得更遠:它不僅能提出新方法、驗證實驗結(jié)果,還在多個領(lǐng)域超越了頂尖專家。

剛剛,谷歌發(fā)布71頁AI科研報告,6大領(lǐng)域全面超越專家,幾小時頂幾個月

打開今日頭條查看圖片詳情

論文地址:
https:///abs/2509.06503

和傳統(tǒng)代碼只追求正確性不同,實證軟件的目標只有一個:讓科研任務(wù)的指標分數(shù)盡可能高。

這意味著,AI已經(jīng)開始介入科學(xué)研究的最核心環(huán)節(jié)——假設(shè)驗證與方法創(chuàng)新。

不止是寫代碼,而是科研「實證軟件」

在科研中,最耗時的環(huán)節(jié)并不是提出想法,而是如何驗證。

科學(xué)家們往往要為一個問題編寫和調(diào)試大量實驗代碼,嘗試幾十甚至上百種模型和參數(shù)組合,這個過程動輒數(shù)月。

谷歌的新系統(tǒng)把這一環(huán)節(jié)徹底加速,他們提出了一個概念:實證軟件。

與常規(guī)軟件通常只以功能正確性作為評判標準不同,實證軟件的首要目標是最大化預(yù)設(shè)的質(zhì)量評分。

也就是說,科研問題被重新抽象為一種可計分任務(wù)(scorable task)。

任務(wù)中包含清晰的問題描述、衡量優(yōu)劣的指標和數(shù)據(jù)集,AI要做的,就是直接朝著分數(shù)最高的方向不斷優(yōu)化。

在這一機制下,AI的角色已經(jīng)不再是一個寫代碼的小助手,而更像是一個高速運轉(zhuǎn)的實驗員。

它會先生成研究思路并寫出可執(zhí)行的代碼,然后在沙箱環(huán)境中運行,利用樹搜索的方法篩選出值得深入的候選方案,再讓大語言模型對代碼進行反復(fù)的改寫和優(yōu)化。

整個過程循環(huán)往復(fù),直到找到最優(yōu)解。

剛剛,谷歌發(fā)布71頁AI科研報告,6大領(lǐng)域全面超越專家,幾小時頂幾個月

打開今日頭條查看圖片詳情

AI科研系統(tǒng)的工作流程:科研問題被轉(zhuǎn)化為可計分任務(wù),經(jīng)由大語言模型生成代碼,并通過樹搜索反復(fù)迭代優(yōu)化,最終獲得最佳方案。

研究員也強調(diào):

其輸出作為代碼化的解決方案,可驗證、可解釋且可復(fù)現(xiàn)。

換句話說,這不是簡單的一段程序,而是真正符合科研標準的成果。

六大領(lǐng)域的硬核成績單

谷歌這套系統(tǒng)真正驚艷的地方,是它在六個完全不同的科學(xué)領(lǐng)域里,都拿出了堪比專家的成果。

基因組學(xué):比專家強14%

在單細胞RNA測序(scRNA-seq)數(shù)據(jù)的批次整合問題上,谷歌的系統(tǒng)展現(xiàn)了真正的科研創(chuàng)新力。

這類任務(wù)的難點在于,不同實驗批次之間會產(chǎn)生復(fù)雜的技術(shù)偏差,如何在消除這些偏差的同時保留真實的生物學(xué)信號,一直是領(lǐng)域里的核心挑戰(zhàn)。

研究人員并沒有只讓系統(tǒng)從零開始,而是把現(xiàn)有方法的文字說明直接輸入給它。

比如BBKNN,這是一種常見的批次校正方法,核心思路是:在每個批次內(nèi)部為細胞尋找最近鄰居,再把這些鄰居集合合并,得到一個批次校正后的整體圖。

剛剛,谷歌發(fā)布71頁AI科研報告,6大領(lǐng)域全面超越專家,幾小時頂幾個月

打開今日頭條查看圖片詳情

BBKNN 的方法描述示例。研究人員將其輸入系統(tǒng),AI 在此基礎(chǔ)上進行改寫和優(yōu)化

在這樣的基礎(chǔ)上,AI能夠生成新的變體并進行組合。

最終,它把BBKNN和另一種方法ComBat拼接在一起,得到一個完全新穎的解法。

結(jié)果顯示,在OpenProblems V2.0.0的綜合指標上,比最佳人工方法提升了14%。

剛剛,谷歌發(fā)布71頁AI科研報告,6大領(lǐng)域全面超越專家,幾小時頂幾個月

打開今日頭條查看圖片詳情

在單細胞RNA測序批次整合任務(wù)上,AI系統(tǒng)自動組合方法,整體得分超過現(xiàn)有專家工具

公共健康:超過CDC官方模型

美國在疫情期間,CDC的CovidHub Ensemble被視為預(yù)測住院人數(shù)的「黃金標準」。

而谷歌的系統(tǒng)自動生成的14個模型,集體表現(xiàn)超過了官方Ensemble。

AI在新冠住院預(yù)測任務(wù)中的表現(xiàn),整體優(yōu)于CDC官方的CovidHub Ensemble

地理遙感:分割精度破 0.80

在高分辨率遙感圖像分割任務(wù)中,系統(tǒng)生成的三種模型全部超過現(xiàn)有方法,分割精度(mIoU)突破0.80。

更重要的是,它利用U-Net、SegFormer等架構(gòu),并結(jié)合圖像增強手段,說明它不僅在「復(fù)制」,也在「改造和優(yōu)化」。

剛剛,谷歌發(fā)布71頁AI科研報告,6大領(lǐng)域全面超越專家,幾小時頂幾個月

打開今日頭條查看圖片詳情

AI系統(tǒng)生成的分割結(jié)果(下排),與人工標注結(jié)果(中排)高度接近,明顯優(yōu)于傳統(tǒng)模型

神經(jīng)科學(xué):全腦7萬神經(jīng)元預(yù)測

在Zebrafish全腦神經(jīng)活動預(yù)測中,AI系統(tǒng)不僅打敗了所有現(xiàn)有基線,還設(shè)計出能結(jié)合生物物理模擬器的混合模型。

剛剛,谷歌發(fā)布71頁AI科研報告,6大領(lǐng)域全面超越專家,幾小時頂幾個月

打開今日頭條查看圖片詳情

在斑馬魚全腦神經(jīng)活動預(yù)測中,AI系統(tǒng)生成的模型(藍色)整體誤差更低,全面超越現(xiàn)有基線方法(紅色),其中TS-Jaxley更是將生物物理模擬器融入預(yù)測,提升了可解釋性

數(shù)學(xué):難積分迎刃而解

數(shù)學(xué)問題一向是最能考驗算法極限的地方。

谷歌的系統(tǒng)被拿來挑戰(zhàn)19個異常棘手的積分任務(wù),結(jié)果出乎意料:標準數(shù)值方法幾乎全軍覆沒,而AI系統(tǒng)卻成功算出了其中17個。

剛剛,谷歌發(fā)布71頁AI科研報告,6大領(lǐng)域全面超越專家,幾小時頂幾個月

打開今日頭條查看圖片詳情

數(shù)值積分任務(wù)的部分示例。谷歌系統(tǒng)在19個測試積分中成功求解了17個,而標準數(shù)值方法未能給出結(jié)果。

這說明,它并不只是停留在表面,而是真正學(xué)會了如何在復(fù)雜數(shù)學(xué)場景中找到突破口。

對科研人員來說,這意味著在長期困擾的數(shù)值計算上,AI已經(jīng)能給出可用的答案。

時間序列:零起步構(gòu)建通用預(yù)測庫

在通用時間序列預(yù)測的GIFT-Eval基準上,谷歌的系統(tǒng)完成了一件幾乎不可能的事:

從零開始,只靠一段代碼不斷爬坡優(yōu)化,硬是煉成了一個能覆蓋28個數(shù)據(jù)集、跨越7個領(lǐng)域、適配從秒到年的10種頻率的通用預(yù)測庫。

這意味著,AI不僅能解具體問題,還能自己總結(jié)出一套通用方法——科研里最難啃的「跨領(lǐng)域泛化」,它也啃下來了。

科研范式的轉(zhuǎn)折:AI能創(chuàng)新,也能跨界

如果說前面的六個案例只是成績單,那么它們背后真正震撼的是:AI已經(jīng)不滿足于模仿,而是在科研中展現(xiàn)出了創(chuàng)新能力與跨學(xué)科的通用性。

在基因組學(xué)任務(wù)中,它能夠自動把兩個不同的專家方法組合起來,得到比人類更優(yōu)的解;

在神經(jīng)科學(xué)任務(wù)里,它甚至首次把生物物理模擬器和深度模型拼接,開辟出一種全新的混合思路。

類似的嘗試在學(xué)界和業(yè)界已有先例:比如DeepResearchGym提供了評測框架,OpenProblems.bio社區(qū)建立了scRNA-seq的公開基準。

但谷歌的系統(tǒng)首次在這些基準上全面跑通pipeline,給出了可量化、可復(fù)現(xiàn)的專家級結(jié)果。

這種創(chuàng)新并不是單點突破,而是跨學(xué)科的普遍現(xiàn)象。

從基因組學(xué)到公共健康,從遙感影像到時間序列預(yù)測,系統(tǒng)都能快速適配,找到新的路徑。

這些基準的多樣性使我們能夠綜合評估其在零樣本泛化、高維信號處理、不確定性量化、復(fù)雜數(shù)據(jù)語義解釋和系統(tǒng)層面建模等方面的能力。

過去科學(xué)家依靠反復(fù)試驗推進,如今AI系統(tǒng)也能以相同方式進行大規(guī)模試錯,而且速度提升數(shù)百倍——把幾個月的探索壓縮到幾小時。

這意味著科研節(jié)奏可能迎來真正的「指數(shù)級加速」。

當(dāng)AI走進實驗室,人類該做什么?

AI已經(jīng)能在多個前沿領(lǐng)域生成新方法、驗證結(jié)果、超越專家,人類科學(xué)家的角色也正在被重新定義。

在這套系統(tǒng)里,AI負責(zé)的是不知疲倦的實驗與探索:

成千上萬種方案的嘗試、優(yōu)化和篩選,本來需要幾個月甚至更久,如今壓縮到幾小時或幾天。

我們的系統(tǒng)能夠快速生成專家級別的解決方案,將一組想法的探索時間從數(shù)月縮短到數(shù)小時或數(shù)天。

而科學(xué)家的職責(zé),正逐漸轉(zhuǎn)向提出方向、判斷價值、定義優(yōu)先級。

AI可以在技術(shù)路徑上無限拓展,但科研問題本身的意義、背后的社會價值,仍然需要人類去設(shè)定和把握。

這意味著,科研分工正在走向一種新的格局:

AI或許會成為高效實驗員和方法發(fā)明者,人類則站在更高的維度上進行選擇與決策。

這意味著,谷歌的系統(tǒng)不再只是一個「研究工具」的實驗,而是邁向了和FunSearch、AI co-scientist等項目同一賽道的下一步——

從單點突破走向跨領(lǐng)域的科研合作者。

值得一提的是,谷歌已經(jīng)將這套系統(tǒng)產(chǎn)出的最佳方案全部開源,并提供交互界面讓研究人員追蹤整個搜索與突破過程。

這種開放姿態(tài),意味著科研界可以直接在真實任務(wù)里驗證、擴展這些AI生成解法。

參考資料:

https:///abs/2509.06503

https://research.google/blog/accelerating-scientific-discovery-with-ai-powered-empirical-software/

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多