戳破 AI 寫程式能力排行榜最大的假象

Test · 发表于 2026-3-3 19:17:21

本帖最后由 Test 于 2026-3-3 19:19 编辑

2026-03-02 Devon Chan
最新研究戳破了 AI 寫程式能力排行榜最大的假象。

LLM 在標準程式測驗拿到 84-89 分。

丟真正上線的程式碼給它？25-34 分。

這不叫落差，這根本是兩個世界。

怎麼回事：

研究團隊拿真實的開源專案來出題：有繼承、有相依套件、有型別系統、有實際整合的複雜度。

然後拿那些在 HumanEval 排行榜上屌打全場的模型來跑。

結果被打臉打到腫。

模型不是因為題目「比較難」才寫不出來，而是因為題目是「真的」。人造測驗只考你能不能照著一段乾淨的說明寫出一個獨立的 function。但實戰程式碼要搞懂繼承架構、框架怎麼串、專案裡自訂的工具怎麼用。

根本不同的世界，卻用同一張排行榜在比。

還沒完，後面更慘。

另一組研究對 9 個 LLM 做了 60 萬次 debug 實驗。程式裡埋了一個 bug，LLM 找到了。接著他們只是改個變數名稱、加一行註解、把 function 順序調一下，bug 完全沒動。

然後 LLM 就找不到任何 bug 了。

78% 的情況下，這種不影響程式行為的表面改動，就足以讓模型完全抓不到 bug。

光是把 function 順序調換，debug 準確率就掉了 83%。

這些模型根本不是在讀懂程式碼，而是在比對它跟訓練資料裡的程式碼長得像不像。

第三組研究從另一個方向驗證了同一件事：把真實程式碼做混淆處理——改掉符號、打亂結構、換掉語意，但功能完全一樣——LLM 的通過率最多暴跌 62.5%。

研究者管這叫「熟悉感專家」問題。LLM 對它背過的程式碼表現很好，但只要你拿邏輯一模一樣、長相不一樣的東西給它看，它就直接當機。

三篇論文、三套完全不同的實驗方法、同一個結論：

我們拿來評比 AI 寫程式能力的排行榜，測的是背誦能力，不是理解能力。

如果你正在把 LLM 產出的程式碼沒 review 就直接推上線，這些數字你該認真看一下。

如果你在做開發者工具，該問的不是「你 HumanEval 幾分」，而是「當程式碼長得不像訓練資料的時候，你的工具還行不行」。

来自圈子: Demo俱乐部

账号		自动登录	找回密码
密码			注册

戳破 AI 寫程式能力排行榜最大的假象

本帖子中包含更多资源