设为首页收藏本站

 找回密码
 注册

QQ登录

只需一步,快速开始

查看: 1|回复: 0

戳破 AI 寫程式能力排行榜最大的假象

[复制链接]
发表于 昨天 19:17 | 显示全部楼层 |阅读模式
本帖最后由 Test 于 2026-3-3 19:19 编辑

2026-03-02 Devon Chan
最新研究戳破了 AI 寫程式能力排行榜最大的假象。

LLM 在標準程式測驗拿到 84-89 分。

丟真正上線的程式碼給它?25-34 分。

這不叫落差,這根本是兩個世界。

怎麼回事:

研究團隊拿真實的開源專案來出題:有繼承、有相依套件、有型別系統、有實際整合的複雜度。

然後拿那些在 HumanEval 排行榜上屌打全場的模型來跑。

結果被打臉打到腫。

模型不是因為題目「比較難」才寫不出來,而是因為題目是「真的」。人造測驗只考你能不能照著一段乾淨的說明寫出一個獨立的 function。但實戰程式碼要搞懂繼承架構、框架怎麼串、專案裡自訂的工具怎麼用。

根本不同的世界,卻用同一張排行榜在比。

還沒完,後面更慘。

另一組研究對 9 個 LLM 做了 60 萬次 debug 實驗。程式裡埋了一個 bug,LLM 找到了。接著他們只是改個變數名稱、加一行註解、把 function 順序調一下,bug 完全沒動。

然後 LLM 就找不到任何 bug 了。

78% 的情況下,這種不影響程式行為的表面改動,就足以讓模型完全抓不到 bug。

光是把 function 順序調換,debug 準確率就掉了 83%。

這些模型根本不是在讀懂程式碼,而是在比對它跟訓練資料裡的程式碼長得像不像。

第三組研究從另一個方向驗證了同一件事:把真實程式碼做混淆處理——改掉符號、打亂結構、換掉語意,但功能完全一樣——LLM 的通過率最多暴跌 62.5%。

研究者管這叫「熟悉感專家」問題。LLM 對它背過的程式碼表現很好,但只要你拿邏輯一模一樣、長相不一樣的東西給它看,它就直接當機。

三篇論文、三套完全不同的實驗方法、同一個結論:

我們拿來評比 AI 寫程式能力的排行榜,測的是背誦能力,不是理解能力。

如果你正在把 LLM 產出的程式碼沒 review 就直接推上線,這些數字你該認真看一下。

如果你在做開發者工具,該問的不是「你 HumanEval 幾分」,而是「當程式碼長得不像訓練資料的時候,你的工具還行不行」。

来自圈子: Demo俱乐部

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?注册

×
您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|小黑屋|BC Morning Website ( Best Deal Inc. 001 )  

GMT-8, 2026-3-4 14:16 , Processed in 0.011876 second(s), 16 queries .

Supported by Weloment Group X3.5

© 2008-2026 Best Deal Online

快速回复 返回顶部 返回列表