翻譯|行業資訊|編輯:胡欣星|2025-02-19 14:59:58.310|閱讀 94 次
概述:這篇文章比較了 DeepSeek-R1 與 OpenAI 模型在 Kotlin 編程語言方面的表現,評估了它們在代碼生成、問題解答和推理能力上的優劣,并提供了相關基礎
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
隨著 AI 模型的快速發展,DeepSeek-R1 作為 OpenAI 的有力競爭者正在引起廣泛關注。那么,這些模型對 Kotlin 的理解程度如何?它們能否生成可靠的代碼,解釋復雜概念,并協助調試呢?
JetBrains Research 團隊針對最新的 AI 模型,包括 DeepSeek-R1、OpenAI o1 和 OpenAI o3-mini,進行了測試。他們采用了 KotlinHumanEval 和一個全新的 Kotlin 問答基準,用以評估這些模型的綜合表現,排名并分析了 DeepSeek 模型在實際 Kotlin 問題中的回答能力,幫助開發者了解這些模型的優勢與局限。
KotlinHumanEval 基準
長期以來,OpenAI 的 HumanEval 基準一直是衡量 AI 模型編程能力的關鍵指標,它通過檢測模型根據文檔字符串生成函數并通過單元測試的能力來評分。JetBrains Research 團隊此前推出了 KotlinHumanEval,該基準測試采用與 HumanEval 相同的測試,但針對的是符合 Kotlin 語言習慣的代碼。
自發布以來,各模型在 KotlinHumanEval 上的得分顯著提升。其中,OpenAI 的領先模型成功率達到 91%,創下新高。而開源的 DeepSeek-R1 也表現不俗,能夠完成大部分任務。以下是各模型在 KotlinHumanEval 基準上的表現:
模型名稱 | 成功率(%) |
---|---|
OpenAI o1 | 91.93% |
DeepSeek-R1 | 88.82% |
OpenAI o1-preview | 88.82% |
OpenAI o3-mini | 86.96% |
OpenAI o1-mini | 86.34% |
Google Gemini 2.0 Flash | 83.23% |
Anthropic Claude 3.5 Sonnet | 80.12% |
OpenAI GPT-4o | 80.12% |
OpenAI GPT-4o mini | 77.02% |
新興基準測試
除 KotlinHumanEval 外,近年來還出現了一些新的多語言評測基準。例如,McEval 涵蓋了 40 種編程語言,包括 Kotlin,并提供解釋示例;M2rc-Eval 也聲稱支持 Kotlin,但目前尚未公開相關數據集。
盡管現有基準主要考察代碼生成能力,但 JetBrains Research 發現,開發者在代碼生成之外,還常用 AI 工具來解釋代碼,例如理解錯誤原因或分析代碼含義。因此,僅靠傳統基準無法全面評估模型在 Kotlin 領域的表現。
Kotlin_QA 問答基準
為彌補這一不足,JetBrains Research 推出了 Kotlin_QA 基準。他們收集了 47 個 Kotlin 相關問題,這些問題由開發者宣傳大使準備,或來自 Kotlin 公開 Slack 頻道。每個問題均由 Kotlin 專家給出參考答案,然后邀請不同的 AI 模型作答。
以下為 Slack 頻道中一位開發者提出的示例問題:
“我有一個 Kotlin 服務端應用程序運行在 k8s 的 pod 中。在某些情況下,k8s 會發送 SIGTERM 或 SIGKILL 信號終止我的應用程序。在 Kotlin 中,有沒有比 Runtime.getRuntime().addShutdownHook(myShutdownHook) 更優雅的關閉方式?”
開發者可以嘗試自己回答,然后對比 AI 模型的答案。
AI 模型回答質量評估
JetBrains Research 采用 LLM-as-a-judge 方法評估模型回答質量,即用 AI 模型充當評委,對比各模型的回答與專家答案,評分范圍為 1 到 10。
由于常見 LLM 模型的評判結果可能不一致,團隊特別篩選了評審模型,考察標準包括:
最終測試表明,GPT-4o(2024 年 6 月 8 日版本)是最可靠的評審模型,它的評分與人類評估高度一致,并能有效識別低質量回答。
Kotlin_QA 排行榜
模型名稱 | 平均評分 |
---|---|
DeepSeek-R1 | 8.79 |
OpenAI o3-mini | 8.70 |
OpenAI o1 | 8.62 |
OpenAI o1-preview | 8.60 |
OpenAI o1-mini | 8.40 |
OpenAI GPT-4o (2024-11-20 版本) | 8.40 |
Anthropic Claude 3.5 Sonnet | 8.38 |
整體來看,最新的 OpenAI 模型和 DeepSeek-R1 在 Kotlin 領域表現優異。DeepSeek-R1 在開放性問題和推理能力方面略勝一籌。然而,所有模型仍存在知識不完整、信息滯后以及常見 LLM 錯誤(如計數錯誤、上下文丟失)等問題。
如果想了解更多 JetbrainsIDE 的強大功能,聯系在線客服下載完整版試用。
歡迎下載|體驗更多Jetbrains產品
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn