日韩一区二区三级,99中文字幕在线观看,老湿影院免费

OpenAI 與 DeepSeek：誰更懂 Kotlin？

翻譯|行業資訊|編輯：胡欣星|2025-02-19 14:59:58.310|閱讀 94 次

概述：這篇文章比較了 DeepSeek-R1 與 OpenAI 模型在 Kotlin 編程語言方面的表現，評估了它們在代碼生成、問題解答和推理能力上的優劣，并提供了相關基礎

隨著 AI 模型的快速發展，DeepSeek-R1 作為 OpenAI 的有力競爭者正在引起廣泛關注。那么，這些模型對 Kotlin 的理解程度如何？它們能否生成可靠的代碼，解釋復雜概念，并協助調試呢？

JetBrains Research 團隊針對最新的 AI 模型，包括 DeepSeek-R1、OpenAI o1 和 OpenAI o3-mini，進行了測試。他們采用了 KotlinHumanEval 和一個全新的 Kotlin 問答基準，用以評估這些模型的綜合表現，排名并分析了 DeepSeek 模型在實際 Kotlin 問題中的回答能力，幫助開發者了解這些模型的優勢與局限。

AI 模型 Kotlin 能力評測

KotlinHumanEval 基準

長期以來，OpenAI 的 HumanEval 基準一直是衡量 AI 模型編程能力的關鍵指標，它通過檢測模型根據文檔字符串生成函數并通過單元測試的能力來評分。JetBrains Research 團隊此前推出了 KotlinHumanEval，該基準測試采用與 HumanEval 相同的測試，但針對的是符合 Kotlin 語言習慣的代碼。

自發布以來，各模型在 KotlinHumanEval 上的得分顯著提升。其中，OpenAI 的領先模型成功率達到 91%，創下新高。而開源的 DeepSeek-R1 也表現不俗，能夠完成大部分任務。以下是各模型在 KotlinHumanEval 基準上的表現：

模型名稱	成功率（%）
OpenAI o1	91.93%
DeepSeek-R1	88.82%
OpenAI o1-preview	88.82%
OpenAI o3-mini	86.96%
OpenAI o1-mini	86.34%
Google Gemini 2.0 Flash	83.23%
Anthropic Claude 3.5 Sonnet	80.12%
OpenAI GPT-4o	80.12%
OpenAI GPT-4o mini	77.02%

新興基準測試

除 KotlinHumanEval 外，近年來還出現了一些新的多語言評測基準。例如，McEval 涵蓋了 40 種編程語言，包括 Kotlin，并提供解釋示例；M2rc-Eval 也聲稱支持 Kotlin，但目前尚未公開相關數據集。

盡管現有基準主要考察代碼生成能力，但 JetBrains Research 發現，開發者在代碼生成之外，還常用 AI 工具來解釋代碼，例如理解錯誤原因或分析代碼含義。因此，僅靠傳統基準無法全面評估模型在 Kotlin 領域的表現。

Kotlin_QA 問答基準

為彌補這一不足，JetBrains Research 推出了 Kotlin_QA 基準。他們收集了 47 個 Kotlin 相關問題，這些問題由開發者宣傳大使準備，或來自 Kotlin 公開 Slack 頻道。每個問題均由 Kotlin 專家給出參考答案，然后邀請不同的 AI 模型作答。

以下為 Slack 頻道中一位開發者提出的示例問題：

“我有一個 Kotlin 服務端應用程序運行在 k8s 的 pod 中。在某些情況下，k8s 會發送 SIGTERM 或 SIGKILL 信號終止我的應用程序。在 Kotlin 中，有沒有比 Runtime.getRuntime().addShutdownHook(myShutdownHook) 更優雅的關閉方式？”

開發者可以嘗試自己回答，然后對比 AI 模型的答案。

AI 模型回答質量評估

JetBrains Research 采用 LLM-as-a-judge 方法評估模型回答質量，即用 AI 模型充當評委，對比各模型的回答與專家答案，評分范圍為 1 到 10。

由于常見 LLM 模型的評判結果可能不一致，團隊特別篩選了評審模型，考察標準包括：

能識別無意義回答，例如隨機字符串；
評分與人類評估 OpenAI o1-preview 回答的結果一致性；
能區分簡單模型與綜合能力強的模型。

評判模型選擇過程

最終測試表明，GPT-4o（2024 年 6 月 8 日版本）是最可靠的評審模型，它的評分與人類評估高度一致，并能有效識別低質量回答。

Kotlin_QA 排行榜

模型名稱	平均評分
DeepSeek-R1	8.79
OpenAI o3-mini	8.70
OpenAI o1	8.62
OpenAI o1-preview	8.60
OpenAI o1-mini	8.40
OpenAI GPT-4o (2024-11-20 版本)	8.40
Anthropic Claude 3.5 Sonnet	8.38