[無偏見報導]Anthropic 推出的 Sonnet 4.5，程式編寫能力超越 GPT-5 Codex。

[關鍵字]：Claude Sonnet 4.5、程式編寫、AI 模型、Anthropic、GPT-5 Codex

萬眾矚目的程式編寫新星：Anthropic 推出 Claude Sonnet 4.5

人工智慧（AI）領域持續快速發展，新模型不斷湧現，其中，Anthropic 最新推出的 Claude Sonnet 4.5 備受矚目，它被官方譽為「迄今最強」的程式編寫模型。在多項基準測試中，Sonnet 4.5 展現了強大的實力，更被視為 OpenAI 的 GPT-5 Codex 的有力競爭者。

內文：

Anthropic 宣布推出 Claude Sonnet 4.5，這款中階旗艦模型在多項測試中表現優異。尤其在模擬真實世界環境的 OSWorld 測試中，Sonnet 4.5 取得了 61.4% 的高分，超越了 GPT-5 Codex 與 Google 的 Gemini 2.5 Pro。不僅如此，它在 SWE-bench Verified 測試中也取得了 77.2% 的佳績，顯示其在程式開發方面的強大能力。

Sonnet 4.5 的核心優勢在於其處理長時程任務的穩定性。它能夠在複雜的多步長任務中連續運行超過 30 小時，這使得它在處理需要長時間運行的程式碼編寫和代理任務時，更具優勢。此外，Anthropic 還聲稱已降低了模型在「逢迎」、「欺瞞」等方面的風險行為，提高了模型的安全性。

Sonnet 4.5 的速度也令人印象深刻。根據開發者 Simon Willison 的測試，它在程式碼評審任務中的速度比 GPT-5 Codex 快得多。Kieran Klaassen 提到，在 Cora 的郵件管理工具專案中，Sonnet 4.5 僅用 20 分鐘就修復了一個先前 Claude Opus 4.1 無法解決的程式錯誤，突顯了其高效性。

為了配合模型升級，Anthropic 同步發布了 Claude Code 2.0 和 Claude Agent SDK，進一步擴展了 Claude 生態系統的功能。同時，Sonnet 4.5 的 API 定價策略也頗具吸引力，以更具競爭力的價格提供了接近旗艦級別的性能，旨在搶佔市場份額，對競品形成價格壓力。

個人心得：

AI 模型的進步速度令人驚嘆。Claude Sonnet 4.5 在程式編寫和代理任務方面的優異表現，讓我們看到了 AI 在實際應用中的巨大潛力。隨著 AI 技術的不斷成熟，我們有理由期待它在更多領域帶來突破。

事件癥結點：

此次 Anthropic 推出的 Sonnet 4.5，不僅在技術上有所突破，其定價策略也值得關注。低輸入價格和高輸出價格的組合，旨在吸引更多使用者，並在算力消耗和性能之間取得平衡。這也反映出，AI 模型的競爭不僅僅是技術的比拼，更涉及商業模式的創新。

參考資料與本文對照：

數位時代的文章中提到，Claude Sonnet 4.5 在多項基準測試中超越了 GPT-5 Codex 與 Google 的 Gemini 2.5 Pro，並在 OSWorld 測試中取得了優異的成績，這支持了本文對於 Sonnet 4.5 在程式開發方面具有強大能力的觀點。
文章中引用了知名開發者 Simon Willison 的測試結果，證明 Sonnet 4.5 在程式碼評審任務中的速度優於 GPT-5 Codex，這支持了本文關於 Sonnet 4.5 更快、更高效的觀點。
Anthropic 官方宣稱 Sonnet 4.5 在多項基準測試中取得領先，以及降低模型風險行為的聲明，支持了本文對 Sonnet 4.5 的性能和安全性的描述。