OpenAI推出o3和o4-miniAI模型領先於競爭對手！

OpenAI推出全新AI模型o3和o4-mini，視覺理解能力大躍進！

事件開頭短結論： OpenAI 最新發表的 o3 和 o4-mini 模型，不僅在數學、程式碼、科學等領域表現優異，更首次具備了「視覺思考」能力，能理解圖片內容並進行推理，將為AI應用帶來更多可能性。

AI 競賽進入白熱化階段！OpenAI 近日推出了兩款全新的 AI 推理模型，分別是 o3 和 o4-mini。這兩款模型最大的亮點在於，它們不只是單純的文字處理工具，更具備了「視覺思考」能力，能夠理解圖片的內容，並將視覺資訊融入到推理過程中。簡單來說，現在你可以上傳一張白板草圖或 PDF 檔案中的圖表，讓 AI 分析並與你討論其中的內容。

o3：更強大的推理能力

OpenAI 將 o3 稱為有史以來最強大的推理模型，在數學、程式碼、推理、科學和視覺理解等測試中，都超越了以往的模型。特別是在程式碼能力方面，o3 在 SWE-bench verified 測試中取得了 69.1% 的高分，而 o4-mini 也達到了 68.1%，超越了 OpenAI 先前推出的 o3-mini (49.3%) 以及 Claude 3.7 Sonnet (62.3%)。

o4-mini：兼顧速度與成本效益

相較於 o3，o4-mini 在價格、速度和效能之間取得了平衡，對於需要考慮成本效益的開發者來說，是一個更具吸引力的選擇。

「視覺思考」能力：AI發展的新里程碑

o3 和 o4-mini 的另一個重要突破是它們的「視覺思考」能力。使用者可以上傳圖片到 ChatGPT，例如白板草圖或 PDF 中的圖表，AI 模型會分析這些圖像，並在推理過程中加以利用。這項能力讓 AI 能夠理解模糊或低品質的圖像，並執行縮放或旋轉等操作。

整合多種工具，解決複雜問題

OpenAI 表示，o3 和 o4-mini 是首批能夠獨立使用 ChatGPT 所有工具的模型，包括網路瀏覽、Python 程式碼執行、圖像理解和圖像生成。這使得它們能夠更有效地解決複雜的多步驟問題，並朝著獨立行動的方向邁進。

實際應用：程式碼、圖片處理、網路搜尋

除了圖像處理能力外，o3 和 o4-mini 還可以直接在瀏覽器中透過 ChatGPT 的 Canvas 功能執行 Python 程式碼，並在被問及時事時搜尋網路。

開發者也能使用

除了 ChatGPT 之外，o3、o4-mini 和 o4-mini-high 這三款模型也將透過 OpenAI 面向開發者的 Chat Completions API 和 Responses API 提供使用，讓工程師能夠以基於使用量的費率，使用 OpenAI 的模型來構建應用程式。

價格策略

OpenAI 對於 o3 的收費相對較低，每百萬個輸入 token 收費 10 美元，每百萬個輸出 token 收費 40 美元。對於 o4-mini，OpenAI 的收費與 o3-mini 相同，每百萬個輸入 token 收費 1.10 美元，每百萬個輸出 token 收費 4.40 美元。

OpenAI 的下一步：GPT-5？

OpenAI 執行長 Sam Altman 表示，o3 和 o4-mini 可能是 GPT-5 推出之前，ChatGPT 中最後的獨立 AI 推理模型。GPT-5 預計將整合傳統模型和推理模型，帶來更強大的 AI 體驗。

社群反應

OpenAI 的使用者社群一直以來都對其 AI 模型的命名方式感到困惑，執行長 Sam Altman 也在 X 上發文表示，考慮在今年夏天之前改進模型的命名方式。

安全考量

OpenAI 強調，這兩款模型都經過了最嚴格的安全測試，並更新了其「準備框架」。

個人心得： OpenAI 的 o3 和 o4-mini 模型展現了 AI 在視覺理解方面取得的重大進展，讓 AI 能夠更深入地理解世界。

參考閱讀

https://openai.com/index/introducing-o3-and-o4-mini/
https://www.reddit.com/r/singularity/comments/1k0piul/introducing_openai_o3_and_o4mini/
https://www.nytimes.com/2025/04/16/technology/openai-reasoning-models-o3-o4-mini.html
https://techcrunch.com/2025/04/16/openai-launches-a-pair-of-ai-reasoning-models-o3-and-o4-mini/