OpenAI推出全新AI模型o3和o4-mini,視覺理解能力大躍進!
事件開頭短結論: OpenAI 最新發表的 o3 和 o4-mini 模型,不僅在數學、程式碼、科學等領域表現優異,更首次具備了「視覺思考」能力,能理解圖片內容並進行推理,將為AI應用帶來更多可能性。
AI 競賽進入白熱化階段!OpenAI 近日推出了兩款全新的 AI 推理模型,分別是 o3 和 o4-mini。這兩款模型最大的亮點在於,它們不只是單純的文字處理工具,更具備了「視覺思考」能力,能夠理解圖片的內容,並將視覺資訊融入到推理過程中。簡單來說,現在你可以上傳一張白板草圖或 PDF 檔案中的圖表,讓 AI 分析並與你討論其中的內容。
o3:更強大的推理能力
OpenAI 將 o3 稱為有史以來最強大的推理模型,在數學、程式碼、推理、科學和視覺理解等測試中,都超越了以往的模型。特別是在程式碼能力方面,o3 在 SWE-bench verified 測試中取得了 69.1% 的高分,而 o4-mini 也達到了 68.1%,超越了 OpenAI 先前推出的 o3-mini (49.3%) 以及 Claude 3.7 Sonnet (62.3%)。
o4-mini:兼顧速度與成本效益
相較於 o3,o4-mini 在價格、速度和效能之間取得了平衡,對於需要考慮成本效益的開發者來說,是一個更具吸引力的選擇。
「視覺思考」能力:AI發展的新里程碑
o3 和 o4-mini 的另一個重要突破是它們的「視覺思考」能力。使用者可以上傳圖片到 ChatGPT,例如白板草圖或 PDF 中的圖表,AI 模型會分析這些圖像,並在推理過程中加以利用。這項能力讓 AI 能夠理解模糊或低品質的圖像,並執行縮放或旋轉等操作。
整合多種工具,解決複雜問題
OpenAI 表示,o3 和 o4-mini 是首批能夠獨立使用 ChatGPT 所有工具的模型,包括網路瀏覽、Python 程式碼執行、圖像理解和圖像生成。這使得它們能夠更有效地解決複雜的多步驟問題,並朝著獨立行動的方向邁進。
實際應用:程式碼、圖片處理、網路搜尋
除了圖像處理能力外,o3 和 o4-mini 還可以直接在瀏覽器中透過 ChatGPT 的 Canvas 功能執行 Python 程式碼,並在被問及時事時搜尋網路。
開發者也能使用
除了 ChatGPT 之外,o3、o4-mini 和 o4-mini-high 這三款模型也將透過 OpenAI 面向開發者的 Chat Completions API 和 Responses API 提供使用,讓工程師能夠以基於使用量的費率,使用 OpenAI 的模型來構建應用程式。
價格策略
OpenAI 對於 o3 的收費相對較低,每百萬個輸入 token 收費 10 美元,每百萬個輸出 token 收費 40 美元。對於 o4-mini,OpenAI 的收費與 o3-mini 相同,每百萬個輸入 token 收費 1.10 美元,每百萬個輸出 token 收費 4.40 美元。
OpenAI 的下一步:GPT-5?
OpenAI 執行長 Sam Altman 表示,o3 和 o4-mini 可能是 GPT-5 推出之前,ChatGPT 中最後的獨立 AI 推理模型。GPT-5 預計將整合傳統模型和推理模型,帶來更強大的 AI 體驗。
社群反應
OpenAI 的使用者社群一直以來都對其 AI 模型的命名方式感到困惑,執行長 Sam Altman 也在 X 上發文表示,考慮在今年夏天之前改進模型的命名方式。
安全考量
OpenAI 強調,這兩款模型都經過了最嚴格的安全測試,並更新了其「準備框架」。
個人心得: OpenAI 的 o3 和 o4-mini 模型展現了 AI 在視覺理解方面取得的重大進展,讓 AI 能夠更深入地理解世界。
參考閱讀
- https://openai.com/index/introducing-o3-and-o4-mini/
- https://www.reddit.com/r/singularity/comments/1k0piul/introducing_openai_o3_and_o4mini/
- https://www.nytimes.com/2025/04/16/technology/openai-reasoning-models-o3-o4-mini.html
- https://techcrunch.com/2025/04/16/openai-launches-a-pair-of-ai-reasoning-models-o3-and-o4-mini/