還記得考試時,老師常提醒我們要驗算嗎?其實驗算就是一種反向思考,從答案回推到題目,確認解題過程有沒有問題。現在,科學家們也把這個方法應用到 AI 身上,讓大型語言模型(LLM)也能學會「倒著想」,進而提升它們的推理能力!
什麼是反向思考?
- 想像一下,我們要解一道數學題:「小華有 3 顆蘋果,小美有 2 顆,他們共有幾顆蘋果?」
- 正向思考是從題目出發,一步步計算:3 + 2 = 5,所以答案是 5 顆。
- 反向思考則是從答案出發,反問:「如果小華和小美共有 5 顆蘋果,而小美有 2 顆,那小華有幾顆?」
- 透過反向思考,我們可以驗證正向思考的結果是否正確。
如何教 AI 反向思考?
科學家們開發了一個叫做「反向增強思考」(REVTHINK)的框架,讓 AI 也能學會反向思考。這個框架包含兩個步驟:
- 資料增強:
- 科學家們先用一個能力更強的 AI 模型(稱為「教師模型」)來擴充現有的資料集。
- 他們會用一些引導性的提示,讓教師模型針對每道題目生成以下內容:
- 正向推理過程
- 反向問題
- 反向推理過程
- 這些內容會被加入到資料集中,讓另一個 AI 模型(稱為「學生模型」)學習。
- 學生模型學習:
- 學生模型會使用擴充後的資料集進行訓練。
- 訓練過程中,學生模型會學習三件事:
- 從題目生成正確的正向推理過程
- 從原始題目生成反向問題
- 從反向問題生成反向推理過程
- 透過這樣的訓練,學生模型就能學會如何反向思考,並用它來驗證自己的推理結果。
REVTHINK 的效果如何?
- 科學家們用 REVTHINK 訓練了兩種不同規模的學生模型,分別是 Mistral-7B-Instruct 和 Gemma-7B-Instruct。
- 他們在 12 個涵蓋常識推理、數學推理、邏輯推理和自然語言推理的資料集上測試了這些模型。
- 結果顯示,REVTHINK 讓學生模型的推理能力大幅提升,表現比其他方法(例如只使用正向思考的方法)還要好!
REVTHINK 的優點:
- 提升推理能力: 讓 AI 學會反向思考,能更準確地解決問題。
- 節省訓練資料: 即使只用少量資料訓練,也能達到很好的效果。
- 應用範圍廣泛: 可以應用在各種不同類型的推理任務上。
總結來說,REVTHINK 是一種很有潛力的技術,它讓 AI 能像人類一樣進行反向思考,進而提升它們的推理能力。未來,我們可以期待看到更多 AI 應用 REVTHINK 來解決更複雜、更困難的問題。
論文全文 : Reverse Thinking Makes LLMs Stronger Reasoners