Meta 釋出 Open Molecules 25 (OMol25) 資料集:加速 AI 驅動的化學研究
事件開頭短結論:Meta 釋出了迄今為止最大的化學資料集 OMol25,以及通用原子模型 UMA,旨在加速藥物開發、電池材料和催化劑的研究,並帶來了顯著的效率提升。
Meta 旗下的 FAIR Chemistry 團隊,近期釋出了 Open Molecules 25 (OMol25) 資料集,這是一個龐大的高精度資料集,其中包含了超過 1 億個分子計算的資料點,遠超其他公開可用的同類資料集。這個資料集涵蓋了多種分子類型,包括小型有機化合物、生物分子(如蛋白質和 DNA 片段)、金屬複合物和電解質。此外,它還包含了關於電荷態、自旋態、各種空間排列(構象)以及與化學反應相關的資料,提供了詳細的化學性質資料,如能量、力值、電荷分佈和軌道。
事件重點:
- 資料集規模空前: OMol25 資料集包含超過 8300 萬個獨特的分子系統,計算量超過 60 億 CPU 核心小時,堪稱化學領域的壯舉。
- 覆蓋範圍廣泛: 資料集涵蓋了多種分子類型,包括有機小分子、生物分子、金屬複合物和電解質等。
- 精度高: OMol25 的資料是在 ωB97M-V/def2-TZVPD 理論水準下生成的,確保了資料的高品質和高精度。
- 伴隨的 UMA 模型: 與 OMol25 一同釋出的還有通用原子模型 (UMA)。這個模型可以預測原子級別的化學性質,並且比傳統的計算方法快得多。 UMA 是一個通用模型,能夠處理多種應用,從分子模擬(用於藥物發現)到材料和催化研究。
- 伴隨抽樣技術: Meta 還推出了一種名為「伴隨抽樣」的新 AI 分子模擬方法。 即使沒有真實樣本,此技術也能學習並提出新的分子結構。
個人心得:
這個資料集的發布,對化學研究領域無疑是一場革命。 想像一下,過去需要數天才能完成的分子模擬和計算,現在可以在幾秒鐘內完成。這將大大加速藥物篩選和材料開發的進程。同時,伴隨抽樣技術的出現,也為 AI 探索新的分子結構提供了更有效率的手段。
透過 OMol25 和 UMA 模型,研究人員可以快速篩選成千上萬個潛在新分子,並在實驗室合成之前就評估它們的潛力。 這不僅節省了時間和資源,也為科學發現開闢了新的可能性。
目前,OMol25 資料集和 UMA 模型都已在 Hugging Face 平台上開放,有興趣的讀者可以前往探索。 此次的發布,再次證明了 AI 在化學領域的應用潛力,也預示著一個全新的研究時代的到來。
參考閱讀
- https://arxiv.org/abs/2505.08762
- https://www.faccts.de/omol25-dataset/
- https://huggingface.co/facebook/OMol25
- https://www.linkedin.com/posts/ncfrey_the-open-molecules-2025-omol25-dataset-activity-7328781294375432194-mMp9