讓AI幫你讀PDF: OlmOCR工具包讓你輕鬆駕馭海量文檔!
大家有沒有遇過這種狀況:手上有一堆PDF文件,想要快速提取裡面的文字,或是分析裡面的內容,卻發現PDF的格式百百種,文字提取效果參差不齊,實在讓人頭痛?
現在,救星來了!今天要跟大家介紹一個超棒的工具包 olmOCR,它可以幫助你用AI的力量,輕鬆搞定各種PDF文件,讓文字提取和分析變得更簡單、更有效率!
什麼是 olmOCR?
簡單來說,olmOCR 是一個由 Allen Institute for Artificial Intelligence (AI2) 開發的工具包,它利用語言模型和視覺模型,專門處理 PDF 文件。透過 olmOCR,你可以:
- 高準確度文字提取: 即使是排版複雜、圖片穿插的PDF,也能提取出自然的文字。特別是,它運用了ChatGPT 4o來做自然文字解析。
- 快速比較不同處理流程: 提供工具讓你比較不同版本的處理流程,找出最佳方案。
- 過濾無用資訊: 自動過濾掉語言不符、或是為了SEO而產生的垃圾資訊,讓結果更乾淨。
- 模型微調: 提供 Qwen2-VL 和 Molmo-O 的微調程式碼,可以針對特定需求客製化模型。
- 大規模處理: 透過 Sglang,可以快速處理數百萬份 PDF 文件。
- Dolma文件檢視器: 方便你瀏覽從 PDF 產生的 Dolma 文件。
總之,olmOCR 就像一個 PDF 處理的瑞士刀,功能強大又全面!
olmOCR 有什麼厲害的地方?
- 專為「野生」PDF 設計: 很多PDF文件品質參差不齊,olmOCR就是為了應付這些真實世界的挑戰而生。
- 結合 AI 最新技術: 利用 ChatGPT 4o 等先進模型,確保最佳的文字解析效果。
- 開源免費: OlmOCR 是開源的,你可以自由使用、修改,甚至貢獻程式碼! (Apache 2.0 授權)
如何開始使用 olmOCR?
首先,你需要一些基本配備:
- NVIDIA GPU: 至少要有 20GB 的 GPU 記憶體,建議使用 RTX 4090、L40S、A100 或 H100。
- 足夠的硬碟空間: 至少需要 30GB 的可用空間。
接下來,按照以下步驟安裝 olmOCR:
- 安裝必要的工具:
sudo apt-get update sudo apt-get install poppler-utils ttf-mscorefonts-installer msttcorefonts fonts-crosextra-caladea fonts-crosextra-carlito gsfonts lcdf-typetools
- 建立 conda 環境:
conda create -n olmocr python=3.11 conda activate olmocr
- 下載並安裝 olmOCR:
git clone https://github.com/allenai/olmocr.git cd olmocr pip install -e .
- (可選) 安裝 sglang: 如果想要在 GPU 上運行,需要安裝 sglang。
pip install sgl-kernel==0.0.3.post1 --force-reinstall --no-deps pip install "sglang[all]==0.4.2" --find-links https://flashinfer.ai/whl/cu124/torch2.4/flashinfer/
安裝完成後,就可以開始使用 olmOCR 啦!
使用範例
單一 PDF 轉換:
python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/horribleocr.pdf
多個 PDF 轉換:
python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/*.pdf
轉換後的結果會以 JSON 格式儲存在 ./localworkspace
目錄中。
線上 Demo:
如果不想安裝,也可以先到 https://olmocr.allenai.org/ 體驗線上 Demo 喔!
進階應用:大規模 PDF 處理
如果你的目標是處理數百萬份 PDF,olmOCR 也支援多節點叢集部署,可以從 AWS S3 讀取 PDF,並利用 S3 儲存結果。詳細的設定方式可以參考 olmOCR 的 GitHub 頁面。
總結
OlmOCR 是一個強大、易用的 PDF 處理工具包,無論你是研究人員、資料分析師,還是需要處理大量 PDF 文件的使用者,都可以從中受益。趕快試試看,讓 AI 成為你處理 PDF 的最佳助手吧!
相關連結:
- GitHub 頁面: https://github.com/allenai/olmocr
- 線上 Demo: https://olmocr.allenai.org/
- 論文連結: https://olmocr.allenai.org/papers/olmocr.pdf ( 僅供參考, 此連結可能不存在)
希望這篇文章對你有幫助!如果有任何問題,歡迎在下方留言討論喔!
參考閱讀
https://github.com/allenai/olmocr