作者error405 (流河=L)
看板AI_Art
標題[閒聊] deepseek做出了超強OCR模型
時間Wed Oct 22 10:47:26 2025
https://grok.com/share/c2hhcmQtNA%3D%3D_5f4f0797-59c4-44e1-b893-f11034e4abeb
(前略)
DeepSeek-OCR 確實是一款高效低耗的 OCR 模型,專為處理大量視覺-文本數據而設計,
特別適合用於生成高質量訓練數據,進一步訓練其他 AI 模型(例如大型語言模型 LLM)
。以下是對你理解的補充和精簡說明:
高效低耗的核心:DeepSeek-OCR 通過「上下文光學壓縮」(Contexts Optical
Compression)技術,將大量圖像或文件內容壓縮成極少的視覺 token(例如一頁 PDF 僅
需 100 個 token),同時保持高精度(97% 在 10x 壓縮)。這大幅降低計算和記憶體需
求,解決長上下文處理的瓶頸。
掃描大量資料:它在單個 A100-40G GPU 上能以 2500 token/秒的速度處理 PDF,日產
20 萬頁以上,適合大規模文件數字化。訓練數據涵蓋 30 萬 PDF 頁、1000 萬自然場景
OCR 和多類專業數據(圖表、化學公式等),非常適合生成結構化數據。
訓練其他 AI:DeepSeek-OCR 的輸出(如 Markdown 或結構化文本)可直接作為 LLM 的
高質量訓練數據,特別在多語言、科學圖表和複雜布局上表現出色,推動 GPT-5 級模型
的視覺-文本能力。
開源優勢:MIT 許可,支援 vLLM 和 Transformers,易於部署和定製,適合企業或研究
者用於大規模數據處理。
簡單說,它是一個「省力神器」,能快速、精準地將海量文件轉成 AI 可用的數據,特別
適合需要高效 OCR 的場景,比如數字化檔案或訓練視覺語言模型。不過,它在極複雜表
格或手寫識別上可能還需調優。
--
參考:
https://github.com/deepseek-ai/DeepSeek-OCR
https://x.com/BrianRoemmele/status/1980307485719429602
悲報 AI比你更會讀書學習了
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.201.220 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/AI_Art/M.1761101249.A.41E.html
1F:→ Supasizeit: 這沒講到重點 他是用latent儲存token 要拿來用還是一 10/22 14:28
2F:→ Supasizeit: 樣要解壓回文字 而且97%準確 很糟吧 10/22 14:28