作者error405 (流河=L)
看板AI_Art
标题[闲聊] deepseek做出了超强OCR模型
时间Wed Oct 22 10:47:26 2025
https://grok.com/share/c2hhcmQtNA%3D%3D_5f4f0797-59c4-44e1-b893-f11034e4abeb
(前略)
DeepSeek-OCR 确实是一款高效低耗的 OCR 模型,专为处理大量视觉-文本数据而设计,
特别适合用於生成高质量训练数据,进一步训练其他 AI 模型(例如大型语言模型 LLM)
。以下是对你理解的补充和精简说明:
高效低耗的核心:DeepSeek-OCR 通过「上下文光学压缩」(Contexts Optical
Compression)技术,将大量图像或文件内容压缩成极少的视觉 token(例如一页 PDF 仅
需 100 个 token),同时保持高精度(97% 在 10x 压缩)。这大幅降低计算和记忆体需
求,解决长上下文处理的瓶颈。
扫描大量资料:它在单个 A100-40G GPU 上能以 2500 token/秒的速度处理 PDF,日产
20 万页以上,适合大规模文件数字化。训练数据涵盖 30 万 PDF 页、1000 万自然场景
OCR 和多类专业数据(图表、化学公式等),非常适合生成结构化数据。
训练其他 AI:DeepSeek-OCR 的输出(如 Markdown 或结构化文本)可直接作为 LLM 的
高质量训练数据,特别在多语言、科学图表和复杂布局上表现出色,推动 GPT-5 级模型
的视觉-文本能力。
开源优势:MIT 许可,支援 vLLM 和 Transformers,易於部署和定制,适合企业或研究
者用於大规模数据处理。
简单说,它是一个「省力神器」,能快速、精准地将海量文件转成 AI 可用的数据,特别
适合需要高效 OCR 的场景,比如数字化档案或训练视觉语言模型。不过,它在极复杂表
格或手写识别上可能还需调优。
--
参考:
https://github.com/deepseek-ai/DeepSeek-OCR
https://x.com/BrianRoemmele/status/1980307485719429602
悲报 AI比你更会读书学习了
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.36.201.220 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/AI_Art/M.1761101249.A.41E.html
1F:→ Supasizeit: 这没讲到重点 他是用latent储存token 要拿来用还是一 10/22 14:28
2F:→ Supasizeit: 样要解压回文字 而且97%准确 很糟吧 10/22 14:28