作者uioty (uioty)
看板Programming
标题[问题] PDF的格式比对
时间Thu Dec 10 15:36:21 2015
各位好,
关於PDF格式比对的问题是这样的:
假设系统要求PDF文件档案的格式如下:
边界设定N inch
字体需为 a, b, c 三种其中一种
字体大小介於10-12pt之间
页数用阿拉伯数字编排
等等
然後这个系统可以上传PDF,回传此份PDF是否符合格式
更进一步的可以说明格式哪里不符
我自己的想法有两个
一个是转成word,然後去抓word档案的metadata来比对
可是转成word似乎会有格式跑掉的风险
假设PDF中有表格或者图片
转换格式容易跑掉,这样处理边界问题可能就会有误
不过转成word的话
我觉得至少可以解决字体、字体大小以及页数是否用阿拉伯数字编排的问题
另个想法是用影像处理的想法去做
所以需要先有一个标准的sample档案
然後把pdf转成图档以後用图像的方式比对
我觉得这应该可以解决边界及字体大小的问题
不晓得有没有其他的方法或者想法呢?
谢谢
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 97.93.122.75
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Programming/M.1449732983.A.333.html
1F:推 haha02: 找可以直接解析PDF的lib吧?iText之类的 112.65.189.156 12/10 21:44