作者yeurus (yeurus)
看板Python
标题[问题] ptt 文章 parse
时间Tue Aug 14 11:45:32 2012
大家好,小弟第一次来这里问问题,目前在做ptt抓文机器人,
已经能成功进入文章,但parse文章的时候出问题,
仔细看原始ascii码和我的regx也看不出来,所以想请教有相关经验的大大
我的regx:
/36m[─]{10,}([\s\S]+)(3[3,4];4[0-7]m 浏览)/
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 1.160.28.188
1F:→ kdjf:第二次出现行数时,格式就不一样了 08/14 13:28
2F:→ yeurus:在第二次是用/([\s\S+)([3[3,4];4[0-7]m 浏览)/ 08/14 14:59
3F:→ kdjf:然後第3次也不一样, 我觉得你直接抓plaintext会比较容易 08/14 21:33
4F:→ uranusjr:在抓进来的时候先把色码直接滤掉再比对应该会比较快... 08/14 22:36
5F:→ uranusjr:虽然我记得是第一页和最後一页会不一样而已, 其他都一样 08/14 22:37