作者FreedomMax (FreedomKnight)
看板Python
标题[问题] 请问抓网页标签有哪些推荐的 lib
时间Thu Jan 10 02:15:05 2013
今天我试着要用 HTMLParser 去抓网页的标签
可是我怎麽觉得 HTMLParser 也根本还是土法炼钢呀?
他顶多是帮忙了拆掉角括弧还有帮我记录 tag_name tag_attr 之类的
可是好像无法直接抓 tag id 去对照里面的资料
我今天有用了一会 Beautiful Soup 很不赖,还会帮我做tree
还可以用 find 去找 tag
不过对他们用的结构还是有点不太了解,以为 find 到了还可以找到他的 sub tag
跟 sibling
这种 parser 好像比较好用,所以我查了一下 lxml 好像也可以抓 html
不知道两者之间如何,还有我是否误会了 HTMLParser
该不会其实还需要搭配内建的 xml parser?
(还有个小需求, support python3 佳)
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 114.34.40.224
1F:→ uranusjr:HTMLParser 在比较轻量, 就这样而已 01/10 08:08
2F:→ uranusjr:XML 有一个内建的叫 ElementTree, 不过还是比不上 lxml 01/10 08:11
4F:→ qrtt1:beautiful soup 要再加上 soupselect 就会超好用了 01/10 09:54
5F:→ swpoker:我还是觉得当字串比较方便~还是不信任HTML的结构~哈哈 01/10 11:33
6F:→ FreedomMax:HTMLParser 比较轻量是指他功能根本也不多吗? 01/10 23:54
7F:推 NolandTA:PyQuery 01/11 12:55
8F:→ uranusjr:各方面都很弱(可能除了速度)的意思XD 01/11 15:35
9F:推 plover:这题目可大可小... 01/12 14:34
10F:推 plover:我会从最弱的lib开始试,接着慢慢加强药效 01/12 14:38
11F:推 grtfor:推lxml 01/18 14:28