作者ibluemonkey (蓝.猴子)
看板Python
标题[问题] lxml问题
时间Thu Jan 3 19:34:40 2013
大家好,初学python约1年,
这次使用lxml想要抓blog中的东西
但是有个地方一直无法抓成功
下面是网页的原始码
<div class="boxCategory1">
<a onClick="onclick_folder(document.
getElementById('HiddenCategoryFolder_4362075'),
document.getElementById('CategoryFolder_4362075'),
'
http://l.yimg.com/e/serv/blog/img/', '1');" >
<img id="CategoryFolder_4362075"
src="
http://l.yimg.com/e/serv/blog/img/plus.gif" />
文字1</a>
<a href="
http://www.xxx.xxx">文字2</a>
</div>
我写的code是这样
allTitles = blogContent.xpath(
"//div[@class='boxcategory1']//a")
for title
in allTitles:
print title.text
如果是像
文字2就可以成功抓到印出来
但是
文字1就无法
会是空白
请问是哪里写错了呢@@"
谢谢指教
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.124.183.36
1F:→ kilfu0701:用lxml ? 01/03 21:25
对 没错!
2F:推 NolandTA:试试pyquery吧 你会爱上的 01/04 10:03
谢谢推荐!!! 等下下课试试看!!
※ 编辑: ibluemonkey 来自: 140.124.183.36 (01/04 10:09)
※ 编辑: ibluemonkey 来自: 140.124.183.36 (01/04 10:11)
3F:推 kilfu0701:试看看 list(title.itertext()) 01/04 10:42
之後是用这个方法写出来的
感谢!!!!!!
4F:推 plover:中间夹 img tag 01/04 23:58
5F:推 ckclark:title.xpath("text()")或是之前xpath("(前略)//a/text()") 01/05 01:08
6F:推 bob123:你没注意阶层的关系.. 你要的是print title.text_content() 01/06 23:38
也谢谢楼上三位大大的意见!!!
※ 编辑: ibluemonkey 来自: 140.124.183.36 (01/08 20:44)