作者xm3fu0 (你爸爸的蛋)
看板Python
标题[问题] 爬虫问题
时间Sat Sep 29 00:27:09 2018
状况是这样的
有一个csv里面有n个网址
这几个网址的格式类似 我目标都是要求出其中的table
那应该要如何写呢?
我自己写的程式码如下
import requests
from bs4 import BeautifulSoup
f = open(r"C:\python\scripts\xxx.csv","r")
lines=f.readlines()
lens=len(lines)
list = []
for index in range(lens):
temp = lines[index]
res = requests.get(temp)
soup = BeautifulSoup(res.text)
list.append(soup.select('table')[0])
我试着把I+=1摆进回圈
发现temp = lines[index]没办法执行完毕
注:xxx.csv档案的资料都是网址,只有一个column的资料
资料类型都是http:\\......
麻烦各路高手了(跪
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 101.15.82.53
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1538152032.A.3F3.html
1F:→ s860134: for 回圈改成 for url in lines 比较直接 09/29 03:11
2F:→ s860134: res = requests.get(url) 这行没问题,问题是後面保证 09/29 03:12
3F:→ s860134: 毎一个 url 都是有效的? 毎而且都有一个 table ? 09/29 03:12
4F:→ s860134: 没办法执行完毕你也要说一下错在哪 09/29 03:13
5F:推 sherees: try 09/29 07:06
6F:→ xm3fu0: 好! 感谢你们 我试试看等等把errorcode奉上 09/29 10:13
7F:→ xm3fu0: 最後方向他的网址後面会有跨行\n的字去干扰读取 改成xlrd 09/29 12:04
8F:→ xm3fu0: 就可以了 感谢各位 09/29 12:04
9F:→ s860134: ... 所以是多了个 '\n'? 09/29 22:32