作者alen84204 (Dana)
看板Python
标题[问题]
时间Fri Mar 8 22:55:27 2019
最近在练习 验证码辨识
想说试试看自己测试其他网站能不能成功
结果光是下载验证码图片就困扰我一阵子啦
同样的code
在gztown就抓得到
https://pt.gztown.net/login.php
但是在学校网站却抓不到
https://www.ais.tku.edu.tw/EleCos/login.aspx
想请教该如何解决?
code如下(从
#1QFyrfBX (Python)改写的):
import shutil
import requests
import time
from bs4 import BeautifulSoup
SAVEPATH = "./data/manual_label/"
url = "
https://pt.gztown.net/login.php"
#url = '
http://railway1.hinet.net/ImageOut.jsp'
for i in range(1, 3000):
#先抓出验证码图片的网址 img_url
r = requests.get(url, stream = True)
soup = BeautifulSoup(r.text, 'html.parser')
img = soup.find_all('img')
src = img[1].get('src')
img_url = "
https://pt.gztown.net/" + src
response = requests.get(img_url, stream=True)
with open(SAVEPATH + str(i) + '.jpg', 'wb') as out_file:
shutil.copyfileobj(response.raw, out_file)
del response
time.sleep(0.1)
谢谢各位前辈
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.32.56.155
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1552056932.A.27A.html
1F:推 rexyeah: 我想是因为台铁只有一个<IMG> 所以是img[0].get(...) 03/08 23:15
2F:推 f496328mm: 用selenium去截图、切图 03/09 01:13
3F:→ alen84204: selenium我是直接模拟右键下载 但想说requests速度较快 03/09 08:01
4F:→ alen84204: 也可以自动下载後的档案名称 03/09 08:02
5F:→ vi000246: 用debug去跑 看有没有抓到东西 03/09 11:48
6F:推 nini200: 显示 500 错误 往这方向去查 03/09 16:48