作者ahongyeh (小叶子)
看板Programming
标题[问题] ASP抓取网页资料
时间Mon Feb 15 09:34:32 2010
学校的选课系统里面,
有验证图片的机制(显示有号码的图片然号我们要输入)~~
我想写一个可以自动选课的小程式,使用ASP
目前所有阶段就差在抓取这个页面的HTML,
因为这个页面需要作登入之後才能出现,
而网路上面几乎所有的抓取方式都是不需验证的,
现在很头痛~~
有人可以提供一下该如何解决吗!?
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.120.15.19
1F:推 leicheong:需要登入的请用ASP.NET会比较简单, 网上 61.92.89.78 02/15 09:56
2F:→ leicheong:也有很多sample code... 61.92.89.78 02/15 09:56
3F:推 kyoin:图片验证的目的 不就是为了防止这些吗? 218.168.27.96 02/15 17:37
4F:推 yauhh:请用Sikuli 61.231.64.38 02/15 17:53
5F:→ yauhh:不过最麻烦的问题是判断图片上是什麽数字 61.231.64.38 02/15 17:54
学校的验证方式做的很粗糙~~
它是由数字组成,每个数字是一张图片,
而该张图片命名是,如果图片是"1"的话,那档名就是a1.jpg,其他以此类推,
所以我只要能抓的出来HTML的话,就可以解析出来那个数字串了~~
---
我是想使用ServerXMLHTTP来达成,
只是找不到地方可以传送我的帐号密码,
我的想法并不是要绕过身份验证的这个机制,
而是说,该怎麽让ASP帮我完成这些琐碎的事情,
进而可以固定时间(ex.每10秒)帮我选看这门课。
登入学校选课系统的帐号密码我都储存session里面了~~
就以正常的已登入的情况下,
我在网址列里面输入相关变数和所对应的值,就可以选那些课,
所以我想知道的是,
有没有什麽办法可以使用ServerXMLHTTP保存我的验证状态,
现在整支程式已经差在这麽步骤了...
※ 编辑: ahongyeh 来自: 140.120.15.19 (02/15 20:50)
6F:推 mosquito520:google... 114.25.231.231 02/16 01:53
7F:→ mosquito520:"ServerXMLHTTP cookies session" 114.25.231.231 02/16 01:53
不知道我方向错误还是怎样~~
感觉选课系统都还是抓不到我的验证资料(学号、密码)~~
每次要抓取那张网也都会跳到登入画面要求输入学号和密码...
※ 编辑: ahongyeh 来自: 140.120.15.19 (02/16 09:33)
8F:推 yauhh:那这不就简单,如果抓到输入学号跟密码,就 61.231.64.38 02/16 17:52
9F:→ yauhh:填一下送出就好了. 61.231.64.38 02/16 17:52
10F:→ ahongyeh:因为是跨网域~~所以我不知道要怎麽控制 140.120.15.19 02/17 22:25