作者charlie0228 (向往湛蓝)
看板PHP
标题[请益] 抓取需要登入网站的原始码
时间Wed Apr 11 11:36:13 2012
如标题
因为我想要从一些讨论区抓取原始码
但是那些页面有登入跟没有登入显示的资讯不一样
我是使用file()的方式抓取
可是这样就只会抓到未登入的网页原始码…
有什麽方法可以让他正确的抓到登入的资讯
然後让我抓到我要的原始码
我要抓的网站是:
http://my2.tmu.edu.tw
先谢谢各位了
--
posted from android bbs reader on my HTC Sensation Z710e
https://market.android.com/details?id=com.bbs.reader
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 203.71.94.31
1F:推 LaPass:呃.... 因为没session.... 没用php写过这个.... 你看看有没 04/11 12:01
2F:→ LaPass:有模拟浏览器的libary 04/11 12:01
3F:推 kerash:看登入有没有session,有的话copy下来放在header中丢过去? 04/11 12:27
4F:→ kerash:抓SessionID看看@@ 04/11 12:28
5F:推 kusoayan:curl ? 04/11 13:19
6F:→ charlie0228:我在到网路上爬文怎抓session出来好了 04/11 14:42
7F:→ charlie0228:自学真的需要努力查资料 04/11 14:42
8F:推 onininon:能抓到session资料的不是骇客吗XD 04/11 15:43
9F:推 kerash:不用抓session资料啊,他的 cookie 好像有纪录 session 04/11 16:13
10F:→ kerash:代表他可能是用这个 session 纪录的,只要传资料时设定这个 04/11 16:13
11F:→ kerash:session 就没问题了,前提是要在这个session的存活时间中做 04/11 16:14
12F:→ kerash:存取,否则若session被清除就没用了 04/11 16:14
13F:→ charlie0228:嗯嗯 我所学习的东西太基本了@@ 04/11 16:43
14F:→ charlie0228:回家之後再用电脑实作看看 04/11 16:46
15F:→ mervynW:请用 curl cookies 04/11 17:13