Re: [问题] 网路爬虫八卦版

时间Wed Apr 25 22:47:48 2018

※ 引述《l8PeakNeymar (十八尖山内马尔)》之铭言： : 这个问题困扰我一段时间 : 因为网路上都是python或java的教学 : 想请问用C# console专案来爬虫的问题 : 目前只要爬到八卦板或是西斯板之类的 : 像是我要求看这个网页： : https://webptt.com/cn.aspx?n=bbs/Gossiping/M.1234567890.A.D55.html : 回传却是这个： : https://webptt.com/cn.aspx?n=/ask/over18 : 在思考要怎麽把自己已满18岁认证的˙Cookies一起送给伺服器 : 乱试很多class： : System.Net.Cookie、HttpWebRequest、WebRequest... : 结果都不行因为其实我也不懂原理 : 请问有板友可以教学吗？非常感激！ : ----- : Sent from JPTT on my Xiaomi Redmi Note 4. 2015写的python 不知道还有没有用重点应该在那行payload import os, sys import csv import datetime, time import requests from bs4 import BeautifulSoup import Ptt_FileGet tStart = time.time() payload = {'from':'/bbs/Gossiping/index.html','yes':'yes'} rs = requests.session() index_Page = rs.post('https://webptt.com/cn.aspx?n=/ask/over18', verify=False, data=payload) index_Page = rs.get("https://webptt.com/cn.aspx?n=bbs/Gossiping/index.html") soup_index_Page = BeautifulSoup(index_Page.text,"html.parser") #抓每篇文章的 URL联结 print("soup_index_Page's Type: ",type(soup_index_Page)) index_tag = soup_index_Page.find_all('a', href=True) page = index_tag[7].get('href') page_number_index = page.index('.html') index_num = int( page[page_number_index-4:page_number_index])#这边会因为网址长度而不一样 day_today = datetime.datetime.now() day_minus = day_today + datetime.timedelta(days = -1) day_yest = day_minus.strftime("%m/%d")[1:] #day_yest = day_today.strftime("%m/%d")[1:] URL_filename='D:\Ptt_data\Gossiping_'+day_today.strftime("%m%d")+'_URL.csv' URL_file = open(URL_filename, 'w', newline='') #print("I Will Create One For You") URL_w = csv.writer(URL_file) URL_w.writerow(['author', 'date', 'link']) #创好档案名称了 #此段存文章的网页联结 data_filename='D:\Ptt_data\Gossiping_'+day_today.strftime("%m%d")+'_data.csv' data_file = open(data_filename, 'w', newline='') data_w = csv.writer(data_file) data_w.writerow([u'作者', u'日期', u'标题', u'价格']) #创好档案名称了 #此段存文章的资料 data_file.close() count = 0 PTT_URL = 'https://webptt.com/cn.aspx?n=' print("yesterday is ",day_yest) day_test=' '+day_yest #後面的Post_date有多一个空白这边是为了简单处理才这样做 print(index_num) while count == 0 : try: res_index = requests.get(PTT_URL + '/bbs/' + 'Gossiping' + '/index' + str(index_num) + '.html',) soup_index = BeautifulSoup(res_index.text,"html.parser") #抓每篇文章的URL联结 main_container_index = soup_index.select('.r-ent') for link in main_container_index: try: #下面这一段是怕有人砍文章会造成错误找不到文章就pass Post_author = link.select('div.author')[0].text Post_date = link.select('div.date')[0].text Post_link = link.find('a')['href'] #这边是重点很怪阿 URL_Link = PTT_URL + Post_link data = [ [Post_author, Post_date,PTT_URL + Post_link]] URL_w.writerows(data) if Post_date==day_test: Ptt_FileGet.data_save(PTT_URL + Post_link, data_filename) except: pass if Post_date >= day_test: index_num = index_num - 1 print("================", index_num, "====================") else: count = 1 print('The End') except: pass --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 1.169.72.64 ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/C_Sharp/M.1524667672.A.B80.html

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

C_Sharp 板

Re: [问题] 网路爬虫八卦版

热门看板

赞助商连结