C_Sharp 板


LINE

※ 引述《l8PeakNeymar (十八尖山内马尔)》之铭言: : 这个问题困扰我一段时间 : 因为网路上都是python或java的教学 : 想请问用C# console专案来爬虫的问题 : 目前只要爬到八卦板或是西斯板之类的 : 像是我要求看这个网页: : https://webptt.com/cn.aspx?n=bbs/Gossiping/M.1234567890.A.D55.html : 回传却是这个: : https://webptt.com/cn.aspx?n=/ask/over18 : 在思考要怎麽把自己已满18岁认证的˙Cookies一起送给伺服器 : 乱试很多class: : System.Net.Cookie、HttpWebRequest、WebRequest... : 结果都不行 因为其实我也不懂原理 : 请问有板友可以教学吗?非常感激! : ----- : Sent from JPTT on my Xiaomi Redmi Note 4. 2015写的python 不知道还有没有用 重点应该在那行payload import os, sys import csv import datetime, time import requests from bs4 import BeautifulSoup import Ptt_FileGet tStart = time.time() payload = {'from':'/bbs/Gossiping/index.html','yes':'yes'} rs = requests.session() index_Page = rs.post('https://webptt.com/cn.aspx?n=/ask/over18', verify=False, data=payload) index_Page = rs.get("https://webptt.com/cn.aspx?n=bbs/Gossiping/index.html") soup_index_Page = BeautifulSoup(index_Page.text,"html.parser") #抓每篇文章的 URL联结 print("soup_index_Page's Type: ",type(soup_index_Page)) index_tag = soup_index_Page.find_all('a', href=True) page = index_tag[7].get('href') page_number_index = page.index('.html') index_num = int( page[page_number_index-4:page_number_index])#这边会因为网址长 度而不一样 day_today = datetime.datetime.now() day_minus = day_today + datetime.timedelta(days = -1) day_yest = day_minus.strftime("%m/%d")[1:] #day_yest = day_today.strftime("%m/%d")[1:] URL_filename='D:\Ptt_data\Gossiping_'+day_today.strftime("%m%d")+'_URL.csv' URL_file = open(URL_filename, 'w', newline='') #print("I Will Create One For You") URL_w = csv.writer(URL_file) URL_w.writerow(['author', 'date', 'link']) #创好档案名称了 #此段存文章的网页联结 data_filename='D:\Ptt_data\Gossiping_'+day_today.strftime("%m%d")+'_data.csv' data_file = open(data_filename, 'w', newline='') data_w = csv.writer(data_file) data_w.writerow([u'作者', u'日期', u'标题', u'价格']) #创好档案名称了 #此段存文章的资料 data_file.close() count = 0 PTT_URL = 'https://webptt.com/cn.aspx?n=' print("yesterday is ",day_yest) day_test=' '+day_yest #後面的Post_date有多一个空白 这边是为了简单处理才这样做 print(index_num) while count == 0 : try: res_index = requests.get(PTT_URL + '/bbs/' + 'Gossiping' + '/index' + str(index_num) + '.html',) soup_index = BeautifulSoup(res_index.text,"html.parser") #抓每篇 文章的URL联结 main_container_index = soup_index.select('.r-ent') for link in main_container_index: try: #下面这一段是怕有人砍文章会造成错误 找不到文 章就pass Post_author = link.select('div.author')[0].text Post_date = link.select('div.date')[0].text Post_link = link.find('a')['href'] #这边是重点 很怪阿 URL_Link = PTT_URL + Post_link data = [ [Post_author, Post_date,PTT_URL + Post_link]] URL_w.writerows(data) if Post_date==day_test: Ptt_FileGet.data_save(PTT_URL + Post_link, data_filename) except: pass if Post_date >= day_test: index_num = index_num - 1 print("================", index_num, "====================") else: count = 1 print('The End') except: pass --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 1.169.72.64
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/C_Sharp/M.1524667672.A.B80.html







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:Soft_Job站内搜寻

TOP