[问题] 大量网页的特定文字截取?

时间Sun May 29 18:56:57 2011

我真的是一个超新手的初学者没有写程式的经验，但为了论文需要截取某网页上的资料(公开资料) 我现在有两个问题第一，目前看到截取网页都是在同一页内截取但我需要所有http://xxx.xxx.xxx?ID=XXXXX的所有网页内容也就是所有id的网页都需要，但id并不是连续数字，是网页的名称该如何截取呢?大约有二千页，我需要一些关键字第二，我只是要里面三段文字，可以有个指令是下"我只要以下三个中文字+它们後方的资料"即可? 软体名称：____ 下载次数：____ 软体价格：___ 然後下载成一个excel档，就整理成：软体名称|下载次数|软体价格的列表不晓得这样截取会太暴力而被挡吗? 希望有个指引可以让我完成它，先跟大家说声谢谢! --

※ 发信站: 批踢踢实业坊(ptt.cc) ◆ From: 114.27.212.83

1^F：→ uranusjr:会不会太暴力要看那个网站的伺服器设定 05/29 19:05

2^F：→ uranusjr:最简单的方法是把网页内容读进成一个 string 後, 用 find 05/29 19:07

3^F：→ uranusjr:找到你想要的中文字, 然後撷取後面的资料（要截到哪边看 05/29 19:07

4^F：→ uranusjr:需求而定）, 参考 http://goo.gl/3FGB 05/29 19:08

5^F：→ elicamars:我现在还是不晓的要怎麽多个网页读入?而且是非连续数 05/29 21:55

6^F：→ elicamars:但我已经可以载入档案~谢谢u大 05/29 21:55

7^F：→ uranusjr:虽然不连续, 不过有什麽规则吗？ 05/29 22:15

8^F：→ elicamars:没有规则耶，就是依软体名称取的，都是英文字这样 05/29 22:17

9^F：→ kdjf:写一个list 然後一个一个来？ 05/29 22:53

10^F：→ elicamars:有可能程式去判断只要是http:XXX.XXX?id=的字样全下载吗 05/30 00:12

11^F：→ uranusjr:可是没办法知道那个伺服器上面究竟有哪些档案啊... 05/30 00:36

12^F：→ uranusjr:除非你要像猜金库密码一样一个一个试XD 05/30 00:36

13^F：→ uranusjr:那个网址格式很明显是用 GET 在送的, 如果没有 server 端 05/30 00:41

14^F：→ uranusjr:的资讯根本没办法知道要送什麽进去才会正确... 05/30 00:42

15^F：→ elicamars:对阿(苦笑...)看来真的要去写list了XD 05/30 00:49

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

Python 板

[问题] 大量网页的特定文字截取?

热门看板

赞助商连结