作者elicamars (阴天)
看板Python
标题[问题] 大量网页的特定文字截取?
时间Sun May 29 18:56:57 2011
我真的是一个超新手的初学者
没有写程式的经验,但为了论文需要截取某网页上的资料(公开资料)
我现在有两个问题
第一,目前看到截取网页都是在同一页内截取
但我需要所有
http://xxx.xxx.xxx?ID=XXXXX的所有网页内容
也就是所有id的网页都需要,但id并不是连续数字,是网页的名称
该如何截取呢?大约有二千页,我需要一些关键字
第二,我只是要里面三段文字,
可以有个指令是下"我只要以下三个中文字+它们後方的资料"即可?
软体名称:____
下载次数:____
软体价格:___
然後下载成一个excel档,就整理成:软体名称|下载次数|软体价格的列表
不晓得这样截取会太暴力而被挡吗?
希望有个指引可以让我完成它,先跟大家说声谢谢!
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 114.27.212.83
1F:→ uranusjr:会不会太暴力要看那个网站的伺服器设定 05/29 19:05
2F:→ uranusjr:最简单的方法是把网页内容读进成一个 string 後, 用 find 05/29 19:07
3F:→ uranusjr:找到你想要的中文字, 然後撷取後面的资料(要截到哪边看 05/29 19:07
5F:→ elicamars:我现在还是不晓的要怎麽多个网页读入?而且是非连续数 05/29 21:55
6F:→ elicamars:但我已经可以载入档案~谢谢u大 05/29 21:55
7F:→ uranusjr:虽然不连续, 不过有什麽规则吗? 05/29 22:15
8F:→ elicamars:没有规则耶,就是依软体名称取的,都是英文字这样 05/29 22:17
9F:→ kdjf:写一个list 然後一个一个来? 05/29 22:53
10F:→ elicamars:有可能程式去判断只要是http:XXX.XXX?id=的字样全下载吗 05/30 00:12
11F:→ uranusjr:可是没办法知道那个伺服器上面究竟有哪些档案啊... 05/30 00:36
12F:→ uranusjr:除非你要像猜金库密码一样一个一个试XD 05/30 00:36
13F:→ uranusjr:那个网址格式很明显是用 GET 在送的, 如果没有 server 端 05/30 00:41
14F:→ uranusjr:的资讯根本没办法知道要送什麽进去才会正确... 05/30 00:42
15F:→ elicamars:对阿(苦笑...)看来真的要去写list了XD 05/30 00:49