[请益] 如何将网页的数据自动转成csv?

时间Thu Mar 5 13:05:17 2020

hi 各位好我觉得这个问题应该难不倒大家但我发现我不太知道怎麽下手我目前在统计中国cov感染的数据比方说安徽省的官方统计数据可在这边找到 http://wjw.ah.gov.cn/news_details_54250.html 这是1月30日的我有把从1/22-今天的html都下载到一个资料夹下共40几个html档案我希望能写个script将不同日期的新增确诊病例自动产生csv 报表类似这样一月22 一月23 一月24 ...................三月五日合肥 xx 蚌阜 yy 阜阳 zz 六安 aa 铜陵 bb 池州黄山 .. . . 我是想过用linux bash 去写一个script 不过有点卡住或是用panda应该也可以能否请各位指点一些方向呢?? 感谢!! --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 155.69.170.63 (新加坡) ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Soft_Job/M.1583384723.A.CFB.html ※ 编辑: peter308 (155.69.170.63 新加坡), 03/05/2020 13:11:04 ※ 编辑: peter308 (155.69.170.63 新加坡), 03/05/2020 13:12:24

1^F：→ jhnny97: 估狗 generate csv file in <你熟悉的程式语言> 03/05 13:12

2^F：推 enthos: https://www.udemy.com/course/codegym-python/ +openpyxl 03/05 13:19

3^F：推 swallowcc: 用爬虫 parse dom呢? 03/05 13:23

4^F：推 kyoe: read file然後分析然後save csv 03/05 13:23

5^F：→ swallowcc: 啊原来是这个样子的资料, 那就抓字串分析了 03/05 13:25

6^F：→ vi000246: 资料来源只有新闻吗? 这样只能手动整理了 03/05 13:29

7^F：推 neo5277: selenium 03/05 13:34

8^F：→ q90036: 使用这些数据之前应该要先问这些中国给出的数字可信度有多 03/05 14:15

9^F：→ q90036: 少 ... 03/05 14:15

10^F：推 rodion: 不是很建议这种超级不具格式的资料.. 先不论正确与否啦... 03/05 14:37

11^F：推 rodion: 真要做,可能也等所以资料都尘埃落定不再变动才开始写对应 03/05 14:40

12^F：→ rodion: 的parser... 03/05 14:40

13^F：→ domototice: 用Excel阿贴到excel 在存档存成CSV 03/05 17:32

14^F：推 newsbielt703: PapaParse 03/05 17:39

15^F：→ domototice: 蒙恬扫描笔???orz 03/05 19:28

16^F：→ superpandal: 你可以用C写这样应该会更快一点咚 03/05 22:00

17^F：→ gasbomb: 这个连表格都没有很难用程式处理吧 03/06 11:49

18^F：推 gary75952: 这个怎麽做都可以吧就字串处理mapping在塞到csv里. 03/06 14:29

19^F：→ gary75952: 例如regex 撷取，前後的四个数字。 ex:（合肥50例 03/06 14:29

20^F：→ gary75952: ），（豪洲20例）之类的 03/06 14:29

21^F：推 mathrew: 没有特定格式就抓关键字 03/06 15:29

22^F：→ peter308: 感谢各位提供的资讯。 03/07 11:43

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

Soft_Job 板

[请益] 如何将网页的数据自动转成csv?

热门看板

赞助商连结