作者peter308 (pete)
看板Soft_Job
标题[请益] 如何将网页的数据自动转成csv?
时间Thu Mar 5 13:05:17 2020
hi 各位好
我觉得这个问题应该难不倒大家
但我发现我不太知道怎麽下手
我目前在统计中国cov感染的数据
比方说安徽省的官方统计数据可在这边找到
http://wjw.ah.gov.cn/news_details_54250.html
这是1月30日的
我有把从1/22-今天的html都下载到一个资料夹下
共40几个html档案
我希望能写个script将 不同日期的新增确诊病例
自动产生csv 报表
类似这样
一月22 一月23 一月24 ...................三月五日
合肥 xx
蚌阜 yy
阜阳 zz
六安 aa
铜陵 bb
池州
黄山
..
.
.
我是想过用linux bash 去写一个script 不过有点卡住
或是用panda应该也可以
能否请各位指点一些方向呢??
感谢!!
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 155.69.170.63 (新加坡)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Soft_Job/M.1583384723.A.CFB.html
※ 编辑: peter308 (155.69.170.63 新加坡), 03/05/2020 13:11:04
※ 编辑: peter308 (155.69.170.63 新加坡), 03/05/2020 13:12:24
1F:→ jhnny97: 估狗 generate csv file in <你熟悉的程式语言> 03/05 13:12
3F:推 swallowcc: 用爬虫 parse dom呢? 03/05 13:23
4F:推 kyoe: read file然後分析然後save csv 03/05 13:23
5F:→ swallowcc: 啊原来是这个样子的资料, 那就抓字串分析了 03/05 13:25
6F:→ vi000246: 资料来源只有新闻吗? 这样只能手动整理了 03/05 13:29
7F:推 neo5277: selenium 03/05 13:34
8F:→ q90036: 使用这些数据之前应该要先问这些中国给出的数字可信度有多 03/05 14:15
9F:→ q90036: 少 ... 03/05 14:15
10F:推 rodion: 不是很建议这种超级不具格式的资料.. 先不论正确与否啦... 03/05 14:37
11F:推 rodion: 真要做,可能也等所以资料都尘埃落定不再变动 才开始写对应 03/05 14:40
12F:→ rodion: 的parser... 03/05 14:40
13F:→ domototice: 用Excel阿 贴到excel 在存档 存成CSV 03/05 17:32
14F:推 newsbielt703: PapaParse 03/05 17:39
15F:→ domototice: 蒙恬 扫描笔???orz 03/05 19:28
16F:→ superpandal: 你可以用C写 这样应该会更快一点 咚 03/05 22:00
17F:→ gasbomb: 这个连表格都没有 很难用程式处理吧 03/06 11:49
18F:推 gary75952: 这个怎麽做都可以吧就字串处理mapping在塞到csv里. 03/06 14:29
19F:→ gary75952: 例如regex 撷取,前後的四个数字。 ex:(合肥50例 03/06 14:29
20F:→ gary75952: ),(豪洲20例) 之类的 03/06 14:29
21F:推 mathrew: 没有特定格式就抓关键字 03/06 15:29
22F:→ peter308: 感谢各位提供的资讯。 03/07 11:43