作者peter308 (pete)
看板Soft_Job
標題[請益] 如何將網頁的數據自動轉成csv?
時間Thu Mar 5 13:05:17 2020
hi 各位好
我覺得這個問題應該難不倒大家
但我發現我不太知道怎麼下手
我目前在統計中國cov感染的數據
比方說安徽省的官方統計數據可在這邊找到
http://wjw.ah.gov.cn/news_details_54250.html
這是1月30日的
我有把從1/22-今天的html都下載到一個資料夾下
共40幾個html檔案
我希望能寫個script將 不同日期的新增確診病例
自動產生csv 報表
類似這樣
一月22 一月23 一月24 ...................三月五日
合肥 xx
蚌阜 yy
阜陽 zz
六安 aa
銅陵 bb
池州
黃山
..
.
.
我是想過用linux bash 去寫一個script 不過有點卡住
或是用panda應該也可以
能否請各位指點一些方向呢??
感謝!!
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 155.69.170.63 (新加坡)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Soft_Job/M.1583384723.A.CFB.html
※ 編輯: peter308 (155.69.170.63 新加坡), 03/05/2020 13:11:04
※ 編輯: peter308 (155.69.170.63 新加坡), 03/05/2020 13:12:24
1F:→ jhnny97: 估狗 generate csv file in <你熟悉的程式語言> 03/05 13:12
3F:推 swallowcc: 用爬蟲 parse dom呢? 03/05 13:23
4F:推 kyoe: read file然後分析然後save csv 03/05 13:23
5F:→ swallowcc: 啊原來是這個樣子的資料, 那就抓字串分析了 03/05 13:25
6F:→ vi000246: 資料來源只有新聞嗎? 這樣只能手動整理了 03/05 13:29
7F:推 neo5277: selenium 03/05 13:34
8F:→ q90036: 使用這些數據之前應該要先問這些中國給出的數字可信度有多 03/05 14:15
9F:→ q90036: 少 ... 03/05 14:15
10F:推 rodion: 不是很建議這種超級不具格式的資料.. 先不論正確與否啦... 03/05 14:37
11F:推 rodion: 真要做,可能也等所以資料都塵埃落定不再變動 才開始寫對應 03/05 14:40
12F:→ rodion: 的parser... 03/05 14:40
13F:→ domototice: 用Excel阿 貼到excel 在存檔 存成CSV 03/05 17:32
14F:推 newsbielt703: PapaParse 03/05 17:39
15F:→ domototice: 蒙恬 掃描筆???orz 03/05 19:28
16F:→ superpandal: 你可以用C寫 這樣應該會更快一點 咚 03/05 22:00
17F:→ gasbomb: 這個連表格都沒有 很難用程式處理吧 03/06 11:49
18F:推 gary75952: 這個怎麼做都可以吧就字串處理mapping在塞到csv裡. 03/06 14:29
19F:→ gary75952: 例如regex 擷取,前後的四個數字。 ex:(合肥50例 03/06 14:29
20F:→ gary75952: ),(豪洲20例) 之類的 03/06 14:29
21F:推 mathrew: 沒有特定格式就抓關鍵字 03/06 15:29
22F:→ peter308: 感謝各位提供的資訊。 03/07 11:43