作者D0128431 (運氣小馬)
看板DataScience
標題[問題] 求推薦中午的語料庫
時間Thu Mar 29 10:13:06 2018
大家好
小弟最近在做
文本摘要中生成式摘要
需要中文的文本資料庫去進行訓練模型
但上網找都沒有找到
合適用來訓練模型的資料庫
不知道各位大大
有沒有推薦適合的資料庫呢?
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.137.243.9
※ 文章網址: https://webptt.com/m.aspx?n=bbs/DataScience/M.1522289588.A.097.html
※ 編輯: D0128431 (114.137.243.9), 03/29/2018 10:15:13
1F:推 del680202: 中午的語料庫?03/29 10:44
※ 編輯: D0128431 (114.137.243.9), 03/29/2018 10:58:17
2F:→ D0128431: 中午的 拍謝03/29 10:58
3F:推 lucien0410: 我有明清小說03/29 11:09
4F:→ lucien0410: 的語料庫03/29 11:09
5F:→ lucien0410: 是做text summarization的意思嗎?03/29 11:11
6F:→ D0128431: L 大 是的03/29 11:24
7F:→ D0128431: L大已pm詢問囉03/29 11:37
8F:→ lucien0410: 術語翻成中文 我一下子看不懂03/29 11:40
9F:推 lucien0410: chinese gigaword 可能可以喔03/29 11:48
10F:推 lucien0410: openNmt 的論壇有用english gigaword 來訓練text summ03/29 11:51
11F:→ lucien0410: arier 的示範03/29 11:51
12F:推 lucien0410: 中文的應該可以用 chinese gigaword 但我自己也沒實03/29 11:54
13F:→ lucien0410: 際看過chiese gigaword的語料庫長怎樣03/29 11:54
15F:→ lucien0410: 我找到樣本了 沒錯 這個可以用03/29 12:09
16F:→ D0128431: 這個我有看過 但她的檔案格式都好陌生QQ03/29 12:10
17F:→ lucien0410: 就是學會把text 變成headline03/29 12:10
18F:→ D0128431: 可以請問一下l大的下載網址嗎03/29 12:11
19F:→ lucien0410: 搞定(懂)格式 整理資料 真的是最花心力的03/29 12:15
20F:→ lucien0410: 這個好像不是open dataset 03/29 12:21
21F:→ lucien0410: 看看你的圖書館有沒有買
我今天看好像要付費 Q 不過還是謝謝你
03/29 12:24
22F:推 yolanda1203: Lope PTT corpus
我剛剛去看好像找不到地方抓資料唉Q
23F:→ D0128431: L大 我今天上去看好像要付費的樣子03/29 20:05
※ 編輯: D0128431 (114.137.243.9), 03/29/2018 20:07:24
※ 編輯: D0128431 (114.137.243.9), 03/29/2018 20:35:36
這個我也有寄信去問了 還沒人回覆我QQ
※ 編輯: D0128431 (114.137.243.9), 03/30/2018 07:43:24
25F:推 Telemio: 我以前有用過中文維基當作語料 03/30 08:09
26F:→ Telemio: 也有做chatbot時去爬蟲ptt的大板當作語料 ptt爬蟲還滿方 03/30 08:10
27F:→ Telemio: 便的 google一下github有別人寫好的crawler 03/30 08:10
28F:→ Telemio: 中文維基也可以自己google一下怎麼爬 03/30 08:10
目前我想法跟你類似 我也是打算去爬新聞來訓練xD
※ 編輯: D0128431 (114.137.243.9), 03/30/2018 10:02:21
29F:推 toxicsweet: 那請問有人做English的text summarization嗎?有推薦 04/12 21:54
30F:→ toxicsweet: 的模型和語料庫嗎 04/12 21:54
31F:推 lucien0410: 我知道英文的 04/13 03:17