作者Equalmusic (Cosmajoonitist)
看板DataScience
标题Re: [问题] 取得大量数据的管道?
时间Wed Jan 23 11:49:25 2019
※ 引述《dharma (达)》之铭言:
: 一般人能拿到的大数据资料
: 除了股市、政府公开资讯(例如气象)
: 还有自己爬虫爬网页
: 之外可能还有什麽门路取得大量有品质的数据?
: 且不用花什麽钱的
: 一般人指的是没有身在什麽学术/研究单位
: 或相关的职场单位
: thanks
数据的类别很多,你可能要先描述一下你需要什麽数据
几个比较有名的门路
政府数据:
美国(现在下架了只能下载 archive)
https://www.data.gov/
台湾
https://data.moi.gov.tw/MoiOD/default/Index.aspx
图像数据:
最有名的 ImageNet
http://www.image-net.org/
做 Segmentation 的 Coco
http://cocodataset.org/
各种类型的数据:
Kaggle 不解释
https://www.kaggle.com/
Google Dataset Search
https://toolbox.google.com/datasetsearch
微软研究院数据集
https://msropendata.com/
数据领域的 The Pirate Bay:
Paper 跟数据集都能搜
http://academictorrents.com/
二次元美少女数据集:
不美不负责
https://github.com/jayleicn/animeGAN
最完整的数据收录名单:
Awesome 系列数据集
https://github.com/awesomedata/awesome-public-datasets
主要还是看你想做什麽领域
现在越来越多会议或是期刊都要求使用开源数据集
所以其实你想找什麽数据集就多看看那个领域大家都用什麽数据集就好了
这样可以省去很多清洗的时间
--
「但如果你在惧怯中,只想寻求爱的恬静和爱的愉悦,
那麽不如遮掩着你的裸体,避开爱的打谷场,进入那无季节的世界,
在那儿你会欢笑,但非全心的笑,你会哭泣,却非尽情的哭。」
- Kahlil Gibran
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 118.186.9.86
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1548215380.A.14F.html
※ 编辑: Equalmusic (118.186.9.86), 01/23/2019 11:53:49
※ 编辑: Equalmusic (118.186.9.86), 01/23/2019 11:54:07
※ 编辑: Equalmusic (118.186.9.86), 01/23/2019 11:54:52
1F:推 alen84204: KDnuggets 01/23 14:00
2F:推 dharma: 看有什麽数据来源来想想可以做什麽 01/23 14:52
3F:推 andy086: 先推 01/23 21:00
4F:推 frankshih: good~~ 01/24 20:42
5F:推 mirror0227: 推起来 01/25 16:57
6F:推 choutzch: 感谢^_^ 01/30 07:36
7F:推 orcahmlee: 推 02/05 18:49
8F:推 dongogo: 推 02/08 17:15
9F:推 kiazo: 推 02/11 09:42
10F:推 E33258: 推 02/12 14:42
11F:推 anna0704: 推 02/12 19:41
12F:推 luli0034: 推 02/21 19:36
13F:推 anarch: 泪推 03/01 20:43