作者adu (^_^)
看板BioMedInfo
标题[问题] NCBI中human genome的资料
时间Fri May 1 19:21:44 2009
有两个问题想请教版友
虽然说已经把人类genome解开了,不过我看ncbi的资料库中还是有很多gap
http://0rz.tw/PBdEq (chr1)
如果我要下载chr1的genome资料,是否把这边所有的都下载再拼在一起就好了?
还有个疑问点是,好多的gap都是50,000的长度,不知为何会这样(怎麽做出来的)?
另外一个问题是,人类genome大约有多少是coding,多少是noncoding的部分
我用很保守的估算 30000条基因*长的吓死人的每条2k
所以30k*2k/3*10^9 人类coding的部分最多占20%
请问这样合理吗?
PS:有看到占1~1.5%的说法,
不过不知道这个估计值有没有包含非a.a但有function的序列
以及有没有把还没有定序的gap考虑进去
请版友们指教^^
--
37m﹡
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 59.104.5.233
1F:推 auymle:NCBI上有已经组好的可以下载 你从ftp找应该有 05/01 20:13
2F:→ huggie:对啊,这不知道是什麽?为甚麽没组好? 05/01 20:27
3F:→ huggie:ftp://ftp.ncbi.nih.gov/genomes/H_sapiens/ 05/01 20:29
4F:→ adu:请问Celera、HuRef和ref有甚麽样的差别呢? 05/01 21:10
5F:→ adu:档案大小都相近,其中ref的contig有49条,我文章内的只有39条 05/01 21:11
6F:→ adu:会不会有重复算的? 谢谢回覆:) 05/01 21:11
7F:→ adu:另外mfa在readme中有说是masked***** 不太懂他masked的意思 05/01 21:12
8F:推 huggie:masked通常指序列中low complexity region 用 N 或 X 遮掉 05/01 22:00
9F:→ adu:原来如此!所以如果单看序列的完整性,fa会含有比较多?! 05/01 23:51
10F:→ adu:我查了celera,好像是一种alignment的方式,不过那三种详细的 05/01 23:52
11F:→ adu:分别还是不太清楚。 谢谢回应:D 05/01 23:52
12F:推 ChelseaFC:若是指组成contig的read被masked的话,就是指遮蔽一些已 05/11 21:45
13F:→ ChelseaFC:知的重复片段,好加强alignment及assembly的速度(?) 05/11 21:46