作者windincloud (爱情已死枯如槁灰)
看板BioMedInfo
标题Re: [问题] NGS的SRA资料库
时间Wed Aug 3 00:26:37 2011
※ 引述《brasil (巴西小子)》之铭言:
: 大家好~
: 小弟最近在研究NGS方面的问题
: 因为跟先前用过的资料库有点不太一样
: 所以有一些基本的问题想要请教各位
: ===========================================================================
: 目标是想要进一步的分析NGS所定序出来的序列
: 1.请问我要如何下载序列
: 我知道在SRA资料库下载的序列都是.sra档
: 刚刚稍微研究一下可以利用fastq-dump这个执行档来转换成.fastq档
: 假设我想要研究的主题是人类的whole genomic DNA
: 请问我要如何下载到这些序列
: (因为我在SRA里只看的到ACCESSION number,但我不知道这些number是什麽物种)
理论上可以根据ACCESSION number 反查到物种名称啦~
: 2.在.fastq档里有一个栏位是spot,请问这是代表什麽意思?
: 3.在.fastq档里有很多条序列
: EX:
: @SRR096072.lite.sra.1 FVUWOJD02F4NLA length=255
只是说明是编号&取得到的长度
: ATCG......
NGS所得到的SEQ
: +SRR096072.lite.sra.1 FVUWOJD02F4NLA length=255
只是跟第一行的ID是一样的
: FFFFFFFFFFFFFFFFFFFFFFIIIIIIIIIIIIIII...
序列每一个NT的Quality 不同的符号有不同的代表意义
简言之:
FASTQ是四行为一组
第一列&第三列理论上是一样的东西,要做的是这两行的ID是否一样
第二列为NGS序列本身
第四列则为序列中每个相对应的NT的Quailty
: @SRR096072.lite.sra.2 FVUWOJD02G1J77 length=290
: ATCG......
: +SRR096072.lite.sra.2 FVUWOJD02G1J77 length=290
: FFFFFFFFFFFFFFFFFFFFFFIIIIIIIIIIIIII...
: @SRR096072.lite.sra.3
: .
: .
: @SRR096072.lite.sra.4
: .
: .
: @SRR096072.lite.sra.5
: .
: .
: .
: 请问我该如何读这些序列?
: 是@SRR096072.lite.sra.1 继续接 @SRR096072.lite.sra.2
: 继续接@SRR096072.lite.sra.3 一直下去这样吗?
: 抱歉问题有点多,有劳各位了!!
其它就给其他强者说明啦~
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 203.67.104.199