作者kaofei (phoebe)
看板Biotech
标题[求救] NGS data分析
时间Tue Sep 25 18:54:06 2018
大家好,想打扰请教个问题
最近实验室在用NGS看病毒(ss,positive-sensed RNA virus)的Quasispecies
因为病毒短短的,所以QC都很好(Q30 > 90%)。
因为其中一只病毒之前有用sanger定序过,所以有ref. sequence
我有点疑问是
在分析的时候,一个是将library里host read移除後去回贴de novo assembled contig
一个是直接回贴去Ref. sequence
这两种做法照理说得到的结果要很相近吗?
他们的意义是类似的吗?
如果de novo assembled contig直接和ref. sequence 比对有99%的相似度
library 回贴是不是也不应该太低?
因为对这个不是很熟希望有大大能指点迷津orz
谢谢!
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 140.112.96.74
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Biotech/M.1537872849.A.EB6.html
1F:→ Godkin: 没做过病毒的assembly, host read是指宿主的sequence? 09/25 22:04
2F:推 lelojack: 你确定可以组出够完整的genome那两种方式差不多 09/25 22:08
3F:推 lelojack: 我并不认为可以组出高品质的Genome 09/25 22:15
4F:推 lingon: 一楼id 是从andrew Godkin 来的? 09/25 22:44
5F:→ kaofei: 回一楼,对host read就是宿主的sequence 09/26 00:50
6F:→ kaofei: 想请问二楼为什麽不认为可以组出高品质的genome? 09/26 00:51
7F:→ kaofei: 移除host reads後我们实验的两种病毒剩下的Reads分别是 09/26 00:51
8F:→ kaofei: 26跟48%左右,coverage也都有1000以上,这样也无法保证吗? 09/26 00:53
9F:推 lingon: denove 最怕的就是long repeat 与duplication 09/26 07:00
10F:→ lingon: ref seq mapping 最怕的就是用错strain 09/26 07:02
11F:→ lingon: sanger最怕的就是polymorphism, indel, 与amplicon不够长 09/26 07:03
12F:→ lingon: 让前段与後段的amplicon linkage information消失掉 09/26 07:04
13F:→ lingon: 如果你的viral genome够短,ref seq与de novo contig 09/26 07:05
14F:→ lingon: 的similarity大约99%, 那大概就没有什麽好担心的 09/26 07:06
15F:→ lingon: 如果你只是单纯的想找sequence variant的话 09/26 07:08
16F:推 lelojack: 我过去看过几个数据,病毒序列占约万分之一,而分布亟 09/26 07:15
17F:→ lelojack: 不平均,组出的结果很破碎,因此才这样认为,不过你们 09/26 07:15
18F:→ lelojack: 数据比较好,或许就没差 09/26 07:15
19F:→ Godkin: 回四楼,不是耶XD 09/26 08:22
20F:→ Godkin: 回楼主,关於病毒的assembly,可以问问我们社群的人 09/26 08:23
21F:→ Godkin: 我们社群里,有人在疾管局就是做相关的东西 09/26 08:24
22F:→ Godkin: 在facebook搜寻Taipei Bioinformatics Omnibus 09/26 08:25
23F:→ Godkin: 上面有不少学界跟业界厉害的人,或许可以帮上你 09/26 08:26
24F:推 lingon: lelojack 那种状况完全要看病毒基因体特性 09/26 09:00
25F:→ kaofei: 回lingon大大,其实我在看对方给的data时有个疑问,就是 09/26 22:12
26F:→ kaofei: de novo组出的contig对回ref.相似度有99%以上,但是如果用 09/26 22:12
27F:→ kaofei: non-host reads回贴ref.时,百分比却降到60-70% 这合理吗? 09/26 22:13
28F:推 lingon: 60-70% mapping rate? 09/27 00:47
29F:→ lingon: 如果你的百分比是mapping rate 的话60-70%不算奇怪,因为 09/27 00:49
30F:→ lingon: non-host reads会包含你想找的病毒以外的序列, 这些可能性 09/27 00:52
31F:→ lingon: 很多, 如exogenous pathogen, PCR primer, adaptor seq, 09/27 00:52
32F:→ lingon: viral-host fusion region 都有可能, 需要仔细分析才会晓 09/27 00:54
33F:→ lingon: 得。 09/27 00:55
34F:→ lingon: 还有个可能是有另外的viral strain在里面, 但这要回去重 09/27 00:56
35F:→ lingon: 做de novo assembly 分析才会比较清楚 09/27 00:57
36F:→ kaofei: 谢谢大大们的解释。想在问一个问题,就是我们在定序病毒 09/28 08:16
37F:→ kaofei: 两端的时候发现序列都会不正确大约各少10个mer左右,这是 09/28 08:17
38F:→ kaofei: NGS定RNA的限制吗,我们的病毒是有5' cap跟3' polyA tail 09/28 08:18
39F:推 lingon: 看你怎样enrich viral sequence,如果是以RNA extraction 09/28 08:33
40F:→ lingon: 转cDNA後把viral genome PCR 出来再送序列的话, 那就看 09/28 08:36
41F:→ lingon: 是不是forward 与reverse PCR primer 造成的 09/28 08:36
42F:→ lingon: 如果没有PCR直接把cDNA送序列,那可能就要往host-viral 09/28 08:40
43F:推 adgh456: 序列是指reads两端会有不正确吗?如果是的话,你们的data 09/28 08:40
44F:→ adgh456: 有先作adaptor removal吗?两端都不正确10mer感觉很像是a 09/28 08:40
45F:→ adgh456: daptor。你们的library prepare应该是用polyA enrichment 09/28 08:40
46F:→ adgh456: ,之後再shotgun打成一个个的小片段,并在两端接上adapto 09/28 08:40
47F:→ adgh456: r。通常NGS quality 5’end最好,一直往3’end递减,所以 09/28 08:40
48F:→ adgh456: 应该不会两端固定错了10mer之类的 09/28 08:40
49F:→ lingon: integration site的方向去分析 09/28 08:40
50F:推 lingon: 说实在的,你最好还是跟做genomics/bioinfo的实验室合作 09/28 08:43
51F:→ lingon: sample prep protocol会造成很多分析上奇奇怪怪的现象 09/28 08:44
52F:→ lingon: 从sequence data重导出protocol上面的问题是个花时间又 09/28 08:45
53F:→ lingon: 复杂的步骤, 最好有专人陪你分析讨论 09/28 08:46
54F:→ kaofei: 我们跟实验室合作,我们只负责纯化足量的RNA,後续library 09/29 15:15
55F:→ kaofei: 制备跟其他的就是对方实验是负责了。会问这个问题是我发现 09/29 15:16
56F:→ kaofei: 序列有出入後跟对方实验室问,他们过去也有做过一个ss+RNA 09/29 15:17
57F:→ kaofei: 病毒也有类似的状况,去查了其他的paper才发现这似是常态 09/29 15:18
58F:→ kaofei: 所以如果想用NGS定病毒全长,还是要搭配其他的技术才能获 09/29 15:19
59F:→ kaofei: 得两端的序列 因对方实验室也不清楚为什麽 所以上来问问XD 09/29 15:19
60F:推 lingon: 看看是不是用nested PCR抓出病毒全长, 如果是那就大概是我 09/29 15:53
61F:→ lingon: 上面说的状况, 如果不是那就需要花点时间了解了 09/29 15:55