作者kaofei (phoebe)
看板Biotech
標題[求救] NGS data分析
時間Tue Sep 25 18:54:06 2018
大家好,想打擾請教個問題
最近實驗室在用NGS看病毒(ss,positive-sensed RNA virus)的Quasispecies
因為病毒短短的,所以QC都很好(Q30 > 90%)。
因為其中一隻病毒之前有用sanger定序過,所以有ref. sequence
我有點疑問是
在分析的時候,一個是將library裡host read移除後去回貼de novo assembled contig
一個是直接回貼去Ref. sequence
這兩種做法照理說得到的結果要很相近嗎?
他們的意義是類似的嗎?
如果de novo assembled contig直接和ref. sequence 比對有99%的相似度
library 回貼是不是也不應該太低?
因為對這個不是很熟希望有大大能指點迷津orz
謝謝!
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.112.96.74
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Biotech/M.1537872849.A.EB6.html
1F:→ Godkin: 沒做過病毒的assembly, host read是指宿主的sequence? 09/25 22:04
2F:推 lelojack: 你確定可以組出夠完整的genome那兩種方式差不多 09/25 22:08
3F:推 lelojack: 我並不認為可以組出高品質的Genome 09/25 22:15
4F:推 lingon: 一樓id 是從andrew Godkin 來的? 09/25 22:44
5F:→ kaofei: 回一樓,對host read就是宿主的sequence 09/26 00:50
6F:→ kaofei: 想請問二樓為什麼不認為可以組出高品質的genome? 09/26 00:51
7F:→ kaofei: 移除host reads後我們實驗的兩種病毒剩下的Reads分別是 09/26 00:51
8F:→ kaofei: 26跟48%左右,coverage也都有1000以上,這樣也無法保證嗎? 09/26 00:53
9F:推 lingon: denove 最怕的就是long repeat 與duplication 09/26 07:00
10F:→ lingon: ref seq mapping 最怕的就是用錯strain 09/26 07:02
11F:→ lingon: sanger最怕的就是polymorphism, indel, 與amplicon不夠長 09/26 07:03
12F:→ lingon: 讓前段與後段的amplicon linkage information消失掉 09/26 07:04
13F:→ lingon: 如果你的viral genome夠短,ref seq與de novo contig 09/26 07:05
14F:→ lingon: 的similarity大約99%, 那大概就沒有什麼好擔心的 09/26 07:06
15F:→ lingon: 如果你只是單純的想找sequence variant的話 09/26 07:08
16F:推 lelojack: 我過去看過幾個數據,病毒序列佔約萬分之一,而分佈亟 09/26 07:15
17F:→ lelojack: 不平均,組出的結果很破碎,因此才這樣認為,不過你們 09/26 07:15
18F:→ lelojack: 數據比較好,或許就沒差 09/26 07:15
19F:→ Godkin: 回四樓,不是耶XD 09/26 08:22
20F:→ Godkin: 回樓主,關於病毒的assembly,可以問問我們社群的人 09/26 08:23
21F:→ Godkin: 我們社群裡,有人在疾管局就是做相關的東西 09/26 08:24
22F:→ Godkin: 在facebook搜尋Taipei Bioinformatics Omnibus 09/26 08:25
23F:→ Godkin: 上面有不少學界跟業界厲害的人,或許可以幫上你 09/26 08:26
24F:推 lingon: lelojack 那種狀況完全要看病毒基因體特性 09/26 09:00
25F:→ kaofei: 回lingon大大,其實我在看對方給的data時有個疑問,就是 09/26 22:12
26F:→ kaofei: de novo組出的contig對回ref.相似度有99%以上,但是如果用 09/26 22:12
27F:→ kaofei: non-host reads回貼ref.時,百分比卻降到60-70% 這合理嗎? 09/26 22:13
28F:推 lingon: 60-70% mapping rate? 09/27 00:47
29F:→ lingon: 如果你的百分比是mapping rate 的話60-70%不算奇怪,因為 09/27 00:49
30F:→ lingon: non-host reads會包含你想找的病毒以外的序列, 這些可能性 09/27 00:52
31F:→ lingon: 很多, 如exogenous pathogen, PCR primer, adaptor seq, 09/27 00:52
32F:→ lingon: viral-host fusion region 都有可能, 需要仔細分析才會曉 09/27 00:54
33F:→ lingon: 得。 09/27 00:55
34F:→ lingon: 還有個可能是有另外的viral strain在裡面, 但這要回去重 09/27 00:56
35F:→ lingon: 做de novo assembly 分析才會比較清楚 09/27 00:57
36F:→ kaofei: 謝謝大大們的解釋。想在問一個問題,就是我們在定序病毒 09/28 08:16
37F:→ kaofei: 兩端的時候發現序列都會不正確大約各少10個mer左右,這是 09/28 08:17
38F:→ kaofei: NGS定RNA的限制嗎,我們的病毒是有5' cap跟3' polyA tail 09/28 08:18
39F:推 lingon: 看你怎樣enrich viral sequence,如果是以RNA extraction 09/28 08:33
40F:→ lingon: 轉cDNA後把viral genome PCR 出來再送序列的話, 那就看 09/28 08:36
41F:→ lingon: 是不是forward 與reverse PCR primer 造成的 09/28 08:36
42F:→ lingon: 如果沒有PCR直接把cDNA送序列,那可能就要往host-viral 09/28 08:40
43F:推 adgh456: 序列是指reads兩端會有不正確嗎?如果是的話,你們的data 09/28 08:40
44F:→ adgh456: 有先作adaptor removal嗎?兩端都不正確10mer感覺很像是a 09/28 08:40
45F:→ adgh456: daptor。你們的library prepare應該是用polyA enrichment 09/28 08:40
46F:→ adgh456: ,之後再shotgun打成一個個的小片段,並在兩端接上adapto 09/28 08:40
47F:→ adgh456: r。通常NGS quality 5’end最好,一直往3’end遞減,所以 09/28 08:40
48F:→ adgh456: 應該不會兩端固定錯了10mer之類的 09/28 08:40
49F:→ lingon: integration site的方向去分析 09/28 08:40
50F:推 lingon: 說實在的,你最好還是跟做genomics/bioinfo的實驗室合作 09/28 08:43
51F:→ lingon: sample prep protocol會造成很多分析上奇奇怪怪的現象 09/28 08:44
52F:→ lingon: 從sequence data重導出protocol上面的問題是個花時間又 09/28 08:45
53F:→ lingon: 複雜的步驟, 最好有專人陪你分析討論 09/28 08:46
54F:→ kaofei: 我們跟實驗室合作,我們只負責純化足量的RNA,後續library 09/29 15:15
55F:→ kaofei: 製備跟其他的就是對方實驗是負責了。會問這個問題是我發現 09/29 15:16
56F:→ kaofei: 序列有出入後跟對方實驗室問,他們過去也有做過一個ss+RNA 09/29 15:17
57F:→ kaofei: 病毒也有類似的狀況,去查了其他的paper才發現這似是常態 09/29 15:18
58F:→ kaofei: 所以如果想用NGS定病毒全長,還是要搭配其他的技術才能獲 09/29 15:19
59F:→ kaofei: 得兩端的序列 因對方實驗室也不清楚為什麼 所以上來問問XD 09/29 15:19
60F:推 lingon: 看看是不是用nested PCR抓出病毒全長, 如果是那就大概是我 09/29 15:53
61F:→ lingon: 上面說的狀況, 如果不是那就需要花點時間了解了 09/29 15:55