作者adu (^_^)
看板BioMedInfo
標題[問題] EST的資料
時間Fri May 15 10:10:20 2009
請問版友,我想要擷取EST中,兩端UTR的序列
於是從NCBI抓了全部unigene的檔案
ftp://ftp.ncbi.nih.gov/repository/UniGene/Homo_sapiens/
裡面有兩個600mb跟900mb(後者還沒解壓縮)檔案我開不起來>"<(2G的小筆電)
想請問我在這邊找EST兩端的UTR資料正確嗎...?
如果是對的,我會想辦法生出電腦...
謝謝版友的回應:)
--
37m﹡
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.116.25.86
1F:→ hgsfhevil:可是你有什麼辦法告訴別人,est兩端的部分是utr? 05/15 10:58
2F:→ hgsfhevil:你大概是用start codon和stop codon去找吧,但是我比較 05/15 10:59
3F:→ hgsfhevil:建議,直接從基因體序列的注解去找utr部分,我沒試過用此 05/15 11:01
4F:→ hgsfhevil:法,所以我無法判斷對錯,但是我感覺你這樣去做,好像是ORF 05/15 11:02
5F:→ hgsfhevil:可是orf也不是找utr的方法,so 交給其他專家解答吧 05/15 11:02
6F:推 huggie:如果我跟 hajimels 版友沒有學錯的話,Biomart 可以找 05/15 11:27
7F:→ huggie:參考第50篇,然後attribute部份改選 5' 跟 3' UTR 05/15 11:28
8F:推 huggie:至於開大檔案,電腦不是問題,是要有能看檔案部份的工具 05/15 11:36
10F:→ huggie:不過要會用命令列 05/15 11:38
11F:→ adu:嗯恩 謝謝版大的回答,我主要是要先看看file裡面的資料型態 05/15 16:41
12F:→ adu:是不是序列,再思考下一部該怎麼完成:) 05/15 16:42
13F:→ windincloud:EXT還是要先做orf的比對後才會知道哪邊是utr 05/15 20:42
14F:→ windincloud:建議是由人類gene model中標記出有實驗證的gene 去抓 05/15 20:44
15F:→ windincloud:會較為準確,且話說許多utr都是推論出來的結果 05/15 20:45
16F:→ windincloud:我第一行打錯 是est :p 05/15 20:46
17F:→ adu:謝謝版大們的協助,終於解決了:D 05/19 11:55
18F:→ huggie:所以請問你最後怎麼做呀? 05/19 13:45
19F:→ adu:我沒有去避免掉coding的部分..是直接抓cDNA的資料 05/20 00:44
20F:→ adu:之前會想避免是因為我想的方法不適用在coding的部分, 05/20 00:45
21F:→ adu:所以想要把coding的部分去掉。不過現在先做做看全部的cDNA... 05/20 00:45
22F:→ adu:資料我是從NCBI->EST->Search for full length cDNAs 05/20 00:48
24F:→ adu:去抓homo sapiens completely cDNA的序列。(27675筆) 05/20 00:50