作者cb1040 (Absurde.Y)
看板R_Language
標題[問題] bioinformatics,multiple sequence align
時間Mon Nov 9 17:12:54 2015
[程式諮詢] Bioinformatics的XStringset格式轉換
[入門]
2010修課玩過VBA,不過之後就沒了直到今日,也算新手吧
此版首po,請前輩們指教
[問題敘述]:
小弟我剛踏入bioinformatics,用Bioinfomatics with R cookbook 自學中
在MSA, Multiple Sequence Alignment部分,
使用下面這個package時卡關了
muscle, (multiple sequence comparison by log-expectation)
我的問題是:
如何轉換XStringset格式,且是多筆資料轉換
(有查詢Biostrings 中AAString功能,但仍不知道如何使用)
[程式範例]
這是原書步驟
http://imgur.com/eFWyDjk
http://imgur.com/94zPqQQ
這是會用到的fasta檔案
http://tinyurl.com/q6kjpru
以下是我的內容
pastie版 (第一次使用,還不熟,請見諒)
http://pastie.org/10540288
自己截圖版
http://imgur.com/ecLpoF1
http://imgur.com/4BqdEng
http://imgur.com/rT9PEqr (後面是其他物種的序列,共十種,我就不貼了)
http://imgur.com/0WvRNXJ
因為教材有點年份,code有些出入
例如install.packages("muscle")會找不到東西
或是沒有muscle::read.fasta這個功能
這裏再說一次我的問題
有查詢Biostrings 中 XStringset、AAString功能,但仍不會使用
想請問: 如何將多筆資料轉換成XStringset格式
[環境敘述]:
直接截圖
http://imgur.com/u42f95X
[關鍵字]: R, muscle, Biostrings, multiple sequence alignment, XStringset
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.109.125.195
※ 文章網址: https://webptt.com/m.aspx?n=bbs/R_Language/M.1447060378.A.A30.html
※ 編輯: cb1040 (140.109.125.195), 11/09/2015 17:46:42
1F:推 Godkin: 用readDNAStringSet("fastaMSA.fasta", format="fasta")讀 11/09 23:57
2F:→ Godkin: 這個package請用bioconductor上的新版本 11/09 23:58
我用source("
http://bioconductor.org/biocLite.R")
biocLite("muscle")
library(muscle)
這樣應該是從bioc那裡安裝最新版吧 (我看到版本都是3.12.0)
3F:→ Godkin: 多筆資料可以直接通通塞到同一個fasta檔裡頭跑 11/10 00:00
5F:→ cb1040: biocLite ("muscle") 安裝,這樣應該是最新版對吧 11/10 10:25
6F:→ cb1040: 我用readXStringSet成功了!!謝謝!!! 11/10 10:38
7F:→ cb1040: 關於第三點,是我必須額外存一個新的fasta檔案對嗎 11/10 10:39
※ 編輯: cb1040 (140.109.123.109), 11/10/2015 10:49:53
※ 編輯: cb1040 (140.109.123.109), 11/10/2015 10:56:05
8F:推 Godkin: 對, 可以用cat去串聯每個fasta檔 11/10 17:16