作者windincloud (当你孤单会想起谁)
看板BioMedInfo
标题Re: [问题] prediction 用的trainig data set
时间Thu Oct 14 13:23:53 2010
※ 引述《kzvito (HOW)》之铭言:
: 原po现在在作的是预测protein seqeuence上,
: 有哪些是会去interact的residue。
: 所以开始需要一些整理过的data set,
: 但是在PLoS之类的地方,
: paper好像都不会把自己的data set放上去,
: 请问如果有作相关题目的人,或者有些了解的板大,
: 除了写信找paper作者,
: 还有乾脆自己去PDB之类的资料库抓protein来自己整理外,
: 还有没有什麽途径可以找已经有人整理过的data set呢?
: ps如果有作类似的,欢迎交流一下~
Sorry~ 有点久才回这篇
首先,我想先说一下 "生物是一种活的科学",
无时无刻都有可能发生改变与演进
因此在如何做资料收集也就会特别的重要
收集资料 不外乎就由paper上的资料或是自己找
paper上的资料又分两种
一种是帮你整理得好好的给你下载
另一种就是跟你讲他是怎得到的,言下之意就是请您去手动到相关的bio. DB去找寻,
但跟自己找的差异是 => 他已经跟你讲他抓的规则是怎样
不过我想说的重点不在於此,而是该找寻怎样的data set才是自己要的
要找data set之前得先定义你是要做怎样的题目,不同的定义、不同的题目。
在不同的时间点所抓的资料也会有所不同。
举你想要做的题目来说,你想要做的是protein interaction residue.
这时就要先定义何谓protein interaction residue?
residue要与作用物上距离多少才算是有interaction?
再来这题目又可细分是要找protein protein interaction? 还是Zinc binding......
因此你会根据你不同的需求去建立你所找寻的规则,进而得到你所需要的资料。
或许你会说那我直接引用别人的就好啦~
但是我开宗明义就说明一件事 ─ 生物是活的!
所以你需要确认现在这资料是不是最新的!
不同的时间,同样的条件下,所得的资料也是会有些出入的。
嗯~ 讲得好像有点严肃
这边只是讲讲自己以前收集资料的一些小经验这样。
还有就算是拿别人的资料,最好还是能自己先判断,因为有时也会有误,
不论是排版错误,文章误植......等。
大概是这样罗~
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.138.155.196
1F:推 kzvito:嗯~我明白了!谢谢 10/20 22:36