作者seagal (会长绕跑了)
看板CSSE
标题Re: [问题] 行与列
时间Fri Aug 18 10:42:50 2006
如果以关联式资料库的观点来看
column之间的关系是FD(functional dependence)的关系
用一种粗糙的白话文来解释
也就是个体属性间的关系
而row之间对应的是个体之间的关系
因此你存的如果是一笔一笔的资料
是应该以row方式来存的
当然
你也可以把gene的feature视为是gene的属性
但在ER model的观点来看
到最後转成关联式资料库上面的column
他的属性一定会表示成feature1, feature2, .... featureN这种方式
属性一定为N个个数
也就是说
如果你的属性不定个数
在ER上面会将feature独立出来变成一个个体(或是多值属性)
而feature与gene个体之间有一对多的关系(多值属性处理方式跟个体一样)
这种情况feature就会被独立出来成一个表格了
而不是被放在column上面
另外一方面 有关於生物资讯的data
一般来说
处理生物资讯的data
可以分成两种方式
flat-file based & DBMS based
在MySQL部分
emsemble有提供出schema & data
可以参考看看他们定出来的schema
他们的data也很完整
说不定连你自己的data都不用抓了
(不过你的资料可能是跟cancer有关的 这部份他们就比较缺乏)
如果用flat file的话
例如以ncbi提供出来gene的资料
可以利用bioperl去存取这些资料
里面提供非常多的API
举凡抓feature这些功能都有
bioperl相关的程式还包含了biojava..等等
※ 引述《micklin (mick)》之铭言:
: 最近在处理基因序列, 资料的储存一直让我很头痛,
: 在传统资料处理时, 我都把column对应到feature, 把row当成一笔资料.
: 但是现在的问题是MySQL不能处理2000个column (colon dataset),
: 更别说另一个五万多个基因的dataset了.
: 转成文字模式再用UltraEdit处理, 在4096个字元後就强迫断行了 = =
: 虽然可以自己用程式接起来就是了....
: 所以我的问题是,
: 在处理行与列的时候有没有什麽不同呢?
: 为什麽我们平常处理文字档或资料库的时候,
: 会偏好row很多而不是column很多?
: 是档案结构的问题还是什麽地方的限制呢?
: 谢谢回答.
--
http://www.im.tv/vlog/personal.asp?FID=&Memid=254442
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.109.169.200
※ 编辑: seagal 来自: 140.109.169.200 (08/18 10:46)
※ 编辑: seagal 来自: 140.109.169.200 (08/18 10:47)
※ 编辑: seagal 来自: 140.109.169.200 (08/18 11:52)
※ 编辑: seagal 来自: 140.109.169.200 (08/18 11:55)
※ 编辑: seagal 来自: 140.109.169.200 (08/18 14:17)
1F:推 micklin:谢谢您的回答 08/18 16:25
2F:推 micklin:目前的资料是未公开的cancer基因资料, 所以没办法用您建 08/18 16:43
3F:→ micklin:议的方法去做.... 08/18 16:43
※ 编辑: seagal 来自: 140.109.169.200 (09/22 09:36)