BioMedInfo 板


LINE

2000網易杯全國大學生數學建模 DNA序列分類 2000年6月,人類基因組計畫中DNA全序列草圖完成,預計2001年可以完成精確的全序 列圖,此后人類將擁有一本記錄著自身生老病死及遺傳進化的全部訊息的“天書”。 這本大自然寫成的“天書”是由4個字符A,T,C,G按一定順序排成的長約30億的序列, 其中沒有“斷句”也沒有標點符號,除了這4個字符表示4種鹼基以外,人們對它包含 的“內容”知之甚少,難以讀懂。破譯這部世界上最巨量訊息的“天書”是二十一世紀 最重要的任務之一。在這個目標中,研究DNA全序列具有什麼架構,由這4個字符排成的 看似隨機的序列中隱藏著什麼規律,又是解讀這部天書的基礎,是最重要的課題之一。 雖然人類對這部“天書”知之甚少,但也發現了DNA序列中的一些規律性和架構。例如,在全序列中有一些是用于編碼蛋白質的序列片段,即由這4個字符組成的64種不同的3字元串,其中大多數用于編碼構成蛋白質的20種氨基酸。又例如,在不用于編碼蛋白質的序列片段中,A和T的含量特別多些,于是以某些鹼基特別豐富作為特徵去研究DNA序列的架構也取得了一些結果。此外,利用統計的方法還發現序列的某些片段之間具有相關性,等等。這些發現讓人們相信,DNA序列中存在著局部的和全局性的架構,充分發掘序列的架構對理解DNA全序列是十分有意義的。目前在這項研究 中最普通的思想是省略序列的某些細節,突出特徵,然後將其表示成適當的數學對象。這 種被稱為粗粒化和模型化的方法往往有助于研究規律性和架構。 作為研究DNA序列的架構的嘗試,提出以下對序列集合進行分類的問題︰ 1)下面有20個已知類別的人工製造的序列(見下頁),其中序列標號1─10 為A類 ,11-20為B類。請從中提取特徵,構造分類方法,並用這些已知類別的序列,衡量你的 方法是否足夠好。然後用你認為滿意的方法,對另外20個未標明類別的人工序列 (標號21─40)進行分類,把結果用序號(按從小到大的順序)標明它們的類別 (無法分類的不寫入)︰B類 。 請詳細描述你的方法,給出計算程式。如果你部分地使用了現成的分類方法,也要 將方法名稱準確注明。 這40個序列也放在如下位址的網頁上,用數據文件Art-model-data 標識,供下載︰ 網易網址︰www.163.com 教育頻道 在線試題; 教育網︰ www.cbi.pku.edu.cn News mcm2000 教育網︰ www.csiam.edu.cn/mcm 2)在同樣網址的數據文件Nat-model-data 中給出了182個自然DNA序列, 它們都較長。用你的分類方法對它們進行分類,像1)一樣地給出分類結果。 提示︰衡量分類方法優劣的標準是分類的正確率,構造分類方法有許多途徑, 例如提取序列的某些特徵,給出它們的數學表示︰幾何空間或向量空間的元素 等,然後再選擇或構造適合這種數學表示的分類方法;又例如構造機率統計模 型,然後用統計方法分類等。 Art-model-data 1.aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggaggacgaggtaaaggaggcttgtctacggccggaagtgaagggggatatgaccgcttgg 2.cggaggacaaacgggatggcggtattggaggtggcggactgttcggggaattattcggtttaaacgggacaaggaaggcggctggaacaaccggacggtggcagcaaagga 3.gggacggatacggattctggccacggacggaaaggaggacacggcggacatacacggcggcaacggacggaacggaggaaggagggcggcaatcggtacggaggcggcgga 4.atggataacggaaacaaaccagacaaacttcggtagaaatacagaagcttagatgcatatgttttttaaataaaatttgtattattatggtatcataaaaaaaggttgcga 5.cggctggcggacaacggactggcggattccaaaaacggaggaggcggacggaggctacaccaccgtttcggcggaaaggcggagggctggcaggaggctcattacggggag 6.atggaaaattttcggaaaggcggcaggcaggaggcaaaggcggaaaggaaggaaacggcggatatttcggaagtggatattaggagggcggaataaaggaacggcggcaca 7.atgggattattgaatggcggaggaagatccggaataaaatatggcggaaagaacttgttttcggaaatggaaaaaggactaggaatcggcggcaggaaggatatggaggcg 8.atggccgatcggcttaggctggaaggaacaaataggcggaattaaggaaggcgttctcgcttttcgacaaggaggcggaccataggaggcggattaggaacggttatgagg 9.atggcggaaaaaggaaatgtttggcatcggcgggctccggcaactggaggttcggccatggaggcgaaaatcgtgggcggcggcagcgctggccggagtttgaggagcgcg 10.tggccgcggaggggcccgtcgggcgcggatttctacaagggcttcctgttaaggaggtggcatccaggcgtcgcacgctcggcgcggcaggaggcacgcgggaaaaaacg 11.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaattaaatatttatt 12.gtttaattactttatcatttaatttaggttttaattttaaatttaatttaggtaagatgaatttggttttttttaaggtagttatttaattatcgttaaggaaagttaaa 13.gtattacaggcagaccttatttaggttattattattatttggattttttttttttttttttttaagttaaccgaattattttctttaaagacgttacttaatgtcaatgc 14.gttagtcttttttagattaaattattagattatgcagtttttttacataagaaaatttttttttcggagttcatattctaatctgtctttattaaatcttagagatatta 15.gtattatatttttttatttttattattttagaatataatttgaggtatgtgtttaaaaaaaatttttttttttttttttttttttttttttttaaaatttataaatttaa 16.gttatttttaaatttaattttaattttaaaatacaaaatttttactttctaaaattggtctctggatcgataatgtaaacttattgaatctatagaattacattattgat 17.gtatgtctatttcacggaagaatgcaccactatatgatttgaaattatctatggctaaaaaccctcagtaaaatcaatccctaaacccttaaaaaacggcggcctatccc 18.gttaattatttattccttacgggcaattaattatttattacggttttatttacaattttttttttttgtcctatagagaaattacttacaaaacgttattttacatactt 19.gttacattatttattattatccgttatcgataattttttacctcttttttcgctgagtttttattcttactttttttcttctttatataggatctcatttaatatcttaa 20.gtatttaactctctttactttttttttcactctctacattttcatcttctaaaactgtttgatttaaacttttgtttctttaaggattttttttacttatcctctgttat 21.tttagctcagtccagctagctagtttacaatttcgacaccagtttcgcaccatcttaaatttcgatccgtaccgtaatttagcttagatttggatttaaaggatttagattga 22.tttagtacagtagctcagtccaagaacgatgtttaccgtaacgtqacgtaccgtacgctaccgttaccggattccggaaagccgattaaggaccgatcgaaaggg 23.cgggcggatttaggccgacggggacccgggattcgggacccgaggaaattcccggattaaggtttagcttcccgggatttagggcccggatggctgggaccc24.tttagctagctactttagctatttttagtagctagccagcctttaaggctagctttagctagcattgttctttattgggacccaagttcgacttttacgatttagttttgaccgt 25.gaccaaaggtgggctttagggacccgatgctttagtcgcagctggaccagttccccagggtattaggcaaaagctgacgggcaattgcaatttaggcttaggcca 26.gatttactttagcatttttagctgacgttagcaagcattagctttagccaatttcgcatttgccagtttcgcagctcagttttaacgcgggatctttagcttcaagctttttac 27.ggattcggatttacccggggattggcggaacgggacctttaggtcgggacccattaggagtaaatgccaaaggacgctggtttagccagtccgttaaggcttag 28.tccttagatttcagttactatatttgacttacagtctttgagatttcccttacgattttgacttaaaatttagacgttagggcttatcagttatggattaatttagcttattttcga 29.ggccaattccggtaggaaggtgatggcccgggggttcccgggaggatttaggctgacgggccggccatttcggtttagggagggccgggacgcgttagggc30.cgctaagcagctcaagctcagtcagtcacgtttgccaagtcagtaatttgccaaagttaaccgttagctgacgctgaacgctaaacagtattagctgatgactcgta 31.ttaaggacttaggctttagcagttactttagtttagttccaagctacgtttacgggaccagatgctagctagcaatttattatccgtattaggcttaccgtaggtttagcgt32.gctaccgggcagtctttaacgtagctaccgtttagtttgggcccagccttgcggtgtttcggattaaattcgttgtcagtcgctctrtgggtttagtcattcccaaaagg 33.cagttagctgaatcgtttagccatttgacgtaaacatgattttacgtacgtaaattttagccctgacgtttagctaggaatttatgctgacgtagcgatcgactttagcac 34.cggttagggcaaaggttggatttcgacccagggggaaagcccgggacccgaacccagggctttagcgtaggctgacgctaggcttaggttggaacccggaaa 35.gcggaagggcgtaggtttgggatgcttagccgtaggctagctttcgacacgatcgattcgcaccacaggataaaagttaagggaccggtaagtcgcggtagcc 36.ctagctacgaacgctttaggcgcccccgggagtagtcgttaccgttagtatagcagtcgcagtcgcaattcgcaaaagtccccagctttagccccagagtcgacg 37.gggatgctgacgctggttagctttaggcttagcgtagctttagggccccagtctgcaggaaatgcccaaaggaggcccaccgggtagatgccasagtgcaccgt 38.aacttttagggcatttccagttttacgggttattttcccagttaaactttgcaccattttacgtgttacgatttacgtataatttgaccttattttggacactttagtttgggttac 39.ttagggccaagtcccgaggcaaggaattctgatccaagtccaatcacgtacagtccaagtcaccgtttgcagctaccgtttaccgtacgttgcaagtcaaatccat 40.ccattagggtttatttacctgtttattttttcccgagaccttaggtttaccgtactttttaacggtttacctttgaaatttttggactagcttaccctggatttaacggccagttt 先感謝有心人看完那麼長的問題 小弟很好奇,為什麼要分A,B兩類 目前猜測是否A,B兩類代表"受感染"及"未受感染"的基因 --



※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 118.170.197.54
1F:→ JosephX:如題目所說"構造分類方法有許多途徑,例如提取序列的某些 09/17 03:33
2F:→ JosephX:特徵,給出它們的數學表示" 所以應該跟感染與否無關吧 ?? 09/17 03:34
3F:→ JosephX:如果從序列就知道感染與否也太強了?! 09/17 03:34
4F:→ JosephX:可能要分析一下,但光從兩類粗淺來看,B就比A類多很多"t" 09/17 03:36
5F:→ JosephX:我想應該有很多方是可以作分類... 09/17 03:37
6F:→ turtle24:A跟B只是你對模型的定義而已 具A特徵分類到A下面 09/17 12:52
7F:→ turtle24:然後給你隨機的序列去看看你的模型正不正確 09/17 12:52
8F:推 snark:其實這題拿去問作生物的一點都不難 關就就是上面長長的文章 09/17 14:53
9F:→ snark:提到基因編碼 也提到蛋白編碼 所以高AT的序列 暗指... 09/17 14:55







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:e-shopping站內搜尋

TOP