2003/04/06~2003/04/12 2003/04/13~2003/04/19 2003/04/20~2003/04/26    
  2003/03/09~2003/03/15 2003/03/16~2003/03/22 2003/03/23~2003/03/29 2003/03/30~2003/04/05
2003/1/5~2003/1/11 2003/1/12~2003/1/18 2003/1/19~2003/1/25    
2002/12/1~2002/12/7 2002/12/8~2002/12/14 2002/12/15~2002/12/21 2002/12/22~2002/12/28 2002/12/29~2003/1/4
2002/11/17~2002/11/23 2002/11/24~2002/11/30      

 

日期
內容
備註

2003/04/20

|

2003/04/26

完成 formula 中的 loop alignment program. 目前使用有 gap 的方法去算 score.
完成 formula 中的 stem alignment progarm(stem 內部的). 除了與 loop alignment 一樣,使用有 gap 的方法算score 之外,還必須考慮 stem 中 left and right block alignment 的一致性。
在寫程式的過程中,常常遇到 memory space 不夠的問題,因為我們需要許多 table 去記東西。原本在完成李家同老師的方法時,sequence length只能預測到300左右,後來有在針對 program 做修改,現在可以為 700。 因為我們的 formula 部份可能需要更多的空間,所以先將 300 的部分調整成可以為 700,否則最後 sequence length 可能會變成100以下囉!而現在雖然為 700,但將來加上我們 formula的部分後, sequence length 可能會變短。
再來現在 program 準備進入到我們 formula 的部分了。 就醬子啦~
[Back]

2003/04/13

|

2003/04/19

重新將之前寫的 RNA secondary structure prediction program 修改,原本有些部份是在主程式裡,現在已將其整理成 function 的方式,方便於 debug。 因為日後 program 會愈來愈大,所以花了些時間先將這部份整理起來,以便於 debug。
另外原本寫的 RNA secondary structure prediction program 只能針對一條sequence做,現在在program裡以將sequence 的數量改為變數來調整。但所需要的 memory space愈多(需要去儲存 sequences 的 primary and secondary structure information),因此可以處理的 sequence length 愈短。 因此目前在 RNA secondary structure prediction program 加上把做好的structure 中的 stem information 都抓出來了。接下來準備進入我們的 formula。
[Back]

2003/04/06

|

2003/04/12

目前正在寫 RNA Secondary Structure 到 stem 的程式。 暫停中.....
寫 proposal,報告投影片 很趕,可能會來不及......>_<
提審口試 覺得東西很複雜,不知道該如何說.....
終於結束了,幾天沒好好睡了,加上身體狀況愈來愈差.. 決定休息幾天,再繼續努力......
[Back]

2003/03/30

|

2003/04/05

寫 proposal 快來不及了,還沒動工.......>_<
目前正在寫 RNA Secondary Structure 到 stem 的程式。 暫停中.....
目前正在寫 RNA Secondary Structure 到 stem 的程式。 努力中.....
stem alignment formula 大致上算完成了,必須寫程式去驗證(得先等之前的程式合併之後才能再繼續,因為目前stem並沒有 sequence 的 information)。

在 case 12 與 case 15 的地方比較特別的是將 stem 切成兩堆各自去跑function,但此兩堆之間連接的 loop 必須也要做 alignment,所以目前決定將該段 loop 歸到 stem 頭尾 index 沒有 match 的部份。

該 loop 歸那邊對於整體的 score 似乎會有影響.....若目前做出來的score不好,將來可考慮修改此點......

[Back]

2003/03/23

|

2003/03/29

前陣子發現到有一本書不錯,它是介紹生物方面的一些基本東西,且採用圖畫來說明讓讀者能更明白清楚,在此推薦給大家。 圖解人類基因組的構造, 大石正道 著,林碧清 譯,世茂出版社,2002年12月,定價:200元
將 stem alignment 的部份做修改,沒有 stem 的地方也要 互相 align,做為下次 stem alignment 的依據。

formula 愈來愈大了......可怕 >_< (結論:愈急,方法想的愈不好...)

目前還有一個地方尚未想到方法解決.....

身體不舒服.....舊疾復發(咳嗽 + 身體酸痛).....>_< 不該熬夜的....真難受...
[Back]

2003/03/16

|

2003/03/22

準備 meeting 的東西。  
完成 program of RNA Secondary Structure Prediction(李家同老師計算生物講義第六章第二節的方法─找出最多 base pairs,結果所產生的 structure 可能不只一種)。 目前已連續相接的 base pair structure 為 structure 的優先選擇,將來若此情況的結果不為理想可以考慮換另一種 base pair 的接法或是在 GC、AU、GU的 base pair 有不同 score的區別。
完成最多括號配對的程式。 因為在 stem alignment score 均設為 1,原因是並沒有stem 內的資料,因為從 RNA Secondary Structure 到 stem 的程式還沒想到怎麼寫。
[Back]

2003/03/09

|

2003/03/15

將 stem alignment formula 整理起來。 差不多可以寫程式跑跑看了...
找 mRNA 是否會有二級結構的存在,因為目前的 RNA 二級結構預測皆是以 rRNA、tRNA為主要研究的對象。 涉及到論文題目是否能夠再繼續做下去......
找論文的 input data,以 cDNA來做。

The Molecular Biology Database Collection: 2003 update, Nucleic Acids Research, Vol. 31, No. 1, 2003

http://www.kazusa.or.jp/huge/,此 database 的 cDNA 整理的蠻不錯且 information 是以 human 為主的。

[Back]

2003/1/19

|

2003/1/25

改OS作業與期末考卷,算總成績.... 體會了一件事─ 學弟妹們好像很多人沒去上課,因為作業繳交率不高,而且很多人寫的都不是老師的習題,不知道在想什麼,OS對資工來說應該是很基本的課,相當於數學系的微積分,由三次大考的結果發現到會唸書的還是會唸書,不唸書的怎麼逼也沒用,因為作業不交、考試又考不好.....
找薛佑玲老師,結果老師這一兩個星期很忙,不常在高雄。 已經找老師兩個星期了,只好先mail問題給老師,等老師回信囉!

· 有沒有存在與 protein 相互對應的 cDNA 與 EST 呢?有

· 若由 protein sequence 求其 DNA sequence 或 cDNA,這樣是否有生物上的意義呢? 這問題在生物醫學的研究上並非很重要,因為他們可以用基因定序法來做。

由上次聯合meeting中,所連想到的問題,也是寫信問薛佑玲老師的問題(老師已回信給我),另外有跟老師約下星期一見面討論。
[Back]

2003/1/12

|

2003/1/18

想去了解 the structural classification of proteins,所以讀了備註裡列的paper,且有了以下的筆記:

· class: 蛋白質的二級結構來分,如 alpha-helices、beta-sheet、alpha/beta、alpha+beta....等。

· fold: 主要由二級結構相同的 topology 來分。

· superfamily: 以 species 來歸類,依其結構與功能來分。

· family: 依演化的相關性來分,通常以 protein 之間的氨基酸序列來分,大於30%相似度。

SCOP: A Structural Classification of Proteins Database for the Investigation of Sequences and Structures (Alexey G. Murzin, Steven E. Brenner, Tim Hubbard and Cyrus Chothla, JMB(J. Mol. Biol), pp. 536-540, 1995)
Population statistics of protein structures: lessons from structural classifications (Steven E Brenner, Cyrus Chothia and Tim JP Hubbard, Current Opinion in Structural Biology, pp. 369-376, 1997)
Protein Structure & Motifs (Molecular Biology, 2000)
目前較多人使用的 database of the structural classification of proteins 有: SCOP、CATH...等。

SCOP: http://scop.mrc-lmb.cam.ac.uk/scop/

CATH: http://www.biochem.ucl.ac.uk/bsm/cath_new/

[Back]

2003/1/5

|

2003/1/11

上網尋找台灣某些大學在蛋白質領域的老師,並寫 e-mail請教他們一些問題,老師們人都很好,有2/3的老師都有回信,只不過殘酷的事實─ 想做的新方向是行不通的,每位老師都覺得不太可行,也到生醫所問張榮賢老師了.......看來又得重新再找囉----距離畢業愈來愈遠啦~

繼續處於低潮也於事無補.......還是得站起來呀!!

不過,目前沒方向---所以不知道星期五的 meeting 該怎麼過咧?

找什麼 paper 呢? 煩惱喔~

改Operating system homework  
水水水.........天啊!! 兩台飲水機都壞了.......  
[Back]

2002/12/29

|

2003/1/4

個咪-----發現到已經有人把預測蛋白質function的正確率達到 88~90%了,所以我必須重新再找論文方向題目....... 自從個咪後,一直提不起勁........=_=...(沉澱中)
改大學部作業系統的第二次期中考考卷 還是覺得學弟妹們都沒在唸書,已經比第一次期中考簡單,確只有3個人及格,而且全班幾乎都把好幾題的題目問的東西誤解了....

新的一年又到了.....

那是不是代表有錢修飲水機了呢?

人一天至少要喝2500~3000c.c.的水喔~
[Back]

2002/12/22

|

2002/12/28

Accurate prediction of protein functional class from sequence in the M. tuberculosis and E. coli genomes using data mining. In Yeast (Comparative and Functional Genomics) 17 (4), pp 283-293, 2000

之前看的幾篇關於proetin function預測的paper裡有一些問題都可以從這篇paper得到解,好比E. coli function tree的由來,如下所示 :http://www.mips.biochem.mpg.de/proj/yeast/catalogues/index.html http://genprotec.mbl.edu:80/strat(找不到)

由"The Complete Genome Sequence of Escherichia coil K-12"這篇paper知道E. coli的ORF數量(= 4288)之後,可在"E. coli genome project" 網頁download 整個sequence及ORF在swissport的編號。

http://www.genome.wisc.edu/ 有一些相關於E. coli 的資料可download
利用已知的ORF number到swissport database網頁將number 輸入後,可得到該 ORF的相關 annotation,有些 ORFs會有function的說明...等。 http://www.genome.wisc.edu/
利用已知的ORF之sequence來計算其Molecular weight、amino acid compositions、length 、atomic composition、pI、GRAVY、aliphatic index...等,方法是利用Prot-Param Tool將sequence放入,它就會自動幫我們算出以上那些項目。 http://us.expasy.org/tools/protparam.html

Meeting,整理了關於預測 protein function的paper以及由protein sequence所建立的table裡的一些attribute 之相關information(上述的相關網頁)

· Genome scale prediction of protein functional class from sequence using data mining. In: The Sixth International Conference on Knowledge Discovery and Data Mining (KDD 2000).
· Accurate prediction of protein functional class from sequence in the M. tuberculosis and E. coli genomes using data mining. In Yeast (Comparative and Functional Genomics) 17 (4), pp 283-293, 2000
· Prediction of Protein Functional Class from Sequence in E. coli. In Bioinformatics(2001).
· The Complete Genome Sequence of Escherichia coli K-12
(SCIENCE, vol. 277, pp.1453-1462, 1997)

結論1. 上述網頁都只能針對一個sequence做輸入計算,而E. coli 有4288 ORFs,希望能夠找到可以直接download整個E. coli的資料,像可以直接download它的sequence一樣。

結論2. 由於paper裡所用的structure預測function比sequence和similarity預測差,但是理論上來說structure會比較接近function,發現paper中的structure是用predicted secondary structure,因此我們可以針對真正已知structure的protein來做。

結論3. 由paper中發現利用similarity來預測protein function 的正確率最高,而similarity是用PSI-BLAST來做的,因此必須要花些時間把PSI-BLAST弄懂。

總覺得愈來愈生物了,有點吃不消~@_@~

還要再繼續撐下去嗎? >_<

還是早點轉回algorithm呢? (還能算早嗎? ^o^)

該好好想想囉~

[Back]

2002/12/15

|

2002/12/21

參加 ICS2002 研討會  
看完了" The Complete Genome Sequence of Escherichia coil K-12" (SCIENCE, vol.277, 1997) 整篇paper是在對E. coli的genome做說明,很多地方看不懂,幾乎都是生物上的用詞以及gene的編號,大致上從那篇paper得到的information有:4,639,221 bp、4288 ORF、23 functional class、2584 predicted and known operons,2405 operon regions with predicted promoters,the average ORF size is 317 amino acids.
[Back]

2002/12/8

|

2002/12/14

大掃除.....很累人~ 比賽結果退步了,也造成之前身體的疼痛又犯了(舊疾復發)....>_<

兩次的整潔比賽只覺得好像都是新的實驗室在名列前矛說......

建議下次可以買台吸塵器,因為有些地方沒辦法用抹布擦乾淨.....
人類的根源─一個cell裡有幾百個腺粒體,而腺粒體是用來製造細胞活動所需的能量,腺粒體裡有Ring DNA,其長度為16500個字母所組成。由於線粒體的數量多,所以很容易在骨骸中收集到,且每個人的腺粒體是由母親那裡來的,因此可以透過分析腺粒體,來尋找古代人與現代人的關係,以完成人類尋根的願望。 另外在此為上次的週報做校正,經由這次meeting得知(學妹的報告),原來粒腺體也可以稱為腺粒體,此兩種叫法都有人在使用。
看了國家地理頻道所播的─人,基因碼之旅 影片中也是在說人類尋根的事,一名教授認為人類的祖先是非洲人,而他所採用的方法是針對男性來做分析,且只分析比較他們的Y染色體,且這位教授採取環球旅行,延著海岸線走,對每個族群做DNA的分析,最後證實了在四、五萬年前,有一批非洲人延著海岸線去尋找新的紮根地方,而經過許多代的演變,加上環境的不同,形成了現在的亞洲人、歐洲人、美洲人......等。
參加兩天高醫所辦的生物資訊研討會(演講+實習),第一天是演講,大約講了目前在生物醫學方面較focus的東西,好比protein motif、protein function、alternative splicing、SNP(single nucleotide polymorphism)。第二天則是上機課,主要是介紹如何使用database?BLAST─只能做兩個sequences的比對,若要做multiple sequences alignment 則可使用EMBL database的alignment功能來做。除了這些之外,還教我們許多方法,例如找 exon、motif、promoter、protein structure、protein在chromosome的position,以及同樣的protein在不同species所存在於該species的幾號chromosome....等。

這次整個課程的感覺是雖然教我們很多方法,但是每個方法都會看到許多的變數設定,而演講者幾乎都沒告訴我們那些變數所代表的意義為何?而在私底下我也曾經問過他們,但是許多東西他們也不太知道,所以結論是生命真的很奧妙~

而我已經曾經參加過成大的GCG研討會,它也是在教我們如何使用這些database(NCBI、e!、PDB、EMBL....),不過不一樣的是它所教的功能較少,但是他們會解釋變數的意義.....

所以各有所長啦~

[Back]

2002/12/1

|

2002/12/7

看了 NHK-DNA時代 (1~5集)

對人類基因組、癌症的秘密、大腦的藍圖、老化與死亡、人類的根源更加的了解,不過在第 5 集中所提到的 "腺粒體" ,應該是錯誤的,正確的是 "粒腺體" 才對,建議大家有時間可以看看。總共 6集。
正在讀 " The Complete Genome Sequence of Escherichia coil K-12" (SCIENCE, vol.277, 1997) 因為為了要弄清楚之前看的 function of protein paper 中所用到function class,而在 function of protein paper 中它是針對 E.Coli 的function of protein 來做分析,因此我選擇了這篇paper看(是之前 paper 的 reference ),不過目前還沒看完,太生物了,許多東西都不懂再說什麼....
[Back]

2002/11/24

|

2002/11/30

跟薛佑玲老師請教蛋白質功能的分類,利用 The Utility of Different Representations of Protein Sequence for Predicting Functional Class (Bioinformatics, 2002) & Genome Scale Prediction of Protein Functional Class from Sequence using Data Mining ( the 6th ACM SIGKDD International conference on knowledge discovery and data mining, 2000)

在蛋白質功能分類上,通常是由細胞來分,如在細胞膜內外、細胞核內外、粒腺體、大分子、小分子、脂肪、新陳代謝...等,由大的往小的分。而 paper 的分法在生醫方面是可以被接受的。
以上兩篇 paper 的蛋白質功能分法在生醫方面是否可以被接受? yes,但 paper上所做的分類並沒有註明是如何得來的?因此目前我正準備根據 paper上所採用的E.coil (大腸桿菌)做更詳細的研究,看看是否能夠曉得作者的分類方式,可能針對 database information去調查。
薛老師說她正好需要有人做功能分類的,因為老師那裡有一堆EST正為了功能分類而困擾,因此老師希望能夠有自動化功能分類的方法。 老師覺得我所說的蛋白質功能預測可以拿來應用在EST的功能分類,而且用電腦做完的結果老師那邊可以做實驗來輔助驗證。而那兩篇蛋白質功能分類的 paper 已經以 sequence、2D structure、SIM 三者為依據來做,因此目前能做的方向就是 (1) 採用更好的 attributes (2) 加上 3D structure information (3) 改做 EST 功能分類預測
去聽了 SPSS Clementine 7.0 的上市發表會 它是一套將許多 data mining 的方法做成一個一個 model,且還可以將做出來的數據轉換成 rule 的型態以及可將做好的 rule做正確性的評估,而input 到 data mining model 的 data 此軟體也有將在 database 的 table 做整合功能,另外一點要注意的是此軟體也可以允許使用自己撰寫的 data mining program 來用,而 input data 的整合與 result rules 和 rule 評估 都可以使用軟體本身的功能(只要符合其 data格式)。軟體界面的操作蠻容易的,but 價格非常的昂貴~ >_< ~
最近喝水真是辛苦呀!靠近研究室的飲水機水箱破了、廚房的飲水機沒水,白天還可以到系辦裝水,但是到了晚上喝水就變的很麻煩了~ 何時才能把飲水機修好呢?水箱竟然要 20000元.....
終於改完作業系統的期中考卷了 只能說慘不忍睹~ 不知道學弟妹們到底有沒有在唸書呢?我已經改的很鬆了,但是及格的人還是很少,而且還外系的較多。
學生不去上課,熬夜,不知道健康的重要性 可以在書報討論的時候請一些醫師來演講,就像這學期有一次的書報討論請來了律師告訴我們智慧財產權的相關事宜呀~ 醫師的臨床經驗較豐富,較有說服力,也可以多讓我們知道平時該如何保養身體。
[Back]

2002/11/17

|

2002/11/23

看了 "Frequent Subgraph Discovery" (the 1st IEEE conference on data mining, 2001) Paper 雖然看完了,不過仍有一些疑問在,正嘗試套例子去try (讀了不少篇的 data mining 的paper 發覺到這一類的 paper 幾乎很少會舉例子去說明,大多是文字的講解比較多......看的很辛苦說~)
寫了信問薛佑玲老師 "在蛋白質功能中它有沒有比較具體的分類以及蛋白質功能它是否有一些基本的定義呢?" 不過薛佑玲老師回信說她的辦公室在整修,下星期再回我的問題
看了一下作業系統的書,因為大學部期中考考完了,要改考卷 我的OS課本是舊版的,發現到有些題目在我的書中並沒有說明的太多,所以可能要想辦法跟別人借借看是否有新版的書,將答案確定好後再改考卷囉~
[Back]