Protein Structure Prediction Kit 1.4 使用說明手冊
http://par.cse.nsysu.edu.tw/~pspk/
前言
Protein Structure Prediction Kit
1.4(PSPK 1.4)是由國立中山大學資訊工程所平行處理實驗室團隊,歷經四年所開發,在蛋白質結構預測的領域,方法不斷推陳出新,本實驗室團隊亦接連改良PSPK的核心演算法,並設計友善的使用者介面,以提供從事蛋白質研究的人一個好用的輔助工具為己志,本軟體免費提供非商業性學術研究使用,若有軟體操作及核心演算法等相關問題,歡迎各界不吝指教。
Department of Computer Science and
Engineering
National Sun Yat-sen University Kaohsiung,
Taiwan 80424
URL: http://par.cse.nsysu.edu.tw
TEL: +886-7-5252000 ext. 4345
概觀
PSPK的設計目的是輔助我們針對一條胺基酸序列,利用結構為已知的蛋白質序列資料庫(如已存在蛋白質資料庫PDB的蛋白質結構),並且依結構排列(Structure Alignment)、建立晶格模型結構(Folding)、曲線比對(Curve Matching)與整合結果(Merging Result)四大步驟來預測此目標序列之蛋白質結構。在預測完成後,提供三維結構檢視與RMSD比對等方便研究進行之功能。本操作技術手冊內容包括PSPK1.4的安裝、程式流程及操作方法。
安裝
PSPK支援下列作業系統:
– Microsoft Windows 98
(Second Edition)
– Windows Me
– Windows NT 4.0 (Service
Pack 6)
– Windows 2000 (Service Pack
3)
– Windows XP Professional
(Service Pack 1)
安裝主程式:
將檔案解壓縮後,即可執行PSPK.exe主程式。
主程式下載網址:http://par.cse.nsysu.edu.tw/~pspk/PSPK.zip
安裝BLASTP:
Basic Local Alignment Search Tool (BLAST),是由National Center Biotechnology Information(NCBI http://www.ncbi.nlm.nih.gov/ )開發的免費工具,用來尋找區域相似序列,而blastp是其中一種做protein-protein間比對的工具,效能較使用dynamic programming的方法佳。當第一次執行PSPK時,必須安裝blastp,可以選擇手動安裝或經由PSPK自動安裝。
手動安裝步驟:
1.
下載blastp:由NCBI的網站或FTP 站下載。
http://www.ncbi.nlm.nih.gov/BLAST/download.shtm
ftp://ftp.ncbi.nlm.nih.gov/blast/executables/release/
2.
下載蛋白質資料:由NCBI的FTP 站下載pdbaa.gz
ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/
將blastp執行檔及pdbaa.gz解壓縮在blast目錄下。
3.
在命令提示字元執行:
formatdb -i pdbaa -p T -o T
其中
-i Input file(s) for
formatting (this parameter must be set)
[File In]
-p Type of file
T - protein
F - nucleotide [T/F]
Optional
-o Parse options
T - True: Parse SeqId and create indexes.
F - False: Do not parse SeqId. Do not create indexes.
自動安裝步驟:
Setting→Set Blastp→Create
圖一:自動安裝
Blastp更新:
手動更新步驟:
1.
下載蛋白質資料:由NCBI的FTP 站下載pdbaa.gz
ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/
pdbaa.gz解壓縮在blast目錄下。
2.
在命令提示字元執行:
formatdb -i pdbaa -p T -o T
自動更新步驟:
Setting→Set Blastp→Updata
圖二:自動更新
安裝本機資料庫(Local Database):
PSPK使用的蛋白質結構資料來自Protein Data Bank(PDB http://www.rcsb.org/pdb/index.html
),若要手動建立本機資料庫須下載其中的PDB格式的蛋白質資料:pdb[PDB name].ent.Z,經解壓縮、轉檔才能為PSPK使用。PSPK提供建立本機資料庫的功能,步驟如下:System→ Create Local Database進入圖三畫面,預設由PDB下載,連線後可選擇mirror整個PDB資料庫或僅下載特定年份資料,唯mirror整個PDB資料庫約須要8GB的磁碟空間,費時數小時方能完成。
圖三:安裝本機資料庫
目錄、檔案說明如下:
目錄/檔案
敘述
Blast
包括所有Blastp所需檔案
l
Data
-blosum45、blosum62、blosum80:Blastp使用之Score Matrix。
l
blastall.exe:Blastp主程式。
l
formatdb.exe:建立Blastp使用的資料庫。
l
formatdb.log、pdbaa.phr、pdbaa.pin、pdbaa.pnd、pdbaa.pni、pdbaa.psd、pdbaa.psi、pdbaa.psq:Blastp
目錄/檔案
敘述
資料庫元件。
l
pdbaa:解壓縮後的Blastp資料庫原始檔。
Data
預設的本機資料庫資料存放路徑
Demo
預設的檔案輸入路徑
ScoreMatrix 包含預設與自訂的Score Matrix
Setting
包含PSPK的設定資料
l
color.txt:使用者設定的顏色。
l
default_color.txt:預設顏色。
l
default_psps.conf:預設變數值設定。
l
psps.conf:使用者自訂變數值設定。
Temp
暫時存放從PDB下載之蛋白質結構資料
l
gzip.exe:解壓縮軟體,將下載之蛋白質結構資料解壓縮。
blastp.BAT
執行Blastp
glut32.dll BCB所需元件
gzip.BAT
執行gzip
PSPK.exe
主程式
程式流程圖:
圖四:程式流程圖
操作方法
PSPK的核心演算法包括:「Prediction with Secondary Structure」,「Prediction without Secondary
Structure」,「Prediction on Sliced Lattice Model」三種,由使用者視需要選用。
STEP 1. Prepare:
選擇核心演算法Prediction with Secondary
Structure或Prediction
without Secondary Structure:
1.
資料輸入:若是Prediction with Secondary
Structure須輸入一級結構和二級結構序列,Prediction without Secondary
Structure則只要輸入一級結構序列,輸入模式可選擇用檔案或直接輸入蛋白質序列。
2.
資料庫:可選擇使用本機資料庫或網路連結PDB資料庫,若使用PDB資料庫,則需設定Identity範圍,PSPK將會下載與待測序列相似度在範圍內的蛋白質結構資料作為Database內的資料,使用者可藉由改變Identity範圍來控制Database內的資料量。
3.
Score
Matrix:除了選擇程式提供的Score Matrix,使用者尚可自訂所需的Score Matrix。
4.
摺疊(Fold)變數:使用者可自行調整基因演算法的世代數(Generation)、交配率(Crossover Rate)及突變率(Mutation Rate),以獲得最佳解。
5.
曲線吻合(Curve Fitting):使用者可自行決定建立B-spline曲線所欲插入點的數量。
6.
按下「Next Step」按鍵。
選擇核心演算法Prediction on Sliced Lattice
Model:
此種方法可選擇採用基因演算法或ACO演算法,若採用基因演算法,操作與Prediction without Secondary Structure方法相同,而採用ACO演算法則會出現一個設定畫面,其中變數皆可配合使用者需要做調整,以達結果最佳化。
STEP 2. Predict:
由設定畫面轉換成執行畫面,可藉由progress bar觀察程式運作進度,當程式執行完畢畫面會出現Alignment、Folding、Curve Fitting、Merging等四個部份的執行結果及其所佔時間比例。
STEP 3. Report:
Structure:
蛋白質3D結構顯示是由OPENGL(3D繪圖與模型程式庫)所繪製,可依據使用者喜好,訂定下列選項,顯示出欲求得之資訊,圖五為初始畫面:
圖五:Report畫面
1.
Zoom:包含「Zoom in」、「Zoom out」及「Default」三個按鍵,供使用者將結構3D模型放大、縮小或是設成預設大小。
2.
Show
Mode:「Ball-Stick」、「Tubes」、「Space Fill」3種蛋白質結構表示方式,依使用者喜好自行選定。
3.
Auto
Rotation Direction:供使用者選定3D模型自動旋轉方向或旋轉與否。
4.
Mouse
Move & Mouse Rotate:讓使用者在畫布上用滑鼠拖曳3D模型,使其可以任意旋轉角度或是調整位置。
5.
Head
& Tail node:當結構趨於複雜時,點選此項可用顏色標示蛋白質結構的開頭和結尾胺基酸,分別為紅點和綠點如圖九。
6.
Electrification:以顏色標示胺基酸帶電性,「+」帶正電,以紫色示之,「-」帶負電,以黃色示之,電中性以藍色示之。如圖六所示。
圖六:標示胺基酸帶電性
7.
Color
Mode:有3種模式可供使用者選擇,「Single」所有胺基酸採單一顏色,「HP mode」疏水性(hydrophobic)以藍點示之,親水性(hydrophile)以紅點示之(圖七),「Multi」每種安基酸皆給予不同顏色(圖八),按下「Change Color」按鍵進入色票畫面,供使用者改變顏色(圖九)。
圖七:HP mode
圖八:Multi
圖九:Change Color
8.
Result:顯示胺基酸序列及各個胺基酸的座標位置,在胺基酸序列上按滑鼠左鍵反白選取,會在左邊的3D圖像上顯示出相對位置(圖十),此時若按下「Show Selection」按鍵,則左邊的3D圖像僅顯示使用者反白選取的那一段胺基酸序列,再按一次又會顯示全部(圖十一)。
圖十:顯示選取序列在3D結構上的位置
圖十一:只顯示選取序列
Protein
3D Viewer :
提供使用者可讀取RCSB提供的已知蛋白質結構檔案(副檔名為.ent or .pdb1)以3D模型顯示(圖十二)。
圖十二:Protein 3D Viewer
Compare:
用RMSD比對預測模型與參考模型的相似程度,先按「Load」鍵以檔案選取的方式讀進參考模型的結構資料,然後按「Calculate」按鍵計算RMSD值(圖十三)。
圖十三:用RMSD比對預測模型與參考模型的相似程度