塩基配列の検索にもっともよく使われているBLASTの使い方を学ぶ。
BLASTを使うにはウェブを経由する方法と自分のコンピュータで使用する方法の二つがある。 自分のコンピュータにソフトウェアをインストールして、データベースを作成する方法は、自由にデータベースを作成できることと、検索の自動化をしやすいことがメリットとなる。 一方、ウェブを経由する方法は簡単に使用できることと、常に最新のデータベースを使うことができるメリットがある。 今日はウェブを経由してBLASTを使用する方法を学ぶ。
世界中の研究機関や研究者が同定した塩基配列はデータベースに登録することになっている。 塩基配列データベースは日本、アメリカ、ヨーロッパの共同で運営されている。 日本は国立遺伝学研究所がデータベースDDBJを提供している。 アメリカはNCBI (National Center for Biotechnology Information)がデータベースGenBankを提供している。 ヨーロッパはEBI (European Bioinformatics Institute)がデータベースEMBL-Bank/ENAを提供している。
DDBJ、NCBI、EBIは相互にデータを交換して、最新情報を維持するようになっている。 いずれかのデータベースに登録された塩基配列は残りのデータベースに自動的に情報が送られて共有されている。 今日はNCBIのサービスを利用する方法を学ぶ。
https://www.ncbi.nlm.nih.gov/を開きます。 GoogleでNCBIと入力しても可。
「Sequence Analysis」をクリックし、「Basic Local Alignment Search Tool (BLAST)」をクリックする。
「Nucleotide BLAST」をクリックする。
BLASTはある塩基配列に類似した塩基配列をデータベースから探すソフトウェアです。 検索のもとになる配列のことをクエリー(Query)とよびます。 以下の塩基配列をクエリーにして類似する塩基配列を探します。
上記の塩基配列をコピーしてクエリーとしてフォームに貼り付けます。
探したいものが決まっているときには検索対象を絞り込むと検索にかかる時間が短くなる。 今回はクエリーが植物の塩基配列なのでplantsと入力する(入力すると関連する分類が表示されるので、選択肢から flowering plants taxid:3398 を選択する)。
左下にある「BLAST」をクリックして結果が表示されるのを待ちます。
Scoreが高い順に表示されます。E valueはそのぐらいのスコアの配列が偶然データベースに入ってくる確率を示します。 データベースが大きくなると偶然一致することも起きるようになります。 E valueが小さいと意味のある類似性ということになります。
検索結果をクリックしてアライメントを表示させます。
アクセッション番号(Sequence ID)をクリックする。
LOCUS KP718623 7052 bp DNA linear PLN 30-JAN-2017 DEFINITION Paulownia coreana isolate PDBK2014-1540 18S ribosomal RNA gene, internal transcribed spacer 1, 5.8S ribosomal RNA gene, internal transcribed spacer 2, and 28S ribosomal RNA gene, complete sequence. ACCESSION KP718623 VERSION KP718623.1 KEYWORDS . SOURCE Paulownia coreana ORGANISM Paulownia coreana Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta; Spermatophyta; Magnoliopsida; eudicotyledons; Gunneridae; Pentapetalae; asterids; lamiids; Lamiales; Paulowniaceae; Paulownia. REFERENCE 1 (bases 1 to 7052) AUTHORS Yi,D.-K. and Kim,K.-J. TITLE Paulownia coreana JOURNAL Unpublished REFERENCE 2 (bases 1 to 7052) AUTHORS Yi,D.-K. and Kim,K.-J. TITLE Direct Submission JOURNAL Submitted (27-JAN-2015) School of Life Sciences and Biotechnology, Korea University, Anamdong-5-ga-1, Seungbukgu, Seoul 136-701, Korea FEATURES Location/Qualifiers source 1..7052 /organism="Paulownia coreana" /mol_type="genomic DNA" /isolate="PDBK2014-1540" /db_xref="taxon:1238142" rRNA 621..2428 /product="18S ribosomal RNA" misc_RNA 2429..2662 /product="internal transcribed spacer 1" rRNA 2663..2824 /product="5.8S ribosomal RNA" misc_RNA 2825..3057 /product="internal transcribed spacer 2" rRNA 3058..6426 /product="28S ribosomal RNA" ORIGIN 1 gccgagatgc tgccggcgcg ggctcccgtg gctgtcggtg tcggtcccct accaacgtgc 61 ccagcggggc gtgctcgggc gtgcttgtcg tcgtttgctg cccgcgatgc ttcattgcgt (省略) 6961 gtgcagtcgg gtgccgtgtc tgttgcagtc gggtgccgtg tcgggtgccg tgtcgggtgc 7021 cgtctggtgc agtcgggtgc cgtgtctggt gc //
SOURCE ORGANISMにはその塩基配列をもつ生物種が記されている。 Paulownia coreana とはどのような生物なのか調べてください。
blastはアミノ酸配列も検索することができる。 まず下の塩基配列をSequence Manipulation Suiteでアミノ酸配列に翻訳してみる。
ヒント: TfB069474を翻訳するとMARGKIで始まるアミノ酸配列になる。
次にProtein BLASTのページを開いて、翻訳したアミノ酸配列をクエリーにして検索を実行してみる。 検索に時間がかかるのでDatabaseをUniProtKB/Swiss-Prot (swissprot)、Organismをflowering plants、にするとよい。
LOCUS BAG24492 234 aa linear PLN 11-SEP-2012 DEFINITION DEFICIENS-like MADS-box protein [Torenia fournieri]. ACCESSION BAG24492 VERSION BAG24492.1 DBSOURCE accession AB359951.1 KEYWORDS . SOURCE Torenia fournieri ORGANISM Torenia fournieri Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta; Spermatophyta; Magnoliopsida; eudicotyledons; Gunneridae; Pentapetalae; asterids; lamiids; Lamiales; Linderniaceae; Torenia. REFERENCE 1 AUTHORS Narumi,T., Aida,R., Niki,T., Nishijima,T., Mitsuda,N., Hiratsu,K., Ohme-Takagi,M. and Ohtsubo,N. TITLE Chimeric AGAMOUS repressor induces serrated petal phenotype in Torenia fournieri similar to that induced by cytokinin application JOURNAL Plant Biotechnol. 25, 45-53 (2008) REFERENCE 2 AUTHORS Niki,T., Hirai,M., Niki,T., Kanno,A. and Nishijima,T. TITLE Role of Floral Homeotic Genes in the Morphology of Forchlorfenuron-induced Paracorollas in Torenia fournieri Lind JOURNAL J. Japan. Soc. Hort. Sci. 81, 204-212 (2012) REFERENCE 3 (residues 1 to 234) AUTHORS Niki,T. and Nishijima,T. TITLE Direct Submission JOURNAL Submitted (02-SEP-2007) Contact:Tomoya Niki National Institute of Floricultural Sciences, Research Team for Flower Quality; 2-1 Fujimoto, Tsukuba, Ibaraki 305-8519, Japan FEATURES Location/Qualifiers source 1..234 /organism="Torenia fournieri" /db_xref="taxon:68875" Protein 1..234 /product="DEFICIENS-like MADS-box protein" Region 2..80 /region_name="MADS_MEF2_like" /note="MEF2 (myocyte enhancer factor 2)-like/Type II subfamily of MADS (MCM1, Agamous, Deficiens, and SRF (serum response factor) box family of eukaryotic transcriptional regulators. Binds DNA and exists as hetero and homo-dimers. Differs from SRF-like/Type I...; cd00265" /db_xref="CDD:238165" Site order(2..4,6,8,13,15,19..20,23..24,26..27,30..31,33..34, 38) /site_type="DNA binding" /note="DNA binding site [nucleotide binding]" /db_xref="CDD:238165" Site order(21,28..29,32..33,35..36,39,44,46,48,54,56,64,67..68, 71,74..75) /site_type="other" /note="dimerization interface [polypeptide binding]" /db_xref="CDD:238165" Site 59 /site_type="other" /note="putative phosphorylation site [posttranslational modification]" /db_xref="CDD:238165" Region 81..164 /region_name="K-box" /note="K-box region; pfam01486" /db_xref="CDD:426286" CDS 1..234 /gene="DEF" /coded_by="AB359951.1:105..809" /note="TfDEF" ORIGIN 1 margkiqikr ienqtnrqvt yskrrnglfk kaheltvlcd akvsiimiss tqklheyisp 61 stttkqvfdq yqkavgvdlw qtsyqkmqeh lkklkevnrn lkreirqrmg eclndmsyeh 121 mvnliedidn slrvirerky kvitsqietg kkklrnveei hkklvfeyda rhedphyglv 181 eneavdyhsv lgfpnngsrt ialryvpnhh hhhpslhggg gcggsdlttf alle //
blastには入力された塩基配列を6フレーム翻訳してから検索する方法もあります。 blastxを選択するとクエリーは塩基配列、データベースはアミノ酸配列を利用できます。
プログラム名 | クエリーの種類 | データベースの種類 |
---|---|---|
blastn | 塩基配列 | 塩基配列 |
blastp | アミノ酸配列 | アミノ酸配列 |
blastx | 塩基配列 | アミノ酸配列 |
tblastn | アミノ酸配列 | 塩基配列 |
tblastx | 塩基配列 | 塩基配列 |
NCBIでは検索対象とするデータベースを選択することができます。 データベースに含まれる塩基配列の数を減らすと検索速度があがります。 そのときScoreは変わりませんが、E valueが小さくなります。 Scoreはそのアライメントに固有の値となります。 E valueはデータベースのサイズに対してそのScoreが偶然でてくる確率を示しています。 例えば20塩基が偶然一致する確率は4の20乗(約10の12乗)分の1です。 データベースに塩基配列が1つしか入っていなければ完全に一致するものが含まれている確率は10の12乗分の1ですが、10の15乗の塩基配列がはいっていれば1000個ほどの塩基配列が一致する可能性があります。
下記の塩基配列をBLASTを使ってその特徴を調べなさい。生物種、機能など。
何に由来するのかわからないときはOrganismの制限を外すとよい。
この塩基配列はある被子植物のものである。
このアミノ酸配列はある被子植物のタンパク質に由来する。