バイオインフォマティクス 中部大学2024年秋学期

BLASTのオンラインサービスを活用する

BLASTを使って似た塩基配列を探す

塩基配列の検索にもっともよく使われているBLASTの使い方を学ぶ。

BLASTを使うにはウェブを経由する方法と自分のコンピュータで使用する方法の二つがある。 自分のコンピュータにソフトウェアをインストールして、データベースを作成する方法は、自由にデータベースを作成できることと、検索の自動化をしやすいことがメリットとなる。 一方、ウェブを経由する方法は簡単に使用できることと、常に最新のデータベースを使うことができるメリットがある。 今日はウェブを経由してBLASTを使用する方法を学ぶ。

NCBIのBLASTサービスを使う

世界中の研究機関や研究者が同定した塩基配列はデータベースに登録することになっている。 塩基配列データベースは日本、アメリカ、ヨーロッパの共同で運営されている。 日本は国立遺伝学研究所がデータベースDDBJを提供している。 アメリカはNCBI (National Center for Biotechnology Information)がデータベースGenBankを提供している。 ヨーロッパはEBI (European Bioinformatics Institute)がデータベースEMBL-Bank/ENAを提供している。

DDBJ、NCBI、EBIは相互にデータを交換して、最新情報を維持するようになっている。 いずれかのデータベースに登録された塩基配列は残りのデータベースに自動的に情報が送られて共有されている。 今日はNCBIのサービスを利用する方法を学ぶ。

NCBIのウェブサイトを開く

https://www.ncbi.nlm.nih.gov/を開きます。 GoogleでNCBIと入力しても可。

「Sequence Analysis」をクリックし、「Basic Local Alignment Search Tool (BLAST)」をクリックする。

「Nucleotide BLAST」をクリックする。

クエリーを入力する

BLASTはある塩基配列に類似した塩基配列をデータベースから探すソフトウェアです。 検索のもとになる配列のことをクエリー(Query)とよびます。 以下の塩基配列をクエリーにして類似する塩基配列を探します。

上記の塩基配列をコピーしてクエリーとしてフォームに貼り付けます。

探したいものが決まっているときには検索対象を絞り込むと検索にかかる時間が短くなる。 今回はクエリーが植物の塩基配列なのでplantsと入力する(入力すると関連する分類が表示されるので、選択肢から flowering plants taxid:3398 を選択する)。

左下にある「BLAST」をクリックして結果が表示されるのを待ちます。

Scoreが高い順に表示されます。E valueはそのぐらいのスコアの配列が偶然データベースに入ってくる確率を示します。 データベースが大きくなると偶然一致することも起きるようになります。 E valueが小さいと意味のある類似性ということになります。

検索結果をクリックしてアライメントを表示させます。

見つかった塩基配列の情報を調べる

アクセッション番号(Sequence ID)をクリックする。

LOCUS       KP718623                7052 bp    DNA     linear   PLN 30-JAN-2017
DEFINITION  Paulownia coreana isolate PDBK2014-1540 18S ribosomal RNA gene,
            internal transcribed spacer 1, 5.8S ribosomal RNA gene, internal
            transcribed spacer 2, and 28S ribosomal RNA gene, complete
            sequence.
ACCESSION   KP718623
VERSION     KP718623.1
KEYWORDS    .
SOURCE      Paulownia coreana
  ORGANISM  Paulownia coreana
            Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta;
            Spermatophyta; Magnoliopsida; eudicotyledons; Gunneridae;
            Pentapetalae; asterids; lamiids; Lamiales; Paulowniaceae;
            Paulownia.
REFERENCE   1  (bases 1 to 7052)
  AUTHORS   Yi,D.-K. and Kim,K.-J.
  TITLE     Paulownia coreana
  JOURNAL   Unpublished
REFERENCE   2  (bases 1 to 7052)
  AUTHORS   Yi,D.-K. and Kim,K.-J.
  TITLE     Direct Submission
  JOURNAL   Submitted (27-JAN-2015) School of Life Sciences and Biotechnology,
            Korea University, Anamdong-5-ga-1, Seungbukgu, Seoul 136-701, Korea
FEATURES             Location/Qualifiers
     source          1..7052
                     /organism="Paulownia coreana"
                     /mol_type="genomic DNA"
                     /isolate="PDBK2014-1540"
                     /db_xref="taxon:1238142"
     rRNA            621..2428
                     /product="18S ribosomal RNA"
     misc_RNA        2429..2662
                     /product="internal transcribed spacer 1"
     rRNA            2663..2824
                     /product="5.8S ribosomal RNA"
     misc_RNA        2825..3057
                     /product="internal transcribed spacer 2"
     rRNA            3058..6426
                     /product="28S ribosomal RNA"
ORIGIN      
        1 gccgagatgc tgccggcgcg ggctcccgtg gctgtcggtg tcggtcccct accaacgtgc
       61 ccagcggggc gtgctcgggc gtgcttgtcg tcgtttgctg cccgcgatgc ttcattgcgt
(省略)
     6961 gtgcagtcgg gtgccgtgtc tgttgcagtc gggtgccgtg tcgggtgccg tgtcgggtgc
     7021 cgtctggtgc agtcgggtgc cgtgtctggt gc
//

SOURCE ORGANISMにはその塩基配列をもつ生物種が記されている。 Paulownia coreana とはどのような生物なのか調べてください。

アミノ酸配列で検索する

blastはアミノ酸配列も検索することができる。 まず下の塩基配列をSequence Manipulation Suiteでアミノ酸配列に翻訳してみる。

ヒント: TfB069474を翻訳するとMARGKIで始まるアミノ酸配列になる。

次にProtein BLASTのページを開いて、翻訳したアミノ酸配列をクエリーにして検索を実行してみる。 検索に時間がかかるのでDatabaseをUniProtKB/Swiss-Prot (swissprot)、Organismをflowering plants、にするとよい。

LOCUS       BAG24492                 234 aa            linear   PLN 11-SEP-2012
DEFINITION  DEFICIENS-like MADS-box protein [Torenia fournieri].
ACCESSION   BAG24492
VERSION     BAG24492.1
DBSOURCE    accession AB359951.1
KEYWORDS    .
SOURCE      Torenia fournieri
  ORGANISM  Torenia fournieri
            Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta;
            Spermatophyta; Magnoliopsida; eudicotyledons; Gunneridae;
            Pentapetalae; asterids; lamiids; Lamiales; Linderniaceae; Torenia.
REFERENCE   1
  AUTHORS   Narumi,T., Aida,R., Niki,T., Nishijima,T., Mitsuda,N., Hiratsu,K.,
            Ohme-Takagi,M. and Ohtsubo,N.
  TITLE     Chimeric AGAMOUS repressor induces serrated petal phenotype in
            Torenia fournieri similar to that induced by cytokinin application
  JOURNAL   Plant Biotechnol. 25, 45-53 (2008)
REFERENCE   2
  AUTHORS   Niki,T., Hirai,M., Niki,T., Kanno,A. and Nishijima,T.
  TITLE     Role of Floral Homeotic Genes in the Morphology of
            Forchlorfenuron-induced Paracorollas in Torenia fournieri Lind
  JOURNAL   J. Japan. Soc. Hort. Sci. 81, 204-212 (2012)
REFERENCE   3  (residues 1 to 234)
  AUTHORS   Niki,T. and Nishijima,T.
  TITLE     Direct Submission
  JOURNAL   Submitted (02-SEP-2007) Contact:Tomoya Niki National Institute of
            Floricultural Sciences, Research Team for Flower Quality; 2-1
            Fujimoto, Tsukuba, Ibaraki 305-8519, Japan
FEATURES             Location/Qualifiers
     source          1..234
                     /organism="Torenia fournieri"
                     /db_xref="taxon:68875"
     Protein         1..234
                     /product="DEFICIENS-like MADS-box protein"
     Region          2..80
                     /region_name="MADS_MEF2_like"
                     /note="MEF2 (myocyte enhancer factor 2)-like/Type II
                     subfamily of MADS (MCM1, Agamous, Deficiens, and SRF
                     (serum response factor) box family of eukaryotic
                     transcriptional regulators. Binds DNA and exists as hetero
                     and homo-dimers. Differs from SRF-like/Type I...; cd00265"
                     /db_xref="CDD:238165"
     Site            order(2..4,6,8,13,15,19..20,23..24,26..27,30..31,33..34,
                     38)
                     /site_type="DNA binding"
                     /note="DNA binding site [nucleotide binding]"
                     /db_xref="CDD:238165"
     Site            order(21,28..29,32..33,35..36,39,44,46,48,54,56,64,67..68,
                     71,74..75)
                     /site_type="other"
                     /note="dimerization interface [polypeptide binding]"
                     /db_xref="CDD:238165"
     Site            59
                     /site_type="other"
                     /note="putative phosphorylation site [posttranslational
                     modification]"
                     /db_xref="CDD:238165"
     Region          81..164
                     /region_name="K-box"
                     /note="K-box region; pfam01486"
                     /db_xref="CDD:426286"
     CDS             1..234
                     /gene="DEF"
                     /coded_by="AB359951.1:105..809"
                     /note="TfDEF"
ORIGIN      
        1 margkiqikr ienqtnrqvt yskrrnglfk kaheltvlcd akvsiimiss tqklheyisp
       61 stttkqvfdq yqkavgvdlw qtsyqkmqeh lkklkevnrn lkreirqrmg eclndmsyeh
      121 mvnliedidn slrvirerky kvitsqietg kkklrnveei hkklvfeyda rhedphyglv
      181 eneavdyhsv lgfpnngsrt ialryvpnhh hhhpslhggg gcggsdlttf alle
//

blastには入力された塩基配列を6フレーム翻訳してから検索する方法もあります。 blastxを選択するとクエリーは塩基配列、データベースはアミノ酸配列を利用できます。

BLASTのプログラムとクエリーおよびデータベースの種類

プログラム名クエリーの種類データベースの種類
blastn塩基配列塩基配列
blastpアミノ酸配列アミノ酸配列
blastx塩基配列アミノ酸配列
tblastnアミノ酸配列塩基配列
tblastx塩基配列塩基配列

ScoreとE valueについて

NCBIでは検索対象とするデータベースを選択することができます。 データベースに含まれる塩基配列の数を減らすと検索速度があがります。 そのときScoreは変わりませんが、E valueが小さくなります。 Scoreはそのアライメントに固有の値となります。 E valueはデータベースのサイズに対してそのScoreが偶然でてくる確率を示しています。 例えば20塩基が偶然一致する確率は4の20乗(約10の12乗)分の1です。 データベースに塩基配列が1つしか入っていなければ完全に一致するものが含まれている確率は10の12乗分の1ですが、10の15乗の塩基配列がはいっていれば1000個ほどの塩基配列が一致する可能性があります。

練習問題

下記の塩基配列をBLASTを使ってその特徴を調べなさい。生物種、機能など。

何に由来するのかわからないときはOrganismの制限を外すとよい。

本日のテストのデータ

以下の塩基配列をクエリーにblastn検索を実施せよ。

この塩基配列はある被子植物のものである。

以下のアミノ酸をクエリーにblastp検索を実施せよ。

このアミノ酸配列はある被子植物のタンパク質に由来する。