バイオインフォマティクス 中部大学2024年秋学期

ローカルでBLAST検索をする2

AtSeqディレクトリにある塩基配列はそれぞれの遺伝子のcDNAの塩基配列である。 すなわちイントロンが除かれたものである。 一方dbディレクトリにあるch1の塩基配列はシロイヌナズナの1番染色体の塩基配列である。 これらを比較することでイントロンとエキソンの関係がわかる。

今回はBLAST検索の実行結果を基に、正確な図を作成する方法を学ぶ。

BLASTの実行結果をファイルに保存する

まずAT1G01010.1のイントロンとエキソンの構造を図にする。

下記のように-outfmt 6オプションを付けてblastnを実行すると、ch1とAT1G01010.1が一致した領域を表にすることができる。

$ cd blast     # blastディレクトリに移動
$ pwd          # ディレクトリを確認
/home/jovyan/blast
$ ls           # ファイルの有無を確認
AtSeq  db  doc  TfSeq    # 今日使うAtSeqディレクトリとdbディレクトリがあることを確認
$ ls db        # dbディレクトリの中身を確認
AT1Gpro.fa  AT1Gpro.fa.phr  AT1Gpro.fa.pin  AT1Gpro.fa.psq  
ch1  ch1.nhr  ch1.nin  ch1.nsq                              # ch1.nhrなどがあることを確認。
                                                            # もしなければ前回の資料にそってmakeblastdbを行う
$ blastn -query AtSeq/AT1G01010.1 -db db/ch1 -outfmt 6
AT1G01010.1     ch1     100.00  463     0       0       1226    1688    5437    5899    0.0       856
AT1G01010.1     ch1     100.00  391     0       0       684     1074    4705    5095    0.0       723
AT1G01010.1     ch1     100.00  283     0       0       1       283     3631    3913    1e-147    523
AT1G01010.1     ch1     100.00  281     0       0       284     564     3996    4276    1e-146    520
AT1G01010.1     ch1     100.00  156     0       0       1074    1229    5173    5328    4e-077    289
AT1G01010.1     ch1     100.00  125     0       0       562     686     4483    4607    8e-060    231
AT1G01010.1     ch1     87.76   98      9       1       1332    1429    6188    6282    1e-023    111

この結果をコピーして、Excelに貼り付ける。テキストファイルウィザードを使って、値をセルに分割する。

  1. Microsoft Excelを起動する。新しいワークシートを作成する。
  2. コピーしたblastnの結果をA1のセルに貼り付ける。貼り付けオプションからテキストファイルウィザードを起動する。

  3. 「カンマやタブなどの区切り文字で、、、」を選択し、「次へ」をクリックする。

  4. スペースにチェックをいれ、「次へ」をクリックする。

  5. 「完了」ボタンをクリックすると以下のように、一つのセルに一つの値が入った状態になる。

エキソンの長さをExcelで計算する

blast検索の結果はe-valueの小さい順に並んでいる。 これを塩基配列の順に並び替える。

  1. データの並び順がe値の順になっているので、AT1G01010.1の塩基配列の並び順に変更する。 G列の数値の順に並べる。

  2. M列に =H1-G1 と入力し、エキソンの長さを計算する。

  3. N列に =M1/200 と入力する。これはこの後で図を作成するときの縮尺(200bp / cm)に合わせるためである。

PowerPointでエキソンを書く

  1. PowerPointを起動する。
  2. メニューの「挿入-「図形」とたどって、「正方形/長方形」をクリックする。

  3. 適当な大きさの長方形を描く。図形の書式設定を表示させ、幅を1.41cm(先に計算したN1のセルの値)にする。

  4. 同様にして残り6つのエキソンを描く。

染色体上でのエキソンの位置を計算する

エキソンを表す四角の位置を染色体に沿って計算する。

  1. Microsoft ExcelのO列に =I1-MIN($I$1:$I$6) と入力する。これは一番目のエキソンが始まる位置を0とするためである。

  2. P列に =O1/200 と入力する。これが縮尺を合わせた染色体上の位置になる。

エキソンの位置を合わせる

  1. PowerPointに戻って、エキソンをコピーする。
  2. コピーしたものの位置を先ほど計算したP列の数字にする。

  3. 同様にして残り6のエキソンの位置を調整する。縦方向の位置を揃える。

  4. 遺伝子全体を表す四角を作成し、背面に配置する。

  5. 説明を加えて全体の配置を整える。作成した図はグループ化しておくとよい。

注意点

BLAST検索では小さなエキソン(20bp以下)は見落とされる可能性がある。 また一致する領域をできるだけ長くするようになっているので、イントロンとエキソンの境目は精確でない(数bpの誤差がある)。

課題

AT1G01070.1とAT1G01080.1の遺伝子構造をPowerPointを用いて図示せよ。 二つの遺伝子の染色体上での距離も適切に図示すること。

作成したファイルは1月9日までに電子メールの添付ファイルとして提出すること。 提出先は bioinformatics2024@tsbio.info 。 その際電子メール本文に学籍番号と氏名を明記し、件名に「バイオインフォマティクス課題」と書くこと。