AtSeqディレクトリにある塩基配列はそれぞれの遺伝子のcDNAの塩基配列である。 すなわちイントロンが除かれたものである。 一方dbディレクトリにあるch1の塩基配列はシロイヌナズナの1番染色体の塩基配列である。 これらを比較することでイントロンとエキソンの関係がわかる。
今回はBLAST検索の実行結果を基に、正確な図を作成する方法を学ぶ。
まずAT1G01010.1のイントロンとエキソンの構造を図にする。
下記のように-outfmt 6オプションを付けてblastnを実行すると、ch1とAT1G01010.1が一致した領域を表にすることができる。
$ cd blast # blastディレクトリに移動 $ pwd # ディレクトリを確認 /home/jovyan/blast $ ls # ファイルの有無を確認 AtSeq db doc TfSeq # 今日使うAtSeqディレクトリとdbディレクトリがあることを確認 $ ls db # dbディレクトリの中身を確認 AT1Gpro.fa AT1Gpro.fa.phr AT1Gpro.fa.pin AT1Gpro.fa.psq ch1 ch1.nhr ch1.nin ch1.nsq # ch1.nhrなどがあることを確認。 # もしなければ前回の資料にそってmakeblastdbを行う $ blastn -query AtSeq/AT1G01010.1 -db db/ch1 -outfmt 6 AT1G01010.1 ch1 100.00 463 0 0 1226 1688 5437 5899 0.0 856 AT1G01010.1 ch1 100.00 391 0 0 684 1074 4705 5095 0.0 723 AT1G01010.1 ch1 100.00 283 0 0 1 283 3631 3913 1e-147 523 AT1G01010.1 ch1 100.00 281 0 0 284 564 3996 4276 1e-146 520 AT1G01010.1 ch1 100.00 156 0 0 1074 1229 5173 5328 4e-077 289 AT1G01010.1 ch1 100.00 125 0 0 562 686 4483 4607 8e-060 231 AT1G01010.1 ch1 87.76 98 9 1 1332 1429 6188 6282 1e-023 111
この結果をコピーして、Excelに貼り付ける。テキストファイルウィザードを使って、値をセルに分割する。
blast検索の結果はe-valueの小さい順に並んでいる。 これを塩基配列の順に並び替える。
エキソンを表す四角の位置を染色体に沿って計算する。
BLAST検索では小さなエキソン(20bp以下)は見落とされる可能性がある。 また一致する領域をできるだけ長くするようになっているので、イントロンとエキソンの境目は精確でない(数bpの誤差がある)。
AT1G01070.1とAT1G01080.1の遺伝子構造をPowerPointを用いて図示せよ。 二つの遺伝子の染色体上での距離も適切に図示すること。
作成したファイルは1月9日までに電子メールの添付ファイルとして提出すること。 提出先は bioinformatics2024@tsbio.info 。 その際電子メール本文に学籍番号と氏名を明記し、件名に「バイオインフォマティクス課題」と書くこと。