バイオインフォマティクス 中部大学2024年秋学期

Excelを活用する

塩基配列やアミノ酸配列をコンピュータで解析する方法を理解し、自由に情報を取り扱うための基礎を学ぶ。 その目的のために、Microsoft Excelを使った解析を行う。

以下のTSK遺伝子の翻訳を例に演習を行う。

シロイヌナズナTSK遺伝子のcDNAの塩基配列

文字を連結する

文字列を連結するには&演算子を用いる。 FRと12345をつなげるには="FR"&"12345"とする。

  1. 上記のTSK遺伝子のcDNAの塩基配列を選択し(Ctrl + A)、コピーする(Ctrl + C)。 Microsoft Excelを起動し、A1のセルに貼り付ける(Ctrl + V)。
  2. B2のセルに =A2 と入力する。B2のセルにA2がそのまま表示されることを確認する。
  3. B3のセルに =B2&A3 と入力する。B3のセルにA2とA3がつながって表示されることを確認する。
  4. B3のセルをB71までコピーする。B71のセルに結合された塩基配列が表示されることを確認する。

結合した塩基配列を上にもってくる

上記の方法だと一行にまとめた塩基配列が一番下になって使いにくい。 そこで、結合した塩基配列が一番上にくるように式を作り直す。

  1. B71のセル(コピーした塩基配列の一番下の右隣り)に =A71&B72 と入力する。
  2. B71のセルをB2までコピーする。
  3. B2のセルに結合された塩基配列が表示されていることを確認する。

塩基配列の一部を取り出す

シロイヌナズナTSK遺伝子のcDNAのORFを調べると115から4050までがORFとなっていることがわかる(調べる手順は前回の資料を参照すること)。 このORFを取り出す。

部分配列を取り出すにはmid関数が使える。

  1. C2のセルに =mid(B2, 115, 4050-115 + 1) と入力する。 mid関数は引数を3つとり、元の文字列、開始位置、文字数を指定すると元の文字列から部分文字列を取り出す。
  2. C2をコピーしてORF finderでORFを調べよ。1番目からORFになっていることを確認せよ。

塩基配列を1つずつセルにいれる

塩基配列やアミノ酸配列を比較するときは1つずつ比較する必要がある。 その場合にもExcelを使用することができる。

  1. D2のセルに 1 と入力する。D3のセルに =D2+1 と入力する。 D3937までD3をコピーする。
  2. E2のセルに =mid($C$2,D2,1) と入力する。 mid関数は引数を3つとり、元の文字列、開始位置、文字数を指定すると元の文字列から部分文字列を取り出す。 E3937までE2をコピーする。
  3. Eの列に塩基配列が1番目から順に表示されていることを確認せよ。 TSKのORFの20番目の塩基は何か、81番目は何か、それぞれ調べよ。

コドン表を整形する

前回使用したコドン表をvlookup関数(後述)で使用する対応表に整形する。

  1. 前回のページを開いて、コドン表をコピーする。 Excelの新しいワークシートのA1に貼り付ける。
  2. セルを並べ変えて、下の図のようにする。 カット(Ctrl + x) & ペースト (Ctrl + v)を使うと手早くできる。 セルの移動や選択にはカーソルキーとShift、Ctrlを組み合わせて使う。
  3. B列にコドンが表示されるように、数式 =mid(A1,1,3) を入力する。 C列にアミノ酸が表示されるように、数式 =mid(A1,10,1) を入力する。 B1とC1をコピーする。

コドン表をvlookup関数で使用する

vlookup関数を使ってコドンからアミノ酸への翻訳を行う。

  1. 上記で整形したコドン表のB2からC65までを選択し、クリップボードにコピーする(Ctrl + C)。
  2. ORFを取り出したワークシートのL2に、表の値だけを貼り付ける。 L2を右クリックし、値を貼り付けるオプションを選択する。
  3. 貼り付けた表をコドンの順に並べ替える。
  4. H2のセルに適当なコドンを入力する。 I2のセルに数式 =VLOOKUP(H2,$L$2:$M$65,2,FALSE) を入力する。 H2に入力したコドンに対応するアミノ酸が表示されることを確認する。

塩基配列をアミノ酸配列に翻訳する

Excelを使って塩基配列をアミノ酸配列に翻訳するには次の手順で行う。

  1. 塩基配列を3つずつ取り出す。
  2. コドンをアミノ酸に変換する。
  3. アミノ酸をつなげる。

C1にORFの塩基配列が、L2:M65にコドン表が入力されたとして、以下に詳しい手順を示す。

  1. G2に1と入力する。G3に数式 =G2+3 を入力する。G3をG1313までコピーする。
  2. H2に数式 =MID($C$2,G2,3) を入力する。H2をH1313までコピーする。
  3. I2に数式 =VLOOKUP(H2,$L$2:$M$65,2,FALSE) を入力する。I2をI1313までコピーする。
  4. J2に数式 =I2&J3 を入力する。J2をJ1313までコピーする。
  5. J2のセルにMGRLDVAAで始まる1312個(終止コドンを含む)のアミノ酸配列があることを確認せよ。

練習

エンドウ SBE1遺伝子のcDNAの塩基配列