バイオインフォマティクス 中部大学2024年秋学期

塩基配列を比較する1

DNAの構造を解析する

DNAの一次構造(塩基配列)はACGTの四種類のアルファベット(Nが入ることもある)で表記することができる。 しかし塩基配列を読んで(見て)その構造を理解したり覚えたりすることはできない。 塩基配列の長さは様々で、21塩基程度のmiRNAから数千万塩基を超える真核生物の染色体などがある。 DNAの長さにより比較方法は様々なものがあるが、基本は似ているところを探したり、違うところを見つけることから始まる。 今回は塩基配列やアミノ酸配列を比較し、違うところを探す方法を学ぶ。

Excelを使って二つの塩基配列を比較してみる

塩基配列の違いを見つける方法をExcelを使って学ぶ。 一塩基ずつ同じかどうかを比較して、違うところを見えるようにしてみる

  1. miR1861b (CGATCTTGAGGCAGGAACTGAG) とmiR1861c (CGATCTTGTAGCAAGAACTGAG) の塩基配列をB2、C2のセルに入力する。
  2. 塩基配列の長さをlen関数を使って調べる。 B3のセルに =len(B2) と入力する。これをC3のセルにもコピーする。 塩基配列の長さがともに22であることがわかる。
  3. 二つの塩基配列を1文字ずつ比較するために、mid関数を使って1文字ずつに分ける。 そのためにまず1から22までの数字を用意する。 A4のセルに1と入力する。 A5のセルに =A4+1 と入力する。 A5のセルを下にコピーする。22になるまで繰り返す。
  4. miR1861bの塩基配列(B列)を1塩基ごとに分ける。 B4のセルに =mid(B$2,$A4,1) と入力する。 B2の2に$がついているのは、これを下にコピーしたときに常に2行目の塩基配列を参照するためである。 A4のAに$がついているのは、これを右にコピーしたときに常にA列の数字を参照するためである。 B4のセルにmiR1861bの1塩基目のCが表示されることを確認する。
  5. B4のセルをC25までコピーする。 2行目にいれた塩基配列がそれぞれ1塩基ずつ縦に並んでいることを確認する。
  6. B列とC列を一つずつ見比べて違いを探すこともできるが、塩基配列が長くなると面倒である。 Excelの関数を使って、二つのセルに違いがあるかどうかを調べる。 これはif関数を使うと実現できる。 D4のセルに =if(B4=C4,"","*") と入力する。 if関数の最初の引数(ここではB4=C4)は条件を表す。 B4とC4が等しいとき、2番目の引数(ここでは空の文字列)が表示される。 反対にB4とC4が等しくないとき、3番目の引数(ここでは*)が表示される。 Excelの式の中で文字列を引数にするときは" (ダブルクォーテーション)で括ることに注意する。
  7. 二つの塩基配列の全体を比較するために、D4のセルをD25までコピーする。 9、10、14番目の塩基がmiR1861bとmiR1861cとで違うことが分かる。
  8. さらに条件付き書式を使うと異なる塩基に色を付けることもできる。

アミノ酸配列を比較する

タンパク質の一次構造(アミノ酸配列)も同様に調べることができる。 ここではGFPとその派生物を比較する。

GFPは元々オワンクラゲが持つタンパク質であるが、その有用性のために様々な生物に導入されている。 特にタンパク質を可視化し、細胞のどこにあるのかを調べる実験に使われている。 複数のタンパク質を同時に可視化するために様々な色のGFP派生物が作られている。

オワンクラゲのGFPとその派生物の一つであるsGFPのアミノ酸配列を比較する

  1. DDBJのサイトの検索機能のうち、getentryを使ってM62653を調べる。 その中程にFEATURESという項目があり、そこのCDSの項を探す。 translationにGFPのアミノ酸配列があるので、これを選択しExcelのA2セルに貼り付ける。
  2. 上記と同様にアクセッション番号KX510273のCDSのtranslationをコピーし、ExcelのA11のセルに貼り付ける。
  3. 貼り付けたアミノ酸配列には空白が含まれているため、そのまま結合しても使えない。 Excelのtrim関数を使うと文字列の前後にある空白を削除してくれる。 B2のセルに =trim(A2) と入力し、下にコピーする。
    B2のセルをコピーしたところ
  4. 数行に分かれているアミノ酸配列を結合して、一つのセルにいれる。 &演算子を使って結合する。 C2のセルに =B2&C3 と入力する。 数式をコピーする範囲に注意。
  5. 同様にsGFPのアミノ酸配列も結合する。 ここまででC2のセルにGFPのアミノ酸配列が、C11のセルにsGFPのアミノ酸配列ができる。
  6. GFPとsGFPのアミノ酸配列をF列とG列に一文字ずついれる。 まずF2にGFP、G2にsGFPの結合した配列が表示されるように、式を入力する。
  7. アミノ酸配列の長さを知るためにF3のセルに =len(F2) と入力する。 同様にsGFPのアミノ酸配列の長さも調べる。
  8. mid関数で1文字ずつ取り出すために1から238をE4からE241までに入力する。 E4に =E3+1 と入力し、E241までコピーする。
  9. F4に =MID(F$2,$E4,1) と入力する。 F4のセルをF4からG241までコピーする。
  10. GFPとsGFPの違いを見つけるためにif関数を使う。 F列とG列で違う場合に*を表示させる。 H4のセルに =IF(F4=G4,"","*") と入力する。 H4をH241までコピーする。 65番目のS(セリン)がT(スレオニン)に変化していることを確認する。