Skip to content

Instantly share code, notes, and snippets.

Embed
What would you like to do?
IGGG Advent Calender 2016 Day 18

バイオインフォマティクスの紹介

はじめに

この記事は、IGGG Advent Calender 2016の18日目の記事です。

るろです。 4日に2016年の振り返りをしまして、今回はバイオインフォマティクスについてちょっと紹介したいと思います。 間違った内容も含んでいるかもしれませんので、お気づきの方は Twitter: natuRulO やコメントで教えていただけると助かります。

バイオインフォマティクスとは?

生物を情報の集合体としてとらえる学問です。

生物はミクロに見れば、DNAやRNA、タンパク質などの分子が関わり合い、1つの個体が形成されています。 ここで、DNAやRNAは塩基配列として、タンパク質はアミノ酸配列や立体構造情報として、分子間の関わり合いは代謝経路などとしてあらわせます。

1つの生物についてこれらの情報を集めると、それだけで人間には処理できない量になります。 そこで、コンピュータの力を借りようというわけです。

実際にやること

実際にやることは幅広いです。以下に例を示します。

  • 生物種間の塩基配列を比較し、保存されているものを探す。
  • タンパク質の立体構造を予測する。
  • 生物がどのように進化したのかを解析する。

特に2番目についてはタンパク質のもつ性質上、かなり重要です。 タンパク質は、特定の立体構造を持つことで、はじめてその機能を発現します。(一部例外もあります) タンパク質の中には、ウイルスや細菌の感染、疾患の原因、情報伝達などにかかわるものがあり、医学・薬学で重要な研究対象になっています。 しかし、立体構造をちゃんと決めることはかなり難しいので、バイオインフォマティクスでその構造を予測することが重要になります。

タンパク質の立体構造予測については、以下の原理が重要になっています。

  • 配列のよく似たものは同じ立体構造を取ることが多い

ここでいうよく似た配列というのは、2通りのとらえ方があります。

  1. 配列そのものが似ている。
  2. 配列の化学的性質が似ている。

1番目については、立体構造既知の配列と並べて比べれば簡単にできます。 しかし、いちいち比べるのは大変なので、これらの情報(立体構造既知のアミノ酸配列)をもとにした予測するサービスがあります。 そのベースとなっているのが、隠れマルコフモデルやニューラルネットといったものです。

2番目については、少々化学の知識が必要です。 タンパク質はアミノ酸からできていて、アミノ酸それぞれの化学的性質をパラメータにし、それを割り当てて計算します。 このアミノ酸のパラメータは、アミノ酸のどのような性質をもとに算出しているかによって異なるので種類がたくさんあります。 どのような予測をしたいかによってパラメータを取捨選択して使うことで、高精度の予測が可能になっています。

1番目も2番目もWebサービスとして提供されています。

まとめ

かなりざっくりとした感じになりましたが、以上でバイオインフォマティクスの紹介は終わりです。 質問等あればコメントやTwitterでお願いします。

ありがとうございました。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
You can’t perform that action at this time.