タンパク質構造予測

タンパク質構造予測 （たんぱくしつこうぞうよそく）は、タンパク質についてそのアミノ酸配列をもとに3次元構造（立体配座）を予測することをいい、バイオインフォマティクスおよび計算化学における研究分野の一つである。専門的な言葉では「タンパク質の一次構造をもとに三次構造を予測すること」と表現できる。タンパク質のアミノ酸配列は一次構造と呼ばれる。タンパク質のアミノ酸配列は、その遺伝子が記録されたDNAの塩基配列から、遺伝コード（コドン）の対応表に基づいて、導出することができる。生体内において、ほとんどのタンパク質の一次構造は一意的に3次元構造（三次構造、コンフォメーション）をとる（タンパク質が折りたたまれる）。タンパク質の3次元構造を知ることは、そのタンパク質の機能を理解する上で有力な手がかりとなる。創薬などのように公益性が高いさまざまな分野において応用されている。

タンパク質の3次元構造を解明する手段としては、実験による方法と予測による方法がある。この項目では予測による方法を説明する。

タンパク質構造予測においては多くの手法が考案されている。それぞれの手法の有効性は、2年ごとにCASP（Critical Assessment of Techniques for Protein Structure Prediction）により、評価されている。

概要

現在ではタンパク質構造予測が果たす役割は、これまで以上に重要になっている。近年、ヒトゲノム計画などDNAの塩基配列を解読する大規模なプロジェクトが盛んに行われるようになってきている。こうしたプロジェクトの成果であるDNA塩基配列のデータから、遺伝コードの対応表に基づいて、非常に多くのタンパク質のアミノ酸配列のデータを導出することができる。公共の配列データベース（GenBankやSwiss-Protなど）に蓄積されるアミノ酸配列のデータは急速に増大しているが、現在のところ、実験による方法で決定されたタンパク質構造データの増加ペースはあまり高くない。実験による方法でタンパク質構造を決定する作業では、X線回折や核磁気共鳴（NMR）のような時間がかかり費用を要する手法を使うことが多い。そのため、この項目で説明する予測による方法でタンパク質構造を解明することが多く行われている。

しかしタンパク質構造の予測は非常に難しい。その背景には、次に述べるような多くの要因がある。

タンパク質がとる可能性がある構造の数は、膨大である（Levinthal paradox）。
タンパク質構造の安定性に関する物理学的な基盤が、あまり理解されていない。
一部のタンパク質では、その一次構造のみで三次構造を決定できないことがある。例えば、シャペロンという名前で知られる一群のタンパク質は、別のタンパク質が正しく折り畳む（三次構造をとる）のを助ける。
分子動力学法（MD法）のような手法でタンパク質の折りたたみを直接シミュレートすることは、実際的な理由および理論的な理由から、一般的には扱いにくい。

このような困難はあるが、タンパク質構造予測に関心を持つ多くの研究グループにより、数多くの進歩がなされてきている。小さなタンパク質の構造予測については、現在では手法が確立している。さまざまな手法でタンパク質の構造予測が日常的に行われるようになっている。タンパク質構造予測の手法は、de novoモデリングと比較モデリングの2つに大きく分類することができる。

de novoモデリング

de novoモデリングあるいはab initioモデリングと呼ばれるタンパク質モデリングでは、3次元のタンパク質構造モデルを「一から」作り上げる。タンパク質の折りたたみを再現する計算方法や、確率に基づいて可能性の高い構造モデルを探索する計算方法は、数多く考案されている（エネルギーレベルを小さくするエネルギー関数の大域的最適化）。こうした計算方法を行うには、莫大なコンピュータ資源が必要であるため、小さなタンパク質に対してのみ実施されてきた。大きなタンパク質に対してde novoモデリングを行うためには、より優れた計算方法（アルゴリズム）、およびより大規模なコンピュータ資源が必要である。現在では大規模なコンピュータ資源としては、高性能なスーパーコンピュータ（IBM の Blue Gene やNECのSX など）や、分散コンピューティング（Folding@Home）がある。このように現時点ではコンピュータ資源の面での制約は大きいものの、予測による方法もしくは実験による方法で行う構造ゲノミクスの潜在的な有用性は大きく、そのためタンパク質のde novoモデリングは活発な研究分野となっている。

比較モデリング

タンパク質の比較モデリングでは、最初に構造モデリングの出発点として、既に解明されているタンパク質構造もしくは鋳型（template）を使う。この方法が有効である理由は、タンパク質の種類は膨大であるが、タンパク質の多くがもつ三次構造の構造モチーフの種類は少ないとみられているからである。現在、実際に存在するタンパク質の折りたたみのパターンは2000種類程度と考えられている。

比較モデリングの手法は次の2種類に分類することができる。

相同性モデリング: 相同性の高い2つのタンパク質は非常に似通った構造をもっているという前提に基づくモデリング。まず構造を解明する対象のアミノ酸配列と、そのタンパク質との相同性の高い既知の（構造が解明された）タンパク質を用意する。既知のタンパク質のアミノ酸をコンピュータ上で変異させて、構造が未知のタンパク質のアミノ酸に、対応づける。
タンパク質スレッディング: 構造を解明する対象のアミノ酸配列で、構造が解明されたタンパク質の構造データを蓄積しているデータベースを検索する手法。構造を解明する対象のアミノ酸配列と既知の構造との適合性（compatibility）を評価するスコアリング関数を使い、そのタンパク質がとる可能性が高い3次元構造モデルを導き出す。

タンパク質複合体 (四次構造) の構造予測

複数のタンパク質が結合した複合体（四次構造、多量体）の構造予測においては、複合体を構成する各タンパク質の構造が既に解明されている場合もしくは高い精度で予測できる場合、protein-protein docking法を使うことができる。