蛋白質構造データバンク

出典: フリー百科事典『ウィキペディア(Wikipedia)』

これはこのページの過去の版です。ZéroBot (会話 | 投稿記録) による 2012年2月29日 (水) 11:01個人設定で未設定ならUTC)時点の版 (r2.7.1) (ロボットによる 追加: sv:Protein Data Bank)であり、現在の版とは大きく異なる場合があります。

蛋白質構造データバンク(たんぱくしつこうぞうデータバンク、PDB; Protein Data Bank)は、蛋白質(タンパク質)と核酸の3次元構造の構造座標(立体配座)を蓄積している国際的な公共のデータベースである。PDBに蓄積されている構造データは、X線結晶解析法NMR法(核磁気共鳴法)などによって実験的に決定されたデータである。なお、理論的な予測(蛋白質構造予測)で推定されたデータは蓄積していない。

世界中の生物学者や生化学者たちが、PDBに構造データを登録する。PDBに登録されたデータはパブリックドメインのもとで公開され、誰もが無償でアクセスすることができる。日本では大阪大学蛋白質研究所にその支所がある。

PDBは、生物学的構造データの中心的なデータベースである。構造生物学の研究で欠かせない情報源であり、また近年では構造ゲノミクスの研究でも重要なデータベースである。バイオインフォマティクスの研究でも、PDBに代表される3次元分子構造データベースは重要な研究対象である。PDBから派生したデータベースとプロジェクトは非常に多く、蛋白質の構造、機能、進化のそれぞれの側面から、PDBの構造データの統合や分類を行っている。

歴史

1971年に、アメリカ合衆国ブルックヘブン国立研究所がPDBを設立した。 1998年に、PDBの管理は同研究所から構造バイオインフォマティクス研究共同体 (RCSB; Research Collaboratory for Structural Bioinformatics) に移管され、同研究共同体 (RCSB) のプロジェクトの一つとなった。

2003年、RCSBを含む次の3つの研究組織により、Worldwide Protein Data Bank (wwPDB) が結成され、PDBのデータの登録、データの処理、配布を行っている。

wwPDBの役割は、PDBの生体高分子3次元構造を蓄積した単一のデータベースの保守と、PDBデータベースを世界中の研究者コミュニティに無償で公開し利用できるようにすることである。

構造データの増加

PDBが設立された当初、データベースが含む蛋白質3次元構造は7つであったが、その後、データベースに登録される構造データ数はほぼ指数関数的に急激に増え、この増加傾向が衰える兆しは無い。

PDBのデータの増加ペースは、多くの人々により分析の対象となっている。

構造データの内容

2008年1月22日現在の時点で、PDBのデータベースでは48555構造の分子の3次元構造のデータが公開されている。 そのうち44742構造が蛋白質であり、他には核酸、蛋白質核酸複合体、その他の分子構造が、登録されている。 ここ数年は、毎年約5000の新しい構造データが登録され公開されている。 構造データは、mmCIFという分子構造データを記述するために開発された形式で、格納されている。

注意すべきこととしては、PDBは生体高分子を構成する各原子の厳密な配座の情報を格納しているということである(ただし水素以外の原子については、多くの場合は統計的に配座を推定している)。

例えば生体高分子のシーケンスデータ(特定の蛋白質を生成するための情報を記述したアミノ酸配列や、特定の核酸を構成するヌクレオチド配列)のみに関心がある場合は、Swiss-Protや国際塩基配列データベース (INSD; International Nucleotide Sequence Database; DDBJ/EMBL/GenBank) の、PDBよりさらに大規模な配列データベースを使うべきである。

統計情報

2010年6月22日現在、RCSBのページでは、次の統計情報を公開している。

蛋白質 核酸 蛋白質核酸複合体 その他 合計
X線結晶解析法 53450 1212 2500 17 57179
NMR法 7367 909 157 7 8440
電子顕微鏡 201 17 76 0 294
その他 125 4 4 13 146
合計 61164 2143 2738 38 66083

PDBの蛋白質データのうち、

  • 46576構造は構造因子ファイルで格納されている。
  • 5733構造はNMR束縛ファイルで格納されている。

注意: 蛋白質構造予測により理論的に推定されたモデルは統計に含まれていない(2002年7月2日より前までは含まれていた)。

PDBの統計情報のページは毎週更新されている。

ファイル形式

PDBの3次元構造データのファイル形式は、頻繁な変更と改訂を経ている。 もともとのファイル形式は、コンピュータパンチカードの幅の制約に従っていた。

従来のファイル形式には多くの問題が伴うため、いくつかの「清掃」プロジェクトが行われている。

MMDBは、ASN.1形式を採用しており、またASN.1形式をXMLに変換した形式でも提供している。 wwPDBは、先述したように、RCSB PDB、MSD-EBI、PDBj の3つの組織により構成されており、それぞれの組織のデータベースをまたがって一貫した形式でデータを提供している。

一定の人々は、こうした状況を肯定的に認識している。 別の人々は、構造データを共通のデータベースで利用できなければ、生体高分子の構造に関する問題について研究者間の会話が成り立たないと、考えている。

PDBから提供される構造データには、それぞれ PDB ID という4文字のアルファベットからなる識別子が、割り当てられている。 PDB ID は、生体高分子の識別子として使うことはできない。 なぜなら、同じ一つの分子が環境/状況に応じて異なる複数の3次元構造をとるということが、蛋白質などの分子ではよくあるためである。 その場合、一つの分子がそのとり得る構造ごとに、複数の PDB ID を割り当てられる。

wwPDBでは、生物学者により蛋白質核酸の構造データが登録されると、wwPDBのスタッフがその構造データを検証し注釈(アノテーション)をつける。 その後、データはソフトウェアにより妥当性を検証される。 この妥当性検証ソフトウェアのソースコードは、無償で公開されている。 先述したとおり、wwPDBでも、実験的に決定された構造データの登録のみを受け付け、蛋白質構造予測により理論的に推定された構造データは受け付けていない。

現在、さまざまな配分機関や自然科学系学術雑誌が、自分たちが関わって決定した構造データをPDBに登録する科学者を必要としている。

構造データを見る

RasMolによる蛋白質3次元構造の視覚化

PDBの3次元構造データは、生体物質を視覚化するソフトウェアを使って見ることができる。 このようなソフトウェアをいくつか示す。

構造バイオインフォマティクス研究共同体 (RCSB PDB) のウェブサイトではまた、教育や構造ゲノミクスに関するリソース、および関連するソフトウェアを、提供している。

参考資料

論文

  • H.M. Berman, K. Henrick, H. Nakamura (2003): Announcing the worldwide Protein Data Bank. Nature Structural Biology 10 (12), p. 980 PMID 14634627.
  • H.M. Berman, J. Westbrook, Z. Feng, G. Gilliland, T.N. Bhat, H. Weissig, I.N. Shindyalov, P.E. Bourne: The Protein Data Bank. Nucleic Acids Research, 28 pp. 235-242 (2000). PMID 10592235
  • Bernstein FC, Koetzle TF, Williams GJ, Meyer Jr EF, Brice MD, Rodgers JR, Kennard O, Shimanouchi T, Tasumi M. The Protein Data Bank: a computer-based archival file for macromolecular structures. J Mol Biol 1977;112:535-542. PMID 875032.
  • Sussman, JL, Lin, D, Jiang, J, Manning, NO, Prilusky, J, Ritter, O & Abola, EE. Protein data bank (PDB): a database of 3D structural information of biological macromolecules. Acta Cryst 1998; D54:1078-1084. PMID 10089483.

オンライン

外部リンク

酵素データベース

蛋白質の一種である酵素データベース

構造データの視覚化ソフトウェア

その他