蛋白質構造データバンク

出典: フリー百科事典『ウィキペディア(Wikipedia)』
ナビゲーションに移動 検索に移動
Protein Data Bank
Wwpdb-logo.png
内容
正式名称
コンタクト
主要引用 PMID 30357364
アクセス
データフォーマット mmCIF英語版, PDB英語版
ウェブサイト
ツール
その他
テンプレートを表示

蛋白質構造データバンク(たんぱくしつこうぞうデータバンク,PDB: Protein Data Bank)は,蛋白質(タンパク質),核酸,糖鎖など生体高分子の3次元構造の原子座標(立体配座)を蓄積している国際的な公共のデータベースである。PDBに蓄積されている構造データは,結晶解析法,核磁気共鳴法(NMR法),クライオ電子顕微鏡法の3つの検証可能な手法によって実験的に決定されたデータである。なお,理論的な予測(蛋白質構造予測)で推定されたデータは蓄積していない。

世界中の構造生物学者が決定した構造情報は,論文発表前にPDBに登録することが義務付けられており,論文発表と同時にPDBへ登録済みの構造データが一般公開される仕組みになっている。PDBの運営は日米欧の各拠点機関が国際的に協力することで成り立っており,南北アメリカとオセアニア地区で解析されたデータは米国で,欧州とアフリカ地区からのデータは欧州で,アジア・中東地区で解析されたデータは日本でデータ登録処理が行われる。日本の拠点活動は,大阪大学蛋白質研究所のProtein Data Bank Japan(PDBj)が担当している。PDBに登録されたデータは,事前に日米欧の各拠点間でデータ交換され,パブリックドメインのもとで完全に同一なデータとして一般公開される。

PDBは,生命科学研究の中心的なデータベースのひとつである。構造生物学をはじめとする基礎研究のみならず,創薬食品工学,細胞工学などの応用分野でも欠かせない情報源となっている。バイオインフォマティクスの研究でも,PDBに代表される3次元分子構造データベースは重要な研究対象である。PDBから派生したデータベースとプロジェクトは非常に多く,蛋白質の構造・機能・進化のそれぞれの側面から,PDBの構造データの統合や分類が行われている。

歴史[編集]

BNL PDBとして

1971年に,アメリカ合衆国ブルックヘブン国立研究所(BNL)と英国のThe Cambridge Crystallographic Data Centre (CCDC)が共同でPDBを設立し,PDBへのデータ登録はブルックヘブン国立研究所が単独で行っていた。設立以来PDBデータの磁気テープによる公開はブルックヘブン国立研究所とCCDCにより行われていたが,1976年に東京大学大型計算機センターもこれに加わった。1979年からは磁気テープによる日本国内へのデータ配布活動は,大阪大学蛋白質研究所が担うことになった。

RCSB PDBとして

1998年に,米国プロジェクトとしてのPDBはブルックヘブン国立研究所から構造バイオインフォマティクス研究共同体 (RCSB; Research Collaboratory for Structural Bioinformatics) に移管され,同研究共同体 (RCSB) がPDBの登録業務を担当し,PDBのマスターファイル管理をすることになった。並行して欧州ではEMBL-EBIにMacromolecular Structure Databaseが立ち上がり,BNLと共同で開発されたAutodepシステムを用いたデータ登録が開始された。2000年には大阪大学蛋白質研究所でもRCSB PDBの協力により,アジア地区からのデータ登録受付を開始した。

wwPDBとして

2003年,日米欧の各拠点で別々にデータ登録が行わていたPDBの運営をより公式なものとし,世界同一の基準でデータ登録を行うことを目的として,RCSBを含む次の3つの研究組織によりWorldwide Protein Data Bank英語版 (wwPDB) が結成された。2006年には生体分子磁気共鳴データバンク(BMRB)英語版もメンバーに加わり,現在は4つの組織が構成メンバーである。wwPDBは独自に運営諮問会議を毎年開催し,運営諮問委員からの意見に従ってPDBを運営している。wwPDBでは,統一した基準によるデータ登録が行われて完全に同一のデータを公開しているが,データの検索サービスやデータ配布方法には自由度があり,各拠点独自のサービスを提供している。

wwPDBの役割は、PDBの生体高分子3次元構造を蓄積した単一のデータベースの保守と、PDBデータベースを世界中の研究者コミュニティに無償で公開し利用できるようにすることである。

PDBが設立された当初、データベースが含む蛋白質3次元構造は7つであったが、その後、データベースに登録される構造データ数はほぼ指数関数的に急激に増え、この増加傾向が衰える兆しは無い。PDBのデータの増加ペースは、多くの人々により分析の対象となっている。

構造データの内容[編集]

2008年1月22日現在の時点で、PDBのデータベースでは48555構造の分子の3次元構造のデータが公開されている。 そのうち44742構造が蛋白質であり、他には核酸、蛋白質核酸複合体、その他の分子構造が、登録されている。 ここ数年は、毎年約5000の新しい構造データが登録され公開されている。 構造データは、mmCIFという分子構造データを記述するために開発された形式で、格納されている。

注意すべきこととしては、PDBは生体高分子を構成する各原子の厳密な配座の情報を格納しているということである(ただし水素以外の原子については、多くの場合は統計的に配座を推定している)。

例えば生体高分子のシーケンスデータ(特定の蛋白質を生成するための情報を記述したアミノ酸配列や、特定の核酸を構成するヌクレオチド配列)のみに関心がある場合は、Swiss-Protや国際塩基配列データベース (INSD; International Nucleotide Sequence Database; DDBJ/EMBL/GenBank) の、PDBよりさらに大規模な配列データベースを使うべきである。

統計情報[編集]

登録データ数の年次推移

2014年6月3日現在、RCSBのページでは、次の統計情報を公開している。

解析手法 蛋白質 核酸 蛋白質核酸複合体 その他 合計
X線結晶解析法 83314 1529 4346 4 89193
NMR法 9182 1082 210 7 10481
電子顕微鏡 548 54 174 0 776
複合手法 59 3 2 1 65
その他 155 4 6 13 178
合計 93258 2672 4738 25 100693

PDBの蛋白質データのうち、

  • 78747件の構造は構造因子ファイルを持つ。
  • 7795件の構造はNMR束縛ファイルを持つ。
  • 1553件の構造は化学シフトファイルを持つ。
  • 738件の構造は3次元電子顕微鏡マップファイルを持つ。

注意: 蛋白質構造予測により理論的に推定されたモデルは統計に含まれていない(2002年7月2日より前までは含まれていた)。

PDBの統計情報のページは毎週更新されている。

ファイル形式[編集]

PDBの3次元構造データのファイル形式は、頻繁な変更と改訂を経ている。 もともとのファイル形式は、コンピュータパンチカードの幅の制約に従っていた。

従来のファイル形式には多くの問題が伴うため、いくつかの「清掃」プロジェクトが行われている。

MMDBは、ASN.1形式を採用しており、またASN.1形式をXMLに変換した形式でも提供している。 wwPDBは、先述したように、RCSB PDB、MSD-EBI、PDBj の3つの組織により構成されており、それぞれの組織のデータベースをまたがって一貫した形式でデータを提供している。

一定の人々は、こうした状況を肯定的に認識している。 別の人々は、構造データを共通のデータベースで利用できなければ、生体高分子の構造に関する問題について研究者間の会話が成り立たないと、考えている。

PDBから提供される構造データには、それぞれ PDB ID という4文字のアルファベットからなる識別子が、割り当てられている。 PDB ID は、生体高分子の識別子として使うことはできない。 なぜなら、同じ一つの分子が環境/状況に応じて異なる複数の3次元構造をとるということが、蛋白質などの分子ではよくあるためである。 その場合、一つの分子がそのとり得る構造ごとに、複数の PDB ID を割り当てられる。

wwPDBでは、生物学者により蛋白質核酸の構造データが登録されると、wwPDBのスタッフがその構造データを検証し注釈(アノテーション)をつける。 その後、データはソフトウェアにより妥当性を検証される。 この妥当性検証ソフトウェアのソースコードは、無償で公開されている。 先述したとおり、wwPDBでも、実験的に決定された構造データの登録のみを受け付け、蛋白質構造予測により理論的に推定された構造データは受け付けていない。

現在、さまざまな配分機関や自然科学系学術雑誌が、自分たちが関わって決定した構造データをPDBに登録する科学者を必要としている。

構造データを見る[編集]

RasMolによる蛋白質3次元構造の視覚化

PDBの3次元構造データは、生体物質を視覚化するソフトウェアを使って見ることができる。 このようなソフトウェアをいくつか示す。

構造バイオインフォマティクス研究共同体 (RCSB PDB) のウェブサイトではまた、教育や構造ゲノミクスに関するリソース、および関連するソフトウェアを、提供している。

参考資料[編集]

論文[編集]

  • H.M. Berman, K. Henrick, H. Nakamura (2003): Announcing the worldwide Protein Data Bank. Nature Structural Biology 10 (12), p. 980 PMID 14634627.
  • H.M. Berman, J. Westbrook, Z. Feng, G. Gilliland, T.N. Bhat, H. Weissig, I.N. Shindyalov, P.E. Bourne: The Protein Data Bank. Nucleic Acids Research, 28 pp. 235-242 (2000). PMID 10592235
  • Bernstein FC, Koetzle TF, Williams GJ, Meyer Jr EF, Brice MD, Rodgers JR, Kennard O, Shimanouchi T, Tasumi M. The Protein Data Bank: a computer-based archival file for macromolecular structures. J Mol Biol 1977;112:535-542. PMID 875032.
  • Sussman, JL, Lin, D, Jiang, J, Manning, NO, Prilusky, J, Ritter, O & Abola, EE. Protein data bank (PDB): a database of 3D structural information of biological macromolecules. Acta Cryst 1998; D54:1078-1084. PMID 10089483.

オンライン[編集]

脚注[編集]

[脚注の使い方]


外部リンク[編集]

運営組織[編集]


酵素データベース[編集]

蛋白質の一種である酵素データベース

構造データの視覚化ソフトウェア[編集]

その他[編集]