蛋白質構造データバンク

Protein Data Bank
内容
説明	タンパク質構造; X線結晶構造解析 (en) ; NMR構造決定（英語版）;
コンタクト
主要引用	PMID 30357364
アクセス
データフォーマット	mmCIF（英語版）, PDB（英語版）
ウェブサイト	www.wwpdb.org; www.ebi.ac.uk/pdbe/; www.rcsb.org; www.bmrb.wisc.edu; pdbj.org;
ツール
その他
	テンプレートを表示

蛋白質構造データバンク（たんぱくしつこうぞうデータバンク、PDB: Protein Data Bank）は、蛋白質（タンパク質）、核酸、糖鎖など生体高分子の3次元構造の原子座標（立体配座）を蓄積している国際的な公共のデータベースである。PDBに蓄積されている構造データは、結晶解析法、核磁気共鳴法（NMR法）、クライオ電子顕微鏡法の3つの検証可能な手法によって実験的に決定されたデータである。なお、理論的な予測（蛋白質構造予測）で推定されたデータは蓄積していない。

世界中の構造生物学者が決定した構造情報は、論文発表前にPDBに登録することが義務付けられており、論文発表と同時にPDBへ登録済みの構造データが一般公開される仕組みになっている。PDBの運営は日米欧の各拠点機関が国際的に協力することで成り立っており、南北アメリカとオセアニア地区で解析されたデータは米国で、欧州とアフリカ地区からのデータは欧州で、アジア・中東地区で解析されたデータは日本でデータ登録処理が行われる。日本の拠点活動は、大阪大学蛋白質研究所のProtein Data Bank Japan（PDBj）が担当している。PDBに登録されたデータは、事前に日米欧の各拠点間でデータ交換され、パブリックドメインのもとで完全に同一なデータとして一般公開される。

PDBは、生命科学研究の中心的なデータベースのひとつである。構造生物学をはじめとする基礎研究のみならず、創薬や食品工学、細胞工学などの応用分野でも欠かせない情報源となっている。バイオインフォマティクスの研究でも、PDBに代表される3次元分子構造データベースは重要な研究対象である。PDBから派生したデータベースとプロジェクトは非常に多く、蛋白質の構造・機能・進化のそれぞれの側面から、PDBの構造データの統合や分類が行われている。

歴史[編集]

BNL PDBとして

1971年に、アメリカ合衆国のブルックヘブン国立研究所（BNL)と英国のThe Cambridge Crystallographic Data Centre (CCDC)が共同でPDBを設立し、PDBへのデータ登録はブルックヘブン国立研究所が単独で行っていた。設立以来PDBデータの磁気テープによる公開はブルックヘブン国立研究所とCCDCにより行われていたが、1976年に東京大学大型計算機センターもこれに加わった。1979年からは磁気テープによる日本国内へのデータ配布活動は、大阪大学蛋白質研究所が担うことになった。

RCSB PDBとして

1998年に、米国プロジェクトとしてのPDBはブルックヘブン国立研究所から構造バイオインフォマティクス研究共同体 (RCSB; Research Collaboratory for Structural Bioinformatics) に移管され、同研究共同体 (RCSB) がPDBの登録業務を担当し、PDBのマスターファイル管理をすることになった。並行して欧州ではEMBL-EBIにMacromolecular Structure Databaseが立ち上がり、BNLと共同で開発されたAutodepシステムを用いたデータ登録が開始された。2000年には大阪大学蛋白質研究所でもRCSB PDBの協力により、アジア地区からのデータ登録受付を開始した。

wwPDBとして

2003年、日米欧の各拠点で別々にデータ登録が行わていたPDBの運営をより公式なものとし、世界同一の基準でデータ登録を行うことを目的として、RCSBを含む次の3つの研究組織によりWorldwide Protein Data Bank (wwPDB) が結成された。2006年には生体分子磁気共鳴データバンク（BMRB）（英語版）もメンバーに加わり、現在は4つの組織が構成メンバーである。wwPDBは独自に運営諮問会議を毎年開催し、運営諮問委員からの意見に従ってPDBを運営している。wwPDBでは、統一した基準によるデータ登録が行われて完全に同一のデータを公開しているが、データの検索サービスやデータ配布方法には自由度があり、各拠点独自のサービスを提供している。

日本：日本蛋白質構造データバンク (PDBj)
米国：構造バイオインフォマティクス研究共同体 (RCSB PDB)
英国：欧州蛋白質構造データバンク (PDBe)
米国：生体分子磁気共鳴データバンク（BMRB）

wwPDBの役割は、PDBの生体高分子の3次元構造を蓄積した単一のデータベースの保守と、PDBデータベースを世界中の研究者コミュニティに無償で公開し利用できるようにすることである。

PDBが設立された当初、データベースが含む蛋白質の3次元構造は7つであったが、その後、データベースに登録される構造データ数はほぼ指数関数的に急激に増え、この増加傾向が衰える兆しは無い。PDBのデータの増加ペースは、多くの人々により分析の対象となっている。

構造データの内容[編集]

2008年1月22日現在の時点で、PDBのデータベースでは48555構造の分子の3次元構造のデータが公開されている。そのうち44742構造が蛋白質であり、他には核酸、蛋白質核酸複合体、その他の分子構造が、登録されている。ここ数年は、毎年約5000の新しい構造データが登録され公開されている。構造データは、mmCIFという分子構造データを記述するために開発された形式で、格納されている。

注意すべきこととしては、PDBは生体高分子を構成する各原子の厳密な配座の情報を格納しているということである（ただし水素以外の原子については、多くの場合は統計的に配座を推定している）。

例えば生体高分子のシーケンスデータ（特定の蛋白質を生成するための情報を記述したアミノ酸配列や、特定の核酸を構成するヌクレオチド配列）のみに関心がある場合は、Swiss-Protや国際塩基配列データベース (INSD; International Nucleotide Sequence Database; DDBJ/EMBL/GenBank) の、PDBよりさらに大規模な配列データベースを使うべきである。

統計情報[編集]

2014年6月3日現在、RCSBのページでは、次の統計情報を公開している。

解析手法	蛋白質	核酸	蛋白質核酸複合体	その他	合計
X線結晶解析法	83314	1529	4346	4	89193
NMR法	9182	1082	210	7	10481
電子顕微鏡	548	54	174	0	776
複合手法	59	3	2	1	65
その他	155	4	6	13	178
合計	93258	2672	4738	25	100693

PDBの蛋白質データのうち、

78747件の構造は構造因子ファイルを持つ。
7795件の構造はNMR束縛ファイルを持つ。
1553件の構造は化学シフトファイルを持つ。
738件の構造は3次元電子顕微鏡マップファイルを持つ。

注意: 蛋白質構造予測により理論的に推定されたモデルは統計に含まれていない（2002年7月2日より前までは含まれていた）。

PDBの統計情報のページは毎週更新されている。

ファイル形式[編集]

PDBの3次元構造データのファイル形式は、頻繁な変更と改訂を経ている。もともとのファイル形式は、コンピュータのパンチカードの幅の制約に従っていた。

ブルックヘブン国立研究所のスタッフによるPDBファイル形式ガイド PDBファイル形式の仕様を読むことができる。未加工の構造データを見る場合は、事前に読んでおくとよい。
PDBでは、最近はPDBデータをXML形式でも提供している（PDBML形式）。
ftp.rcsb.org 未加工のPDBデータをダウンロードできる。
PDB統計 PDBに関する統計情報を提供している。

従来のファイル形式には多くの問題が伴うため、いくつかの「清掃」プロジェクトが行われている。

MMDB; Molecular Modeling DataBase NCBIのプロジェクト
wwPDB

MMDBは、ASN.1形式を採用しており、またASN.1形式をXMLに変換した形式でも提供している。wwPDBは、先述したように、RCSB PDB、MSD-EBI、PDBj の3つの組織により構成されており、それぞれの組織のデータベースをまたがって一貫した形式でデータを提供している。

一定の人々は、こうした状況を肯定的に認識している。別の人々は、構造データを共通のデータベースで利用できなければ、生体高分子の構造に関する問題について研究者間の会話が成り立たないと、考えている。

PDBから提供される構造データには、それぞれ PDB ID という4文字のアルファベットからなる識別子が、割り当てられている。PDB ID は、生体高分子の識別子として使うことはできない。なぜなら、同じ一つの分子が環境/状況に応じて異なる複数の3次元構造をとるということが、蛋白質などの分子ではよくあるためである。その場合、一つの分子がそのとり得る構造ごとに、複数の PDB ID を割り当てられる。

wwPDBでは、生物学者により蛋白質や核酸の構造データが登録されると、wwPDBのスタッフがその構造データを検証し注釈（アノテーション）をつける。その後、データはソフトウェアにより妥当性を検証される。この妥当性検証ソフトウェアのソースコードは、無償で公開されている。先述したとおり、wwPDBでも、実験的に決定された構造データの登録のみを受け付け、蛋白質構造予測により理論的に推定された構造データは受け付けていない。

現在、さまざまな配分機関や自然科学系学術雑誌が、自分たちが関わって決定した構造データをPDBに登録する科学者を必要としている。

構造データを見る[編集]

PDBの3次元構造データは、生体物質を視覚化するソフトウェアを使って見ることができる。このようなソフトウェアをいくつか示す。

RasMol: Roger Sayle により開発された。
Jmol: Javaで開発された。ウェブページ内でJavaアプレットとして使うこともできる。
PyMOL: Pythonで開発された。
Chime: ウェブブラウザのプラグインとして使うことができる。
ウェブブラウザ VRMLプラグイン
STING: ブラジルの Structural Bioinformatics Group により開発された。蛋白質構造の分析機能を備える。
jV: 日本蛋白質構造データバンク（PDBj）の活動の一つとして Javaで開発された。ウェブページ内でJavaアプレットとして使うこともできる。

構造バイオインフォマティクス研究共同体 (RCSB PDB) のウェブサイトではまた、教育や構造ゲノミクスに関するリソース、および関連するソフトウェアを、提供している。

参考資料[編集]

論文[編集]

H.M. Berman, K. Henrick, H. Nakamura (2003): Announcing the worldwide Protein Data Bank. Nature Structural Biology 10 (12), p. 980 PMID 14634627.
H.M. Berman, J. Westbrook, Z. Feng, G. Gilliland, T.N. Bhat, H. Weissig, I.N. Shindyalov, P.E. Bourne: The Protein Data Bank. Nucleic Acids Research, 28 pp. 235-242 (2000). PMID 10592235
Bernstein FC, Koetzle TF, Williams GJ, Meyer Jr EF, Brice MD, Rodgers JR, Kennard O, Shimanouchi T, Tasumi M. The Protein Data Bank: a computer-based archival file for macromolecular structures. J Mol Biol 1977;112:535-542. PMID 875032.
Sussman, JL, Lin, D, Jiang, J, Manning, NO, Prilusky, J, Ritter, O & Abola, EE. Protein data bank (PDB): a database of 3D structural information of biological macromolecules. Acta Cryst 1998; D54:1078-1084. PMID 10089483.

オンライン[編集]

脚注[編集]

[脚注の使い方]

外部リンク[編集]

運営組織[編集]

日本：日本蛋白質構造データバンク - PDB Japan - PDBj
米国：wwPDB: Worldwide Protein Data Bank：構造バイオインフォマティクス研究共同体 (RCSB PDB)
英国：PDBe home < EMBL-EBI：欧州蛋白質構造データバンク
米国：BMRB - Biological Magnetic Resonance Bank：生体分子磁気共鳴データバンク

欧州バイオインフォマティクス研究所PDB要約 (PDBsum)

酵素データベース[編集]

蛋白質の一種である酵素のデータベース

構造データの視覚化ソフトウェア[編集]

その他[編集]

ExPASy - Swiss-Prot と TrEMBL
国際塩基配列データベース (INSD) - DDBJ/EMBL/GenBankが共同で提供している国際的な核酸の塩基配列データベース