機能注釈精密評価

機能注釈精密評価 (Critical Assessment of Functional Annotation、CAFA) は、タンパク質の機能予測に特化した計算手法を大規模に評価するために設計された実験である^[1]。各アルゴリズムは、分子機能、生物学的プロセス、細胞成分のカテゴリにおける遺伝子オントロジー (GO) 用語の予測能力によって評価される。

実験は2つのトラックで構成されている。(i)真核生物トラック、(ii)原核生物トラックである。それぞれのトラックでは、主催者によって目標が設定されている。参加者は提出期限までに予測を提出することが求められ、その後、一連の特定の指標に基づいて評価される。

動機付け[編集]

生物のゲノムは、数百から数万個の遺伝子で構成されている場合があり、数十万個の異なるタンパク質配列を符号化している。ゲノム配列決定のコストが比較的低いため、遺伝子やタンパク質の配列を決定することは迅速かつ安価である。これまでに数千もの種で配列が決定されているが、タンパク質の多くは十分に特徴付けされていない^[2]。細胞内でのタンパク質の役割を実験的に決定するプロセスは、高価で時間のかかる作業である。さらに、機能アッセイ(試験)を行ったとしても、タンパク質の機能を完全に理解できる可能性は低い。そのため、タンパク質を機能的に注釈するための計算ツールを使用することが重要になっている。さまざまな生物学的および進化学的データを用いてタンパク質の機能を推測できる計算機的なタンパク質機能予測法はいくつかあるものの、改善の余地はかなりある。タンパク質の機能を正確に予測することは、生物医学的および薬学的研究に長年の影響を与える可能性がある。

CAFA実験は、計算手法の偏りのない評価を提供し、計算機能予測の研究を激励し、機能予測の全体的な最先端技術への洞察を提供することを目的としている。

構成[編集]

実験は3つのフェーズで構成されている。

予測フェーズ: ～4ヶ月間

主催者は、機能が未知または不完全なタンパク質配列をコミュニティに提供し、予測の提出期限を設定する。

標的の蓄積: 6～12ヶ月

すべての予測値が格納された後、実験は待機期間に入り、タンパク質の機能が公開データベースに蓄積されることが期待される。

分析フェーズ: 1ヶ月

予測者は、その性能に従ってランク付けされる。結果は科学会議で公開され、査読後に発表される。

歴史[編集]

CAFA実験は、自動化機能予測分科会 (Automated Function Prediction/Special Interest Group、AFP/SIG)によって行われている。AFP/SIGは、2005年、2006年、2008年、2011年、2012年に開催された分子生物学のためのインテリジェントシステム会議 (英語版) と並行して開催されている^[3]^[4]^[5]。

CAFA 1 (2010-2011)[編集]

最初のCAFA実験は、2010年秋から2012年春にかけて実施された。主催者はコミュニティに48,000個のタンパク質配列を提供し、それぞれの配列について遺伝子オントロジー注釈 (Gene Ontology annotation) を予測するという課題を課した。これらの48,000個のタンパク質のうち、866個のタンパク質が標的蓄積の段階で実験的に注釈が付与された。その結果、現在の機能予測アルゴリズムは、単純なドメイン割り当てやBLASTパッケージの直接的な使用よりも有意に優れていることを示した。しかし、タンパク質の生物学的機能の正確な予測は、依然として未解決で挑戦的な難問であることも明らかになった。

CAFA 2 (2013-2014)[編集]

第2回目のCAFA実験は2013年秋に開始された。8月から関係者は、27種で10万を超えるターゲット配列をダウンロードすることができた。登録されたチームは、遺伝子オントロジー用語を用いて配列に注釈を付けることに挑戦し、さらにヒト表現型オントロジー（英語版）用語を用いてヒト配列をアノテーションすることに挑戦する。提出期限は2014年1月15日。予測の評価は2014年6月に行われた。

参照項目[編集]

タンパク質構造予測精密評価 (CASP)
相互作用予測精密評価 (CAPRI)

参考文献[編集]

^ Predrag, Radivojac (2013). “A large-scale evaluation of computational protein function prediction”. Nature Methods 10 (3): 221–227. doi:10.1038/nmeth.2340. PMC 3584181. PMID 23353650.
^ Bernal, Axel; Uy Ear; Nikos Kyrpides (2001). “Genomes OnLine Database (GOLD): a monitor of genome projects world-wide”. Nucleic Acids Research 29 (1): 126–127. doi:10.1093/nar/29.1.126. PMC 29859. PMID 11125068.
^ Rodrigues, Ana; Barry Grant; Adam Godzik; Iddo Friedberg (2007). “The 2006 Automated Function Prediction Meeting”. Bioinformatics 8 (Suppl 4): S1–4. doi:10.1186/1471-2105-8-s4-s1. PMC 1892079. PMID 17570143.
^ Friedberg, Iddo; Martin Jambon; Adam Godzik (June 2006). “New avenues in protein function prediction”. Protein Science 15 (6): 1527–1529. doi:10.1110/ps.062158406. PMC 2242544. PMID 16731984.
^ Gillis, Jesse; Paul Pavlidis (April 2013). “Characterizing the state of the art in the computational assignment of gene function: lessons from the first critical assessment of functional annotation (CAFA)”. BMC Bioinformatics 14 (Suppl 3): S15. doi:10.1186/1471-2105-14-s3-s15. PMC 3633048. PMID 23630983.

外部リンク[編集]

Automated Function Prediction Special Interest Group - CAFA Challenge participation information

[1] Predrag, Radivojac (2013). “A large-scale evaluation of computational protein function prediction”. Nature Methods 10 (3): 221–227. doi:10.1038/nmeth.2340. PMC 3584181. PMID 23353650.

[2] Bernal, Axel; Uy Ear; Nikos Kyrpides (2001). “Genomes OnLine Database (GOLD): a monitor of genome projects world-wide”. Nucleic Acids Research 29 (1): 126–127. doi:10.1093/nar/29.1.126. PMC 29859. PMID 11125068.

[3] Rodrigues, Ana; Barry Grant; Adam Godzik; Iddo Friedberg (2007). “The 2006 Automated Function Prediction Meeting”. Bioinformatics 8 (Suppl 4): S1–4. doi:10.1186/1471-2105-8-s4-s1. PMC 1892079. PMID 17570143.

[4] Friedberg, Iddo; Martin Jambon; Adam Godzik (June 2006). “New avenues in protein function prediction”. Protein Science 15 (6): 1527–1529. doi:10.1110/ps.062158406. PMC 2242544. PMID 16731984.

[5] Gillis, Jesse; Paul Pavlidis (April 2013). “Characterizing the state of the art in the computational assignment of gene function: lessons from the first critical assessment of functional annotation (CAFA)”. BMC Bioinformatics 14 (Suppl 3): S15. doi:10.1186/1471-2105-14-s3-s15. PMC 3633048. PMID 23630983.

[1]

[2]

[3]

[4]

[5]