スコアリング関数 (分子)

出典: フリー百科事典『ウィキペディア(Wikipedia)』

計算化学分子モデリングの分野では、スコアリング関数 (scoring functions) は、ドッキングした2つの分子の分子間における結合親和性を概算するために使用される数学的な関数である。最も一般的には、分子の1つは薬剤のような低分子有機化合物で、2つ目はタンパク質受容体のような薬剤の生物学的標的である[1]。また、2つのタンパク質間[2]またはタンパク質とDNAの間の分子間相互作用の強さを予測するためのスコアリング関数も開発されている[3]

用途[編集]

スコアリング関数は、創薬や他の分子モデリングアプリケーションで広く使用されている。これらには以下のようなものがある[4]

  • バーチャル・スクリーニング - リガンド候補の低分子データベースのバーチャル・スクリーニングにより、興味のあるタンパク質標的に結合する新規の低分子を特定し、創薬の出発点として有用であることを確認する[5]
  • De novo デザイン (スクラッチからのデザイン) - タンパク質標的に結合する新規低分子をゼロから設計する[6]
  • リード最適化 - スクリーニングヒットの親和性と選択性を最適化する[7]

スコアリング関数よりも潜在的に信頼性が高く、しかし計算量の多い可能性がある代替策として、自由エネルギー摂動計算がある[8]

前提条件[編集]

スコアリング関数は通常、予測したい種に類似した分子種間での (実験的に決定された) 結合親和性データセットを用いて、パラメータ化 (またはチューニング) される。

現在使用されている手法では、タンパク質に対するリガンドの親和性を予測するために、はじめに以下を知っているか予測する必要がある。

  • タンパク質の三次構造 - 三次元空間におけるタンパク質原子の配置。タンパク質の構造は、X線結晶構造解析や液相NMR法などの実験的手法によって決定したり、ホモロジーモデリング (英語版によって予測されることもある。
  • リガンド活性コンホメーション- タンパク質に結合したときのリガンドの三次元形状。
  • 結合モード - 複合体内での2つの結合パートナーの相対的な配向。

上記の情報から、複合体の三次元構造が得られる。この構造に基づいて、スコアリング関数は、次に概説する方法の1つを使用して、複合体中の2つの分子間の結合の強さを推定できる。最後に、スコアリング関数自体を使用して、複合体中の低分子の結合モードと活性コンホメーションの両方を予測することもできるし、あるいは、ドッキング実行(docking run)内でより単純で計算速度の速い関数を利用することもできる。

クラス[編集]

スコアリング関数には4つの一般的なクラスがある[9][10][11]

  • 力場型 - 親和性は力場を使用して、複合体内の2つの分子のすべての原子間の分子間ファンデルワールス力の強さと、静電相互作用の強さを合計することによって推定される。2つの結合パートナーの分子内エネルギー (ひずみエネルギーとも呼ばれる) もしばしば含まれる。最後に、結合は通常水の存在下で行われるため、リガンドとタンパク質の脱溶媒和エネルギーは、GBSA (英語版やPBSA (英語版などの陰溶媒和法を使用して考慮される場合がある[12]
  • 経験型 - 2つの結合パートナー間の様々なタイプの相互作用の数をカウントすることに基づく[13]。カウントは、互いに接触しているリガンドおよび受容体の原子数に基づくか、または複合体の溶媒露出面積英語版(ΔSASA) の変化を、非複合化リガンドおよびタンパク質と比較して計算する。スコアリング関数の係数は、通常、多重線形回帰法を用いて適合される。関数のこれらの相互作用項は、例えば以下のものが含まれる。
    • 疎水性 - 疎水性接触 (有利な寄与)
    • 疎水性 - 親水性接触 (不利な寄与)  (満たされていない水素結合を説明、これは結合に関するエンタルピーの重要な寄与である[14]。1つの水素結合を失うと、結合親和性内で1~2桁の原因となる可能性がある[15]。)
    • 水素結合の数 (特に溶媒から遮蔽されている場合、親和性への有利な寄与。溶媒が露出している場合は寄与しない)。
    • 複合体形成時に固定化された回転可能な結合の数 (コンホメーション・エントロピーの不利な寄与)。
  • 知識ベース型 (英語版 - 統計的な「平均力ポテンシャル」を導出するために使用される大規模な3Dデータベース  (ケンブリッジ構造データベース英語版蛋白質構造データバンクなど) における、分子間近接接触の統計的観察に基づく。この方法は、特定のタイプの原子または官能基間の分子間相互作用が、ランダムな分布によって予想されるよりも頻繁に発生することがエネルギー的に有利であり、したがって結合親和性に有利に寄与するという仮定に基づく[16]
  • 機械学習型 - これらの古典的なスコアリング関数とは異なり、機械学習スコアリング関数は、結合親和性とタンパク質-リガンド複合体を記述する構造的特徴との関係について、所定の関数形式を仮定しないことを特徴としている[17]。このようにして、関数形式はデータから直接推測される。機械学習スコアリング関数は、多様なタンパク質-リガンド複合体の結合親和性予測において、古典的なスコアリング関数よりも優れていることが一貫して明らかになっている[18][19]。これは標的固有の複合体についても当てはまるが[20][21]、その優位性は標的に依存し、主に利用可能な関連データの量に依存する[22][23]。適切な注意を払われると、機械学習スコアリング関数は、構造ベースのバーチャルスクリーニングという関連問題において、少なくとも古典的なスコアリング関数と同等の性能を発揮する[24][25][26][27][28][29]。これらのレビューは、構造に基づいた創薬設計のための機械学習スコアリング関数について幅広い概観を提供する[22][30][31][32]

最初の3つのタイプ、力場型、経験型、知識ベース型は一般的に古典的なスコアリング関数と呼ばれ、結合への寄与が線形結合であると仮定することによって特徴づけられる。この制約のため、古典的スコアリング関数は大量の学習データを活かすことができない[33]

改良点[編集]

異なるスコアリング関数は比較的同一線上にあるため、コンセンサス・スコアリング関数は精度を有意に向上させない可能性がある[34]。しかし、これまでの研究では、コンセンサス・スコアリングは有益であることが示唆されていたため、この主張はこの分野での一般的な見解に多少反している[35]

完全なスコアリング関数は、リガンドと標的との間における結合自由エネルギーを予測することができる。しかし実際には、計算手法と計算資源の両方がこの目標達成を制限している。そのため、多くの場合、偽陽性リガンドと偽陰性リガンドの数を最小にする方法が選択さる。結合定数と構造とのデータからなる実験的トレーニングセットが利用可能な場合に、分子ドッキングで使用されるスコアリング関数を改善するための簡単な方法が開発された[36]

関連項目[編集]

脚注[編集]

  1. ^ Jain AN (October 2006). “Scoring functions for protein-ligand docking”. Current Protein & Peptide Science 7 (5): 407–20. doi:10.2174/138920306778559395. PMID 17073693. 
  2. ^ Lensink MF, Méndez R, Wodak SJ (December 2007). “Docking and scoring protein complexes: CAPRI 3rd Edition”. Proteins 69 (4): 704–18. doi:10.1002/prot.21804. PMID 17918726. 
  3. ^ Robertson TA, Varani G (February 2007). “An all-atom, distance-dependent scoring function for the prediction of protein-DNA interactions from structure”. Proteins 66 (2): 359–74. doi:10.1002/prot.21162. PMID 17078093. 
  4. ^ Rajamani R, Good AC (May 2007). “Ranking poses in structure-based lead discovery and optimization: current trends in scoring function development”. Current Opinion in Drug Discovery & Development 10 (3): 308–15. PMID 17554857. 
  5. ^ Seifert MH, Kraus J, Kramer B (May 2007). “Virtual high-throughput screening of molecular databases”. Current Opinion in Drug Discovery & Development 10 (3): 298–307. PMID 17554856. 
  6. ^ Böhm HJ (July 1998). “Prediction of binding constants of protein ligands: a fast method for the prioritization of hits obtained from de novo design or 3D database search programs”. Journal of Computer-Aided Molecular Design 12 (4): 309–23. Bibcode1998JCAMD..12..309B. doi:10.1023/A:1007999920146. PMID 9777490. 
  7. ^ Joseph-McCarthy D, Baber JC, Feyfant E, Thompson DC, Humblet C (May 2007). “Lead optimization via high-throughput molecular docking”. Current Opinion in Drug Discovery & Development 10 (3): 264–74. PMID 17554852. 
  8. ^ Foloppe N, Hubbard R (2006). “Towards predictive ligand design with free-energy based computational methods?”. Current Medicinal Chemistry 13 (29): 3583–608. doi:10.2174/092986706779026165. PMID 17168725. 
  9. ^ Fenu, Luca A.; Lewis, Richard A.; Good, Andrew C.; Bodkin, Michael; Essex, Jonathan W. (2007). “Chapter 9: Scoring Functions: From Free-energies of Binding to Enrichment in Virtual Screening”. Structure-Based Drug Discovery. Dordrecht: Springer. pp. 223–246. ISBN 978-1-4020-4407-6. https://books.google.com/books?id=8ywRn7vSGVAC&pg=PA226&dq=fast+approximate+scoring+function+docking#q=fast%20approximate%20scoring%20function%20docking 
  10. ^ Sotriffer, Christoph; Matter, Hans (2011). “Chapter 7.3: Classes of Scoring Functions”. Virtual Screening: Principles, Challenges, and Practical Guidelines. 48. John Wiley & Sons, Inc.. ISBN 978-3-527-63334-0. https://books.google.com/books?id=bRcHVwCiJcoC&pg=PT203&dq=scoring+function+force+field+empirical+knowledge-based#q=scoring%20function%20force%20field%20empirical%20knowledge-based 
  11. ^ Ain QU, Aleksandrova A, Roessler FD, Ballester PJ (2015-11-01). “Machine-learning scoring functions to improve structure-based binding affinity prediction and virtual screening”. Wiley Interdisciplinary Reviews: Computational Molecular Science 5 (6): 405–424. doi:10.1002/wcms.1225. PMC 4832270. PMID 27110292. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4832270/. 
  12. ^ “The MM/PBSA and MM/GBSA methods to estimate ligand-binding affinities”. Expert Opinion on Drug Discovery 10 (5): 449–61. (May 2015). doi:10.1517/17460441.2015.1032936. PMC 4487606. PMID 25835573. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4487606/. 
  13. ^ Böhm HJ (July 1998). “Prediction of binding constants of protein ligands: a fast method for the prioritization of hits obtained from de novo design or 3D database search programs”. Journal of Computer-Aided Molecular Design 12 (4): 309–23. Bibcode1998JCAMD..12..309B. doi:10.1023/A:1007999920146. PMID 9777490. 
  14. ^ Schneider N, Lange G, Hindle S, Klein R, Rarey M (January 2013). “A consistent description of HYdrogen bond and DEhydration energies in protein-ligand complexes: methods behind the HYDE scoring function”. Journal of Computer-Aided Molecular Design 27 (1): 15–29. Bibcode2013JCAMD..27...15S. doi:10.1007/s10822-012-9626-2. PMID 23269578. 
  15. ^ Lange G, Lesuisse D, Deprez P, Schoot B, Loenze P, Bénard D, Marquette JP, Broto P, Sarubbi E, Mandine E (November 2003). “Requirements for specific binding of low affinity inhibitor fragments to the SH2 domain of (pp60)Src are identical to those for high affinity binding of full length inhibitors”. Journal of Medicinal Chemistry 46 (24): 5184–95. doi:10.1021/jm020970s. PMID 14613321. 
  16. ^ Muegge I (October 2006). “PMF scoring revisited”. Journal of Medicinal Chemistry 49 (20): 5895–902. doi:10.1021/jm050038s. PMID 17004705. 
  17. ^ Ballester PJ, Mitchell JB (May 2010). “A machine learning approach to predicting protein-ligand binding affinity with applications to molecular docking”. Bioinformatics 26 (9): 1169–75. doi:10.1093/bioinformatics/btq112. PMC 3524828. PMID 20236947. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3524828/. 
  18. ^ Li H, Leung KS, Wong MH, Ballester PJ (February 2015). “Improving AutoDock Vina Using Random Forest: The Growing Accuracy of Binding Affinity Prediction by the Effective Exploitation of Larger Data Sets”. Molecular Informatics 34 (2–3): 115–26. doi:10.1002/minf.201400132. PMID 27490034. 
  19. ^ Ashtawy HM, Mahapatra NR (2015-04-01). “A Comparative Assessment of Predictive Accuracies of Conventional and Machine Learning Scoring Functions for Protein-Ligand Binding Affinity Prediction”. IEEE/ACM Transactions on Computational Biology and Bioinformatics 12 (2): 335–47. doi:10.1109/TCBB.2014.2351824. PMID 26357221. 
  20. ^ Zhan W, Li D, Che J, Zhang L, Yang B, Hu Y, Liu T, Dong X (March 2014). “Integrating docking scores, interaction profiles and molecular descriptors to improve the accuracy of molecular docking: toward the discovery of novel Akt1 inhibitors”. European Journal of Medicinal Chemistry 75: 11–20. doi:10.1016/j.ejmech.2014.01.019. PMID 24508830. 
  21. ^ Kinnings SL, Liu N, Tonge PJ, Jackson RM, Xie L, Bourne PE (February 2011). “A machine learning-based method to improve docking scoring functions and its application to drug repurposing”. Journal of Chemical Information and Modeling 51 (2): 408–19. doi:10.1021/ci100369f. PMC 3076728. PMID 21291174. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3076728/. 
  22. ^ a b Ain QU, Aleksandrova A, Roessler FD, Ballester PJ (2015-11-01). “Machine-learning scoring functions to improve structure-based binding affinity prediction and virtual screening”. Wiley Interdisciplinary Reviews: Computational Molecular Science 5 (6): 405–424. doi:10.1002/wcms.1225. PMC 4832270. PMID 27110292. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4832270/. 
  23. ^ Li H, ((Sze K-H)), Lu G, Ballester PJ (2020-02-05). “Machine-Learning Scoring Functions for Structure-Based Drug Lead Optimization”. Wiley Interdisciplinary Reviews: Computational Molecular Science. doi:10.1002/wcms.1465. 
  24. ^ Li L, Wang B, Meroueh SO (September 2011). “Support vector regression scoring of receptor-ligand complexes for rank-ordering and virtual screening of chemical libraries”. Journal of Chemical Information and Modeling 51 (9): 2132–8. doi:10.1021/ci200078f. PMC 3209528. PMID 21728360. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3209528/. 
  25. ^ Durrant JD, Friedman AJ, Rogers KE, McCammon JA (July 2013). “Comparing neural-network scoring functions and the state of the art: applications to common library screening”. Journal of Chemical Information and Modeling 53 (7): 1726–35. doi:10.1021/ci400042y. PMC 3735370. PMID 23734946. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3735370/. 
  26. ^ Ding B, Wang J, Li N, Wang W (January 2013). “Characterization of small molecule binding. I. Accurate identification of strong inhibitors in virtual screening”. Journal of Chemical Information and Modeling 53 (1): 114–22. doi:10.1021/ci300508m. PMC 3584174. PMID 23259763. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3584174/. 
  27. ^ Wójcikowski M, Ballester PJ, Siedlecki P (April 2017). “Performance of machine-learning scoring functions in structure-based virtual screening”. Scientific Reports 7: 46710. Bibcode2017NatSR...746710W. doi:10.1038/srep46710. PMC 5404222. PMID 28440302. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5404222/. 
  28. ^ Ragoza M, Hochuli J, Idrobo E, Sunseri J, Koes DR (April 2017). “Protein-Ligand Scoring with Convolutional Neural Networks”. Journal of Chemical Information and Modeling 57 (4): 942–957. arXiv:1612.02751. doi:10.1021/acs.jcim.6b00740. PMC 5479431. PMID 28368587. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5479431/. 
  29. ^ Li H, Peng J, Leung Y, Leung KS, Wong MH, Lu G, Ballester PJ (March 2018). “The Impact of Protein Structure and Sequence Similarity on the Accuracy of Machine-Learning Scoring Functions for Binding Affinity Prediction”. Biomolecules 8 (1): 12. doi:10.3390/biom8010012. PMC 5871981. PMID 29538331. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5871981/. 
  30. ^ Shen C, Ding J, Wang Z, Cao D, Ding X, Hou T (2019-06-27). “From Machine Learning to Deep Learning: Advances in Scoring Functions for Protein–ligand Docking”. Wiley Interdisciplinary Reviews: Computational Molecular Science. doi:10.1002/wcms.1429. 
  31. ^ Yang X, Wang Y, Byrne R, Schneider G, Yang S (2019-07-11). “Concepts of Artificial Intelligence for Computer-Assisted Drug Discovery”. Chemical Reviews 119 (18): 10520–10594. doi:10.1021/acs.chemrev.8b00728. 
  32. ^ Li H, ((Sze K-H)), Lu G, Ballester PJ (2020-04-22). “Machine-Learning Scoring Functions for Structure-Based Virtual Screening”. Wiley Interdisciplinary Reviews: Computational Molecular Science. doi:10.1002/wcms.1478. 
  33. ^ Li H, Peng J, Sidorov P, Leung Y, Leung KS, Wong MH, Lu G, Ballester PJ (March 2019). “Classical scoring functions for docking are unable to exploit large volumes of structural and interaction data”. Bioinformatics (Oxford, England). doi:10.1093/bioinformatics/btz183. PMID 30873528. 
  34. ^ Englebienne P, Moitessier N (June 2009). “Docking ligands into flexible and solvated macromolecules. 4. Are popular scoring functions accurate for this class of proteins?”. Journal of Chemical Information and Modeling 49 (6): 1568–80. doi:10.1021/ci8004308. PMID 19445499. 
  35. ^ Oda A, Tsuchida K, Takakura T, Yamaotsu N, Hirono S (2006). “Comparison of consensus scoring strategies for evaluating computational models of protein-ligand complexes”. Journal of Chemical Information and Modeling 46 (1): 380–91. doi:10.1021/ci050283k. PMID 16426072. 
  36. ^ Hellgren M, Carlsson J, Ostberg LJ, Staab CA, Persson B, Höög JO (September 2010). “Enrichment of ligands with molecular dockings and subsequent characterization for human alcohol dehydrogenase 3”. Cellular and Molecular Life Sciences 67 (17): 3005–15. doi:10.1007/s00018-010-0370-2. PMID 20405162.