「バイオインフォマティクス」の版間の差分
編集の要約なし |
en:bioinformaticsid=951856360の翻訳をベースに、前半分を追記編集 タグ: サイズの大幅な増減 ビジュアルエディター |
||
1行目: | 1行目: | ||
[[ファイル:WPP_domain_alignment.PNG|リンク=https://ja.wikipedia.org/wiki/%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB:WPP_domain_alignment.PNG|右|サムネイル|500x500ピクセル|バイオインフォマティクスの一例。実験的に決定されたタンパク質のアミノ酸配列をアラインメントしたもの。]] |
|||
{{出典の明記|date=2011年6月}} |
|||
[[File:Genome viewer screenshot small.png|thumbnail|right|220px|'''ヒトX染色体の地図'''。[[ヒトゲノム]]解析はバイオインフォマティクスの最大の成果の一つである。]] |
[[File:Genome viewer screenshot small.png|thumbnail|right|220px|'''ヒトX染色体の地図'''。[[ヒトゲノム]]解析はバイオインフォマティクスの最大の成果の一つである。]] |
||
'''バイオインフォマティクス'''([[英語]]:bioinformatics)または'''生命情報科学'''(せいめいじょうほうかがく)は、[[生命科学]]と[[情報科学]]の融合分野のひとつで、DNAやRNA、タンパク質 |
'''バイオインフォマティクス'''([[英語]]:bioinformatics)または'''生命情報科学'''(せいめいじょうほうかがく)は、[[生命科学]]と[[情報科学]]の融合分野のひとつであり、DNAやRNA、タンパク質を始めとする、生命が持つ様々な「[[情報]]」を対象に、[[情報科学]]や[[統計学]]などのアルゴリズムを用いた方法論やソフトウェアを開発し、またそれらを用いた分析から生命現象を解き明かしていく('<nowiki/>''[[in silico]]''' 解析)ことを目的とした学問分野である。そのため、[[生物学]] 、 [[計算機科学|コンピュータサイエンス]] 、 [[データ中心アプローチ|情報工学]] 、 [[数学]] 、 [[統計学]]といった様々な学問分野が組み合わさった学際分野でもある。 |
||
[[ゲノミクス]]研究の初期は遺伝子予測などがバイオインフォマティクスの主要な対象であった。近年はゲノムからの[[転写 (生物学)|転写]]物の総体である[[トランスクリプトーム]]、トランスクリプトーム(の一部)が[[翻訳 (生物学)|翻訳]]された[[蛋白質|タンパク質]]の総体である[[プロテオーム]]、タンパク質の二次産物として合成される[[糖鎖]]の総体である[[グライコーム]]、更に、ゲノムからの直接、転写・翻訳された実体ではなく、代謝ネットワーク([[代謝マップ]])によって生じた代謝産物をも含めた総体を考える[[メタボローム]]、生物個体の表現形の総体である[[フェノーム]]など、[[生物学]]全体を研究対象とする科学に拡大・発展しつつある。 |
|||
主な研究対象分野に、遺伝子予測、遺伝子機能予測、遺伝子分類、配列アラインメント、ゲノムアセンブリ、タンパク質構造アラインメント、タンパク質構造予測、遺伝子発現解析、タンパク質間相互作用の予測、進化のモデリングなどがある。 |
|||
== 概要 == |
|||
近年多くの生物を対象に実施されているゲノムプロジェクトによって大量の情報が得られる一方、それらの情報から生物学的な意味を抽出することが困難であることが広く認識されるようになり、バイオインフォマティクスの重要性が注目されている。 |
|||
[[ファイル:Example_DNA_sequence.png|リンク=https://ja.wikipedia.org/wiki/%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB:Example_DNA_sequence.png|右|サムネイル|遺伝子やゲノム配列はバイオインフォマティクス分野で頻繁にリヨされる。コンピューターを使用することで、手動よりも簡単確実に管理できる。]] |
|||
ゲノムシーケンシング技術の登場と発展により、多くの生物を対象にゲノム解析プロジェクトが進められ、それに伴い大量のゲノム配列情報が得られるようになっている。一方で、この大量の情報から生物学的な意味を抽出することは困難であり、情報処理による解析の必要性が高まっている。また、遺伝子情報は核酸配列という[[デジタル]]情報に近い性格を持っているために、コンピュータとの親和性が高い。さらに[[DNAマイクロアレイ|マイクロアレイ]]などの網羅的な解析技術の発展に伴って、[[遺伝子発現]]のプロファイリング、[[クラスタリング]]、アノテーション、大量のデータを視覚的に表現する手法などが重要になってきている。これらの理由により、バイオインフォマティクスは重要性が注目されるようになり、1990年代半ばの[[ヒトゲノム計画|ヒトゲノムプロジェクト]]やDNAシーケンステクノロジーの急速な進歩によって爆発的に成長し、今日でも大きく発展してきている。 |
|||
バイオインフォマティクスの主な研究対象としては、遺伝子予測、遺伝子機能予測、遺伝子分類、配列アラインメント、ゲノムアセンブリ、タンパク質構造アラインメント、タンパク質構造予測、遺伝子発現解析、タンパク質間相互作用の予測、進化モデリング、[[医薬品設計|ドラッグデザイン]]、[[創薬]]、等の、様々な[[プログラミング|コンピュータープログラミング]]を使用した生物学的研究が挙げられる。また、特に[[ゲノミクス]]の分野で繰り返し使用される特定の分析パイプラインを開発するといった、方法論の開発に関する研究も含まれる。バイオインフォマティクスを活用した研究の一例として、疾患の遺伝的根拠や生物の環境適応、特に農業分野における産業植物や動物の特性解析、個体群間の差異などをよりよく理解するための候補[[遺伝子]]や一[[ヌクレオチド|塩基]]多型([[一塩基多型|SNP]])の探索、などがある。 さらに、[[プロテオーム解析|プロテオミクス]]と呼ばれる[[タンパク質]]を対象としたデータをゲノム配列と組み合わせたバイオインフォマティクス研究も進められている<ref>{{Cite web|author=Lesk|first=A. M.|date=26 July 2013|title=Bioinformatics|url=https://www.britannica.com/science/bioinformatics|website=Encyclopaedia Britannica|accessdate=17 April 2017}}</ref>。 |
|||
この一方遺伝子情報は核酸の配列という[[デジタル]]情報に近い性格を持っているために、コンピュータとの親和性が高いことが本分野の発展の理由になっている。 |
|||
今日、バイオインフォマティクスは、生物学の多くの分野で重要な役割を果たしている。例えば[[分子生物学]]研究では、[[デジタル画像処理|画像処理]]や[[信号処理]]などのバイオインフォマティクス技術を利用して、大量の生データから有用な結果を抽出することが行われている。遺伝学の分野では、ゲノム配列や[[突然変異]]した配列の決定と注釈付け(アノテーション)に活用される。 生物学的文献の[[テキストマイニング]]や、生物学的な遺伝子[[オントロジー (情報科学)|オントロジー]]の開発を通じて、膨大に蓄積された生物学的データを利用しやすい形で整理する役割も果たしている。また、遺伝子やタンパク質の発現調節の解析にも、深く関与している。バイオインフォマティクスツールは、遺伝子やゲノムのデータ比較と分析、解釈を支援し、分子生物学の進化的な理解にも貢献している。より統合的なレベルでは、個々の遺伝子や[[蛋白質|タンパク質]]の解析から一歩進み、生命を遺伝子やタンパク質のネットワークとして捉え、その総体を[[システム]]として理解しようとする、[[システム生物学]]という分野も生まれている。バイオインフォマティクスは生物学的代謝経路とネットワークの分析やカタログ化に役立ち、[[システム生物学]]を支えている。[[構造生物学]]の分野においては、生体分子の相互作用だけでなく、DNA<ref name=":0">{{Cite journal|last=Sim|first=A. Y. L.|last2=Minary|first2=P.|last3=Levitt|first3=M.|year=2012|title=Modeling nucleic acids|journal=[[Current Opinion in Structural Biology]]|volume=22|issue=3|pages=273–78|DOI=10.1016/j.sbi.2012.03.012|PMID=22538125|PMC=4028509}}</ref>、RNA<ref name=":0" /><ref>{{Cite journal|last=Dawson|first=W. K.|last2=Maciejczyk|first2=M.|last3=Jankowska|first3=E. J.|last4=Bujnicki|first4=J. M.|year=2016|title=Coarse-grained modeling of RNA 3D structure|url=|journal=[[Methods (journal)|Methods]]|volume=103|pages=138–56|DOI=10.1016/j.ymeth.2016.04.026|PMID=27125734}}</ref>、タンパク質<ref>{{Cite journal|last=Kmiecik|first=S.|last2=Gront|first2=D.|last3=Kolinski|first3=M.|last4=Wieteska|first4=L.|last5=Dawid|first5=A. E.|last6=Kolinski|first6=A.|year=2016|title=Coarse-Grained Protein Models and Their Applications|journal=[[Chemical Reviews]]|volume=116|issue=14|pages=7898–936|DOI=10.1021/acs.chemrev.6b00163|PMID=27333362}}</ref>等のシミュレーションとモデリングにも役立っている<ref>{{Cite book|last=Wong|first=K. C.|year=2016|title=Computational Biology and Bioinformatics: Gene Regulation|publisher=CRC Press/Taylor & Francis Group|isbn=9781498724975}}</ref><ref>{{Cite journal|last=Joyce|first=A. P.|last2=Zhang|first2=C.|last3=Bradley|first3=P.|last4=Havranek|first4=J. J.|year=2015|title=Structure-based modeling of protein: DNA specificity|journal=[[Briefings in Functional Genomics]]|volume=14|issue=1|pages=39–49|DOI=10.1093/bfgp/elu044|PMID=25414269|PMC=4366589}}</ref><ref>{{Cite book|last=Spiga|title=Biomolecular Modelling and Simulations|pmid=25443955|doi=10.1016/bs.apcsb.2014.06.008|publisher=Academic Press|pages=77–111|volume=96|series=Advances in Protein Chemistry and Structural Biology|editor-first=T.|first=E.|editor-last=Karabencheva-Christova|chapter=New Strategies for Integrative Dynamic Modeling of Macromolecular Assembly|date=2014|first3=M.|last3=Dal Peraro|first2=M. T.|last2=Degiacomi|isbn=9780128000137}}</ref><ref>{{Cite journal|last=Ciemny|first=Maciej|last2=Kurcinski|first2=Mateusz|last3=Kamel|first3=Karol|last4=Kolinski|first4=Andrzej|last5=Alam|first5=Nawsad|last6=Schueler-Furman|first6=Ora|last7=Kmiecik|first7=Sebastian|date=2018-05-04|title=Protein–peptide docking: opportunities and challenges|journal=Drug Discovery Today|volume=23|issue=8|pages=1530–37|language=en|DOI=10.1016/j.drudis.2018.05.006|ISSN=1359-6446|PMID=29733895}}</ref>。また、[[機械学習]]による遺伝子領域予測や、タンパク質構造予測、次世代シーケンサーを利用したゲノム解析など、大きな計算能力を要求される課題が多く存在するため、[[スーパーコンピュータ]]の重要な応用領域の一つとして認識されている{{要出典|date=2020年5月}}。 |
|||
さらに[[DNAマイクロアレイ|マイクロアレイ]]などの網羅的な解析技術の発展に伴って、[[遺伝子発現]]のプロファイリング、[[クラスタリング]]、[[アノテーション]](注釈)、大量のデータを視覚的に表現する手法などが重要になってきている。こういった個別の遺伝子、[[蛋白質|タンパク質]]の解析等から更に一歩進み、生命を遺伝子やタンパク質のネットワークとして捉え、その総体を[[システム]]として理解しようとする[[システム生物学]]という分野もある。 |
|||
== |
=== 歴史 === |
||
''バイオインフォマティクス''という用語は、Paulien HogewegとBen Hesperによって1970年に生物システムの情報処理の研究に言及するために作られた用語である。<ref name="Hogeweg2011">{{Cite journal|last=Hogeweg P|year=2011|title=The Roots of Bioinformatics in Theoretical Biology|journal=PLOS Computational Biology|volume=7|issue=3|pages=e1002021|bibcode=2011PLSCB...7E2021H|DOI=10.1371/journal.pcbi.1002021|PMID=21483479|PMC=3068925}}</ref><ref>{{Cite journal|year=1970|title=Bioinformatica: een werkconcept|volume=1|issue=6|pages=28–29|publisher=Kameleon}}</ref><ref>{{Cite journal|last=Hogeweg P|year=1978|title=Simulating the growth of cellular forms|journal=Simulation|volume=31|issue=3|pages=90–96|DOI=10.1177/003754977803100305|PMID=|PMC=}}</ref>。この定義では、[[生化学]](生物学的システムにおける化学プロセスの研究)と平行した研究分野の概念としてバイオインフォマティクスを位置づけており<ref name="Hogeweg2011" />、今日使われているものとは意味が異なっている。 |
|||
たとえば[[ヒトゲノム計画]]では、ある配列断片から順番に配列を解読する手法が考えられていたが、[[クレイグ・ベンター]]らによる[[ショットガン法]]により遥かに高効率で解読が進められるようになった。ショットガン法は[[ゲノム]]配列をバラバラな短い断片に分断してそれぞれを解読し、その後同一の配列を重複する領域として並べ替えることによってゲノム配列を再現するが、多くの断片がある中で正しい並び方を決定することは[[コンピュータ]]の計算能力がなければ不可能である。このような元の長い配列を再現する計算は[[配列アセンブリング]]と呼ばれ、バイオインフォマティクスの中でも重要なテーマの一つとなっている。 |
|||
1950年代初頭に[[フレデリック・サンガー]]が[[インスリン]]の配列を最初に決定して以来、タンパク質のアミノ酸配列を研究で利用することが可能になった。しかしながら、複数のシーケンスを手動で比較することは(実際に行われていたが)実用的ではなく、コンピューターを用いた解析が分子生物学に必要不可欠になった。この分野の先駆者は[[マーガレット・デイホフ|マーガレット・オークリーデイホフ]](Margaret Belle Oakley Dayhoff)である<ref>{{Cite book|first=Glyn|last=Moody|year=2004|title=Digital Code of Life: How Bioinformatics is Revolutionizing Science, Medicine, and Business|isbn=978-0-471-32788-2|url=https://archive.org/details/digitalcodeoflif0000mood}}</ref>。彼女は最初に、書籍の出版物<ref>Dayhoff, M.O. (1966) Atlas of protein sequence and structure. National Biomedical Research Foundation, 215 pp.</ref>としてとして公開された最初のタンパク質配列のデータベースの1つを編集し、配列整列と分子進化の先駆的な方法を開発した<ref name="pmid17775169">{{Cite journal|year=1966|title=Evolution of the structure of ferredoxin based on living relics of primitive amino Acid sequences|url=|journal=Science|volume=152|issue=3720|pages=363–66|bibcode=1966Sci...152..363E|DOI=10.1126/science.152.3720.363|PMID=17775169}}</ref>。バイオインフォマティクスへの、もう一つの初期の貢献は、1970年に[[エルビン・A・カバット|エルウィン・A・カバット]]([[:en:Elvin_A._Kabat|Elvin A. Kabat]]) が抗体配列を包括的なボリュームで解析し、生物学的な配列解析の分野を開拓した。この一連の研究はTai Te Wuと共に1980年から1991年にかけて発表された<ref>{{Cite journal|date=January 2000|title=Kabat Database and its applications: 30 years after the first variability plot|journal=Nucleic Acids Res|volume=28|issue=1|pages=214–18|DOI=10.1093/nar/28.1.214|PMID=10592229|PMC=102431}}</ref>。 |
|||
== 主な手法 == |
|||
バイオインフォマティクスの手法として多用されるものの一つが[[相同|相同性]]検索である。なかでも[[BLAST]]は相同性検索プログラムとして多用されている。このプログラムは配列([[DNAシークエンシング|シーケンス]])の断片を問い合わせ情報として与えられると、その配列に最も類似した配列を [[NCBI]] ([[GenBank]]) などの[[配列データベース]]中から検索する。検索結果は、[[クローニング]]した[[遺伝子]]の部分情報から遺伝子全体の配列を予測したり、構造が未知のタンパク質の[[二次構造]]を予測したり、解読されたゲノムの中から遺伝子を検出してその機能を予測するなどの研究の基盤となる。 |
|||
=== バイオインフォマティクスの目標 === |
|||
== 研究対象 == |
|||
生物学におけるバイオインフォマティクスの主な目的は、他の生物学派生分野と同様に、生物学的プロセスの理解をより深めることにある。ただし、他のアプローチとの違いは、より計算集約的な手法の開発と適用に重点を置いている点である。例としては、[[パターン認識]] 、[[データマイニング]]、[[機械学習]]アルゴリズム、[[生物学的データの可視化|視覚化]]、などが挙げられる。また、例えば疾患研究の分野において、正常な細胞活動がさまざまな病状でどのように変化するかを明らかにするためには、生物学的データを組み合わせて、これらの活動の包括的な構造を理解する必要がある。そのため、さまざまなタイプのデータを組み合わせた分析と解釈を行えるように、バイオインフォマティクスの分野は進化してきた。これには、塩基および[[一次構造|アミノ酸配列]]の他、[[タンパク質ドメイン]]や[[タンパク質構造]]が含まれる<ref>{{Cite book|title=Essential Bioinformatics|last=Xiong|first=Jin|publisher=Cambridge University Press|year=2006|isbn=978-0-511-16815-4|location=Cambridge, United Kingdom|pages=4}}</ref>。 |
|||
[[ゲノミクス]]研究の初期は遺伝子予測などがバイオインフォマティクスの主要な対象であった。しかし、最近はゲノムからの[[転写 (生物学)|転写]]物の総体である[[トランスクリプトーム]]、トランスクリプトーム(の一部)が[[翻訳 (生物学)|翻訳]]された[[蛋白質|タンパク質]]の総体である[[プロテオーム]]、タンパク質の二次産物として合成される[[糖鎖]]の総体である[[グライコーム]]、更に、ゲノムからの直接、転写・翻訳された実体ではなく、代謝ネットワーク([[代謝マップ]])によって生じた代謝産物をも含めた総体を考える[[メタボローム]]、生物個体の表現形の総体である[[フェノーム]]など、[[生物学]]全体を研究対象とする科学に拡大・発展しつつある。 |
|||
データを分析および解釈する実際のプロセスは、[[計算生物学]]と呼ばれる。バイオインフォマティクスおよび計算生物学の重要な専門分野の重要なものの一つは、大規模なデータセットにおいてメンバー間の関係を評価する新しいアルゴリズムと統計的尺度の開発がある。 例えば、 ゲノム配列内から[[遺伝子]]領域を予測したり、タンパク質の構造や機能を予測したり、タンパク質配列を関連配列のファミリーに[[データ・クラスタリング|クラスター]]化する方法など、に関する研究が進められている。また、さまざまな種類の生物学的情報リソースを整理し、管理し、効率的なアクセスと利用を可能にするコンピュータプログラムやシステムの開発と実装も、また重要な課題である。すなわちバイオインフォマティクスでは、データベースの作成と進歩、アルゴリズム、計算技術と統計技術、そして生物学的データの管理と分析から生じる形式的で実用的な問題を解決するための理論、が必要とされている。 |
|||
過去数十年にわたり、ゲノムおよびその他の分子研究技術の急速な発展と[[情報技術|情報技術の]]発展が相まって、分子生物学に関連する膨大な量の情報が生み出されている。バイオインフォマティクスは、生物学的プロセスの理解を深めるために使用されるこれらの数学的および計算機科学的なアプローチを表す言葉でもある。 |
|||
=== 関連分野との関係性 === |
|||
バイオインフォマティクスは生物計算機学([[:en:Biological_computation|biological computation]])と一見似ている、異なる科学分野である。生物計算機学は[[バイオエンジニアリング|生物工学]]と[[生物学]]を使用して生物学的な[[コンピュータ|コンピューター]]を設計することが主眼であるが、バイオインフォマティクスは逆にコンピュータを用いた計算を使用して生物学をよりよく理解することが主眼である。バイオインフォマティクスと生物計算機学の分野には共に、生物学的データ、特にDNA、RNA、タンパク質配列の分析が含まれる。 |
|||
生物学的データを分析して意味のある情報を生成するには、 [[グラフ理論]] 、 [[人工知能]] 、 [[ソフトコンピューティング]] 、 [[データマイニング]] 、 [[デジタル画像処理|画像処理]] 、 [[コンピュータシミュレーション|コンピューターシミュレーションの]] [[アルゴリズム]]を使用[[アルゴリズム|する]]ソフトウェアプログラムを作成して実行する必要がある。またアルゴリズムは、 [[離散数学]] 、 [[制御理論]] 、 [[システム理論]] 、 [[情報理論]] 、 [[統計学|統計]]などの理論的基盤に依存する。 |
|||
== 配列解析 == |
|||
ファージの一種である[[:en:Phi_X_174|Phage Φ-X174]]が1977年に[[シークエンス|配列決定さ]]れて以来<ref name="pmid870828">{{Cite journal|date=February 1977|title=Nucleotide sequence of bacteriophage phi X174 DNA|journal=Nature|volume=265|issue=5596|pages=687–95|bibcode=1977Natur.265..687S|DOI=10.1038/265687a0|PMID=870828}}</ref>、数千の生物の[[DNAシークエンシング|DNA配列]]が解読され、データベースに保存されている{{要出典|date=March 2020}}。この配列情報は、 [[タンパク質]] 、RNA遺伝子、調節配列、構造モチーフ、反復配列をコードする遺伝子を決定するために分析されている{{要出典|date=March 2020}}。例えば、[[種 (分類学)|種]]内や[[種 (分類学)|種]]間で遺伝子配列を比較することで、タンパク質機能間の類似性を評価したり、あるいは[[系統樹]]を構築することで種間の分子系統学的関係を示すことができる。 データ量の増加に伴い、DNA配列を手作業で分析することはすでに非現実的である。今日では[[BLAST]]などの[[相同|相同性]]検索を行う[[プログラム (コンピュータ)|コンピュータプログラム]]を用いて、例えばGenBankに登録された1600億以上の[[ヌクレオチド]]を含む260,000を超える生物から配列を検索することが日常的に行われている(数字は2008年のもの)<ref name="pmid18073190">{{Cite journal|date=January 2008|title=GenBank|journal=Nucleic Acids Res.|volume=36|issue=Database issue|pages=D25–30|DOI=10.1093/nar/gkm929|PMID=18073190|PMC=2238942}}</ref>。これらのプログラムは、DNAシーケンスの変異(塩基の置換、欠失、または挿入)を補正して、関連しているが同一ではない配列を特定できる。検索結果は、[[クローニング]]した[[遺伝子]]の部分情報から遺伝子全体の配列を予測したり、構造が未知のタンパク質の[[二次構造]]を予測したり、解読されたゲノムの中から遺伝子を検出してその機能を予測するなどの研究の基盤となる。また配列情報から由来する生物種の系統学的分類を推定するという特別なタスクのために、Krakenのような最新の[[ K-mer|k-mer]]ベースのソフトウェアも作成されており、アライメント手法では到達できない実行高速性を実現している{{要出典|date=March 2020}}。 |
|||
=== DNAシーケンサーからの出力データの解析 === |
|||
DNAシーケンサーから出力される生データは多量のノイズや弱信号が含まれており、下流の解析に悪影響を与える可能性があるため、 重要な問題である。さまざまな実験プロトコルや環境におけるDNAシーケンシングデータからの塩基決定(ベースコール)を行う[[アルゴリズム]]が開発されている。 |
|||
=== アセンブリ === |
|||
多くのDNAシーケンス技術は、短い配列フラグメントを生成するため、完全な遺伝子やゲノムシーケンスを取得するためには、この配列フラグメントをアセンブルして再構築する必要がある。[[ヒトゲノム計画]]では、ある配列断片から順番に配列を解読する手法が考えられていたが、[[クレイグ・ベンター]]らによる[[ショットガン法]]により遥かに高効率で解読が進められるようになった。いわゆる[[ショットガン・シークエンシング法|ショットガンシーケンス]]テクニック(たとえば、[[J.C.ベンター研究所|Institute for Genomic Research]] (TIGR)による最初の細菌ゲノム''[[インフルエンザ菌|Haemophilus influenzae]]のゲノム決定でも''使用された<ref name="pmid7542800">{{Cite journal|date=July 1995|title=Whole-genome random sequencing and assembly of Haemophilus influenzae Rd|journal=Science|volume=269|issue=5223|pages=496–512|bibcode=1995Sci...269..496F|DOI=10.1126/science.7542800|PMID=7542800}}</ref>)は、[[ゲノム]]配列をバラバラな短い断片に分断してそれぞれを解読し(シーケンシング技術に応じて、35〜900ヌクレオチド長)、その後同一の配列を重複する領域として並べ替えることによってゲノム配列を再現する。これらのフラグメントの両端は重なり合っており、ゲノムアセンブリプログラムによって適切に整列されることで、完全なゲノムを再構築することができる([[配列アセンブリング]])。しかしながら、多くの断片がある中で正しい並び方を決定することは[[コンピュータ]]の計算能力がなければ不可能である。そして、このフラグメントをアセンブルするタスクは、特に大きなゲノムにおいては非常に複雑になる可能性がある。例えばヒトゲノムは約3Gbのサイズがあるが、この程度の[[ヒトゲノム|ゲノム]]の場合、大容量メモリのマルチプロセッサコンピューターであってもショットガン配列をアセンブリするのには何日ものCPU時間を要する場合があり、また結果として生じるアセンブリには通常、多数のギャップが残っている。しかしながら一方で、ショットガンシーケンスは事実上、あらゆる生物種の全ゲノムを決定する上で現実的に最適な方法となっている。そのため、高速・高性能なゲノムアセンブリアルゴリズムを開発することは、バイオインフォマティクスの重要な研究領域の一つとなっている。 |
|||
=== アノテーション === |
|||
[[ゲノミクス]]の文脈において[[ゲノムプロジェクト|アノテーション]]とは、DNA配列内の遺伝子領域やその機能、そしてその他の生物学的特徴をマークするプロセスである。ほとんどのゲノムは大きすぎるため手動で注釈を付けることができない。そのため、このプロセスは自動化する必要がある。さらに次世代シーケンシング技術の登場によって大量のデータが高速に得られるようになっており、大量のゲノムに対して高速にアノテーションを付けたいという研究上の要望は高まっている。 |
|||
包括的なゲノムアノテーションシステムは、自由生活生物である細菌''[[インフルエンザ菌|Haemophilus influenzae]]''のゲノムの最初の完全な配列決定と分析を行った[[J.C.ベンター研究所|The Institute for Genomic Researchの]]チームによって1995年に初めて報告された<ref name="pmid75428002">{{Cite journal|date=July 1995|title=Whole-genome random sequencing and assembly of Haemophilus influenzae Rd|journal=Science|volume=269|issue=5223|pages=496–512|bibcode=1995Sci...269..496F|DOI=10.1126/science.7542800|PMID=7542800}}</ref>。[[オーウェンホワイト|Owen White]]は、すべてのタンパク質をコードする遺伝子とtRNA、rRNA、およびその他のサイトを特定し、またその生物学的機能を推定する初期のソフトウェアシステムを構築した<ref name="pmid75428002" />。 現在でも、ほとんどのゲノムアノテーションシステムは当時と同様な機能を持っているが、例えば''[[インフルエンザ菌|Haemophilus influenzae]]''でタンパク質をコードする遺伝子を見つけるために使用された[[ GeneMark|GeneMark]]プログラムなどのように、ゲノムDNAの分析に利用される個々のプログラムの多くは常に更新されており、機能改善の模索が続けられている。 |
|||
ヒトゲノムプロジェクトが2003年に完了したが、残された様々な課題や新たな目標の達成のために、米国国立ヒトゲノム研究所によって新たに[[エンコード|ENCODE]]プロジェクトが発足した。このプロジェクトでは、次世代DNAシーケンス技術とゲノムタイリングアレイを使用して、ヒトゲノムの機能的な要素に関するデータを共同でコレクションすることが行われた。次世代シーケンシング技術は、ベースあたりのコストを大幅に削減して大量のデータを自動的に生成できるテクノロジーであり、しかも従来と同じ誤差精度(ベースコールエラー)と信頼性度(アセンブリエラー)を持っていることが特徴である。 |
|||
=== 計算進化生物学 === |
|||
[[進化生物学]]とは、[[種 (分類学)|種]]の起源と分化、そして系統の経時的な変化を明らかにする学問分野である。バイオインフォマティクスは進化生物学分野においても重要な役割を果たしている。 |
|||
* 形態に基づく物理的な分類法や生理学的・生態学的観察のみではなく、 ゲノム配列の変化を測定することにより、遺伝学的なアプローチから生物の進化を追跡することができる。 |
|||
* [[ゲノム]]全体を比較解析が可能となる。これにより例えば、[[遺伝子重複|遺伝子の重複]]や[[遺伝子の水平伝播|遺伝子の水平伝達]]、細菌の[[種分化]]に重要な因子の予測など、より複雑な進化的事象の研究が可能になる。 |
|||
* 複雑な計算[[集団遺伝学]]モデルを構築して、経時的なシステムの結果をシミュレーション予測する研究も進められている<ref>{{Cite journal|last=Carvajal-Rodríguez A|year=2012|title=Simulation of Genes and Genomes Forward in Time|journal=Current Genomics|volume=11|issue=1|pages=58–61|DOI=10.2174/138920210790218007|PMID=20808525|PMC=2851118}}</ref>。 |
|||
* 従来よりもより多数の生物種や系統において、進化学に関する情報を得ることができ、その結果を研究者間で広く共有することができる |
|||
より複雑な課題としては、[[系統樹|生命の木]]を再構築する研究も進められている。 |
|||
なお、[[遺伝的アルゴリズム]]を使用する[[計算機科学|コンピューターサイエンス]]の研究領域は、計算進化生物学と混同されることがあるが、この2つの領域は必ずしも関連しているわけではない。 |
|||
=== 比較ゲノム解析 === |
|||
比較ゲノム解析の目的の一つは、異なる生物における[[遺伝子]](オルソログ遺伝子)や他のゲノム上の特徴の対応関係を明らかにすることである。また例えば、2つのゲノムが系統上で分岐した際の進化過程は、両ゲノム間の対応関係を取ることで、例えばどのゲノム領域が欠失したり重複したのかを明らかにし、進化過程を追跡することができる。 現実的には、様々な組織レベルで作用する多数の進化イベントが組み合わさって、ゲノム進化が形作られる。最も最小レベルでの変化は、個々のヌクレオチドが影響してくる点変異である。一方でより高いレベルでは、大きな染色体セグメントが複製、移動、逆位、転位、欠失、および挿入を受けることがある<ref>{{Cite book|last=Brown|first=TA|title=Genomes|date=2002|publisher=Oxford|location=Manchester (UK)|edition=2nd|chapter=Mutation, Repair and Recombination}}</ref>。最も大きなレベルでは、ゲノム全体のハイブリダイゼーションや倍数化、そして[[内生生物|細胞内共生]]過程といったイベントに関与し、しばしば急速な種分化を引き起こす。このようなゲノム進化の複雑さは、数学モデルやアルゴリズム開発を行う上でもチャレンジングな課題となっている。そのため、正確な[[ヒューリスティクス|ヒューリスティック]]やパラメーター固定、節約モデルに基づく問題の[[近似アルゴリズム]]や、確率モデルに基づく[[ベイズ推定|ベイズ分析]]のための[[マルコフ連鎖モンテカルロ法|マルコフチェーンモンテカルロ]]アルゴリズムの利用に至るまで、アルゴリズム、統計、および数学的な様々な手法の利用が研究されている。 これらの研究の多くにおいては、事前に遺伝子配列を[[配列相同性]]に基づいて[[タンパク質ファミリー]]に割り当てている<ref>{{Cite journal|last=Carter|first=N. P.|last2=Fiegler|first2=H.|last3=Piper|first3=J.|date=2002|title=Comparative analysis of comparative genomic hybridization microarray technologies: Report of a workshop sponsored by the Wellcome trust|journal=Cytometry Part A|volume=49|issue=2|pages=43–48|DOI=10.1002/cyto.10153|PMID=12357458}}</ref>。 |
|||
=== パンゲノム解析 === |
|||
パンゲノム解析(Pac Genomics)は2005年にTettelinとMediniによって導入された概念であり、特定の分類群において保持されている遺伝子の網羅的な遺伝子レパートリーを表す。最初は種レベルの近縁系統に適用されましたが、属や門といったより大きな分類群にも適用できる。パンゲノムはコアゲノムとフレキシブルゲノムの2つの群から構成されている。コアゲノムは全ゲノムに共通した遺伝子セットを指し、多くの場合、これらの遺伝子は生存に不可欠なハウスキーピング遺伝子である。一方でフレキシブルゲノム(Dispensable / Flexible Genome)は、1つ以上のゲノムにおいて存在しない一連の遺伝子を指す。例えばバイオインフォマティクスツールであるBPGAを使用して、細菌種のパンゲノムを特徴付けることができる<ref>{{Cite journal|last=Chaudhari Narendrakumar M., Kumar Gupta Vinod, Dutta Chitra|year=2016|title=BPGA-an ultra-fast pan-genome analysis pipeline|journal=Scientific Reports|volume=6|issue=|pages=24373|bibcode=2016NatSR...624373C|DOI=10.1038/srep24373|PMID=27071527|PMC=4829868}}</ref>。 |
|||
=== 遺伝的疾患 === |
|||
次世代シーケンシングの登場により、[[不妊|不妊症]]<ref name="Demerec1945">{{Cite journal|last=Aston KI|year=2014|title=Genetic susceptibility to male infertility: News from genome-wide association studies|journal=Andrology|volume=2|issue=3|pages=315–21|DOI=10.1111/j.2047-2927.2014.00188.x|PMID=24574159}}</ref>や[[乳癌|乳がん]]<ref name="Véron2013">{{Cite journal|year=2014|title=Genome-wide association studies and the clinic: A focus on breast cancer|journal=[[Biomarkers in Medicine]]|volume=8|issue=2|pages=287–96|DOI=10.2217/bmm.13.121|PMID=24521025}}</ref>、[[アルツハイマー病]]といった複雑な遺伝性疾患の関連遺伝子をマッピングする研究が進められている<ref name="Tosto2013">{{Cite journal|year=2013|title=Genome-wide association studies in Alzheimer's disease: A review|journal=Current Neurology and Neuroscience Reports|volume=13|issue=10|pages=381|DOI=10.1007/s11910-013-0381-0|PMID=23954969|PMC=3809844}}</ref>。ゲノムワイド関連研究(Genome-wide association studies; GWAS)は、このような複雑な疾患の原因となる変異を特定するための有用なアプローチである<ref name="Londin2013">{{Cite book|journal=Pharmacogenomics|volume=1015|pages=127–46|year=2013|pmid=23824853|doi=10.1007/978-1-62703-435-7_8|title=Use of Linkage Analysis, Genome-Wide Association Studies, and Next-Generation Sequencing in the Identification of Disease-Causing Mutations|isbn=978-1-62703-434-0|series=Methods in Molecular Biology}}</ref>。これらの研究により、類似の疾患や形質に関連する何千ものDNA変異体が特定されている<ref>{{Cite journal|last=Hindorff|first=L.A.|date=2009|title=Potential etiologic and functional implications of genome-wide association loci for human diseases and traits|journal=Proc. Natl. Acad. Sci. USA|volume=106|issue=23|pages=9362–67|bibcode=2009PNAS..106.9362H|DOI=10.1073/pnas.0903103106|PMID=19474294|PMC=2687147}}</ref>。さらに、遺伝子情報を予後の推定や診断、治療方針の決定に利用するための研究も進められている。そのために、使用する遺伝子を選択する手法や、疾患の存在または予後を予測するために遺伝子を使用することの問題点の両方について、多くの研究において議論がすすめられている<ref>{{Cite book|last=Hall|first=L.O.|title=Finding the right genes for disease and prognosis prediction|journal=System Science and Engineering (ICSSE),2010 International Conference|date=2010|pages=1–2|doi=10.1109/ICSSE.2010.5551766|isbn=978-1-4244-6472-2}}</ref>。 |
|||
=== 癌細胞の変異解析 === |
|||
悪性腫瘍([[悪性腫瘍|癌)]]においては、癌細胞のゲノムは非常に複雑(予測不可能)な形で組み換えが起きることが知られている。大規模なシーケンシング研究により、癌細胞に見られるさまざまな[[遺伝子]]上の[[点突然変異]]の特定が進められてきた。このような研究においては、膨大な量の配列データを管理するための専用の自動化システムや新しいアルゴリズムとソフトウェアの作成を通じて、シーケンシングの結果を[[ヒトゲノム]]配列や[[生殖細胞系列|生殖系列]]多型のコレクションと比較するバイオインフォマティクス解析が進められている。また、染色体の増減を[[比較ゲノムハイブリダイゼーション|比較]]する[[オリゴヌクレオチド]]マイクロアレイ( [[比較ゲノムハイブリダイゼーション]])や、既知の''点変異''を検出する[[一塩基多型]]アレイなど、新しい物理的検出技術が採用されています。 これらの検出方法は、ゲノム全体で数十万のサイトを同時に測定することができ、ハイスループットで数千のサンプルを測定する場合、実験ごとに数[[テラバイト]]ものデータを生成する。そのため、この膨大なデータ量を処理するための新しい手法に関する研究も進められている。また、データにはかなりの変動性または[[ノイズ]]が含まれているため、実際の[[コピー数多型|コピー数の]]変化を推測するために、 [[隠れマルコフモデル]]に基づく変化点分析法が開発されている。 また、[[エクソーム|エクソソーム]]の突然変異の同定では、癌は遺伝子に蓄積された体細胞変異の疾患であり、がんには疾患発症に関係する(ドライバー)変異と無関係な(パッセンジャー)変異の区別される2種類が含まれている、という2つの重要な原則があり、生物情報学的解析を行う上でも重要になっている<ref>{{Cite journal|last=Vazquez|first=Miguel|last2=Torre|first2=Victor de la|last3=Valencia|first3=Alfonso|date=2012-12-27|title=Chapter 14: Cancer Genome Analysis|journal=PLOS Computational Biology|volume=8|issue=12|pages=e1002824|language=en|bibcode=2012PLSCB...8E2824V|DOI=10.1371/journal.pcbi.1002824|ISSN=1553-7358|PMID=23300415|PMC=3531315}}</ref>。 |
|||
シーケンシング技術のさらなる進歩により、癌のゲノミクスは劇的に変化する可能性がある。新しい方法とソフトウェアにより、より多くの癌ゲノムをより迅速かつ手頃な価格でシーケンスできるようになれば、がんによるゲノム内変異の分析とがんの種類の分類がさらに発展する可能性がある。さらに、癌サンプルのシーケンスからがんの進行状況を追跡できるようになる可能性も指摘されている<ref>{{Cite book|last=Hye-Jung|editor2-first=Jason N.|chapter=Second-Generation Sequencing for Cancer Genome Analysis|pages=13–30|isbn=9780123969675|location=Boston (US)|publisher=Academic Press|date=2014|title=Cancer Genomics|editor3-first=Robert J.|editor3-last=Arceci|editor2-last=Berman|first=E.C.|editor-first=Graham|editor-last=Dellaire|first5=A.M|last5=Marco|first4=A.A|last4=Samuel|first3=K.|last3=Martin|first2=K.|last2=Jaswinder|doi=10.1016/B978-0-12-396967-5.00002-5}}</ref>。 |
|||
== 遺伝子とタンパク質の発現 == |
|||
=== 遺伝子発現解析 === |
|||
多くの場合、遺伝子の[[遺伝子発現|発現]]は[[DNAマイクロアレイ|マイクロアレイ]]、[[発現配列タグ|発現cDNAシーケンスタグ]] ([[:en:Expressed_sequence_tag|expressed cDNA sequence tag]]; EST)シーケンス、 [[SAGE法|遺伝子発現連続分析]] ([[:en:Serial_analysis_of_gene_expression|serial analysis of gene expression]]; SAGE)タグシーケンス、 [[超並列署名シーケンス|超並列シグネチャシーケンス]] ([[:en:Massively_parallel_signature_sequencing|massively parallel signature sequencing]]; MPSS)、 [[RNAシーケンシング|RNA-Seq]](またはWhole Transcriptome Shotgun Sequencing; WTSS)、マルチプレックスin-situハイブリダイゼーション、などの手法で[[伝令RNA|mRNA]]レベルを測定することで決定する。これらの手法はすべて、ノイズが非常に発生しやすく、生物学的な測定バイアスがかかってくるため、ハイスループットの遺伝子発現研究においてこのような[[ノイズ]]を除去して信頼できる[[信号 (電気工学)|信号]]を分離する統計ツールの開発が計算生物学の研究分野で重要になっている<ref>{{Cite journal|last=Grau|first=J.|last2=Ben-Gal|first2=I.|last3=Posch|first3=S.|last4=Grosse|first4=I.|date=1 July 2006|title=VOMBAT: prediction of transcription factor binding sites using variable order Bayesian trees|url=http://www.eng.tau.ac.il/~bengal/VOMBAT.pdf|journal=Nucleic Acids Research|volume=34|issue=Web Server|pages=W529–W533|DOI=10.1093/nar/gkl212|PMID=16845064|PMC=1538886}}</ref>。このような遺伝子発現研究は、疾患に関与する遺伝子を特定するためによく使用される。例えば癌性[[上皮細胞|上皮]]細胞のマイクロアレイデータを非癌[[上皮細胞|性]]細胞のデータと比較して、特定の癌細胞集団で発現上昇あるいは発現抑制される転写産物を決定することができる。 |
|||
=== タンパク質発現解析 === |
|||
[[タンパク質マイクロアレイ]]とハイスループット(HT) [[質量分析法|質量分析]] ([[:en:Mass_spectrometry|mass spectrometry]]; MS)は、生体サンプルに存在するタンパク質のスナップショットを提供する。得られるタンパク質マイクロアレイとHTMSデータの解析には、バイオインフォマティクスは重要である。前者のアプローチはmRNAをターゲットとするマイクロアレイと同様の問題に直面し、後者は大量の質量データをタンパク質配列データベースからの予測質量と照合し、そして不完全なペプチドが含まれるため、複雑な統計分析が必要になる。組織における細胞タンパク質の空間局在は、 [[免疫染色]]た[[組織マイクロアレイ]]に基づいたアフィニティ[[プロテオーム解析|プロテオミクス]]によって解析することができる<ref>{{Cite web|url=https://www.proteinatlas.org|title=The Human Protein Atlas|website=www.proteinatlas.org|accessdate=2017-10-02}}</ref>。 |
|||
=== 転写調節解析 === |
|||
[[遺伝子発現の調節|遺伝子転写調節]]は、[[ホルモン]]などを含む細胞内外のシグナルによって、1つ以上の[[タンパク質]]の活性の増加・減少が駆動される、複雑な調節システムである。 このプロセスの各ステップを検証する、様々なバイオインフォマティクス技術が適用されている。たとえば、遺伝子発現は プロモーターのような、ゲノム内で遺伝子に近接した要素によって調節される。プロモーター分析ではまず、遺伝子コード領域に近接しているDNA配列中から、特定の配列モチーフを検出する。 これらのモチーフは、その領域がmRNAに転写される際に影響を与える。一方で、プロモーターから離れた[[エンハンサー]]要素は、3次元的な相互作用を通じて遺伝子発現を調節することもある。このような相互作用は、[[染色体コンフォメーションキャプチャー|染色体コンフォメーションキャプチャ]](Hi-C)実験と得られたデータのバイオインフォマティクス解析から決定される。 |
|||
また、遺伝子発現データから、遺伝子転写調節の要因を推測する研究もある。さまざまな状態の組織から得られた[[マイクロアレイ]]データを比較して、各状態に関与する遺伝子の挙動を推測することができる。例えば単細胞生物では、 [[細胞周期]]の段階におけるストレス条件(熱ショック、飢餓など)を比較できる。 あるいは[[データ・クラスタリング|クラスタリングアルゴリズム]]を発現データに適用することで、遺伝子の共発現を解析できる。たとえば、共発現する遺伝子の上流領域(プロモーター)を探索することで、過剰発現を引き起こす[[調節配列|調節要素]]を調べることができる。遺伝子クラスタリングに適用されるクラスタリングアルゴリズムの例には、 [[K平均法|k平均クラスタリング]] 、 [[自己組織化写像|自己組織化マップ]] (SOM)、 [[階層的クラスタリング]] 、[[コンセンサスクラスタリング]]などの手法がある。 |
|||
== 細胞組織の解析 == |
|||
=== 顕微鏡イメージング解析 === |
|||
=== タンパク質の局在 === |
|||
=== 染色体における核酸立体構造 === |
|||
== 構造生物学 == |
|||
[[ファイル:1kqf_opm.png|リンク=https://ja.wikipedia.org/wiki/%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB:1kqf_opm.png|左|サムネイル|3次元タンパク質構造の例。タンパク質立体構造の解析は、バイオインフォマティクス分析の一般的なテーマの一つである。]] |
|||
== システムバイオロジー == |
|||
=== 分子相互作用ネットワーク === |
|||
[[ファイル:The_protein_interaction_network_of_Treponema_pallidum.png|リンク=https://ja.wikipedia.org/wiki/%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB:The_protein_interaction_network_of_Treponema_pallidum.png|右|サムネイル|200x200ピクセル|タンパク質間の相互作用は、ネットワークによる解析と視覚化が行われる場合が多い。 このネットワークは、 [[梅毒]]やその他の疾患の原因物質である''[[梅毒トレポネーマ|トレポネーマパリダム]]''からのタンパク質間相互作用で構成されている。]] |
|||
== テキスト解析 == |
|||
==バイオインフォマティクスとコンピュータ== |
==バイオインフォマティクスとコンピュータ== |
||
31行目: | 114行目: | ||
===プログラミング言語=== |
===プログラミング言語=== |
||
{{出典の明記| date = 2020年5月}} |
{{出典の明記| date = 2020年5月}} |
||
{{独自研究|date=2020年5月2日 (土) 17:11 (UTC)}} |
{{独自研究|date=2020年5月2日 (土) 17:11 (UTC)}}{{観点|date={{#time:Y年F}}}} |
||
バイオインフォマティクス研究には、それぞれの目的に応じたプログラムの作成が欠かせない。[[プログラミング言語]]としては一般的な科学分野と同じように、いわゆる「重い」計算(タンパク質の[[二次構造]]、[[三次構造]]の予測——[[タンパク質構造予測]]などはその一例)を行なうときには[[C言語|C]]等の比較的低レベルな処理を書ける[[高級言語]]<!--低級言語はCではなくアセンブリ-->も用いられるが、[[塩基配列]]と言う巨大な「文字列」を扱う局面が多いため、テキスト処理を得意とする言語である[[Perl]]の利用が盛んである{{要出典|date=2020年5月}}。 |
バイオインフォマティクス研究には、それぞれの目的に応じたプログラムの作成が欠かせない。[[プログラミング言語]]としては一般的な科学分野と同じように、いわゆる「重い」計算(タンパク質の[[二次構造]]、[[三次構造]]の予測——[[タンパク質構造予測]]などはその一例)を行なうときには[[C言語|C]]等の比較的低レベルな処理を書ける[[高級言語]]<!--低級言語はCではなくアセンブリ-->も用いられるが、[[塩基配列]]と言う巨大な「文字列」を扱う局面が多いため、テキスト処理を得意とする言語である[[Perl]]の利用が盛んである{{要出典|date=2020年5月}}。 |
||
73行目: | 157行目: | ||
[[データベース]]を基盤として必要とするソフトウェアは、開発元が[[ウェブブラウザ|Webブラウザ]]から利用できる[[ウェブアプリケーション]]として公開している場合も多い。 |
[[データベース]]を基盤として必要とするソフトウェアは、開発元が[[ウェブブラウザ|Webブラウザ]]から利用できる[[ウェブアプリケーション]]として公開している場合も多い。 |
||
== 引用文献 == |
|||
<references group="" responsive="0"></references> |
|||
== 関連項目 == |
== 関連項目 == |
||
78行目: | 165行目: | ||
* [[システム生物学]] |
* [[システム生物学]] |
||
* [[ゲノミクス]] |
* [[ゲノミクス]] |
||
* |
*[[メタゲノミクス]] |
||
*[[ケモインフォマティクス]] |
|||
* [[DNAワクチン]] |
|||
* |
*[[シーケンスアラインメント]] |
||
*[[日本バイオインフォマティクス学会]] |
|||
* [[リバースエンジニアリング]] |
|||
* [[シーケンスアラインメント]] |
|||
* [[インフォマティクス]] |
|||
* [[日本バイオインフォマティクス学会]] |
|||
* [[バイオインフォマティクス分野の科学論文雑誌のリスト]] |
* [[バイオインフォマティクス分野の科学論文雑誌のリスト]] |
||
* [[バイオインフォマティクスに関連する機関の一覧]] |
* [[バイオインフォマティクスに関連する機関の一覧]] |
||
* [[オープンソースのバイオインフォマティックスソフトウェアの一覧]] |
* [[オープンソースのバイオインフォマティックスソフトウェアの一覧]] |
||
* [[マーガレット・デイホフ]] - バイオインフォマティクスのパイオニアの一人 |
|||
== 外部リンク == |
== 外部リンク == |
||
=== 関連学 |
=== 関連学会 === |
||
*[http://www.jsbi.org/ 日本バイオインフォマティクス学会(JSBi)] |
*[http://www.jsbi.org/ 日本バイオインフォマティクス学会(JSBi)] |
||
*[http://www.cbi.or.jp/ 情報計算化学生物学会(CBI学会)] |
*[http://www.cbi.or.jp/ 情報計算化学生物学会(CBI学会)] |
||
*[http://www.ipsj.or.jp/katsudou/sig/sighp/bio/ 情報処理学会 バイオ情報学研究会 (SIG BIO)] |
*[http://www.ipsj.or.jp/katsudou/sig/sighp/bio/ 情報処理学会 バイオ情報学研究会 (SIG BIO)] |
||
*[http://www.sigmbi.jp/ 人工知能学会第二種研究会 分子生物情報研究会(SIG-MBI)] |
*[http://www.sigmbi.jp/ 人工知能学会第二種研究会 分子生物情報研究会(SIG-MBI)] |
||
*[http://bioinfowakate.org/ 生命情報科学若手の会] |
|||
*[http://open-bio.jp/ オープンバイオ研究会] |
|||
*[http://www.iu.a.u-tokyo.ac.jp/ アグリバイオインフォマティクス教育研究ユニット] |
|||
=== 研究機関 === |
|||
*[http://www.cbrc.jp/ 独立行政法人産業技術総合研究所 ゲノム情報研究センター(CBRC)] |
|||
*[http://www.ddbj.nig.ac.jp/index-j.html DDBJ:DNA Data Bank of Japan] |
|||
*[http://hgc.jp/japanese/ ヒトゲノム解析センター] |
|||
*[http://www.bic.kyoto-u.ac.jp/index_J.html 京都大学化学研究所バイオインフォマティクスセンター] |
|||
*[https://database.riken.jp/ 理研サイネス(SciNeS)] |
|||
*[http://dbcls.rois.ac.jp/ ライフサイエンス統合データベースセンター] |
|||
*[http://iab.keio.ac.jp/ 慶應義塾大学先端生命科学研究所] |
|||
=== リンク集 === |
=== リンク集 === |
2020年5月3日 (日) 09:14時点における版
'バイオインフォマティクス(英語:bioinformatics)または生命情報科学(せいめいじょうほうかがく)は、生命科学と情報科学の融合分野のひとつであり、DNAやRNA、タンパク質を始めとする、生命が持つ様々な「情報」を対象に、情報科学や統計学などのアルゴリズムを用いた方法論やソフトウェアを開発し、またそれらを用いた分析から生命現象を解き明かしていく('in silico 解析)ことを目的とした学問分野である。そのため、生物学 、 コンピュータサイエンス 、 情報工学 、 数学 、 統計学といった様々な学問分野が組み合わさった学際分野でもある。
ゲノミクス研究の初期は遺伝子予測などがバイオインフォマティクスの主要な対象であった。近年はゲノムからの転写物の総体であるトランスクリプトーム、トランスクリプトーム(の一部)が翻訳されたタンパク質の総体であるプロテオーム、タンパク質の二次産物として合成される糖鎖の総体であるグライコーム、更に、ゲノムからの直接、転写・翻訳された実体ではなく、代謝ネットワーク(代謝マップ)によって生じた代謝産物をも含めた総体を考えるメタボローム、生物個体の表現形の総体であるフェノームなど、生物学全体を研究対象とする科学に拡大・発展しつつある。
概要
ゲノムシーケンシング技術の登場と発展により、多くの生物を対象にゲノム解析プロジェクトが進められ、それに伴い大量のゲノム配列情報が得られるようになっている。一方で、この大量の情報から生物学的な意味を抽出することは困難であり、情報処理による解析の必要性が高まっている。また、遺伝子情報は核酸配列というデジタル情報に近い性格を持っているために、コンピュータとの親和性が高い。さらにマイクロアレイなどの網羅的な解析技術の発展に伴って、遺伝子発現のプロファイリング、クラスタリング、アノテーション、大量のデータを視覚的に表現する手法などが重要になってきている。これらの理由により、バイオインフォマティクスは重要性が注目されるようになり、1990年代半ばのヒトゲノムプロジェクトやDNAシーケンステクノロジーの急速な進歩によって爆発的に成長し、今日でも大きく発展してきている。
バイオインフォマティクスの主な研究対象としては、遺伝子予測、遺伝子機能予測、遺伝子分類、配列アラインメント、ゲノムアセンブリ、タンパク質構造アラインメント、タンパク質構造予測、遺伝子発現解析、タンパク質間相互作用の予測、進化モデリング、ドラッグデザイン、創薬、等の、様々なコンピュータープログラミングを使用した生物学的研究が挙げられる。また、特にゲノミクスの分野で繰り返し使用される特定の分析パイプラインを開発するといった、方法論の開発に関する研究も含まれる。バイオインフォマティクスを活用した研究の一例として、疾患の遺伝的根拠や生物の環境適応、特に農業分野における産業植物や動物の特性解析、個体群間の差異などをよりよく理解するための候補遺伝子や一塩基多型(SNP)の探索、などがある。 さらに、プロテオミクスと呼ばれるタンパク質を対象としたデータをゲノム配列と組み合わせたバイオインフォマティクス研究も進められている[1]。
今日、バイオインフォマティクスは、生物学の多くの分野で重要な役割を果たしている。例えば分子生物学研究では、画像処理や信号処理などのバイオインフォマティクス技術を利用して、大量の生データから有用な結果を抽出することが行われている。遺伝学の分野では、ゲノム配列や突然変異した配列の決定と注釈付け(アノテーション)に活用される。 生物学的文献のテキストマイニングや、生物学的な遺伝子オントロジーの開発を通じて、膨大に蓄積された生物学的データを利用しやすい形で整理する役割も果たしている。また、遺伝子やタンパク質の発現調節の解析にも、深く関与している。バイオインフォマティクスツールは、遺伝子やゲノムのデータ比較と分析、解釈を支援し、分子生物学の進化的な理解にも貢献している。より統合的なレベルでは、個々の遺伝子やタンパク質の解析から一歩進み、生命を遺伝子やタンパク質のネットワークとして捉え、その総体をシステムとして理解しようとする、システム生物学という分野も生まれている。バイオインフォマティクスは生物学的代謝経路とネットワークの分析やカタログ化に役立ち、システム生物学を支えている。構造生物学の分野においては、生体分子の相互作用だけでなく、DNA[2]、RNA[2][3]、タンパク質[4]等のシミュレーションとモデリングにも役立っている[5][6][7][8]。また、機械学習による遺伝子領域予測や、タンパク質構造予測、次世代シーケンサーを利用したゲノム解析など、大きな計算能力を要求される課題が多く存在するため、スーパーコンピュータの重要な応用領域の一つとして認識されている[要出典]。
歴史
バイオインフォマティクスという用語は、Paulien HogewegとBen Hesperによって1970年に生物システムの情報処理の研究に言及するために作られた用語である。[9][10][11]。この定義では、生化学(生物学的システムにおける化学プロセスの研究)と平行した研究分野の概念としてバイオインフォマティクスを位置づけており[9]、今日使われているものとは意味が異なっている。
1950年代初頭にフレデリック・サンガーがインスリンの配列を最初に決定して以来、タンパク質のアミノ酸配列を研究で利用することが可能になった。しかしながら、複数のシーケンスを手動で比較することは(実際に行われていたが)実用的ではなく、コンピューターを用いた解析が分子生物学に必要不可欠になった。この分野の先駆者はマーガレット・オークリーデイホフ(Margaret Belle Oakley Dayhoff)である[12]。彼女は最初に、書籍の出版物[13]としてとして公開された最初のタンパク質配列のデータベースの1つを編集し、配列整列と分子進化の先駆的な方法を開発した[14]。バイオインフォマティクスへの、もう一つの初期の貢献は、1970年にエルウィン・A・カバット(Elvin A. Kabat) が抗体配列を包括的なボリュームで解析し、生物学的な配列解析の分野を開拓した。この一連の研究はTai Te Wuと共に1980年から1991年にかけて発表された[15]。
バイオインフォマティクスの目標
生物学におけるバイオインフォマティクスの主な目的は、他の生物学派生分野と同様に、生物学的プロセスの理解をより深めることにある。ただし、他のアプローチとの違いは、より計算集約的な手法の開発と適用に重点を置いている点である。例としては、パターン認識 、データマイニング、機械学習アルゴリズム、視覚化、などが挙げられる。また、例えば疾患研究の分野において、正常な細胞活動がさまざまな病状でどのように変化するかを明らかにするためには、生物学的データを組み合わせて、これらの活動の包括的な構造を理解する必要がある。そのため、さまざまなタイプのデータを組み合わせた分析と解釈を行えるように、バイオインフォマティクスの分野は進化してきた。これには、塩基およびアミノ酸配列の他、タンパク質ドメインやタンパク質構造が含まれる[16]。
データを分析および解釈する実際のプロセスは、計算生物学と呼ばれる。バイオインフォマティクスおよび計算生物学の重要な専門分野の重要なものの一つは、大規模なデータセットにおいてメンバー間の関係を評価する新しいアルゴリズムと統計的尺度の開発がある。 例えば、 ゲノム配列内から遺伝子領域を予測したり、タンパク質の構造や機能を予測したり、タンパク質配列を関連配列のファミリーにクラスター化する方法など、に関する研究が進められている。また、さまざまな種類の生物学的情報リソースを整理し、管理し、効率的なアクセスと利用を可能にするコンピュータプログラムやシステムの開発と実装も、また重要な課題である。すなわちバイオインフォマティクスでは、データベースの作成と進歩、アルゴリズム、計算技術と統計技術、そして生物学的データの管理と分析から生じる形式的で実用的な問題を解決するための理論、が必要とされている。
過去数十年にわたり、ゲノムおよびその他の分子研究技術の急速な発展と情報技術の発展が相まって、分子生物学に関連する膨大な量の情報が生み出されている。バイオインフォマティクスは、生物学的プロセスの理解を深めるために使用されるこれらの数学的および計算機科学的なアプローチを表す言葉でもある。
関連分野との関係性
バイオインフォマティクスは生物計算機学(biological computation)と一見似ている、異なる科学分野である。生物計算機学は生物工学と生物学を使用して生物学的なコンピューターを設計することが主眼であるが、バイオインフォマティクスは逆にコンピュータを用いた計算を使用して生物学をよりよく理解することが主眼である。バイオインフォマティクスと生物計算機学の分野には共に、生物学的データ、特にDNA、RNA、タンパク質配列の分析が含まれる。
生物学的データを分析して意味のある情報を生成するには、 グラフ理論 、 人工知能 、 ソフトコンピューティング 、 データマイニング 、 画像処理 、 コンピューターシミュレーションの アルゴリズムを使用するソフトウェアプログラムを作成して実行する必要がある。またアルゴリズムは、 離散数学 、 制御理論 、 システム理論 、 情報理論 、 統計などの理論的基盤に依存する。
配列解析
ファージの一種であるPhage Φ-X174が1977年に配列決定されて以来[17]、数千の生物のDNA配列が解読され、データベースに保存されている[要出典]。この配列情報は、 タンパク質 、RNA遺伝子、調節配列、構造モチーフ、反復配列をコードする遺伝子を決定するために分析されている[要出典]。例えば、種内や種間で遺伝子配列を比較することで、タンパク質機能間の類似性を評価したり、あるいは系統樹を構築することで種間の分子系統学的関係を示すことができる。 データ量の増加に伴い、DNA配列を手作業で分析することはすでに非現実的である。今日ではBLASTなどの相同性検索を行うコンピュータプログラムを用いて、例えばGenBankに登録された1600億以上のヌクレオチドを含む260,000を超える生物から配列を検索することが日常的に行われている(数字は2008年のもの)[18]。これらのプログラムは、DNAシーケンスの変異(塩基の置換、欠失、または挿入)を補正して、関連しているが同一ではない配列を特定できる。検索結果は、クローニングした遺伝子の部分情報から遺伝子全体の配列を予測したり、構造が未知のタンパク質の二次構造を予測したり、解読されたゲノムの中から遺伝子を検出してその機能を予測するなどの研究の基盤となる。また配列情報から由来する生物種の系統学的分類を推定するという特別なタスクのために、Krakenのような最新のk-merベースのソフトウェアも作成されており、アライメント手法では到達できない実行高速性を実現している[要出典]。
DNAシーケンサーからの出力データの解析
DNAシーケンサーから出力される生データは多量のノイズや弱信号が含まれており、下流の解析に悪影響を与える可能性があるため、 重要な問題である。さまざまな実験プロトコルや環境におけるDNAシーケンシングデータからの塩基決定(ベースコール)を行うアルゴリズムが開発されている。
アセンブリ
多くのDNAシーケンス技術は、短い配列フラグメントを生成するため、完全な遺伝子やゲノムシーケンスを取得するためには、この配列フラグメントをアセンブルして再構築する必要がある。ヒトゲノム計画では、ある配列断片から順番に配列を解読する手法が考えられていたが、クレイグ・ベンターらによるショットガン法により遥かに高効率で解読が進められるようになった。いわゆるショットガンシーケンステクニック(たとえば、Institute for Genomic Research (TIGR)による最初の細菌ゲノムHaemophilus influenzaeのゲノム決定でも使用された[19])は、ゲノム配列をバラバラな短い断片に分断してそれぞれを解読し(シーケンシング技術に応じて、35〜900ヌクレオチド長)、その後同一の配列を重複する領域として並べ替えることによってゲノム配列を再現する。これらのフラグメントの両端は重なり合っており、ゲノムアセンブリプログラムによって適切に整列されることで、完全なゲノムを再構築することができる(配列アセンブリング)。しかしながら、多くの断片がある中で正しい並び方を決定することはコンピュータの計算能力がなければ不可能である。そして、このフラグメントをアセンブルするタスクは、特に大きなゲノムにおいては非常に複雑になる可能性がある。例えばヒトゲノムは約3Gbのサイズがあるが、この程度のゲノムの場合、大容量メモリのマルチプロセッサコンピューターであってもショットガン配列をアセンブリするのには何日ものCPU時間を要する場合があり、また結果として生じるアセンブリには通常、多数のギャップが残っている。しかしながら一方で、ショットガンシーケンスは事実上、あらゆる生物種の全ゲノムを決定する上で現実的に最適な方法となっている。そのため、高速・高性能なゲノムアセンブリアルゴリズムを開発することは、バイオインフォマティクスの重要な研究領域の一つとなっている。
アノテーション
ゲノミクスの文脈においてアノテーションとは、DNA配列内の遺伝子領域やその機能、そしてその他の生物学的特徴をマークするプロセスである。ほとんどのゲノムは大きすぎるため手動で注釈を付けることができない。そのため、このプロセスは自動化する必要がある。さらに次世代シーケンシング技術の登場によって大量のデータが高速に得られるようになっており、大量のゲノムに対して高速にアノテーションを付けたいという研究上の要望は高まっている。
包括的なゲノムアノテーションシステムは、自由生活生物である細菌Haemophilus influenzaeのゲノムの最初の完全な配列決定と分析を行ったThe Institute for Genomic Researchのチームによって1995年に初めて報告された[20]。Owen Whiteは、すべてのタンパク質をコードする遺伝子とtRNA、rRNA、およびその他のサイトを特定し、またその生物学的機能を推定する初期のソフトウェアシステムを構築した[20]。 現在でも、ほとんどのゲノムアノテーションシステムは当時と同様な機能を持っているが、例えばHaemophilus influenzaeでタンパク質をコードする遺伝子を見つけるために使用されたGeneMarkプログラムなどのように、ゲノムDNAの分析に利用される個々のプログラムの多くは常に更新されており、機能改善の模索が続けられている。
ヒトゲノムプロジェクトが2003年に完了したが、残された様々な課題や新たな目標の達成のために、米国国立ヒトゲノム研究所によって新たにENCODEプロジェクトが発足した。このプロジェクトでは、次世代DNAシーケンス技術とゲノムタイリングアレイを使用して、ヒトゲノムの機能的な要素に関するデータを共同でコレクションすることが行われた。次世代シーケンシング技術は、ベースあたりのコストを大幅に削減して大量のデータを自動的に生成できるテクノロジーであり、しかも従来と同じ誤差精度(ベースコールエラー)と信頼性度(アセンブリエラー)を持っていることが特徴である。
計算進化生物学
進化生物学とは、種の起源と分化、そして系統の経時的な変化を明らかにする学問分野である。バイオインフォマティクスは進化生物学分野においても重要な役割を果たしている。
- 形態に基づく物理的な分類法や生理学的・生態学的観察のみではなく、 ゲノム配列の変化を測定することにより、遺伝学的なアプローチから生物の進化を追跡することができる。
- ゲノム全体を比較解析が可能となる。これにより例えば、遺伝子の重複や遺伝子の水平伝達、細菌の種分化に重要な因子の予測など、より複雑な進化的事象の研究が可能になる。
- 複雑な計算集団遺伝学モデルを構築して、経時的なシステムの結果をシミュレーション予測する研究も進められている[21]。
- 従来よりもより多数の生物種や系統において、進化学に関する情報を得ることができ、その結果を研究者間で広く共有することができる
より複雑な課題としては、生命の木を再構築する研究も進められている。
なお、遺伝的アルゴリズムを使用するコンピューターサイエンスの研究領域は、計算進化生物学と混同されることがあるが、この2つの領域は必ずしも関連しているわけではない。
比較ゲノム解析
比較ゲノム解析の目的の一つは、異なる生物における遺伝子(オルソログ遺伝子)や他のゲノム上の特徴の対応関係を明らかにすることである。また例えば、2つのゲノムが系統上で分岐した際の進化過程は、両ゲノム間の対応関係を取ることで、例えばどのゲノム領域が欠失したり重複したのかを明らかにし、進化過程を追跡することができる。 現実的には、様々な組織レベルで作用する多数の進化イベントが組み合わさって、ゲノム進化が形作られる。最も最小レベルでの変化は、個々のヌクレオチドが影響してくる点変異である。一方でより高いレベルでは、大きな染色体セグメントが複製、移動、逆位、転位、欠失、および挿入を受けることがある[22]。最も大きなレベルでは、ゲノム全体のハイブリダイゼーションや倍数化、そして細胞内共生過程といったイベントに関与し、しばしば急速な種分化を引き起こす。このようなゲノム進化の複雑さは、数学モデルやアルゴリズム開発を行う上でもチャレンジングな課題となっている。そのため、正確なヒューリスティックやパラメーター固定、節約モデルに基づく問題の近似アルゴリズムや、確率モデルに基づくベイズ分析のためのマルコフチェーンモンテカルロアルゴリズムの利用に至るまで、アルゴリズム、統計、および数学的な様々な手法の利用が研究されている。 これらの研究の多くにおいては、事前に遺伝子配列を配列相同性に基づいてタンパク質ファミリーに割り当てている[23]。
パンゲノム解析
パンゲノム解析(Pac Genomics)は2005年にTettelinとMediniによって導入された概念であり、特定の分類群において保持されている遺伝子の網羅的な遺伝子レパートリーを表す。最初は種レベルの近縁系統に適用されましたが、属や門といったより大きな分類群にも適用できる。パンゲノムはコアゲノムとフレキシブルゲノムの2つの群から構成されている。コアゲノムは全ゲノムに共通した遺伝子セットを指し、多くの場合、これらの遺伝子は生存に不可欠なハウスキーピング遺伝子である。一方でフレキシブルゲノム(Dispensable / Flexible Genome)は、1つ以上のゲノムにおいて存在しない一連の遺伝子を指す。例えばバイオインフォマティクスツールであるBPGAを使用して、細菌種のパンゲノムを特徴付けることができる[24]。
遺伝的疾患
次世代シーケンシングの登場により、不妊症[25]や乳がん[26]、アルツハイマー病といった複雑な遺伝性疾患の関連遺伝子をマッピングする研究が進められている[27]。ゲノムワイド関連研究(Genome-wide association studies; GWAS)は、このような複雑な疾患の原因となる変異を特定するための有用なアプローチである[28]。これらの研究により、類似の疾患や形質に関連する何千ものDNA変異体が特定されている[29]。さらに、遺伝子情報を予後の推定や診断、治療方針の決定に利用するための研究も進められている。そのために、使用する遺伝子を選択する手法や、疾患の存在または予後を予測するために遺伝子を使用することの問題点の両方について、多くの研究において議論がすすめられている[30]。
癌細胞の変異解析
悪性腫瘍(癌)においては、癌細胞のゲノムは非常に複雑(予測不可能)な形で組み換えが起きることが知られている。大規模なシーケンシング研究により、癌細胞に見られるさまざまな遺伝子上の点突然変異の特定が進められてきた。このような研究においては、膨大な量の配列データを管理するための専用の自動化システムや新しいアルゴリズムとソフトウェアの作成を通じて、シーケンシングの結果をヒトゲノム配列や生殖系列多型のコレクションと比較するバイオインフォマティクス解析が進められている。また、染色体の増減を比較するオリゴヌクレオチドマイクロアレイ( 比較ゲノムハイブリダイゼーション)や、既知の点変異を検出する一塩基多型アレイなど、新しい物理的検出技術が採用されています。 これらの検出方法は、ゲノム全体で数十万のサイトを同時に測定することができ、ハイスループットで数千のサンプルを測定する場合、実験ごとに数テラバイトものデータを生成する。そのため、この膨大なデータ量を処理するための新しい手法に関する研究も進められている。また、データにはかなりの変動性またはノイズが含まれているため、実際のコピー数の変化を推測するために、 隠れマルコフモデルに基づく変化点分析法が開発されている。 また、エクソソームの突然変異の同定では、癌は遺伝子に蓄積された体細胞変異の疾患であり、がんには疾患発症に関係する(ドライバー)変異と無関係な(パッセンジャー)変異の区別される2種類が含まれている、という2つの重要な原則があり、生物情報学的解析を行う上でも重要になっている[31]。
シーケンシング技術のさらなる進歩により、癌のゲノミクスは劇的に変化する可能性がある。新しい方法とソフトウェアにより、より多くの癌ゲノムをより迅速かつ手頃な価格でシーケンスできるようになれば、がんによるゲノム内変異の分析とがんの種類の分類がさらに発展する可能性がある。さらに、癌サンプルのシーケンスからがんの進行状況を追跡できるようになる可能性も指摘されている[32]。
遺伝子とタンパク質の発現
遺伝子発現解析
多くの場合、遺伝子の発現はマイクロアレイ、発現cDNAシーケンスタグ (expressed cDNA sequence tag; EST)シーケンス、 遺伝子発現連続分析 (serial analysis of gene expression; SAGE)タグシーケンス、 超並列シグネチャシーケンス (massively parallel signature sequencing; MPSS)、 RNA-Seq(またはWhole Transcriptome Shotgun Sequencing; WTSS)、マルチプレックスin-situハイブリダイゼーション、などの手法でmRNAレベルを測定することで決定する。これらの手法はすべて、ノイズが非常に発生しやすく、生物学的な測定バイアスがかかってくるため、ハイスループットの遺伝子発現研究においてこのようなノイズを除去して信頼できる信号を分離する統計ツールの開発が計算生物学の研究分野で重要になっている[33]。このような遺伝子発現研究は、疾患に関与する遺伝子を特定するためによく使用される。例えば癌性上皮細胞のマイクロアレイデータを非癌性細胞のデータと比較して、特定の癌細胞集団で発現上昇あるいは発現抑制される転写産物を決定することができる。
タンパク質発現解析
タンパク質マイクロアレイとハイスループット(HT) 質量分析 (mass spectrometry; MS)は、生体サンプルに存在するタンパク質のスナップショットを提供する。得られるタンパク質マイクロアレイとHTMSデータの解析には、バイオインフォマティクスは重要である。前者のアプローチはmRNAをターゲットとするマイクロアレイと同様の問題に直面し、後者は大量の質量データをタンパク質配列データベースからの予測質量と照合し、そして不完全なペプチドが含まれるため、複雑な統計分析が必要になる。組織における細胞タンパク質の空間局在は、 免疫染色た組織マイクロアレイに基づいたアフィニティプロテオミクスによって解析することができる[34]。
転写調節解析
遺伝子転写調節は、ホルモンなどを含む細胞内外のシグナルによって、1つ以上のタンパク質の活性の増加・減少が駆動される、複雑な調節システムである。 このプロセスの各ステップを検証する、様々なバイオインフォマティクス技術が適用されている。たとえば、遺伝子発現は プロモーターのような、ゲノム内で遺伝子に近接した要素によって調節される。プロモーター分析ではまず、遺伝子コード領域に近接しているDNA配列中から、特定の配列モチーフを検出する。 これらのモチーフは、その領域がmRNAに転写される際に影響を与える。一方で、プロモーターから離れたエンハンサー要素は、3次元的な相互作用を通じて遺伝子発現を調節することもある。このような相互作用は、染色体コンフォメーションキャプチャ(Hi-C)実験と得られたデータのバイオインフォマティクス解析から決定される。
また、遺伝子発現データから、遺伝子転写調節の要因を推測する研究もある。さまざまな状態の組織から得られたマイクロアレイデータを比較して、各状態に関与する遺伝子の挙動を推測することができる。例えば単細胞生物では、 細胞周期の段階におけるストレス条件(熱ショック、飢餓など)を比較できる。 あるいはクラスタリングアルゴリズムを発現データに適用することで、遺伝子の共発現を解析できる。たとえば、共発現する遺伝子の上流領域(プロモーター)を探索することで、過剰発現を引き起こす調節要素を調べることができる。遺伝子クラスタリングに適用されるクラスタリングアルゴリズムの例には、 k平均クラスタリング 、 自己組織化マップ (SOM)、 階層的クラスタリング 、コンセンサスクラスタリングなどの手法がある。
細胞組織の解析
顕微鏡イメージング解析
タンパク質の局在
染色体における核酸立体構造
構造生物学
システムバイオロジー
分子相互作用ネットワーク
テキスト解析
バイオインフォマティクスとコンピュータ
バイオインフォマティクスの基本的なワークフローは、以下のようなものである。
- ハイ・スループットな実験手法によるデータの蓄積
- 目的に応じたデータの加工、標準化
- 解析(データマイニング、可視化、その他統計的手法による分析など)
このいずれの段階でもコンピュータは使用される。その形態はパーソナルコンピュータ (PC) を利用したスクリプトによる小規模なシーケンスデータ加工から、産業技術総合研究所生命情報工学研究センターなどによる IBM Blue Gene のような20TFlopsのスーパーコンピュータから大規模なコンピュータ・クラスターやグリッド・コンピューティングを用いたタンパク質の立体構造解析(タンパク質構造予測)まで様々である。
プログラミング言語
この記事には独自研究が含まれているおそれがあります。 |
この記事は中立的な観点に基づく疑問が提出されているか、議論中です。 (2024年11月) |
バイオインフォマティクス研究には、それぞれの目的に応じたプログラムの作成が欠かせない。プログラミング言語としては一般的な科学分野と同じように、いわゆる「重い」計算(タンパク質の二次構造、三次構造の予測——タンパク質構造予測などはその一例)を行なうときにはC等の比較的低レベルな処理を書ける高級言語も用いられるが、塩基配列と言う巨大な「文字列」を扱う局面が多いため、テキスト処理を得意とする言語であるPerlの利用が盛んである[要出典]。
Perlは、正規表現等の強力な文字列処理機能を持っているため配列解析に有効なだけでなく、プログラミングのトレーニングを積んでいないことが多い生物学出身の研究者にも比較的容易に習得できるという長所を有する[要出典]。更に、早い時期から生物学的データの加工に用いることのできるbioperlなどのライブラリが整備されたため、いっそう有用となった[要出典]。ある配列の公開配列データベース(NCBI GenBank など)からの取得、GenBankフォーマットやEMBLフォーマットで記述されたファイルからの情報抽出、BLASTの自動化等はきわめて容易に行える環境が整っている[要出典]。
研究用プログラムの開発に使われる言語としては他に以下のようなものがあげられる。これらの殆どにそれぞれバイオインフォマティクス用のライブラリが開発されている。
- C++ - C言語を元に新しいプログラミングパラダイムを取り入れて開発された言語。
- Java - オブジェクト指向および仮想マシンという概念を取り入れた言語である。BioJava というパッケージが存在する。
- Perl - 汎用インタプリタ言語である。BioPerlというパッケージが存在する。
- Python - 汎用インタプリタ言語である。BioPythonというパッケージが存在する。
- Ruby - Javaと同じくオブジェクト指向プログラミング言語である。BioRubyというパッケージが存在する。
- R言語 - オブジェクト指向の数値解析言語。行列処理・文字列処理・グラフ機能に優れたフリーソフトウェア。FDA公認。CRANシステムで日々機能強化され、Bioconductorネットワークにパッケージが集約されている。
データベース
生物学研究に用いられる主なデータベースは、以下のようなものが挙げられる(カッコ内は例):
- 配列データベース(DDBJ, EMBL, GenBank[1], Swiss-Prot[2])
- 立体構造データベース(PDB[3])
- パスウェイ・ネットワークデータベース(KEGG[4], BIND)
- マイクロアレイデータベース (ArrayExpress, GEO)
- 文献データベース(MEDLINE/PubMed[5])
- オントロジーデータベース(遺伝子オントロジー)
データはフラットファイル(一般的なテキストファイル)に比較的単純な形で保存されているケースも多いが、研究が本格化してデータ量が増大してくると、より効率的な利用を図るために関係データベース管理システム (RDBMS) やXMLなどを利用したより高度な管理が図られることが多い。生物学の研究においては、複数の公共データベースからのデータを使ったデータマイニングが非常に重要度を増しているため、データの相互利用と言う観点からも、XML、Webサービスなどの標準的技術の利用は今後も進んで行くと思われる。この考えを更に進め、セマンティック・ウェブ関連の技術(RDFやOWLなど)を利用した、コンピュータによるデータの相互利用を模索する動きもある。BioPaxプロジェクトなどはその一例である。
バイオインフォマティクスで扱うデータは、一次元の文字列(シーケンス全般)から、三次元構造のマトリクス (PDB) 、計算機科学におけるグラフ(ネットワークデータ全般)、遺伝子オントロジーのような有向非巡回グラフ (DAG; directed acyclic graph) と言った非常に多岐にわたるデータ構造を持つ。従って、それらを有機的に結びつけ、有効に活用するためには、最新の情報関連技術が不可欠である。
日本語を母語とする人々にとっては、日本語でいろいろなデータベースのサービスを提供している以下のようなサイトが便利である。
ソフトウェア
バイオインフォマティクスの一環として、非常に多くのソフトウェアが開発され公開されている。多くのソフトウェアがオープンソースとされており、研究者は自由に利用することができる。
広く知られた解析用ソフトウェアとしては例えば以下のようなものがある。
- NCBI BLAST[6] - シーケンスアライメントに用いられる代表的ソフトウェア。
- HMMER - 隠れマルコフモデルを利用するためのパッケージ。モチーフ検索などに用いる。
- Cytoscape - タンパク質・遺伝子ネットワーク可視化、マイニングのためのプラットフォーム。
- Bioconductor - R言語(フリーウェア)用 ゲノムデータ解析パッケージ集のオープンソースプロジェクト。
データベースを基盤として必要とするソフトウェアは、開発元がWebブラウザから利用できるウェブアプリケーションとして公開している場合も多い。
引用文献
- ^ Lesk (26 July 2013). “Bioinformatics”. Encyclopaedia Britannica. 17 April 2017閲覧。
- ^ a b Sim, A. Y. L.; Minary, P.; Levitt, M. (2012). “Modeling nucleic acids”. Current Opinion in Structural Biology 22 (3): 273–78. doi:10.1016/j.sbi.2012.03.012. PMC 4028509. PMID 22538125 .
- ^ Dawson, W. K.; Maciejczyk, M.; Jankowska, E. J.; Bujnicki, J. M. (2016). “Coarse-grained modeling of RNA 3D structure”. Methods 103: 138–56. doi:10.1016/j.ymeth.2016.04.026. PMID 27125734.
- ^ Kmiecik, S.; Gront, D.; Kolinski, M.; Wieteska, L.; Dawid, A. E.; Kolinski, A. (2016). “Coarse-Grained Protein Models and Their Applications”. Chemical Reviews 116 (14): 7898–936. doi:10.1021/acs.chemrev.6b00163. PMID 27333362.
- ^ Wong, K. C. (2016). Computational Biology and Bioinformatics: Gene Regulation. CRC Press/Taylor & Francis Group. ISBN 9781498724975
- ^ Joyce, A. P.; Zhang, C.; Bradley, P.; Havranek, J. J. (2015). “Structure-based modeling of protein: DNA specificity”. Briefings in Functional Genomics 14 (1): 39–49. doi:10.1093/bfgp/elu044. PMC 4366589. PMID 25414269 .
- ^ Spiga, E.; Degiacomi, M. T.; Dal Peraro, M. (2014). “New Strategies for Integrative Dynamic Modeling of Macromolecular Assembly”. In Karabencheva-Christova, T.. Biomolecular Modelling and Simulations. Advances in Protein Chemistry and Structural Biology. 96. Academic Press. pp. 77–111. doi:10.1016/bs.apcsb.2014.06.008. ISBN 9780128000137. PMID 25443955
- ^ Ciemny, Maciej; Kurcinski, Mateusz; Kamel, Karol; Kolinski, Andrzej; Alam, Nawsad; Schueler-Furman, Ora; Kmiecik, Sebastian (2018-05-04). “Protein–peptide docking: opportunities and challenges” (英語). Drug Discovery Today 23 (8): 1530–37. doi:10.1016/j.drudis.2018.05.006. ISSN 1359-6446. PMID 29733895.
- ^ a b Hogeweg P (2011). “The Roots of Bioinformatics in Theoretical Biology”. PLOS Computational Biology 7 (3): e1002021. Bibcode: 2011PLSCB...7E2021H. doi:10.1371/journal.pcbi.1002021. PMC 3068925. PMID 21483479 .
- ^ Bioinformatica: een werkconcept. 1. Kameleon. (1970). pp. 28–29.
- ^ Hogeweg P (1978). “Simulating the growth of cellular forms”. Simulation 31 (3): 90–96. doi:10.1177/003754977803100305.
- ^ Moody, Glyn (2004). Digital Code of Life: How Bioinformatics is Revolutionizing Science, Medicine, and Business. ISBN 978-0-471-32788-2
- ^ Dayhoff, M.O. (1966) Atlas of protein sequence and structure. National Biomedical Research Foundation, 215 pp.
- ^ “Evolution of the structure of ferredoxin based on living relics of primitive amino Acid sequences”. Science 152 (3720): 363–66. (1966). Bibcode: 1966Sci...152..363E. doi:10.1126/science.152.3720.363. PMID 17775169.
- ^ “Kabat Database and its applications: 30 years after the first variability plot”. Nucleic Acids Res 28 (1): 214–18. (January 2000). doi:10.1093/nar/28.1.214. PMC 102431. PMID 10592229 .
- ^ Xiong, Jin (2006). Essential Bioinformatics. Cambridge, United Kingdom: Cambridge University Press. pp. 4. ISBN 978-0-511-16815-4
- ^ “Nucleotide sequence of bacteriophage phi X174 DNA”. Nature 265 (5596): 687–95. (February 1977). Bibcode: 1977Natur.265..687S. doi:10.1038/265687a0. PMID 870828.
- ^ “GenBank”. Nucleic Acids Res. 36 (Database issue): D25–30. (January 2008). doi:10.1093/nar/gkm929. PMC 2238942. PMID 18073190 .
- ^ “Whole-genome random sequencing and assembly of Haemophilus influenzae Rd”. Science 269 (5223): 496–512. (July 1995). Bibcode: 1995Sci...269..496F. doi:10.1126/science.7542800. PMID 7542800.
- ^ a b “Whole-genome random sequencing and assembly of Haemophilus influenzae Rd”. Science 269 (5223): 496–512. (July 1995). Bibcode: 1995Sci...269..496F. doi:10.1126/science.7542800. PMID 7542800.
- ^ Carvajal-Rodríguez A (2012). “Simulation of Genes and Genomes Forward in Time”. Current Genomics 11 (1): 58–61. doi:10.2174/138920210790218007. PMC 2851118. PMID 20808525 .
- ^ Brown, TA (2002). “Mutation, Repair and Recombination”. Genomes (2nd ed.). Manchester (UK): Oxford
- ^ Carter, N. P.; Fiegler, H.; Piper, J. (2002). “Comparative analysis of comparative genomic hybridization microarray technologies: Report of a workshop sponsored by the Wellcome trust”. Cytometry Part A 49 (2): 43–48. doi:10.1002/cyto.10153. PMID 12357458.
- ^ Chaudhari Narendrakumar M., Kumar Gupta Vinod, Dutta Chitra (2016). “BPGA-an ultra-fast pan-genome analysis pipeline”. Scientific Reports 6: 24373. Bibcode: 2016NatSR...624373C. doi:10.1038/srep24373. PMC 4829868. PMID 27071527 .
- ^ Aston KI (2014). “Genetic susceptibility to male infertility: News from genome-wide association studies”. Andrology 2 (3): 315–21. doi:10.1111/j.2047-2927.2014.00188.x. PMID 24574159.
- ^ “Genome-wide association studies and the clinic: A focus on breast cancer”. Biomarkers in Medicine 8 (2): 287–96. (2014). doi:10.2217/bmm.13.121. PMID 24521025.
- ^ “Genome-wide association studies in Alzheimer's disease: A review”. Current Neurology and Neuroscience Reports 13 (10): 381. (2013). doi:10.1007/s11910-013-0381-0. PMC 3809844. PMID 23954969 .
- ^ Use of Linkage Analysis, Genome-Wide Association Studies, and Next-Generation Sequencing in the Identification of Disease-Causing Mutations. Methods in Molecular Biology. 1015. (2013). 127–46. doi:10.1007/978-1-62703-435-7_8. ISBN 978-1-62703-434-0. PMID 23824853
- ^ Hindorff, L.A. (2009). “Potential etiologic and functional implications of genome-wide association loci for human diseases and traits”. Proc. Natl. Acad. Sci. USA 106 (23): 9362–67. Bibcode: 2009PNAS..106.9362H. doi:10.1073/pnas.0903103106. PMC 2687147. PMID 19474294 .
- ^ Hall, L.O. (2010). Finding the right genes for disease and prognosis prediction. 1–2. doi:10.1109/ICSSE.2010.5551766. ISBN 978-1-4244-6472-2
- ^ Vazquez, Miguel; Torre, Victor de la; Valencia, Alfonso (2012-12-27). “Chapter 14: Cancer Genome Analysis” (英語). PLOS Computational Biology 8 (12): e1002824. Bibcode: 2012PLSCB...8E2824V. doi:10.1371/journal.pcbi.1002824. ISSN 1553-7358. PMC 3531315. PMID 23300415 .
- ^ Hye-Jung, E.C.; Jaswinder, K.; Martin, K.; Samuel, A.A; Marco, A.M (2014). “Second-Generation Sequencing for Cancer Genome Analysis”. In Dellaire, Graham; Berman, Jason N.; Arceci, Robert J.. Cancer Genomics. Boston (US): Academic Press. pp. 13–30. doi:10.1016/B978-0-12-396967-5.00002-5. ISBN 9780123969675
- ^ Grau, J.; Ben-Gal, I.; Posch, S.; Grosse, I. (1 July 2006). “VOMBAT: prediction of transcription factor binding sites using variable order Bayesian trees”. Nucleic Acids Research 34 (Web Server): W529–W533. doi:10.1093/nar/gkl212. PMC 1538886. PMID 16845064 .
- ^ “The Human Protein Atlas”. www.proteinatlas.org. 2017年10月2日閲覧。
関連項目
- 生物学
- システム生物学
- ゲノミクス
- メタゲノミクス
- ケモインフォマティクス
- シーケンスアラインメント
- 日本バイオインフォマティクス学会
- バイオインフォマティクス分野の科学論文雑誌のリスト
- バイオインフォマティクスに関連する機関の一覧
- オープンソースのバイオインフォマティックスソフトウェアの一覧