「バイオインフォマティクス」の版間の差分

出典: フリー百科事典『ウィキペディア(Wikipedia)』
削除された内容 追加された内容
Erura5 (会話 | 投稿記録)
同、中盤を追記
Erura5 (会話 | 投稿記録)
同、後半を追記
タグ: サイズの大幅な増減 ビジュアルエディター
21行目: 21行目:


=== バイオインフォマティクスの目標 ===
=== バイオインフォマティクスの目標 ===
生物学におけるバイオインフォマティクスの主な目的は、他の生物学派生分野と同様に、生物学的プロセスの理解をより深めることにある。ただし、他のアプローチとの違いは、より計算集約的な手法の開発と適用に重点を置いている点である。例としては、[[パターン認識]] 、[[データマイニング]]、[[機械学習]]アルゴリズム、[[生物学的データの可視化|視覚化]]、などが挙げられる。また、例えば疾患研究の分野において、正常な細胞活動がさまざまな病状でどのように変化するかを明らかにするためには、生物学的データを組み合わせて、これらの活動の包括的な構造を理解する必要がある。そのため、さまざまなタイプのデータを組み合わせた分析と解釈を行えるように、バイオインフォマティクスの分野は進化してきた。これには、塩基および[[一次構造|アミノ酸配列]]の他、[[タンパク質ドメイン]]や[[タンパク質構造]]が含まれる<ref>{{Cite book|title=Essential Bioinformatics|last=Xiong|first=Jin|publisher=Cambridge University Press|year=2006|isbn=978-0-511-16815-4|location=Cambridge, United Kingdom|pages=4}}</ref>。
生物学におけるバイオインフォマティクスの主な目的は、他の生物学派生分野と同様に、生物学的プロセスの理解をより深めることにある。ただし、他のアプローチとの違いは、より計算集約的な手法の開発と適用に重点を置いている点である。例としては、[[パターン認識]] 、[[データマイニング]]、[[機械学習]]アルゴリズム、視覚化、などが挙げられる。また、例えば疾患研究の分野において、正常な細胞活動がさまざまな病状でどのように変化するかを明らかにするためには、生物学的データを組み合わせて、これらの活動の包括的な構造を理解する必要がある。そのため、さまざまなタイプのデータを組み合わせた分析と解釈を行えるように、バイオインフォマティクスの分野は進化してきた。これには、塩基および[[一次構造|アミノ酸配列]]の他、[[タンパク質ドメイン]]や[[タンパク質構造]]が含まれる<ref>{{Cite book|title=Essential Bioinformatics|last=Xiong|first=Jin|publisher=Cambridge University Press|year=2006|isbn=978-0-511-16815-4|location=Cambridge, United Kingdom|pages=4}}</ref>。


データを分析および解釈する実際のプロセスは、[[計算生物学]]と呼ばれる。バイオインフォマティクスおよび計算生物学の重要な専門分野の重要なものの一つは、大規模なデータセットにおいてメンバー間の関係を評価する新しいアルゴリズムと統計的尺度の開発がある。 例えば、 ゲノム配列内から[[遺伝子]]領域を予測したり、タンパク質の構造や機能を予測したり、タンパク質配列を関連配列のファミリーに[[データ・クラスタリング|クラスター]]化する方法など、に関する研究が進められている。また、さまざまな種類の生物学的情報リソースを整理し、管理し、効率的なアクセスと利用を可能にするコンピュータプログラムやシステムの開発と実装も、また重要な課題である。すなわちバイオインフォマティクスでは、データベースの作成と進歩、アルゴリズム、計算技術と統計技術、そして生物学的データの管理と分析から生じる形式的で実用的な問題を解決するための理論、が必要とされている{{要出典|date=2020年5月}}。
データを分析および解釈する実際のプロセスは、[[計算生物学]]と呼ばれる。バイオインフォマティクスおよび計算生物学の重要な専門分野の重要なものの一つは、大規模なデータセットにおいてメンバー間の関係を評価する新しいアルゴリズムと統計的尺度の開発がある。 例えば、 ゲノム配列内から[[遺伝子]]領域を予測したり、タンパク質の構造や機能を予測したり、タンパク質配列を関連配列のファミリーに[[データ・クラスタリング|クラスター]]化する方法など、に関する研究が進められている。また、さまざまな種類の生物学的情報リソースを整理し、管理し、効率的なアクセスと利用を可能にするコンピュータプログラムやシステムの開発と実装も、また重要な課題である。すなわちバイオインフォマティクスでは、データベースの作成と進歩、アルゴリズム、計算技術と統計技術、そして生物学的データの管理と分析から生じる形式的で実用的な問題を解決するための理論、が必要とされている{{要出典|date=2020年5月}}。
39行目: 39行目:


=== アセンブリ ===
=== アセンブリ ===
多くのDNAシーケンス技術は、短い配列フラグメントを生成するため、完全な遺伝子やゲノムシーケンスを取得するためには、この配列フラグメントをアセンブルして再構築する必要がある。[[ヒトゲノム計画]]では、ある配列断片から順番に配列を解読する手法が考えられていたが、[[クレイグ・ベンター]]らによる[[ショットガン法]]により遥かに高効率で解読が進められるようになった。いわゆる[[ショットガン・シークエンシング法|ショットガンシーケンス]]テクニック(たとえば、[[J.C.ベンター研究所|Institute for Genomic Research]] (TIGR)による最初の細菌ゲノム''[[インフルエンザ菌|Haemophilus influenzae]]のゲノム決定でも''使用された<ref name="pmid7542800">{{Cite journal|date=July 1995|title=Whole-genome random sequencing and assembly of Haemophilus influenzae Rd|journal=Science|volume=269|issue=5223|pages=496–512|bibcode=1995Sci...269..496F|DOI=10.1126/science.7542800|PMID=7542800}}</ref>)は、[[ゲノム]]配列をバラバラな短い断片に分断してそれぞれを解読し(シーケンシング技術に応じて、35〜900ヌクレオチド長)、その後同一の配列を重複する領域として並べ替えることによってゲノム配列を再現する。これらのフラグメントの両端は重なり合っており、ゲノムアセンブリプログラムによって適切に整列されることで、完全なゲノムを再構築することができる([[配列アセンブリング]])。しかしながら、多くの断片がある中で正しい並び方を決定することは[[コンピュータ]]の計算能力がなければ不可能である。そして、このフラグメントをアセンブルするタスクは、特に大きなゲノムにおいては非常に複雑になる可能性がある。例えばヒトゲノムは約3Gbのサイズがあるが、この程度の[[ヒトゲノム|ゲノム]]の場合、大容量メモリのマルチプロセッサコンピューターであってもショットガン配列をアセンブリするのには何日ものCPU時間を要する場合があり、また結果として生じるアセンブリには通常、多数のギャップが残っている。しかしながら一方で、ショットガンシーケンスは事実上、あらゆる生物種の全ゲノムを決定する上で現実的に最適な方法となっている。そのため、高速・高性能なゲノムアセンブリアルゴリズムを開発することは、バイオインフォマティクスの重要な研究領域の一つとなっている。
多くのDNAシーケンス技術は、短い配列フラグメントを生成するため、完全な遺伝子やゲノムシーケンスを取得するためには、この配列フラグメントをアセンブルして再構築する必要がある。[[ヒトゲノム計画]]では、ある配列断片から順番に配列を解読する手法が考えられていたが、[[クレイグ・ベンター]]らによる[[ショットガン法]]により遥かに高効率で解読が進められるようになった。いわゆる[[ショットガン・シークエンシング法|ショットガンシーケンス]]テクニック(たとえば、Institute for Genomic Research (TIGR)による最初の細菌ゲノム''[[インフルエンザ菌|Haemophilus influenzae]]のゲノム決定でも''使用された<ref name="pmid7542800">{{Cite journal|date=July 1995|title=Whole-genome random sequencing and assembly of Haemophilus influenzae Rd|journal=Science|volume=269|issue=5223|pages=496–512|bibcode=1995Sci...269..496F|DOI=10.1126/science.7542800|PMID=7542800}}</ref>)は、[[ゲノム]]配列をバラバラな短い断片に分断してそれぞれを解読し(シーケンシング技術に応じて、35〜900ヌクレオチド長)、その後同一の配列を重複する領域として並べ替えることによってゲノム配列を再現する。これらのフラグメントの両端は重なり合っており、ゲノムアセンブリプログラムによって適切に整列されることで、完全なゲノムを再構築することができる([[配列アセンブリング]])。しかしながら、多くの断片がある中で正しい並び方を決定することは[[コンピュータ]]の計算能力がなければ不可能である。そして、このフラグメントをアセンブルするタスクは、特に大きなゲノムにおいては非常に複雑になる可能性がある。例えばヒトゲノムは約3Gbのサイズがあるが、この程度の[[ヒトゲノム|ゲノム]]の場合、大容量メモリのマルチプロセッサコンピューターであってもショットガン配列をアセンブリするのには何日ものCPU時間を要する場合があり、また結果として生じるアセンブリには通常、多数のギャップが残っている。しかしながら一方で、ショットガンシーケンスは事実上、あらゆる生物種の全ゲノムを決定する上で現実的に最適な方法となっている。そのため、高速・高性能なゲノムアセンブリアルゴリズムを開発することは、バイオインフォマティクスの重要な研究領域の一つとなっている。


=== アノテーション ===
=== アノテーション ===
[[ゲノミクス]]の文脈において[[ゲノムプロジェクト|アノテーション]]とは、DNA配列内の遺伝子領域やその機能、そしてその他の生物学的特徴をマークするプロセスである。ほとんどのゲノムは大きすぎるため手動で注釈を付けることができない。そのため、このプロセスは自動化する必要がある。さらに次世代シーケンシング技術の登場によって大量のデータが高速に得られるようになっており、大量のゲノムに対して高速にアノテーションを付けたいという研究上の要望は高まっている。
[[ゲノミクス]]の文脈において[[ゲノムプロジェクト|アノテーション]]とは、DNA配列内の遺伝子領域やその機能、そしてその他の生物学的特徴をマークするプロセスである。ほとんどのゲノムは大きすぎるため手動で注釈を付けることができない。そのため、このプロセスは自動化する必要がある。さらに次世代シーケンシング技術の登場によって大量のデータが高速に得られるようになっており、大量のゲノムに対して高速にアノテーションを付けたいという研究上の要望は高まっている。


包括的なゲノムアノテーションシステムは、自由生活生物である細菌''[[インフルエンザ菌|Haemophilus influenzae]]''のゲノムの最初の完全な配列決定と分析を行った[[J.C.ベンター研究所|The Institute for Genomic Researchの]]チームによって1995年に初めて報告された<ref name="pmid75428002">{{Cite journal|date=July 1995|title=Whole-genome random sequencing and assembly of Haemophilus influenzae Rd|journal=Science|volume=269|issue=5223|pages=496–512|bibcode=1995Sci...269..496F|DOI=10.1126/science.7542800|PMID=7542800}}</ref>。[[オーウェンホワイト|Owen White]]は、すべてのタンパク質をコードする遺伝子とtRNA、rRNA、およびその他のサイトを特定し、またその生物学的機能を推定する初期のソフトウェアシステムを構築した<ref name="pmid75428002" />。 現在でも、ほとんどのゲノムアノテーションシステムは当時と同様な機能を持っているが、例えば''[[インフルエンザ菌|Haemophilus influenzae]]''でタンパク質をコードする遺伝子を見つけるために使用された[[ GeneMark|GeneMark]]プログラムなどのように、ゲノムDNAの分析に利用される個々のプログラムの多くは常に更新されており、機能改善の模索が続けられている。
包括的なゲノムアノテーションシステムは、自由生活生物である細菌''[[インフルエンザ菌|Haemophilus influenzae]]''のゲノムの最初の完全な配列決定と分析を行ったThe Institute for Genomic Researchのチームによって1995年に初めて報告された<ref name="pmid75428002">{{Cite journal|date=July 1995|title=Whole-genome random sequencing and assembly of Haemophilus influenzae Rd|journal=Science|volume=269|issue=5223|pages=496–512|bibcode=1995Sci...269..496F|DOI=10.1126/science.7542800|PMID=7542800}}</ref>。Owen Whiteは、すべてのタンパク質をコードする遺伝子とtRNA、rRNA、およびその他のサイトを特定し、またその生物学的機能を推定する初期のソフトウェアシステムを構築した<ref name="pmid75428002" />。 現在でも、ほとんどのゲノムアノテーションシステムは当時と同様な機能を持っているが、例えば''[[インフルエンザ菌|Haemophilus influenzae]]''でタンパク質をコードする遺伝子を見つけるために使用されたGeneMarkプログラムなどのように、ゲノムDNAの分析に利用される個々のプログラムの多くは常に更新されており、機能改善の模索が続けられている。


ヒトゲノムプロジェクトが2003年に完了したが、残された様々な課題や新たな目標の達成のために、[[アメリカ国立衛生研究所|アメリカ国立衛生研究所内]]の国立ヒトゲノム研究所によって新たにENCODEプロジェクトが発足した。このプロジェクトでは、次世代DNAシーケンス技術とゲノムタイリングアレイを使用して、ヒトゲノムの機能的な要素に関するデータを共同でコレクションすることが行われた。次世代シーケンシング技術は、ベースあたりのコストを大幅に削減して大量のデータを自動的に生成できるテクノロジーであり、しかも従来と同じ誤差精度(ベースコールエラー)と信頼性度(アセンブリエラー)を持っていることが特徴である{{要出典|date=2020年5月}}。
ヒトゲノムプロジェクトが2003年に完了したが、残された様々な課題や新たな目標の達成のために、[[アメリカ国立衛生研究所|アメリカ国立衛生研究所内]]の国立ヒトゲノム研究所によって新たにENCODEプロジェクトが発足した。このプロジェクトでは、次世代DNAシーケンス技術とゲノムタイリングアレイを使用して、ヒトゲノムの機能的な要素に関するデータを共同でコレクションすることが行われた。次世代シーケンシング技術は、ベースあたりのコストを大幅に削減して大量のデータを自動的に生成できるテクノロジーであり、しかも従来と同じ誤差精度(ベースコールエラー)と信頼性度(アセンブリエラー)を持っていることが特徴である{{要出典|date=2020年5月}}。
123行目: 123行目:
== テキスト解析 ==
== テキスト解析 ==
今日までに、膨大な数の学術論文が発表されてきており、その数はますます増加している。そのため、すべての論文を読むことは事実上不可能であり、研究の領域は細分化されていく傾向がある。[[計算言語学]]による文献分析では、計算と統計に基づく言語学的解析を通じて、増大するテキストリソースからマイニングすることを目的としている。例えば、略語認識(生物学用語の正式名称とその略語を特定する)、名前付きエンティティの認識(遺伝子名などの生物学的用語を認識して特定する)、タンパク質間相互作用(どの[[タンパク質]]がどの[[タンパク質]]と相互作用するかをテキストから特定する)、などに関して研究が進められている{{要出典|date=2020年5月}}。
今日までに、膨大な数の学術論文が発表されてきており、その数はますます増加している。そのため、すべての論文を読むことは事実上不可能であり、研究の領域は細分化されていく傾向がある。[[計算言語学]]による文献分析では、計算と統計に基づく言語学的解析を通じて、増大するテキストリソースからマイニングすることを目的としている。例えば、略語認識(生物学用語の正式名称とその略語を特定する)、名前付きエンティティの認識(遺伝子名などの生物学的用語を認識して特定する)、タンパク質間相互作用(どの[[タンパク質]]がどの[[タンパク質]]と相互作用するかをテキストから特定する)、などに関して研究が進められている{{要出典|date=2020年5月}}。

== 画像分析 ==
大量の情報量の多い生物医学画像の処理や定量化、分析を加速または完全に自動化するために計算技術を利用する研究も進められている。画像解析システムにおいては、大規模で複雑な画像セットから測定を行うための[[正確度と精度|精度]]や客観性、そして処理速度の向上が重要になってくる。理想的には、分析システムの発達により、様々なケースにおいて人が判断をする必要がなくなる。このような画像処理システムは生物医学画像に固有のものではないが、例えば疾患の[[診断]]や研究において重要になる。具体的な応用分野としては、以下のものが挙げられる。

* ハイスループットで高精度な細胞内局在の定量化(ハイコンテンツスクリーニング 、細胞組織病理学、 バイオイメージ情報学 )
* 形態計測学
* 臨床画像の分析と視覚化
* 生きている動物が呼吸する際、肺のリアルタイムの気流パターンを決定する
* 実験動物の拡張ビデオ録画から行動観察を行う
* 代謝活性測定のための赤外線測定
* [[遺伝子マッピング|DNAマッピング]]におけるクローンの重複の推測(たとえば[[スルストンスコア|Sulstonスコア]])


==バイオインフォマティクスとコンピュータ==
==バイオインフォマティクスとコンピュータ==
141行目: 152行目:
*[[R言語]] - オブジェクト指向の数値解析言語。行列処理・文字列処理・グラフ機能に優れた[[フリーソフトウェア]]。[[アメリカ食品医薬品局|FDA]]公認。CRANシステムで日々機能強化され、[http://www.bioconductor.org/ Bioconductor]ネットワークにパッケージが集約されている。
*[[R言語]] - オブジェクト指向の数値解析言語。行列処理・文字列処理・グラフ機能に優れた[[フリーソフトウェア]]。[[アメリカ食品医薬品局|FDA]]公認。CRANシステムで日々機能強化され、[http://www.bioconductor.org/ Bioconductor]ネットワークにパッケージが集約されている。


=== データベース ===
== データベース ==
データベースは、バイオインフォマティクスの研究と応用に不可欠である。DNAやタンパク質の配列、分子構造、表現型、生物多様性など、さまざまな情報タイプをカバーする多くのデータベースが構築されている。データベースには、実験的に取得される実験データと、分析から取得される予測データの両方が含まれる。データベースはしばしば、特定の生物や代謝経路。目的分子に特異的の構築される。また一方で、他の複数のデータベースからコンパイルされたデータを組み込むこともある。各種のデータベースは、ファイル形式やアクセスメカニズム、パブリックかどうか、などの様々な点で差異がある。[[生物学]]研究に用いられる主な[[データベース]]は、以下のようなものが挙げられる(カッコ内は例):
[[生物学]]研究に用いられる主な[[データベース]]は、以下のようなものが挙げられる(カッコ内は例):

*[[配列データベース]]([[DDBJ]], [[EMBL]], [[GenBank]][http://www.ncbi.nlm.nih.gov/Genbank/index.html], [[Swiss-Prot]][http://www.ebi.ac.uk/swissprot/])
*[[配列データベース]]([[DDBJ]], [[EMBL]], [[GenBank]][http://www.ncbi.nlm.nih.gov/Genbank/index.html], [[Swiss-Prot]][http://www.ebi.ac.uk/swissprot/])
*[[立体配座|立体構造]]データベース([[蛋白質構造データバンク|PDB]][http://www.rcsb.org/pdb/])
*[[立体配座|立体構造]]データベース([[蛋白質構造データバンク|PDB]][http://www.rcsb.org/pdb/])
150行目: 162行目:
*[[オントロジー]]データベース([[遺伝子オントロジー]])
*[[オントロジー]]データベース([[遺伝子オントロジー]])


データはフラットファイル(一般的な[[テキストファイル]])に比較的単純な形で保存されているケースも多いが、研究が本格化してデータ量が増大してくると、より効率的な利用を図るために[[関係データベース管理システム]] (RDBMS) や[[Extensible Markup Language|XML]]などを利用したより高度な管理が図られることが多い。生物学の研究においては、複数の公共データベースからのデータを使った[[データマイニング]]が非常に重要度を増しているため、データの相互利用と言う観点からも、[[Extensible Markup Language|XML]]、[[Webサービス]]などの標準的技術の利用は今後も進んで行くと思われる。この考えを更に進め、[[セマンティック・ウェブ]]関連の技術([[Resource Description Framework|RDF]]や[[OWL]]など)を利用した、[[コンピュータ]]によるデータの相互利用を模索する動きもある。[http://www.biopax.org/ BioPax]プロジェクトなどはその一例である。
データはフラットファイル(一般的な[[テキストファイル]])に比較的単純な形で保存されているケースも多いが、研究が本格化してデータ量が増大してくると、より効率的な利用を図るために[[関係データベース管理システム]] (RDBMS) や[[Extensible Markup Language|XML]]などを利用したより高度な管理が図られることが多い{{要出典|date=2020年5月}}。生物学の研究においては、複数の公共データベースからのデータを使った[[データマイニング]]が非常に重要度を増しているため、データの相互利用と言う観点からも、[[Extensible Markup Language|XML]]、[[Webサービス]]などの標準的技術の利用は今後も進んで行くと思われる。この考えを更に進め、[[セマンティック・ウェブ]]関連の技術([[Resource Description Framework|RDF]]や[[OWL]]など)を利用した、[[コンピュータ]]によるデータの相互利用を模索する動きもある。[http://www.biopax.org/ BioPax]プロジェクトなどはその一例である。

バイオインフォマティクスで扱うデータは、一次元の文字列([[シーケンス]]全般)から、[[立体配座|三次元構造]]のマトリクス ([[蛋白質構造データバンク|PDB]]) 、[[グラフ理論|計算機科学におけるグラフ]](ネットワークデータ全般)、[[遺伝子オントロジー]]のような[[有向非巡回グラフ]] (DAG; directed acyclic graph) と言った非常に多岐にわたる[[データ構造]]を持つ。

== ソフトウェア ==
バイオインフォマティクス用のソフトウェアツール(英語版:[[:en:List_of_bioinformatics_software|Software tools for bioinformatics]])は、単純なコマンドラインツールから、さまざまなバイオインフォマティクス企業や公的機関が提供するより複雑なグラフィカルプログラム、スタンドアロンのWebサービスなど、多岐に渡る。 バイオインフォマティクスの一環として、非常に多くの[[ソフトウェア]]が開発され公開されている。多くのソフトウェアが[[オープンソース]]とされており、研究者は自由に利用することができる場合が多いが、有償のものもある。[[データベース]]を基盤とするソフトウェアは、開発元が[[ウェブブラウザ|Webブラウザ]]から利用できる[[ウェブアプリケーション]]として公開している場合も多い。

=== オープンソースのバイオインフォマティクスソフトウェア ===
1980年代にバイオインフォマティクスが盛り上がって以来、多くの[[FLOSS|フリーでオープンソースのソフトウェア]]ツールが開発され公開されている<ref name="obf-main">{{Cite web|title=Open Bioinformatics Foundation: About us|url=http://www.open-bio.org/wiki/Main_Page|website=Official website|publisher=[[Open Bioinformatics Foundation]]|accessdate=10 May 2011}}</ref>。新しいタイプの生物学的な成果を生み出すためには、新しい[[アルゴリズム]]を開発することが必要になることも多い。一方で、革新的な''[[in silico]]''実験から新たな知見を得られる可能性もある。そのため、ソフトウェアを自由に利用できる[[オープンソースソフトウェア|オープンコード]]で無料で公開することで、あらゆる研究グループがバイオインフォマティクスに貢献する分化が育まれている。オープンソースツールは、アイデアを生み出し育む器として機能し、商業的アプリケーションに組み込まれることもある。また、生体情報統合の課題を支援するための、''[[デ・ファクト|事実上]]の''標準と共有オブジェクトモデルを提供することもある。

オープンソース・ソフトウェア・パッケージには、以下のソフトウェア類が挙げられる。[[バイオコンダクター|Bioconductor]]、[[ BioPerl|BioPerl]]、[[バイオパイソン|Biopython]]、[[ BioJava|BioJava]]、[[ BioJS|BioJS]]、[[ BioRuby|BioRuby]]、[[バイオクリップ|Bioclipse]]、[[エンボス|EMBOSS]]、.[[ .NET Bio|NET Bio]]、[[:en:Orange_(software)|Orange]]、[[ Apache Taverna|Apache Taverna]]、[[ UGENE|UGENE]]、[[ GenoCAD|GenoCAD]]。また、この伝統を維持し、さらなる機会を創出するために、非営利の[[ Open Bioinformatics Foundation|Open Bioinformatics Foundation]]<ref name="obf-main2">{{Cite web|title=Open Bioinformatics Foundation: About us|url=http://www.open-bio.org/wiki/Main_Page|website=Official website|publisher=[[Open Bioinformatics Foundation]]|accessdate=10 May 2011}}</ref>は、2000年以来毎年開催される[[バイオインフォマティクスオープンソース会議|Bioinformatics Open Source Conference]](BOSC)を支援してきている<ref name="obf-bosc">{{Cite web|title=Open Bioinformatics Foundation: BOSC|url=http://www.open-bio.org/wiki/BOSC|website=Official website|publisher=[[Open Bioinformatics Foundation]]|accessdate=10 May 2011}}</ref>。

パブリックなバイオインフォマティクスデータベースを構築する方法としては、[[mw:Extension:WikiOpener|''WikiOpener'']]拡張機能を備えたMediaWikiエンジンを使用する方法もある。このシステムでは、その分野の研究者が各自でデータベースにアクセスして更新することができる<ref>{{Cite journal|last=Brohée|first=Sylvain|last2=Barriot|first2=Roland|last3=Moreau|first3=Yves|year=2010|title=Biological knowledge bases using Wikis: combining the flexibility of Wikis with the structure of databases|url=http://bioinformatics.oxfordjournals.org/content/26/17/2210.full|journal=Bioinformatics|volume=26|issue=17|pages=2210–11|accessdate=5 May 2015|DOI=10.1093/bioinformatics/btq348|PMID=20591906}}</ref>。

=== バイオインフォマティクスのWebサービス ===
[[SOAP (プロトコル)|SOAP]]および[[Representational State Transfer|REST]]ベースのインターフェースは、さまざまなバイオインフォマティクスアプリケーション向けに開発されている。このようなシステムの元では、サーバー上に保管されているアルゴリズムやデータ、コンピューティングリソースに対して、世界中のコンピューター上からアクセスしてアプリケーションを実行することができる。エンドユーザーがソフトウェアやデータベースのメンテナンスのオーバーヘッドに対処する必要がないという利点がある。

基本的なバイオインフォマティクスサービスは、 [[欧州バイオインフォマティクス研究所|EBI]]による3つのカテゴリに分類できる。シーケンス検索サービス([[シーケンスアライメントソフトウェア|SSS]])、シーケンスアライメント([[多重整列|MSA]])、生物学的シーケンス分析([[バイオインフォマティクス|BSA]])である<ref>{{Cite book|last=Nisbet|first=Robert|others=John Elder IV, Gary Miner|title=Handbook of Statistical Analysis and Data Mining Applications|chapterurl=https://books.google.com/?id=U5np34a5fmQC&pg=PA328&q=bioinformatics%20service%20categories%20EBI|accessdate=9 May 2014|publisher=Academic Press|year=2009|page=328|chapter=Bioinformatics|isbn=978-0080912035}}</ref>。 これらのバイオインフォマティクスリソースの可用性は、Webベースのバイオインフォマティクスソリューションの適用性を示している、このようなWebサービスは、スタンドアロンの各種ツール類から、統合型の分散型で拡張可能なバイオインフォマティクスのワークフロー管理システム([[:en:Bioinformatics_workflow_management_systems|bioinformatics workflow management systems]])まで、幅広く存在する 。

=== バイオインフォマティクスワークフロー管理システム ===
バイオインフォマティクスワークフロー管理システムは、バイオインフォマティクスアプリケーションで一連の計算やデータ操作のステップ、つまりワークフローを構成しび実行するために設計された、[[ワークフロー管理システム|ワークフロー管理システムの]]特殊な形式である。下記の様な特徴があり、例としては[[Galaxy (計算生物学)|Galaxy]]、Kepler、Taverna、UGENE、Anduril、HIVEなどが挙げられる。

* 個々のアプリケーションサイエンティスト自身が独自のワークフローを作成するための、使いやすい環境を提供する。
* 科学者がワークフローを実行して結果をリアルタイムで表示できるようにする、インタラクティブなツールを科学者に提供する
* 科学者間のワークフローの共有と再利用のプロセスを簡素化する
* 科学者がワークフロー実行結果の出所とワークフロー作成ステップを追跡できるようにする。

=== BioCompute ===
2014年、[[アメリカ食品医薬品局|米国食品医薬品局]]は、バイオインフォマティクスの再現性について議論する会議を主催し、、[[アメリカ国立衛生研究所|国立衛生研究所]]のベセスダキャンパス[[アメリカ国立衛生研究所|で]]開催された<ref>{{Cite web|url=https://www.fda.gov/ScienceResearch/SpecialTopics/RegulatoryScience/ucm389561.htm|title=Advancing Regulatory Science – Sept. 24–25, 2014 Public Workshop: Next Generation Sequencing Standards|author=Commissioner|first=Office of the|website=www.fda.gov|language=en|accessdate=2017-11-30}}</ref>。それから3年間に渡り利害関係者のコンソーシアムが定期的に開かれ、BioComputeパラダイムについて話し合いが行われた<ref>{{Cite journal|last=Simonyan|first=Vahan|last2=Goecks|first2=Jeremy|last3=Mazumder|first3=Raja|date=2017|title=Biocompute Objects – A Step towards Evaluation and Validation of Biomedical Scientific Computations|journal=PDA Journal of Pharmaceutical Science and Technology|volume=71|issue=2|pages=136–46|DOI=10.5731/pdajpst.2016.006734|ISSN=1079-7440|PMID=27974626|PMC=5510742}}</ref>。これらの関係者には、政府、業界、および学術団体の代表が含まれていた。セッションリーダーは、FDAとNIHの研究所とセンターの多数の支部、 [[ヒトバリオームプロジェクト|Human Variome Project]]や[[欧州医療情報連盟|European Medical Federation for Medical Informatics]]などの非営利団体、[[スタンフォード大学|Stanford]]、[[ニューヨークゲノムセンター|New York Genome Center]]、[[ジョージ・ワシントン大学|George Washington University]]などの研究機関の代表であった。


BioComputeパラダイムは、バイオインフォマティクスプロトコルの再現性、複製、レビュー、再利用を可能にするデジタル「ラボノートブック」の形式であることが決定された。これは、グループ間のアイデアの交換を促進しながら、通常の人員流動の過程で研究グループ内のより大きな継続性を可能にするために提案されました。米国FDAは、パイプラインに関する情報をより透明にし、規制スタッフがアクセスできるように、この作業に資金を提供した<ref>{{Cite web|url=https://www.fda.gov/ScienceResearch/SpecialTopics/RegulatoryScience/ucm491893.htm|title=Advancing Regulatory Science – Community-based development of HTS standards for validating data and computation and encouraging interoperability|author=Commissioner|first=Office of the|website=www.fda.gov|language=en|accessdate=2017-11-30}}</ref>。
バイオインフォマティクスで扱うデータは、一次元の文字列([[シーケンス]]全般)から、[[立体配座|三次元構造]]のマトリクス ([[蛋白質構造データバンク|PDB]]) 、[[グラフ理論|計算機科学におけるグラフ]](ネットワークデータ全般)、[[遺伝子オントロジー]]のような[[有向非巡回グラフ]] (DAG; directed acyclic graph) と言った非常に多岐にわたる[[データ構造]]を持つ。従って、それらを有機的に結びつけ、有効に活用するためには、最新の情報関連技術が不可欠である


2016年、グループはベセスダのNIHで再招集し、BioComputeパラダイムの例である[[ BioComputeオブジェクト|BioComputeオブジェクトの]]可能性について話し合いました。 この成果は、「標準の試用版(standard trial use)」ドキュメントとbioRxivにアップロードされたプレプリント論文として発表された。BioComputeオブジェクトを使用すると、JSON化されたレコードを従業員、共同編集者、規制当局間で共有することができる<ref>{{Cite bioRxiv}}</ref><ref>{{Citation|title=BioCompute Object (BCO) project is a collaborative and community-driven framework to standardize HTS computational data. 1. BCO Specification Document: user manual for understanding and creating B.|date=2017-09-03|url=https://github.com/biocompute-objects/HTS-CSRS|publisher=biocompute-objects|access-date=2017-11-30}}</ref>。
=== ソフトウェア ===
バイオインフォマティクスの一環として、非常に多くの[[ソフトウェア]]が開発され公開されている。多くのソフトウェアが[[オープンソース]]とされており、研究者は自由に利用することができる。


== 教育プラットフォーム ==
広く知られた解析用ソフトウェアとしては例えば以下のようなものがある。
バイオインフォマティクスの概念と方法を教えるために設計されたソフトウェアプラットフォームには、 [[スイス生物情報学研究所|スイスのバイオインフォマティクス研究所]]トレーニングポータルを通じて提供される[[ロザリンド(教育プラットフォーム)|ロザリンド]]およびオンラインコースが挙げられる。カナダのバイオインフォマティクスワークショップは、 [[クリエイティブ・コモンズ]]ライセンスに基づいて、ウェブサイトのトレーニングワークショップのビデオとスライドを提供している。 4273πプロジェクトまたは4273piプロジェクト<ref>{{Cite journal|last=Barker|first=D|last2=Ferrier|first2=D.E.K.|last3=Holland|first3=P.W|last4=Mitchell|first4=J.B.O|last5=Plaisier|first5=H|last6=Ritchie|first6=M.G|last7=Smart|first7=S.D.|date=2013|title=4273π : bioinformatics education on low cost ARM hardware|journal=BMC Bioinformatics|volume=14|page=243|DOI=10.1186/1471-2105-14-243|PMID=23937194|PMC=3751261}}</ref>も、オープンソースの教育資料を無料で提供している。 このコースは、低コストの[[Raspberry Pi]]コンピュータで実行され、大人や学校の生徒を教えるために使用されている<ref>{{Cite journal|last=Barker|first=D|last2=Alderson|first2=R.G|last3=McDonagh|first3=J.L|last4=Plaisier|first4=H|last5=Comrie|first5=M.M|last6=Duncan|first6=L|last7=Muirhead|first7=G.T.P|last8=Sweeny|first8=S.D.|date=2015|title=University-level practical activities in bioinformatics benefit voluntary groups of pupils in the last 2 years of school|journal=International Journal of STEM Education|volume=2|issue=17|DOI=10.1186/s40594-015-0030-z}}</ref><ref>{{Cite journal|last=McDonagh|first=J.L|last2=Barker|first2=D|last3=Alderson|first3=R.G.|date=2016|title=Bringing computational science to the public|journal=SpringerPlus|volume=5|issue=259|pages=259|DOI=10.1186/s40064-016-1856-7|PMID=27006868|PMC=4775721}}</ref>。4273πは、Raspberry Piコンピューターと4273πオペレーティングシステムを使用して、研究レベルのバイオインフォマティクスを利用している研究者や研究スタッフによるコンソーシアムによって積極的に開発されている<ref>{{Cite journal|last=Robson|first=J.F.|last2=Barker|first2=D|date=2015|title=Comparison of the protein-coding gene content of Chlamydia trachomatis and Protochlamydia amoebophila using a Raspberry Pi computer|journal=BMC Research Notes|volume=8|issue=561|pages=561|DOI=10.1186/s13104-015-1476-2|PMID=26462790|PMC=4604092}}</ref><ref>{{Cite journal|last=Wregglesworth|first=K.M|last2=Barker|first2=D|date=2015|title=A comparison of the protein-coding genomes of two green sulphur bacteria, Chlorobium tepidum TLS and Pelodictyon phaeoclathratiforme BU-1|journal=BMC Research Notes|volume=8|issue=565|pages=565|DOI=10.1186/s13104-015-1535-8|PMID=26467441|PMC=4606965}}</ref>。
*[[BLAST|NCBI BLAST]][http://www.ncbi.nlm.nih.gov/BLAST/] - シーケンスアライメントに用いられる代表的ソフトウェア。
*[http://hmmer.wustl.edu/ HMMER] - [[隠れマルコフモデル]]を利用するためのパッケージ。[[モチーフ (生物学)|モチーフ]]検索などに用いる。
*[http://www.cytoscape.org/ Cytoscape] - [[蛋白質|タンパク質]]・[[遺伝子]]ネットワーク可視化、マイニングのためのプラットフォーム。
*[http://www.bioconductor.org/ Bioconductor] - [[R言語]](フリーウェア)用 ゲノムデータ解析パッケージ集の[[オープンソース]]プロジェクト。


== 学会 ==
[[データベース]]を基盤として必要とするソフトウェアは、開発元が[[ウェブブラウザ|Webブラウザ]]から利用できる[[ウェブアプリケーション]]として公開している場合も多い。
バイオインフォマティクスに関連するいくつかの大規模な会議には、[[:en:Intelligent_Systems_for_Molecular_Biology|Intelligent Systems for Molecular Biology]] (ISMB)、 [[:en:European_Conference_on_Computational_Biology|European Conference on Computational Biology]] (ECCB)、[[:en:Research_in_Computational_Molecular_Biology|Research in Computational Molecular Biology]] (RECOMB)などが挙げられる


== 引用文献 ==
== 引用文献 ==
181行目: 218行目:


== 外部リンク ==
== 外部リンク ==
=== 関連学会 ===
=== 日本の関連学会 ===
*[http://www.jsbi.org/ 日本バイオインフォマティクス学会(JSBi)]
*[http://www.jsbi.org/ 日本バイオインフォマティクス学会(JSBi)]
*[http://www.cbi.or.jp/ 情報計算化学生物学会(CBI学会)]
*[http://www.cbi.or.jp/ 情報計算化学生物学会(CBI学会)]

2020年5月4日 (月) 08:13時点における版

バイオインフォマティクスの一例。実験的に決定されたタンパク質のアミノ酸配列をアラインメントしたもの。
ヒトX染色体の地図ヒトゲノム解析はバイオインフォマティクスの最大の成果の一つである。

バイオインフォマティクス英語:bioinformatics)または生命情報科学(せいめいじょうほうかがく)とは、生命科学情報科学の融合分野のひとつであり、DNAやRNA、タンパク質をはじめとする、生命が持つ様々な「情報」を対象に、情報科学統計学などのアルゴリズムを用いた方法論やソフトウェアを開発し、またそれらを用いた分析から生命現象を解き明かしていく(in silico 解析)ことを目的とした学問分野である。そのためバイオインフォマティクスは広義には、生物学コンピュータサイエンス情報工学数学統計学といった様々な学問分野が組み合わさった学際分野自体を指す。

ゲノミクス研究の初期においては、遺伝子予測等のゲノミクスに関する分野がバイオインフォマティクスの主要な対象であった。しかしながら近年においては、ゲノムからの転写物の総体であるトランスクリプトームや、トランスクリプトーム(の一部)が翻訳されたタンパク質の総体であるプロテオーム、タンパク質の二次産物として合成される糖鎖の総体であるグライコーム、更にはゲノムからの直接的に転写・翻訳された実体だけではなく、代謝ネットワーク(代謝マップ)によって生じた代謝産物をも含めた総体を考えるメタボローム、生物個体の表現形の総体であるフェノームなど、バイオインフォマティクスが対象とする研究分野は生物学全体に拡大・発展しつつある。

概要

遺伝子やゲノム配列はバイオインフォマティクス分野で頻繁にリヨされる。コンピューターを使用することで、手動よりも簡単確実に管理できる。

ゲノムシーケンシング技術の登場と発展により、多くの生物を対象にゲノム解析プロジェクトが進められ、それに伴い大量のゲノム配列情報が得られるようになっている。一方で、得られた大量の配列情報から人力で生物学的な意味を抽出することは極めて困難であり、情報処理による解析の必要性が高まっている。一方で、遺伝子情報は(A,T,C,Gという塩基で記述できる)核酸配列というデジタル情報に近い性格を持っているために、コンピュータとの親和性が高い。さらにマイクロアレイなどの網羅的な解析技術の発展に伴って、遺伝子発現のプロファイリングやクラスタリング、アノテーション、大量のデータを視覚的に表現する手法などが重要になってきている。これらの理由により、バイオインフォマティクスはその重要性が注目されるようになり、特に1990年代半ばのヒトゲノムプロジェクトやDNAシーケンステクノロジーの急速な進歩によって爆発的に成長し、発展してきた学問分野である[要出典]

バイオインフォマティクスの主な研究対象としては、遺伝子予測、遺伝子機能予測、遺伝子分類、配列アラインメント、ゲノムアセンブリ、タンパク質構造アラインメント、タンパク質構造予測、遺伝子発現解析、タンパク質間相互作用の予測、進化モデリング、ドラッグデザイン創薬、等の、様々なコンピュータープログラミングを使用した各種の生物学的研究が挙げられる。また、特にゲノミクスの分野で繰り返し使用されるような特定の解析パイプラインを開発するといった、方法論の開発に関する研究も含まれる。バイオインフォマティクスを活用した研究の一例として、疾患の遺伝的根拠や生物の環境適応、特に農業分野における産業植物や動物の特性解析、個体群間の差異などをよりよく理解するための候補遺伝子や一塩基多型(SNP)の探索、などがある。 さらに、プロテオミクスと呼ばれるタンパク質を対象としたデータをゲノム配列と組み合わせたバイオインフォマティクス研究も進められている[1]

データ解析を中心としたバイオインフォマティクスでは、ハイスループットな実験手法によって蓄積された大量のデータを目的に応じて加工・標準化し、データマイニングや可視化、その他統計的手法による分析などを通じて解析する、という流れをとることが多い。いずれの段階でもコンピュータは使用され、その形態はパーソナルコンピュータ (PC) を利用したスクリプトによる小規模なシーケンスデータ加工から、産業技術総合研究所生命情報工学研究センターなどによる IBM Blue Gene のような20TFlopsのスーパーコンピュータから大規模なコンピュータ・クラスターグリッド・コンピューティングを用いたタンパク質立体構造解析(タンパク質構造予測)まで様々である[要出典]

今日、バイオインフォマティクスは、生物学の多くの分野で重要な役割を果たしている。例えば分子生物学研究では、画像処理信号処理などのバイオインフォマティクス技術を利用して、大量の生データから有用な結果を抽出することが行われている。遺伝学の分野では、ゲノム配列や突然変異した配列の決定と注釈付け(アノテーション)に活用される。 生物学的文献のテキストマイニングや、生物学的な遺伝子オントロジーの開発を通じて、膨大に蓄積された生物学的データを利用しやすい形で整理する役割も果たしている。また、遺伝子やタンパク質の発現調節の解析にも、深く関与している。バイオインフォマティクスツールは、遺伝子やゲノムのデータ比較と分析、解釈を支援し、分子生物学の進化的な理解にも貢献している。より統合的なレベルでは、個々の遺伝子やタンパク質の解析から一歩進み、生命を遺伝子やタンパク質のネットワークとして捉え、その総体をシステムとして理解しようとする、システム生物学という分野も生まれている。バイオインフォマティクスは生物学的代謝経路とネットワークの分析やカタログ化に役立ち、システム生物学を支えている。構造生物学の分野においては、生体分子の相互作用だけでなく、DNA[2]、RNA[2][3]、タンパク質[4]等のシミュレーションとモデリングにも役立っている[5][6][7][8]。また、機械学習による遺伝子領域予測や、タンパク質構造予測、次世代シーケンサーを利用したゲノム解析など、大きな計算能力を要求される課題が多く存在するため、スーパーコンピュータの重要な応用領域の一つとして認識されている[要出典]

歴史

バイオインフォマティクスという用語は、Paulien HogewegとBen Hesperによって1970年に生物システムの情報処理の研究に言及するために作られた用語である。[9][10][11]。この定義では、生化学(生物学的システムにおける化学プロセスの研究)と平行した研究分野の概念としてバイオインフォマティクスを位置づけており[9]、今日使われているものとは意味が異なっている。

1950年代初頭にフレデリック・サンガーインスリンの配列を最初に決定して以来、タンパク質のアミノ酸配列を研究で利用することが可能になった。しかしながら、複数のシーケンスを手動で比較することは(実際に行われていたが)実用的ではなく、コンピューターを用いた解析が分子生物学に必要不可欠になった。この分野の先駆者はマーガレット・オークリーデイホフ(Margaret Belle Oakley Dayhoff)である[12]。彼女は最初に、書籍の出版物[13]としてとして公開された最初のタンパク質配列のデータベースの1つを編集し、配列整列と分子進化の先駆的な方法を開発した[14]。バイオインフォマティクスへの、もう一つの初期の貢献は、1970年にエルウィン・A・カバット(Elvin A. Kabat) が抗体配列を包括的なボリュームで解析し、生物学的な配列解析の分野を開拓した。この一連の研究はTai Te Wuと共に1980年から1991年にかけて発表された[15]

バイオインフォマティクスの目標

生物学におけるバイオインフォマティクスの主な目的は、他の生物学派生分野と同様に、生物学的プロセスの理解をより深めることにある。ただし、他のアプローチとの違いは、より計算集約的な手法の開発と適用に重点を置いている点である。例としては、パターン認識データマイニング機械学習アルゴリズム、視覚化、などが挙げられる。また、例えば疾患研究の分野において、正常な細胞活動がさまざまな病状でどのように変化するかを明らかにするためには、生物学的データを組み合わせて、これらの活動の包括的な構造を理解する必要がある。そのため、さまざまなタイプのデータを組み合わせた分析と解釈を行えるように、バイオインフォマティクスの分野は進化してきた。これには、塩基およびアミノ酸配列の他、タンパク質ドメインタンパク質構造が含まれる[16]

データを分析および解釈する実際のプロセスは、計算生物学と呼ばれる。バイオインフォマティクスおよび計算生物学の重要な専門分野の重要なものの一つは、大規模なデータセットにおいてメンバー間の関係を評価する新しいアルゴリズムと統計的尺度の開発がある。 例えば、 ゲノム配列内から遺伝子領域を予測したり、タンパク質の構造や機能を予測したり、タンパク質配列を関連配列のファミリーにクラスター化する方法など、に関する研究が進められている。また、さまざまな種類の生物学的情報リソースを整理し、管理し、効率的なアクセスと利用を可能にするコンピュータプログラムやシステムの開発と実装も、また重要な課題である。すなわちバイオインフォマティクスでは、データベースの作成と進歩、アルゴリズム、計算技術と統計技術、そして生物学的データの管理と分析から生じる形式的で実用的な問題を解決するための理論、が必要とされている[要出典]

過去数十年にわたり、ゲノムおよびその他の分子研究技術の急速な発展と情報技術の発展が相まって、分子生物学に関連する膨大な量の情報が生み出されている。バイオインフォマティクスは、生物学的プロセスの理解を深めるために使用されるこれらの数学的および計算機科学的なアプローチを表す言葉でもある[要出典]

関連分野との関係性

バイオインフォマティクスは生物計算機学(biological computation)と一見似ている、異なる科学分野である。生物計算機学は生物工学生物学を使用して生物学的なコンピューターを設計することが主眼であるが、バイオインフォマティクスは逆にコンピュータを用いた計算を使用して生物学をよりよく理解することが主眼である。バイオインフォマティクスと生物計算機学の分野には共に、生物学的データ、特にDNA、RNA、タンパク質配列の分析が含まれる。

生物学的データを分析して意味のある情報を生成するには、グラフ理論人工知能ソフトコンピューティングデータマイニング画像処理コンピューターシミュレーション、等のアルゴリズムを使用するソフトウェアプログラム実行し、また必要に応じて作成する必要がある。またアルゴリズムは、離散数学制御理論システム理論情報理論統計などの理論的基盤に依存する[要出典]

配列解析

ファージの一種であるPhage Φ-X174が1977年に配列決定されて以来[17]、数千の生物のDNA配列が解読され、データベースに保存されている[要出典]。この配列情報は、 タンパク質 、RNA遺伝子、調節配列、構造モチーフ、反復配列をコードする遺伝子を決定するために分析されている[要出典]。例えば、内や間で遺伝子配列を比較することで、タンパク質機能間の類似性を評価したり、あるいは系統樹を構築することで種間の分子系統学的関係を示すことができる。 データ量の増加に伴い、DNA配列を手作業で分析することはすでに非現実的である。今日ではBLASTなどの相同性検索を行うコンピュータプログラムを用いて、例えばGenBankに登録された1600億以上のヌクレオチドを含む260,000を超える生物から配列を検索することが日常的に行われている(数字は2008年のもの)[18]。これらのプログラムは、DNAシーケンスの変異(塩基の置換、欠失、または挿入)を補正して、関連しているが同一ではない配列を特定できる。検索結果は、クローニングした遺伝子の部分情報から遺伝子全体の配列を予測したり、構造が未知のタンパク質の二次構造を予測したり、解読されたゲノムの中から遺伝子を検出してその機能を予測するなどの研究の基盤となる。また配列情報から由来する生物種の系統学的分類を推定するという特別なタスクのために、Krakenのような最新のk-merベースのソフトウェアも作成されており、アライメント手法では到達できない実行高速性を実現している[要出典]。 

DNAシーケンサーからの出力データの解析

DNAシーケンサーから出力される生データは多量のノイズや弱信号が含まれており、下流の解析に悪影響を与える可能性があるため、 重要な問題である。さまざまな実験プロトコルや環境におけるDNAシーケンシングデータからの塩基決定(ベースコール)を行うアルゴリズムが開発されている。

アセンブリ

多くのDNAシーケンス技術は、短い配列フラグメントを生成するため、完全な遺伝子やゲノムシーケンスを取得するためには、この配列フラグメントをアセンブルして再構築する必要がある。ヒトゲノム計画では、ある配列断片から順番に配列を解読する手法が考えられていたが、クレイグ・ベンターらによるショットガン法により遥かに高効率で解読が進められるようになった。いわゆるショットガンシーケンステクニック(たとえば、Institute for Genomic Research (TIGR)による最初の細菌ゲノムHaemophilus influenzaeのゲノム決定でも使用された[19])は、ゲノム配列をバラバラな短い断片に分断してそれぞれを解読し(シーケンシング技術に応じて、35〜900ヌクレオチド長)、その後同一の配列を重複する領域として並べ替えることによってゲノム配列を再現する。これらのフラグメントの両端は重なり合っており、ゲノムアセンブリプログラムによって適切に整列されることで、完全なゲノムを再構築することができる(配列アセンブリング)。しかしながら、多くの断片がある中で正しい並び方を決定することはコンピュータの計算能力がなければ不可能である。そして、このフラグメントをアセンブルするタスクは、特に大きなゲノムにおいては非常に複雑になる可能性がある。例えばヒトゲノムは約3Gbのサイズがあるが、この程度のゲノムの場合、大容量メモリのマルチプロセッサコンピューターであってもショットガン配列をアセンブリするのには何日ものCPU時間を要する場合があり、また結果として生じるアセンブリには通常、多数のギャップが残っている。しかしながら一方で、ショットガンシーケンスは事実上、あらゆる生物種の全ゲノムを決定する上で現実的に最適な方法となっている。そのため、高速・高性能なゲノムアセンブリアルゴリズムを開発することは、バイオインフォマティクスの重要な研究領域の一つとなっている。

アノテーション

ゲノミクスの文脈においてアノテーションとは、DNA配列内の遺伝子領域やその機能、そしてその他の生物学的特徴をマークするプロセスである。ほとんどのゲノムは大きすぎるため手動で注釈を付けることができない。そのため、このプロセスは自動化する必要がある。さらに次世代シーケンシング技術の登場によって大量のデータが高速に得られるようになっており、大量のゲノムに対して高速にアノテーションを付けたいという研究上の要望は高まっている。

包括的なゲノムアノテーションシステムは、自由生活生物である細菌Haemophilus influenzaeのゲノムの最初の完全な配列決定と分析を行ったThe Institute for Genomic Researchのチームによって1995年に初めて報告された[20]。Owen Whiteは、すべてのタンパク質をコードする遺伝子とtRNA、rRNA、およびその他のサイトを特定し、またその生物学的機能を推定する初期のソフトウェアシステムを構築した[20]。 現在でも、ほとんどのゲノムアノテーションシステムは当時と同様な機能を持っているが、例えばHaemophilus influenzaeでタンパク質をコードする遺伝子を見つけるために使用されたGeneMarkプログラムなどのように、ゲノムDNAの分析に利用される個々のプログラムの多くは常に更新されており、機能改善の模索が続けられている。

ヒトゲノムプロジェクトが2003年に完了したが、残された様々な課題や新たな目標の達成のために、アメリカ国立衛生研究所内の国立ヒトゲノム研究所によって新たにENCODEプロジェクトが発足した。このプロジェクトでは、次世代DNAシーケンス技術とゲノムタイリングアレイを使用して、ヒトゲノムの機能的な要素に関するデータを共同でコレクションすることが行われた。次世代シーケンシング技術は、ベースあたりのコストを大幅に削減して大量のデータを自動的に生成できるテクノロジーであり、しかも従来と同じ誤差精度(ベースコールエラー)と信頼性度(アセンブリエラー)を持っていることが特徴である[要出典]

計算進化生物学

進化生物学とは、の起源と分化、そして系統の経時的な変化を明らかにする学問分野である。バイオインフォマティクスは進化生物学分野においても重要な役割を果たしている。

  • 形態に基づく物理的な分類法や生理学的・生態学的観察のみではなく、 ゲノム配列の変化を測定することにより、遺伝学的なアプローチから生物の進化を追跡することができる。
  • ゲノム全体を比較解析が可能となる。これにより例えば、遺伝子の重複遺伝子の水平伝達、細菌の種分化に重要な因子の予測など、より複雑な進化的事象の研究が可能になる。
  • 複雑な計算集団遺伝学モデルを構築して、経時的なシステムの結果をシミュレーション予測する研究も進められている[21]
  • 従来よりもより多数の生物種や系統において、進化学に関する情報を得ることができ、その結果を研究者間で広く共有することができる。

より複雑な課題としては、生命の木を再構築する研究も進められている。

なお、遺伝的アルゴリズムを使用するコンピューターサイエンスの研究領域は、計算進化生物学と混同されることがあるが、この2つの領域は必ずしも関連しているわけではない[要出典]

比較ゲノム解析

比較ゲノム解析の目的の一つは、異なる生物における遺伝子(オルソログ遺伝子)や他のゲノム上の特徴の対応関係を明らかにすることである。また例えば、2つのゲノムが系統上で分岐した際の進化過程は、両ゲノム間の対応関係を取ることで、例えばどのゲノム領域が欠失したり重複したのかを明らかにし、進化過程を追跡することができる。 現実的には、様々な組織レベルで作用する多数の進化イベントが組み合わさって、ゲノム進化が形作られる。最も最小レベルでの変化は、個々のヌクレオチドが影響してくる点変異である。一方でより高いレベルでは、大きな染色体セグメントが複製、移動、逆位、転位、欠失、および挿入を受けることがある[22]。最も大きなレベルでは、ゲノム全体のハイブリダイゼーションや倍数化、そして細胞内共生過程といったイベントに関与し、しばしば急速な種分化を引き起こす。このようなゲノム進化の複雑さは、数学モデルやアルゴリズム開発を行う上でもチャレンジングな課題となっている。そのため、正確なヒューリスティックやパラメーター固定、節約モデルに基づく問題の近似アルゴリズムや、確率モデルに基づくベイズ分析のためのマルコフチェーンモンテカルロアルゴリズムの利用に至るまで、アルゴリズム、統計、および数学的な様々な手法の利用が研究されている。 これらの研究の多くにおいては、事前に遺伝子配列を配列相同性に基づいてタンパク質ファミリーに割り当てている[23]

メタゲノム解析

環境中には多様で大量の原核微生物系統が生息しており、その生理生態を理解することは、地球上の物質循環やその環境における生態系を理解する上で重要である。そのためには、どのような生理学的機能を持つ微生物が、どのような割合でそこに存在するのか、を理解することが必要である。メタゲノム解析は、環境中に存在する細菌叢サンプルからゲノムDNAを直接回収し、主にショットガンシーケンスを行ってバイオインフォマティクス解析を行うことで、それらに関して解析する、微生物学ウイルス学の研究分野である[24]

パンゲノム解析

パンゲノム解析(Pac Genomics)は2005年にTettelinとMediniによって導入された概念であり、特定の分類群において保持されている遺伝子の網羅的な遺伝子レパートリーを表す。最初は種レベルの近縁系統に適用されましたが、属や門といったより大きな分類群にも適用できる。パンゲノムはコアゲノムとフレキシブルゲノムの2つの群から構成されている。コアゲノムは全ゲノムに共通した遺伝子セットを指し、多くの場合、これらの遺伝子は生存に不可欠なハウスキーピング遺伝子である。一方でフレキシブルゲノム(Dispensable / Flexible Genome)は、1つ以上のゲノムにおいて存在しない一連の遺伝子を指す。例えばバイオインフォマティクスツールであるBPGAを使用して、細菌種のパンゲノムを特徴付けることができる[25]

遺伝的疾患

次世代シーケンシングの登場により、不妊症[26]乳がん[27]アルツハイマー病といった複雑な遺伝性疾患の関連遺伝子をマッピングする研究が進められている[28]。ゲノムワイド関連研究(Genome-wide association studies; GWAS)は、このような複雑な疾患の原因となる変異を特定するための有用なアプローチである[29]。これらの研究により、類似の疾患や形質に関連する何千ものDNA変異体が特定されている[30]。さらに、遺伝子情報を予後の推定や診断、治療方針の決定に利用するための研究も進められている。そのために、使用する遺伝子を選択する手法や、疾患の存在または予後を予測するために遺伝子を使用することの問題点の両方について、多くの研究において議論がすすめられている[31]

癌細胞の変異解析

悪性腫瘍(癌)においては、癌細胞のゲノムは非常に複雑(予測不可能)な形で組み換えが起きることが知られている。大規模なシーケンシング研究により、癌細胞に見られるさまざまな遺伝子上の点突然変異の特定が進められてきた。このような研究においては、膨大な量の配列データを管理するための専用の自動化システムや新しいアルゴリズムとソフトウェアの作成を通じて、シーケンシングの結果をヒトゲノム配列や生殖系列多型のコレクションと比較するバイオインフォマティクス解析が進められている。また、染色体の増減を比較するオリゴヌクレオチドマイクロアレイ( 比較ゲノムハイブリダイゼーション)や、既知の点変異を検出する一塩基多型アレイなど、新しい物理的検出技術が採用されています。 これらの検出方法は、ゲノム全体で数十万のサイトを同時に測定することができ、ハイスループットで数千のサンプルを測定する場合、実験ごとに数テラバイトものデータを生成する。そのため、この膨大なデータ量を処理するための新しい手法に関する研究も進められている。また、データにはかなりの変動性またはノイズが含まれているため、実際のコピー数の変化を推測するために、隠れマルコフモデルに基づく変化点分析法が開発されている。また、エクソソームの突然変異の同定では、癌は遺伝子に蓄積された体細胞変異の疾患であり、がんには疾患発症に関係する(ドライバー)変異と無関係な(パッセンジャー)変異の区別される2種類が含まれている、という2つの重要な原則があり、生物情報学的解析を行う上でも重要になっている[32]

シーケンシング技術のさらなる進歩により、癌のゲノミクスは劇的に変化する可能性がある。新しい方法とソフトウェアにより、より多くの癌ゲノムをより迅速かつ手頃な価格でシーケンスできるようになれば、がんによるゲノム内変異の分析とがんの種類の分類がさらに発展する可能性がある。さらに、癌サンプルのシーケンスからがんの進行状況を追跡できるようになる可能性も指摘されている[33]

遺伝子とタンパク質の発現

遺伝子発現解析

多くの場合、遺伝子の発現マイクロアレイ発現cDNAシーケンスタグexpressed cDNA sequence tag; EST)シーケンス、 遺伝子発現連続分析serial analysis of gene expression; SAGE)タグシーケンス、 超並列シグネチャシーケンスmassively parallel signature sequencing; MPSS)、RNA-Seq(またはWhole Transcriptome Shotgun Sequencing; WTSS)、マルチプレックスin-situハイブリダイゼーション、などの手法でmRNAレベルを測定することで決定する。これらの手法はすべて、ノイズが非常に発生しやすく、生物学的な測定バイアスがかかってくるため、ハイスループットの遺伝子発現研究においてこのようなノイズを除去して信頼できる信号を分離する統計ツールの開発が計算生物学の研究分野で重要になっている[34]。このような遺伝子発現研究は、疾患に関与する遺伝子を特定するためによく使用される。例えば癌性上皮細胞のマイクロアレイデータを非癌性細胞のデータと比較して、特定の癌細胞集団で発現上昇あるいは発現抑制される転写産物を決定することができる。

タンパク質発現解析

タンパク質マイクロアレイとハイスループット(HT) 質量分析mass spectrometry; MS)は、生体サンプルに存在するタンパク質のスナップショットを提供する。得られるタンパク質マイクロアレイとHTMSデータの解析には、バイオインフォマティクスは重要である。前者のアプローチはmRNAをターゲットとするマイクロアレイと同様の問題に直面し、後者は大量の質量データをタンパク質配列データベースからの予測質量と照合し、そして不完全なペプチドが含まれるため、複雑な統計分析が必要になる。組織における細胞タンパク質の空間局在は、 免疫染色や組織マイクロアレイに基づいたアフィニティプロテオミクスによって解析することができる[35]

転写調節解析

遺伝子転写調節は、ホルモンなどを含む細胞内外のシグナルによって、1つ以上のタンパク質の活性の増加・減少が駆動される、複雑な調節システムである。 このプロセスの各ステップを検証する、様々なバイオインフォマティクス技術が適用されている。たとえば、遺伝子発現は プロモーターのような、ゲノム内で遺伝子に近接した要素によって調節される。プロモーター分析ではまず、遺伝子コード領域に近接しているDNA配列中から、特定の配列モチーフを検出する。 これらのモチーフは、その領域がmRNAに転写される際に影響を与える。一方で、プロモーターから離れたエンハンサー要素は、3次元的な相互作用を通じて遺伝子発現を調節することもある。このような相互作用は、染色体コンフォメーションキャプチャ(Hi-C)法による実験と得られたデータのバイオインフォマティクス解析から決定される。

また、遺伝子発現データから、遺伝子転写調節の要因を推測する研究もある。さまざまな状態の組織から得られたマイクロアレイデータを比較して、各状態に関与する遺伝子の挙動を推測することができる。例えば単細胞生物では、 細胞周期の段階におけるストレス条件(熱ショック、飢餓など)を比較できる。 あるいはクラスタリングアルゴリズムを発現データに適用することで、遺伝子の共発現を解析できる。たとえば、共発現する遺伝子の上流領域(プロモーター)を探索することで、過剰発現を引き起こす調節要素を調べることができる。遺伝子クラスタリングに適用されるクラスタリングアルゴリズムの例には、k平均クラスタリング自己組織化マップ (SOM)、階層的クラスタリング、コンセンサスクラスタリング、などの手法がある。

細胞組織の解析

細胞内のオルガネラや遺伝子、タンパク質、およびその他のコンポーネントの位置を分析するために、様々なアプローチが開発されている。これらのコンポーネントの位置は細胞内のイベントに影響を与えるため、その分布や局在を調べることは生物系の挙動を予測するのに役立つ。遺伝子オントロジーのカテゴリーである「細胞コンパートメント(cellular compartment)」は 、細胞内局在を捉えるために考案され、多くの生物学的データベースで採用されている[要出典]

顕微鏡イメージング解析

顕微鏡写真から、オルガネラや分子を検出することができる。また、がんなどの異常な細胞と正常細胞を区別することにも利用される[要出典]

タンパク質の局在

タンパク質の局在化は、そのタンパク質の役割を評価するのに役立つ。たとえば、タンパク質がで見つかった場合、それは遺伝子調節スプライシングに関与している可能性がある。対照的に、タンパク質がミトコンドリアで見つかった場合、それは呼吸や他の代謝プロセスに関与している可能性がある。したがって、タンパク質の局在化は、タンパク質機能を予測する上で重要な情報源となる。タンパク質の細胞内位置に関するデータベースや予測ツールといったリソースが構築されている[36][37]

染色体における核酸立体構造

Hi-CやChIA-PETなどのハイスループット染色体コンフォメーションキャプチャー実験からのデータは、DNA遺伝子座の空間的近接性、すなわち核内で安定的に構造化されている立体的な折りたたみ構造によって、ゲノム配列上のどことどこの領域が近接して存在しているのか、に関する情報を提供する。そのためこれらの実験の分析から、クロマチンの三次元構造を決定することができると考えられる。ゲノムを3次元空間でまとめて構成されたトポロジカル関連ドメイン (TAD)といったドメイン分割に関する研究が、この分野のバイオインフォマティクスの課題となっている[38]

構造生物学

3次元タンパク質構造の例。タンパク質立体構造の解析は、バイオインフォマティクス分析の一般的なテーマの一つである。

タンパク質のアミノ酸配列からその高次(2次、3次、及び4次)構造を予測することは、バイオインフォマティクスの大きな課題の一つである。タンパク質のアミノ酸配列(一次構造)は、それをコードする遺伝子の配列情報から、比較的簡単に決定できる。そして多くの場合、この1次構造は実際の細胞内における高次構造を一意に決定する。つまり、同じアミノ酸配列を持つタンパク質はずべて同じように細胞内でコンフォメーションをとて折りたたまれ、同じ2次構造や3次構造を立体構造を作り出す、ということである(ただし例外としては、牛海綿状脳症 (狂牛病)を引き起こすプリオンなどがある)。高次構造の知識は、タンパク質の機能を理解する上で不可欠である。しかしながら、一次配列からそのような高次構造を予測する一般的な手法は無く、未解決の問題となっている。現在までの多くのこれに関する研究は、ほとんどの場合、ヒューリスティックに焦点が向けられてきた[要出典]。 

バイオインフォマティクスの重要なアイデアの1つは、「配列類似性」の概念である。バイオインフォマティクスのゲノム解析では、配列の類似性を利用して、その遺伝子の機能を予測する。具体的には、例えば機能がわかっている遺伝子Aの配列が、機能が不明な遺伝子Bの配列とある程度類似している場合、BがAの機能を共有することが予想される。バイオインフォマティクスの構造分野では、この配列類似性を使用して、タンパク質のどの部分が構造を作り、どの部分が他のタンパク質との相互作用に重要であるか、等を推測する。ホモロジーモデリングと呼ばれる手法では、配列的に類似なタンパク質の構造がわかっていれば、その情報を使用して任意のタンパク質の高次構造を予測する。この手法は、タンパク質構造を予測する有用な手法の一つである。この手法が効果的な例の一つは、ヒトのヘモグロビンと豆類のヘモグロビン(レグヘモグロビン)である。これらは同じタンパク質スーパーファミリーではあるが、遠い親戚関係のタンパク質である。どちらも生体内で酸素を輸送するという同じ目的を果たし、両者で完全に異なるアミノ酸配列を持っているが、構造的には実質的に同一であるため、ほぼ同一の目的を持り、かつ同一の祖先を共有していると考えられている[39]

タンパク質構造を予測するための他の手法としては、タンパク質のスレッディングや、物理学ベースでゼロからモデリングを行うde novoの手法が提案されている[要出典]

構造バイオインフォマティクスの別の側面としては、定量的な構造と活性の相関に関するモデルや、タンパク化学モデル(proteochemometric models; PCM)といった、仮想スクリーニングモデルへ利用することが挙げられる。さらに、タンパク質の結晶構造は、例えばリガンド結合研究のシミュレーションやインシリコ変異誘発研究に利用されている[要出典]

ネットワークとシステムバイオロジー

タンパク質間の相互作用は、ネットワークによる解析と視覚化が行われる場合が多い。 このネットワークは、 梅毒やその他の疾患の原因物質であるトレポネーマパリダムからのタンパク質間相互作用で構成されている。

ネットワーク分析は、代謝ネットワークやタンパク質間相互作用ネットワークなどの生物学的ネットワークの関係を理解することを目的としている。生物学的ネットワークは単一のタイプの分子またはエンティティ(遺伝子など)から構築される。また、ネットワーク生物学においてはしばしば、タンパク質や小分子、遺伝子発現データなど、物理的・機能的に関連する様々な異なるデータタイプを統合的に解析することがある。

システム生物学では、細胞内における複雑なプロセスの関係性を分析し視覚化するために、代謝プロセスを担う代謝産物や酵素のネットワークやシグナル伝達経路、遺伝子調節ネットワークといった細胞システムをコンピューターシミュレーションを用いて解析する研究が進められている。人工生命や仮想進化といった単純な(人工)生命体のコンピューターシミュレーションを介して、進化の過程を理解する試みもなされている。

分子相互作用ネットワーク

2020年現在、数万を超えるタンパク質について、X線結晶学およびタンパク質核磁気共鳴分光法(タンパク質NMR)によって3次元構造が決定されている。構造バイオインフォマティクスの分野において、タンパク質間相互作用実験を行わずにこの3次元立体構造の情報からタンパク質間相互作用を予測することは、大きな課題となっている。タンパク質ドッキングを推測するさまざまな手法が開発され提唱されている。

また、タンパク質同士の相互作用を超えて、例えばタンパク質-リガンド(薬物を含む)やタンパク質-ペプチドの相互作用を予測することも重要な課題である。原子結合の回転を考慮した分子動力学シミュレーション(Molecular dynamic simulation)も広く行われており、これは 分子相互作用を研究するためのドッキングアルゴリズムと呼ばれる計算アルゴリズムが基本原理となっている。

テキスト解析

今日までに、膨大な数の学術論文が発表されてきており、その数はますます増加している。そのため、すべての論文を読むことは事実上不可能であり、研究の領域は細分化されていく傾向がある。計算言語学による文献分析では、計算と統計に基づく言語学的解析を通じて、増大するテキストリソースからマイニングすることを目的としている。例えば、略語認識(生物学用語の正式名称とその略語を特定する)、名前付きエンティティの認識(遺伝子名などの生物学的用語を認識して特定する)、タンパク質間相互作用(どのタンパク質がどのタンパク質と相互作用するかをテキストから特定する)、などに関して研究が進められている[要出典]

画像分析

大量の情報量の多い生物医学画像の処理や定量化、分析を加速または完全に自動化するために計算技術を利用する研究も進められている。画像解析システムにおいては、大規模で複雑な画像セットから測定を行うための精度や客観性、そして処理速度の向上が重要になってくる。理想的には、分析システムの発達により、様々なケースにおいて人が判断をする必要がなくなる。このような画像処理システムは生物医学画像に固有のものではないが、例えば疾患の診断や研究において重要になる。具体的な応用分野としては、以下のものが挙げられる。

  • ハイスループットで高精度な細胞内局在の定量化(ハイコンテンツスクリーニング 、細胞組織病理学、 バイオイメージ情報学 )
  • 形態計測学
  • 臨床画像の分析と視覚化
  • 生きている動物が呼吸する際、肺のリアルタイムの気流パターンを決定する
  • 実験動物の拡張ビデオ録画から行動観察を行う
  • 代謝活性測定のための赤外線測定
  • DNAマッピングにおけるクローンの重複の推測(たとえばSulstonスコア

バイオインフォマティクスとコンピュータ

プログラミング言語

バイオインフォマティクス研究には、それぞれの目的に応じたプログラムの作成が欠かせない。プログラミング言語としては一般的な科学分野と同じように、いわゆる「重い」計算(タンパク質の二次構造三次構造の予測——タンパク質構造予測などはその一例)を行なうときにはC等の比較的低レベルな処理を書ける高級言語も用いられるが、塩基配列と言う巨大な「文字列」を扱う局面が多いため、テキスト処理を得意とする言語であるPerlの利用が盛んである[要出典]

Perlは、正規表現等の強力な文字列処理機能を持っているため配列解析に有効なだけでなく、プログラミングのトレーニングを積んでいないことが多い生物学出身の研究者にも比較的容易に習得できるという長所を有する[要出典]。更に、早い時期から生物学的データの加工に用いることのできるbioperlなどのライブラリが整備されたため、いっそう有用となった[要出典]。ある配列の公開配列データベースNCBI GenBank など)からの取得、GenBankフォーマットやEMBLフォーマットで記述されたファイルからの情報抽出、BLASTの自動化等はきわめて容易に行える環境が整っている[要出典]

研究用プログラムの開発に使われる言語としては他に以下のようなものがあげられる。これらの殆どにそれぞれバイオインフォマティクス用のライブラリが開発されている。

  • C++ - C言語を元に新しいプログラミングパラダイムを取り入れて開発された言語。
  • Java - オブジェクト指向および仮想マシンという概念を取り入れた言語である。BioJava というパッケージが存在する。
  • Perl - 汎用インタプリタ言語である。BioPerlというパッケージが存在する。
  • Python - 汎用インタプリタ言語である。BioPythonというパッケージが存在する。
  • Ruby - Javaと同じくオブジェクト指向プログラミング言語である。BioRubyというパッケージが存在する。
  • R言語 - オブジェクト指向の数値解析言語。行列処理・文字列処理・グラフ機能に優れたフリーソフトウェアFDA公認。CRANシステムで日々機能強化され、Bioconductorネットワークにパッケージが集約されている。

データベース

データベースは、バイオインフォマティクスの研究と応用に不可欠である。DNAやタンパク質の配列、分子構造、表現型、生物多様性など、さまざまな情報タイプをカバーする多くのデータベースが構築されている。データベースには、実験的に取得される実験データと、分析から取得される予測データの両方が含まれる。データベースはしばしば、特定の生物や代謝経路。目的分子に特異的の構築される。また一方で、他の複数のデータベースからコンパイルされたデータを組み込むこともある。各種のデータベースは、ファイル形式やアクセスメカニズム、パブリックかどうか、などの様々な点で差異がある。生物学研究に用いられる主なデータベースは、以下のようなものが挙げられる(カッコ内は例):

データはフラットファイル(一般的なテキストファイル)に比較的単純な形で保存されているケースも多いが、研究が本格化してデータ量が増大してくると、より効率的な利用を図るために関係データベース管理システム (RDBMS) やXMLなどを利用したより高度な管理が図られることが多い[要出典]。生物学の研究においては、複数の公共データベースからのデータを使ったデータマイニングが非常に重要度を増しているため、データの相互利用と言う観点からも、XMLWebサービスなどの標準的技術の利用は今後も進んで行くと思われる。この考えを更に進め、セマンティック・ウェブ関連の技術(RDFOWLなど)を利用した、コンピュータによるデータの相互利用を模索する動きもある。BioPaxプロジェクトなどはその一例である。

バイオインフォマティクスで扱うデータは、一次元の文字列(シーケンス全般)から、三次元構造のマトリクス (PDB) 、計算機科学におけるグラフ(ネットワークデータ全般)、遺伝子オントロジーのような有向非巡回グラフ (DAG; directed acyclic graph) と言った非常に多岐にわたるデータ構造を持つ。

ソフトウェア

バイオインフォマティクス用のソフトウェアツール(英語版:Software tools for bioinformatics)は、単純なコマンドラインツールから、さまざまなバイオインフォマティクス企業や公的機関が提供するより複雑なグラフィカルプログラム、スタンドアロンのWebサービスなど、多岐に渡る。 バイオインフォマティクスの一環として、非常に多くのソフトウェアが開発され公開されている。多くのソフトウェアがオープンソースとされており、研究者は自由に利用することができる場合が多いが、有償のものもある。データベースを基盤とするソフトウェアは、開発元がWebブラウザから利用できるウェブアプリケーションとして公開している場合も多い。

オープンソースのバイオインフォマティクスソフトウェア

1980年代にバイオインフォマティクスが盛り上がって以来、多くのフリーでオープンソースのソフトウェアツールが開発され公開されている[40]。新しいタイプの生物学的な成果を生み出すためには、新しいアルゴリズムを開発することが必要になることも多い。一方で、革新的なin silico実験から新たな知見を得られる可能性もある。そのため、ソフトウェアを自由に利用できるオープンコードで無料で公開することで、あらゆる研究グループがバイオインフォマティクスに貢献する分化が育まれている。オープンソースツールは、アイデアを生み出し育む器として機能し、商業的アプリケーションに組み込まれることもある。また、生体情報統合の課題を支援するための、事実上標準と共有オブジェクトモデルを提供することもある。

オープンソース・ソフトウェア・パッケージには、以下のソフトウェア類が挙げられる。BioconductorBioPerlBiopythonBioJavaBioJSBioRubyBioclipseEMBOSS、.NET BioOrangeApache TavernaUGENEGenoCAD。また、この伝統を維持し、さらなる機会を創出するために、非営利のOpen Bioinformatics Foundation[41]は、2000年以来毎年開催されるBioinformatics Open Source Conference(BOSC)を支援してきている[42]

パブリックなバイオインフォマティクスデータベースを構築する方法としては、WikiOpener拡張機能を備えたMediaWikiエンジンを使用する方法もある。このシステムでは、その分野の研究者が各自でデータベースにアクセスして更新することができる[43]

バイオインフォマティクスのWebサービス

SOAPおよびRESTベースのインターフェースは、さまざまなバイオインフォマティクスアプリケーション向けに開発されている。このようなシステムの元では、サーバー上に保管されているアルゴリズムやデータ、コンピューティングリソースに対して、世界中のコンピューター上からアクセスしてアプリケーションを実行することができる。エンドユーザーがソフトウェアやデータベースのメンテナンスのオーバーヘッドに対処する必要がないという利点がある。

基本的なバイオインフォマティクスサービスは、 EBIによる3つのカテゴリに分類できる。シーケンス検索サービス(SSS)、シーケンスアライメント(MSA)、生物学的シーケンス分析(BSA)である[44]。 これらのバイオインフォマティクスリソースの可用性は、Webベースのバイオインフォマティクスソリューションの適用性を示している、このようなWebサービスは、スタンドアロンの各種ツール類から、統合型の分散型で拡張可能なバイオインフォマティクスのワークフロー管理システム(bioinformatics workflow management systems)まで、幅広く存在する 。

バイオインフォマティクスワークフロー管理システム

バイオインフォマティクスワークフロー管理システムは、バイオインフォマティクスアプリケーションで一連の計算やデータ操作のステップ、つまりワークフローを構成しび実行するために設計された、ワークフロー管理システムの特殊な形式である。下記の様な特徴があり、例としてはGalaxy、Kepler、Taverna、UGENE、Anduril、HIVEなどが挙げられる。

  • 個々のアプリケーションサイエンティスト自身が独自のワークフローを作成するための、使いやすい環境を提供する。
  • 科学者がワークフローを実行して結果をリアルタイムで表示できるようにする、インタラクティブなツールを科学者に提供する
  • 科学者間のワークフローの共有と再利用のプロセスを簡素化する
  • 科学者がワークフロー実行結果の出所とワークフロー作成ステップを追跡できるようにする。

BioCompute

2014年、米国食品医薬品局は、バイオインフォマティクスの再現性について議論する会議を主催し、、国立衛生研究所のベセスダキャンパス開催された[45]。それから3年間に渡り利害関係者のコンソーシアムが定期的に開かれ、BioComputeパラダイムについて話し合いが行われた[46]。これらの関係者には、政府、業界、および学術団体の代表が含まれていた。セッションリーダーは、FDAとNIHの研究所とセンターの多数の支部、 Human Variome ProjectEuropean Medical Federation for Medical Informaticsなどの非営利団体、StanfordNew York Genome CenterGeorge Washington Universityなどの研究機関の代表であった。

BioComputeパラダイムは、バイオインフォマティクスプロトコルの再現性、複製、レビュー、再利用を可能にするデジタル「ラボノートブック」の形式であることが決定された。これは、グループ間のアイデアの交換を促進しながら、通常の人員流動の過程で研究グループ内のより大きな継続性を可能にするために提案されました。米国FDAは、パイプラインに関する情報をより透明にし、規制スタッフがアクセスできるように、この作業に資金を提供した[47]

2016年、グループはベセスダのNIHで再招集し、BioComputeパラダイムの例であるBioComputeオブジェクトの可能性について話し合いました。 この成果は、「標準の試用版(standard trial use)」ドキュメントとbioRxivにアップロードされたプレプリント論文として発表された。BioComputeオブジェクトを使用すると、JSON化されたレコードを従業員、共同編集者、規制当局間で共有することができる[48][49]

教育プラットフォーム

バイオインフォマティクスの概念と方法を教えるために設計されたソフトウェアプラットフォームには、 スイスのバイオインフォマティクス研究所トレーニングポータルを通じて提供されるロザリンドおよびオンラインコースが挙げられる。カナダのバイオインフォマティクスワークショップは、 クリエイティブ・コモンズライセンスに基づいて、ウェブサイトのトレーニングワークショップのビデオとスライドを提供している。 4273πプロジェクトまたは4273piプロジェクト[50]も、オープンソースの教育資料を無料で提供している。 このコースは、低コストのRaspberry Piコンピュータで実行され、大人や学校の生徒を教えるために使用されている[51][52]。4273πは、Raspberry Piコンピューターと4273πオペレーティングシステムを使用して、研究レベルのバイオインフォマティクスを利用している研究者や研究スタッフによるコンソーシアムによって積極的に開発されている[53][54]

学会

バイオインフォマティクスに関連するいくつかの大規模な会議には、Intelligent Systems for Molecular Biology (ISMB)、 European Conference on Computational Biology (ECCB)、Research in Computational Molecular Biology (RECOMB)などが挙げられる

引用文献

  1. ^ Lesk (2013年7月26日). “Bioinformatics”. Encyclopaedia Britannica. 2017年4月17日閲覧。
  2. ^ a b Sim, A. Y. L.; Minary, P.; Levitt, M. (2012). “Modeling nucleic acids”. Current Opinion in Structural Biology 22 (3): 273–78. doi:10.1016/j.sbi.2012.03.012. PMC 4028509. PMID 22538125. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4028509/. 
  3. ^ Dawson, W. K.; Maciejczyk, M.; Jankowska, E. J.; Bujnicki, J. M. (2016). “Coarse-grained modeling of RNA 3D structure”. Methods 103: 138–56. doi:10.1016/j.ymeth.2016.04.026. PMID 27125734. 
  4. ^ Kmiecik, S.; Gront, D.; Kolinski, M.; Wieteska, L.; Dawid, A. E.; Kolinski, A. (2016). “Coarse-Grained Protein Models and Their Applications”. Chemical Reviews 116 (14): 7898–936. doi:10.1021/acs.chemrev.6b00163. PMID 27333362. 
  5. ^ Wong, K. C. (2016). Computational Biology and Bioinformatics: Gene Regulation. CRC Press/Taylor & Francis Group. ISBN 9781498724975 
  6. ^ Joyce, A. P.; Zhang, C.; Bradley, P.; Havranek, J. J. (2015). “Structure-based modeling of protein: DNA specificity”. Briefings in Functional Genomics 14 (1): 39–49. doi:10.1093/bfgp/elu044. PMC 4366589. PMID 25414269. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4366589/. 
  7. ^ Spiga, E.; Degiacomi, M. T.; Dal Peraro, M. (2014). “New Strategies for Integrative Dynamic Modeling of Macromolecular Assembly”. In Karabencheva-Christova, T.. Biomolecular Modelling and Simulations. Advances in Protein Chemistry and Structural Biology. 96. Academic Press. pp. 77–111. doi:10.1016/bs.apcsb.2014.06.008. ISBN 9780128000137. PMID 25443955 
  8. ^ Ciemny, Maciej; Kurcinski, Mateusz; Kamel, Karol; Kolinski, Andrzej; Alam, Nawsad; Schueler-Furman, Ora; Kmiecik, Sebastian (2018-05-04). “Protein–peptide docking: opportunities and challenges” (英語). Drug Discovery Today 23 (8): 1530–37. doi:10.1016/j.drudis.2018.05.006. ISSN 1359-6446. PMID 29733895. 
  9. ^ a b Hogeweg P (2011). “The Roots of Bioinformatics in Theoretical Biology”. PLOS Computational Biology 7 (3): e1002021. Bibcode2011PLSCB...7E2021H. doi:10.1371/journal.pcbi.1002021. PMC 3068925. PMID 21483479. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3068925/. 
  10. ^ Bioinformatica: een werkconcept. 1. Kameleon. (1970). pp. 28–29. 
  11. ^ Hogeweg P (1978). “Simulating the growth of cellular forms”. Simulation 31 (3): 90–96. doi:10.1177/003754977803100305. 
  12. ^ Moody, Glyn (2004). Digital Code of Life: How Bioinformatics is Revolutionizing Science, Medicine, and Business. ISBN 978-0-471-32788-2. https://archive.org/details/digitalcodeoflif0000mood 
  13. ^ Dayhoff, M.O. (1966) Atlas of protein sequence and structure. National Biomedical Research Foundation, 215 pp.
  14. ^ “Evolution of the structure of ferredoxin based on living relics of primitive amino Acid sequences”. Science 152 (3720): 363–66. (1966). Bibcode1966Sci...152..363E. doi:10.1126/science.152.3720.363. PMID 17775169. 
  15. ^ “Kabat Database and its applications: 30 years after the first variability plot”. Nucleic Acids Res 28 (1): 214–18. (January 2000). doi:10.1093/nar/28.1.214. PMC 102431. PMID 10592229. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC102431/. 
  16. ^ Xiong, Jin (2006). Essential Bioinformatics. Cambridge, United Kingdom: Cambridge University Press. pp. 4. ISBN 978-0-511-16815-4 
  17. ^ “Nucleotide sequence of bacteriophage phi X174 DNA”. Nature 265 (5596): 687–95. (February 1977). Bibcode1977Natur.265..687S. doi:10.1038/265687a0. PMID 870828. 
  18. ^ “GenBank”. Nucleic Acids Res. 36 (Database issue): D25–30. (January 2008). doi:10.1093/nar/gkm929. PMC 2238942. PMID 18073190. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2238942/. 
  19. ^ “Whole-genome random sequencing and assembly of Haemophilus influenzae Rd”. Science 269 (5223): 496–512. (July 1995). Bibcode1995Sci...269..496F. doi:10.1126/science.7542800. PMID 7542800. 
  20. ^ a b “Whole-genome random sequencing and assembly of Haemophilus influenzae Rd”. Science 269 (5223): 496–512. (July 1995). Bibcode1995Sci...269..496F. doi:10.1126/science.7542800. PMID 7542800. 
  21. ^ Carvajal-Rodríguez A (2012). “Simulation of Genes and Genomes Forward in Time”. Current Genomics 11 (1): 58–61. doi:10.2174/138920210790218007. PMC 2851118. PMID 20808525. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2851118/. 
  22. ^ Brown, TA (2002). “Mutation, Repair and Recombination”. Genomes (2nd ed.). Manchester (UK): Oxford 
  23. ^ Carter, N. P.; Fiegler, H.; Piper, J. (2002). “Comparative analysis of comparative genomic hybridization microarray technologies: Report of a workshop sponsored by the Wellcome trust”. Cytometry Part A 49 (2): 43–48. doi:10.1002/cyto.10153. PMID 12357458. 
  24. ^ Hiraoka, Satoshi; Yang, Ching-chia; Iwasaki, Wataru (2016). “Metagenomics and Bioinformatics in Microbial Ecology: Current Status and Beyond” (英語). Microbes and environments 31 (3): 204–212. doi:10.1264/jsme2.ME16024. ISSN 1342-6311. PMC PMC5017796. PMID 27383682. https://www.jstage.jst.go.jp/article/jsme2/31/3/31_ME16024/_article. 
  25. ^ Chaudhari Narendrakumar M., Kumar Gupta Vinod, Dutta Chitra (2016). “BPGA-an ultra-fast pan-genome analysis pipeline”. Scientific Reports 6: 24373. Bibcode2016NatSR...624373C. doi:10.1038/srep24373. PMC 4829868. PMID 27071527. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4829868/. 
  26. ^ Aston KI (2014). “Genetic susceptibility to male infertility: News from genome-wide association studies”. Andrology 2 (3): 315–21. doi:10.1111/j.2047-2927.2014.00188.x. PMID 24574159. 
  27. ^ “Genome-wide association studies and the clinic: A focus on breast cancer”. Biomarkers in Medicine 8 (2): 287–96. (2014). doi:10.2217/bmm.13.121. PMID 24521025. 
  28. ^ “Genome-wide association studies in Alzheimer's disease: A review”. Current Neurology and Neuroscience Reports 13 (10): 381. (2013). doi:10.1007/s11910-013-0381-0. PMC 3809844. PMID 23954969. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3809844/. 
  29. ^ Use of Linkage Analysis, Genome-Wide Association Studies, and Next-Generation Sequencing in the Identification of Disease-Causing Mutations. Methods in Molecular Biology. 1015. (2013). 127–46. doi:10.1007/978-1-62703-435-7_8. ISBN 978-1-62703-434-0. PMID 23824853 
  30. ^ Hindorff, L.A. (2009). “Potential etiologic and functional implications of genome-wide association loci for human diseases and traits”. Proc. Natl. Acad. Sci. USA 106 (23): 9362–67. Bibcode2009PNAS..106.9362H. doi:10.1073/pnas.0903103106. PMC 2687147. PMID 19474294. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2687147/. 
  31. ^ Hall, L.O. (2010). Finding the right genes for disease and prognosis prediction. 1–2. doi:10.1109/ICSSE.2010.5551766. ISBN 978-1-4244-6472-2 
  32. ^ Vazquez, Miguel; Torre, Victor de la; Valencia, Alfonso (2012-12-27). “Chapter 14: Cancer Genome Analysis” (英語). PLOS Computational Biology 8 (12): e1002824. Bibcode2012PLSCB...8E2824V. doi:10.1371/journal.pcbi.1002824. ISSN 1553-7358. PMC 3531315. PMID 23300415. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3531315/. 
  33. ^ Hye-Jung, E.C.; Jaswinder, K.; Martin, K.; Samuel, A.A; Marco, A.M (2014). “Second-Generation Sequencing for Cancer Genome Analysis”. In Dellaire, Graham; Berman, Jason N.; Arceci, Robert J.. Cancer Genomics. Boston (US): Academic Press. pp. 13–30. doi:10.1016/B978-0-12-396967-5.00002-5. ISBN 9780123969675 
  34. ^ Grau, J.; Ben-Gal, I.; Posch, S.; Grosse, I. (1 July 2006). “VOMBAT: prediction of transcription factor binding sites using variable order Bayesian trees”. Nucleic Acids Research 34 (Web Server): W529–W533. doi:10.1093/nar/gkl212. PMC 1538886. PMID 16845064. http://www.eng.tau.ac.il/~bengal/VOMBAT.pdf. 
  35. ^ The Human Protein Atlas”. www.proteinatlas.org. 2017年10月2日閲覧。
  36. ^ The human cell”. www.proteinatlas.org. 2017年10月2日閲覧。
  37. ^ Thul, Peter J.; Åkesson, Lovisa; Wiking, Mikaela; Mahdessian, Diana; Geladaki, Aikaterini; Blal, Hammou Ait; Alm, Tove; Asplund, Anna et al. (2017-05-26). “A subcellular map of the human proteome”. Science 356 (6340): eaal3321. doi:10.1126/science.aal3321. PMID 28495876. 
  38. ^ Ay, Ferhat; Noble, William S. (2 September 2015). “Analysis methods for studying the 3D architecture of the genome”. Genome Biology 16 (1): 183. doi:10.1186/s13059-015-0745-7. PMC 4556012. PMID 26328929. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4556012/. 
  39. ^ Hoy, JA; Robinson, H; Trent JT, 3rd; Kakar, S; Smagghe, BJ; Hargrove, MS (3 August 2007). “Plant hemoglobins: a molecular fossil record for the evolution of oxygen transport”. Journal of Molecular Biology 371 (1): 168–79. doi:10.1016/j.jmb.2007.05.029. PMID 17560601. 
  40. ^ Open Bioinformatics Foundation: About us”. Official website. Open Bioinformatics Foundation. 2011年5月10日閲覧。
  41. ^ Open Bioinformatics Foundation: About us”. Official website. Open Bioinformatics Foundation. 2011年5月10日閲覧。
  42. ^ Open Bioinformatics Foundation: BOSC”. Official website. Open Bioinformatics Foundation. 2011年5月10日閲覧。
  43. ^ Brohée, Sylvain; Barriot, Roland; Moreau, Yves (2010). “Biological knowledge bases using Wikis: combining the flexibility of Wikis with the structure of databases”. Bioinformatics 26 (17): 2210–11. doi:10.1093/bioinformatics/btq348. PMID 20591906. http://bioinformatics.oxfordjournals.org/content/26/17/2210.full 2015年5月5日閲覧。. 
  44. ^ Nisbet, Robert (2009). “Bioinformatics”. Handbook of Statistical Analysis and Data Mining Applications. John Elder IV, Gary Miner. Academic Press. p. 328. ISBN 978-0080912035. https://books.google.com/?id=U5np34a5fmQC&pg=PA328&q=bioinformatics%20service%20categories%20EBI 2014年5月9日閲覧。 
  45. ^ Commissioner. “Advancing Regulatory Science – Sept. 24–25, 2014 Public Workshop: Next Generation Sequencing Standards” (英語). www.fda.gov. 2017年11月30日閲覧。
  46. ^ Simonyan, Vahan; Goecks, Jeremy; Mazumder, Raja (2017). “Biocompute Objects – A Step towards Evaluation and Validation of Biomedical Scientific Computations”. PDA Journal of Pharmaceutical Science and Technology 71 (2): 136–46. doi:10.5731/pdajpst.2016.006734. ISSN 1079-7440. PMC 5510742. PMID 27974626. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5510742/. 
  47. ^ Commissioner. “Advancing Regulatory Science – Community-based development of HTS standards for validating data and computation and encouraging interoperability” (英語). www.fda.gov. 2017年11月30日閲覧。
  48. ^ {{cite bioRxiv}}: 出典が入力されていません。 (説明)
  49. ^ BioCompute Object (BCO) project is a collaborative and community-driven framework to standardize HTS computational data. 1. BCO Specification Document: user manual for understanding and creating B., biocompute-objects, (2017-09-03), https://github.com/biocompute-objects/HTS-CSRS 2017年11月30日閲覧。 
  50. ^ Barker, D; Ferrier, D.E.K.; Holland, P.W; Mitchell, J.B.O; Plaisier, H; Ritchie, M.G; Smart, S.D. (2013). “4273π : bioinformatics education on low cost ARM hardware”. BMC Bioinformatics 14: 243. doi:10.1186/1471-2105-14-243. PMC 3751261. PMID 23937194. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3751261/. 
  51. ^ Barker, D; Alderson, R.G; McDonagh, J.L; Plaisier, H; Comrie, M.M; Duncan, L; Muirhead, G.T.P; Sweeny, S.D. (2015). “University-level practical activities in bioinformatics benefit voluntary groups of pupils in the last 2 years of school”. International Journal of STEM Education 2 (17). doi:10.1186/s40594-015-0030-z. 
  52. ^ McDonagh, J.L; Barker, D; Alderson, R.G. (2016). “Bringing computational science to the public”. SpringerPlus 5 (259): 259. doi:10.1186/s40064-016-1856-7. PMC 4775721. PMID 27006868. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4775721/. 
  53. ^ Robson, J.F.; Barker, D (2015). “Comparison of the protein-coding gene content of Chlamydia trachomatis and Protochlamydia amoebophila using a Raspberry Pi computer”. BMC Research Notes 8 (561): 561. doi:10.1186/s13104-015-1476-2. PMC 4604092. PMID 26462790. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4604092/. 
  54. ^ Wregglesworth, K.M; Barker, D (2015). “A comparison of the protein-coding genomes of two green sulphur bacteria, Chlorobium tepidum TLS and Pelodictyon phaeoclathratiforme BU-1”. BMC Research Notes 8 (565): 565. doi:10.1186/s13104-015-1535-8. PMC 4606965. PMID 26467441. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4606965/. 

関連項目

外部リンク

日本の関連学会

リンク集