「メタゲノミクス」の版間の差分

出典: フリー百科事典『ウィキペディア(Wikipedia)』
削除された内容 追加された内容
Erura5 (会話 | 投稿記録)
en:Metagenomics oldid=946480245の翻訳を元に、「シーケンシング」を追記
Erura5 (会話 | 投稿記録)
同、「バイオインフォ」を追記
タグ: サイズの大幅な増減 ビジュアルエディター
18行目: 18行目:


=== 新しい技術の活用 ===
=== 新しい技術の活用 ===
2010年にPacBio RS2が発売されたことを皮切りに、次世代シーケンサーよりも更に長いロングリードを読むことができる、いわゆる第3世代シーケンサーがPacBioやNanopore社から登場している。このような第3世代シーケンシングをメタゲノム解析に応用することで、さらに効率できなゲノムアセンブリが可能になると考えられる<ref>{{Cite journal|last=Hiraoka|first=Satoshi|last2=Yang|first2=Ching-chia|last3=Iwasaki|first3=Wataru|date=2016|title=Metagenomics and Bioinformatics in Microbial Ecology: Current Status and Beyond|url=https://www.jstage.jst.go.jp/article/jsme2/31/3/31_ME16024/_article|journal=Microbes and environments|volume=31|issue=3|pages=204–212|language=en|doi=10.1264/jsme2.ME16024|issn=1342-6311|pmid=27383682|pmc=PMC5017796}}</ref>。また、ショットガンシーケンスと染色体コンフォメーションキャプチャ法(Hi-C)を組み合わせることで、同じ細胞内で近接するDNA断片の情報を得ることができ、この情報を活用して微生物ゲノムのアセンブリを効率化する研究も報告されている<ref>{{Cite journal|last=Watson|first=Mick|last2=Roehe|first2=Rainer|last3=Walker|first3=Alan W.|last4=Dewhurst|first4=Richard J.|last5=Snelling|first5=Timothy J.|last6=Ivan Liachko|last7=Langford|first7=Kyle W.|last8=Press|first8=Maximilian O.|last9=Wiser|first9=Andrew H.|date=28 February 2018|title=Assembly of 913 microbial genomes from metagenomic sequencing of the cow rumen|journal=Nature Communications|volume=9|issue=1|pages=870|language=en|bibcode=2018NatCo...9..870S|DOI=10.1038/s41467-018-03317-6|ISSN=2041-1723|PMID=29491419|PMC=5830445}}</ref>。
2010年にPacBio RS2が発売されたことを皮切りに、次世代シーケンサーよりも更に長いロングリードを読むことができる、いわゆる第3世代シーケンサーがPacBioやNanopore社から登場している。このような第3世代シーケンシングをメタゲノム解析に応用することで、さらに効率できなゲノムアセンブリが可能になると考えられる<ref name=":1">{{Cite journal|last=Hiraoka|first=Satoshi|last2=Yang|first2=Ching-chia|last3=Iwasaki|first3=Wataru|date=2016|title=Metagenomics and Bioinformatics in Microbial Ecology: Current Status and Beyond|url=https://www.jstage.jst.go.jp/article/jsme2/31/3/31_ME16024/_article|journal=Microbes and environments|volume=31|issue=3|pages=204–212|language=en|doi=10.1264/jsme2.ME16024|issn=1342-6311|pmid=27383682|pmc=PMC5017796}}</ref>。また、ショットガンシーケンスと染色体コンフォメーションキャプチャ法(Hi-C)を組み合わせることで、同じ細胞内で近接するDNA断片の情報を得ることができ、この情報を活用して微生物ゲノムのアセンブリを効率化する研究も報告されている<ref>{{Cite journal|last=Watson|first=Mick|last2=Roehe|first2=Rainer|last3=Walker|first3=Alan W.|last4=Dewhurst|first4=Richard J.|last5=Snelling|first5=Timothy J.|last6=Ivan Liachko|last7=Langford|first7=Kyle W.|last8=Press|first8=Maximilian O.|last9=Wiser|first9=Andrew H.|date=28 February 2018|title=Assembly of 913 microbial genomes from metagenomic sequencing of the cow rumen|journal=Nature Communications|volume=9|issue=1|pages=870|language=en|bibcode=2018NatCo...9..870S|DOI=10.1038/s41467-018-03317-6|ISSN=2041-1723|PMID=29491419|PMC=5830445}}</ref>。


== バイオインフォマティクス解析 ==
== バイオインフォマティクス解析 ==
ショットガンシーケンスから得られるデータは膨大であり、ノイズが多く、ときには数万を超える生物種に由来するDNA配列が含まれている。例えば牛の[[ミノ|ルーメン]]をサンプルとして実施されたメタゲノム解析では279Gpもの配列データが得られ<ref>{{Cite journal|last=Hess|first=M.|last2=Sczyrba|first2=A.|last3=Egan|first3=R.|last4=Kim|first4=T.-W.|last5=Chokhawala|first5=H.|last6=Schroth|first6=G.|last7=Luo|first7=S.|last8=Clark|first8=D. S.|last9=Chen|first9=F.|date=2011-01-28|title=Metagenomic Discovery of Biomass-Degrading Genes and Genomes from Cow Rumen|url=https://www.sciencemag.org/lookup/doi/10.1126/science.1200387|journal=Science|volume=331|issue=6016|pages=463–467|language=en|doi=10.1126/science.1200387|issn=0036-8075}}</ref>、またヒト腸内細菌叢を対象とした研究では567.7Gbの配列情報から330万個の遺伝子を同定し遺伝子カタログを作成している<ref>{{Cite journal|last=MetaHIT Consortium|last2=Qin|first2=Junjie|last3=Li|first3=Ruiqiang|last4=Raes|first4=Jeroen|last5=Arumugam|first5=Manimozhiyan|last6=Burgdorf|first6=Kristoffer Solvsten|last7=Manichanh|first7=Chaysavanh|last8=Nielsen|first8=Trine|last9=Pons|first9=Nicolas|date=2010-03|title=A human gut microbial gene catalogue established by metagenomic sequencing|url=http://www.nature.com/articles/nature08821|journal=Nature|volume=464|issue=7285|pages=59–65|language=en|doi=10.1038/nature08821|issn=0028-0836|pmid=20203603|pmc=PMC3779803}}</ref>。 このようなビッグデータから有用な生物学的情報を収集、管理、抽出すること、本質的に重要なバイオインフォマティクス上の課題となっている<ref>{{Cite journal|last=Oulas|first=A|last2=Pavloudi|first2=C|last3=Polymenakou|first3=P|last4=Pavlopoulos|first4=GA|last5=Papanikolaou|first5=N|last6=Kotoulas|first6=G|last7=Arvanitidis|first7=C|last8=Iliopoulos|first8=I|date=2015|title=Metagenomics: tools and insights for analyzing next-generation sequencing data derived from biodiversity studies|journal=Bioinformatics and Biology Insights|volume=9|pages=75–88|DOI=10.4137/BBI.S12462|PMID=25983555|PMC=4426941}}</ref><ref name=":1" />。

=== シーケンス配列のフィルタリング ===
メタゲノムデータ分析の最初のステップでは、冗長な配列や低品質な配列、ヒトを含む[[真核生物]]に由来すると思われる配列の除去などを行う、事前フィルタリングを行うことが多い<ref name="mende">{{Cite journal|last=Mende|first=Daniel R.|last2=Alison S. Waller|last3=Shinichi Sunagawa|last4=Aino I. Järvelin|last5=Michelle M. Chan|last6=Manimozhiyan Arumugam|last7=Jeroen Raes|last8=Peer Bork|date=23 February 2012|title=Assessment of Metagenomic Assembly Using Simulated Next Generation Sequencing Data|journal=PLoS ONE|volume=7|issue=2|pages=e31386|bibcode=2012PLoSO...731386M|DOI=10.1371/journal.pone.0031386|ISSN=1932-6203|PMID=22384016|PMC=3285633}}</ref><ref>{{Cite journal|last=Balzer|first=S.|last2=Malde|first2=K.|last3=Grohme|first3=M. A.|last4=Jonassen|first4=I.|year=2013|title=Filtering duplicate reads from 454 pyrosequencing data|journal=Bioinformatics|volume=29|issue=7|pages=830–836|DOI=10.1093/bioinformatics/btt047|PMID=23376350|PMC=3605598}}</ref>。混入した真核生物ゲノムDNA配列の除去には、Eu-DetectやDeConseqなどのツールが利用可能である<ref>{{Cite journal|last=Mohammed|first=MH|last2=Sudha Chadaram|last3=Dinakar Komanduri|last4=Tarini Shankar Ghosh|last5=Sharmila S Mande|year=2011|title=Eu-Detect: an algorithm for detecting eukaryotic sequences in metagenomic data sets|journal=Journal of Biosciences|volume=36|issue=4|pages=709–717|DOI=10.1007/s12038-011-9105-2|PMID=21857117}}</ref><ref>{{Cite journal|last=R|first=Schmeider|last2=R Edwards|year=2011|title=Fast identification and removal of sequence contamination from genomic and metagenomic datasets|journal=PLoS ONE|volume=6|issue=3|pages=e17288|bibcode=2011PLoSO...617288S|DOI=10.1371/journal.pone.0017288|PMID=21408061|PMC=3052304}}</ref>。

=== ゲノムアセンブリ ===
ゲノムプロジェクトとメタゲノムプロジェクトの両者において、扱うDNA配列データの基本的構造は同じである。前者では単一種由来の配列データのみなのでより高いカバレッジでゲノム配列を得ることができるが、一方で後者は異なる生物種由来の配列がミックスされている分、非常に冗長性が低いことが多い。さらに、第2世代のシーケンシングテクノロジーではリード長が短い。そのため、メタゲノムシーケンスリードのアセンブリでは多くがエラーが混入し、得られた結果の信頼性が低くなる事がある。特に反復配列の存在は、このようなミスアセンブリを誘発しやすい<ref>{{Cite journal|last=Kunin|first=V.|last2=Copeland|first2=A.|last3=Lapidus|first3=A.|last4=Mavromatis|first4=K.|last5=Hugenholtz|first5=P.|date=2008-12-01|title=A Bioinformatician's Guide to Metagenomics|url=http://mmbr.asm.org/cgi/doi/10.1128/MMBR.00009-08|journal=Microbiology and Molecular Biology Reviews|volume=72|issue=4|pages=557–578|language=en|doi=10.1128/MMBR.00009-08|issn=1092-2172|pmid=19052320|pmc=PMC2593568}}</ref>。また、異なる複数種由来の配列を誤ってアセンブリしてしまう、いわゆるキメラコンティグを作り出すようなミスアセンブリも起きる<ref>{{Cite journal|last=Burton|first=Joshua N.|last2=Liachko|first2=Ivan|last3=Dunham|first3=Maitreya J.|last4=Shendure|first4=Jay|date=2014-07|title=Species-Level Deconvolution of Metagenome Assemblies with Hi-C–Based Contact Probability Maps|url=http://g3journal.org/lookup/doi/10.1534/g3.114.011825|journal=G3&amp;#58; Genes{{!}}Genomes{{!}}Genetics|volume=4|issue=7|pages=1339–1346|language=en|doi=10.1534/g3.114.011825|issn=2160-1836|pmid=24855317|pmc=PMC4455782}}</ref>。

このようなエラーを最小限にし、かつできるだけ長くアセンブリが繋がるように、様々なツールが現在も開発されている。様々なアセンブリツールが提案されているが、その多くはアセンブリの精度を向上させるためにペアエンドリードの情報を使用する。PhrapやCelera Assemblerなどの一部のプログラムは、単一の[[ゲノム]]をアセンブルするために使用するように設計されているにも関わらず、メタゲノムデータセットにおいても良好なアセンブル結果を生み出す<ref>{{Cite journal|last=Wooley|first=John C.|last2=Godzik|first2=Adam|last3=Friedberg|first3=Iddo|editor-last=Bourne|editor-first=Philip E.|date=2010-02-26|title=A Primer on Metagenomics|url=https://dx.plos.org/10.1371/journal.pcbi.1000667|journal=PLoS Computational Biology|volume=6|issue=2|pages=e1000667|language=en|doi=10.1371/journal.pcbi.1000667|issn=1553-7358|pmid=20195499|pmc=PMC2829047}}</ref>。Velvetなどの他のプログラムはde Bruijnグラフを使用しており、第2世代のシーケンスで生成される短いリード用に最適化されている<ref>{{Cite journal|last=Zerbino|first=D. R.|last2=Birney|first2=E.|date=2008-02-21|title=Velvet: Algorithms for de novo short read assembly using de Bruijn graphs|url=http://www.genome.org/cgi/doi/10.1101/gr.074492.107|journal=Genome Research|volume=18|issue=5|pages=821–829|language=en|doi=10.1101/gr.074492.107|issn=1088-9051|pmid=18349386|pmc=PMC2336801}}</ref><ref>{{Cite journal|last=Namiki|first=Toshiaki|last2=Hachiya|first2=Tsuyoshi|last3=Tanaka|first3=Hideaki|last4=Sakakibara|first4=Yasubumi|date=2012-11-01|title=MetaVelvet: an extension of Velvet assembler to de novo metagenome assembly from short sequence reads|url=https://academic.oup.com/nar/article/40/20/e155/2414459|journal=Nucleic Acids Research|volume=40|issue=20|pages=e155–e155|language=en|doi=10.1093/nar/gks678|issn=1362-4962|pmid=22821567|pmc=PMC3488206}}</ref>。リファレンスゲノムを使用することでアセンブリを改善するアプローチも提案されているが、この方法は既にゲノムが読まれている限られた微生物系統にした適応できない<ref>{{Cite journal|last=Kunin|first=V.|last2=Copeland|first2=A.|last3=Lapidus|first3=A.|last4=Mavromatis|first4=K.|last5=Hugenholtz|first5=P.|date=2008-12-01|title=A Bioinformatician's Guide to Metagenomics|url=http://mmbr.asm.org/cgi/doi/10.1128/MMBR.00009-08|journal=Microbiology and Molecular Biology Reviews|volume=72|issue=4|pages=557–578|language=en|doi=10.1128/MMBR.00009-08|issn=1092-2172|pmid=19052320|pmc=PMC2593568}}</ref>。アセンブリが作成された後、そのコンティグがどの系統に由来しているのかを推定することも、技術上の課題である<ref>{{Cite journal|last=Burton|first=Joshua N.|last2=Liachko|first2=Ivan|last3=Dunham|first3=Maitreya J.|last4=Shendure|first4=Jay|date=2014-07|title=Species-Level Deconvolution of Metagenome Assemblies with Hi-C–Based Contact Probability Maps|url=http://g3journal.org/lookup/doi/10.1534/g3.114.011825|journal=G3&amp;#58; Genes{{!}}Genomes{{!}}Genetics|volume=4|issue=7|pages=1339–1346|language=en|doi=10.1534/g3.114.011825|issn=2160-1836|pmid=24855317|pmc=PMC4455782}}</ref>。

=== 配列からの遺伝子予測  ===
アセンブルされたコンティグから遺伝子配列(コーディング領域)をアノテーションするには、大きく分けて2つのアプローチが取られる<ref>{{Cite journal|last=Kunin|first=V.|last2=Copeland|first2=A.|last3=Lapidus|first3=A.|last4=Mavromatis|first4=K.|last5=Hugenholtz|first5=P.|date=2008-12-01|title=A Bioinformatician's Guide to Metagenomics|url=http://mmbr.asm.org/cgi/doi/10.1128/MMBR.00009-08|journal=Microbiology and Molecular Biology Reviews|volume=72|issue=4|pages=557–578|language=en|doi=10.1128/MMBR.00009-08|issn=1092-2172|pmid=19052320|pmc=PMC2593568}}</ref>。1つ目は、[[BLAST]]等を用いた配列類似性検索により、 [[配列データベース|シーケンスデータベース]]上で公開されている遺伝子との配列類似性に基づいて遺伝子を識別する方法である。この方法は、例えばMEGAN 4というツールで実装されている<ref>{{Cite journal|last=Huson|first=D. H.|last2=Mitra|first2=S.|last3=Ruscheweyh|first3=H.-J.|last4=Weber|first4=N.|last5=Schuster|first5=S. C.|date=2011-09-01|title=Integrative analysis of environmental sequences using MEGAN4|url=http://genome.cshlp.org/cgi/doi/10.1101/gr.120618.111|journal=Genome Research|volume=21|issue=9|pages=1552–1560|language=en|doi=10.1101/gr.120618.111|issn=1088-9051|pmid=21690186|pmc=PMC3166839}}</ref>。2番目の方法としては、関連する生物種に由来した既知の配列情報から遺伝子配列に関する特徴量を学習し、コンティグ配列から直接コーディング領域を予測する方法である。例えばGeneMarkやGLIMMERといったプログラムで採用されている<ref>{{Cite journal|last=Zhu|first=Wenhan|last2=Lomsadze|first2=Alexandre|last3=Borodovsky|first3=Mark|date=2010-07|title=Ab initio gene identification in metagenomic sequences|url=https://academic.oup.com/nar/article-lookup/doi/10.1093/nar/gkq275|journal=Nucleic Acids Research|volume=38|issue=12|pages=e132–e132|language=en|doi=10.1093/nar/gkq275|issn=1362-4962|pmid=20403810|pmc=PMC2896542}}</ref>。この''ab initioな''予測方法では、配列データベースに類似したものがない新規性のあるコーディング領域も検出できることである<ref>{{Cite journal|last=Wooley|first=John C.|last2=Godzik|first2=Adam|last3=Friedberg|first3=Iddo|editor-last=Bourne|editor-first=Philip E.|date=2010-02-26|title=A Primer on Metagenomics|url=https://dx.plos.org/10.1371/journal.pcbi.1000667|journal=PLoS Computational Biology|volume=6|issue=2|pages=e1000667|language=en|doi=10.1371/journal.pcbi.1000667|issn=1553-7358|pmid=20195499|pmc=PMC2829047}}</ref>。

=== 配列の系統推定 ===
[[ファイル:A_Novel_Representation_Of_The_Tree_Of_Life.png|リンク=https://ja.wikipedia.org/wiki/%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB:A_Novel_Representation_Of_The_Tree_Of_Life.png|サムネイル|470x470ピクセル|2016に提唱された「生命の木」<ref>{{Cite journal|last=Hug|first=Laura A.|last2=Baker|first2=Brett J.|last3=Anantharaman|first3=Karthik|last4=Brown|first4=Christopher T.|last5=Probst|first5=Alexander J.|last6=Castelle|first6=Cindy J.|last7=Butterfield|first7=Cristina N.|last8=Hernsdorf|first8=Alex W.|last9=Amano|first9=Yuki|date=11 April 2016|title=A new view of the tree of life|journal=Nature Microbiology|volume=1|issue=5|pages=16048|DOI=10.1038/nmicrobiol.2016.48|PMID=27572647}}</ref>]]
遺伝子アノテーションにより「それが何なのか(とういう機能を持つ遺伝子なのか)」という情報がわかる一方で、配列の由来系統の推定により「それが誰なのか(どういう系統群に由来した配列なのか)」という情報が得られる<ref>{{Cite journal|last=Konopka|first=Allan|date=2009-11|title=What is microbial community ecology?|url=http://www.nature.com/articles/ismej200988|journal=The ISME Journal|volume=3|issue=11|pages=1223–1230|language=en|doi=10.1038/ismej.2009.88|issn=1751-7362}}</ref>。メタゲノム内でコミュニティの構成と機能を結び付けるためには、アセンブリされる前のショットガンリードあるいはアセンブリ後に得られるコンティグ配列が、元々どのような生物系統に由来していたのかを推定する、配列の由来系統推定を行う必要がある。配列類似性に基づく方法としては、[[BLAST]]などのツールと既存の公共データベースを利用して、各系統に特異的なマーカー配列や類似したゲノム上の配列を検索することで、その配列やコンティグがどのような系統に由来していたのかを推定する。このアプローチはMEGANで実装されている<ref>{{Cite journal|last=Huson|first=D. H.|last2=Auch|first2=A. F.|last3=Qi|first3=J.|last4=Schuster|first4=S. C.|date=2007-02-06|title=MEGAN analysis of metagenomic data|url=http://www.genome.org/cgi/doi/10.1101/gr.5969107|journal=Genome Research|volume=17|issue=3|pages=377–386|language=en|doi=10.1101/gr.5969107|issn=1088-9051|pmid=17255551|pmc=PMC1800929}}</ref>。異なる手法としては[[マルコフモデル|補間マルコフモデル]]を使用した方法があり、PhymmBLなどで実装されている。[http://huttenhower.sph.harvard.edu/metaphlan MetaPhlAn]およびAMPHORAでは、より高速に生物の相対存在量を推定するための、マーカー遺伝子をベースとした手法が実装されている<ref>{{Cite journal|last=Segata|first=Nicola|last2=Waldron|first2=Levi|last3=Ballarini|first3=Annalisa|last4=Narasimhan|first4=Vagheesh|last5=Jousson|first5=Olivier|last6=Huttenhower|first6=Curtis|date=2012-08|title=Metagenomic microbial community profiling using unique clade-specific marker genes|url=http://www.nature.com/articles/nmeth.2066|journal=Nature Methods|volume=9|issue=8|pages=811–814|language=en|doi=10.1038/nmeth.2066|issn=1548-7091|pmid=22688413|pmc=PMC3443552}}</ref>。[https://motu-tool.org/ mOTU]<ref>{{Cite journal|last=Liu|first=Bo|last2=Gibbons|first2=Theodore|last3=Ghodsi|first3=Mohammad|last4=Treangen|first4=Todd|last5=Pop|first5=Mihai|date=2011|title=Accurate and fast estimation of taxonomic profiles from metagenomic shotgun sequences|url=http://bmcgenomics.biomedcentral.com/articles/10.1186/1471-2164-12-S2-S4|journal=BMC Genomics|volume=12|issue=Suppl 2|pages=S4|language=en|doi=10.1186/1471-2164-12-S2-S4|issn=1471-2164|pmid=21989143|pmc=PMC3194235}}</ref><ref>{{Cite journal|last=Milanese|first=Alessio|last2=Mende|first2=Daniel R|last3=Paoli|first3=Lucas|last4=Salazar|first4=Guillem|last5=Ruscheweyh|first5=Hans-Joachim|last6=Cuenca|first6=Miguelangel|last7=Hingamp|first7=Pascal|last8=Alves|first8=Renato|last9=Costea|first9=Paul I|date=2019-12|title=Microbial abundance, activity and population genomic profiling with mOTUs2|url=http://www.nature.com/articles/s41467-019-08844-4|journal=Nature Communications|volume=10|issue=1|pages=1014|language=en|doi=10.1038/s41467-019-08844-4|issn=2041-1723|pmid=30833550|pmc=PMC6399450}}</ref>やMetaPhyler<ref>{{Cite journal|last=Liu|first=Bo|last2=Gibbons|first2=Theodore|last3=Ghodsi|first3=Mohammad|last4=Treangen|first4=Todd|last5=Pop|first5=Mihai|date=2011|title=Accurate and fast estimation of taxonomic profiles from metagenomic shotgun sequences|url=http://bmcgenomics.biomedcentral.com/articles/10.1186/1471-2164-12-S2-S4|journal=BMC Genomics|volume=12|issue=Suppl 2|pages=S4|language=en|doi=10.1186/1471-2164-12-S2-S4|issn=1471-2164|pmid=21989143|pmc=PMC3194235}}</ref>などのツールでは、ユニバーサルなマーカー遺伝子を使用して原核生物種のプロファイルを作成する。[https://motu-tool.org/ mOTUsプロファイラー]を使用すると、参照ゲノムなしで種をプロファイリングでき、微生物群集の多様性の推定ができる<ref>{{Cite journal|last=Milanese|first=Alessio|last2=Mende|first2=Daniel R|last3=Paoli|first3=Lucas|last4=Salazar|first4=Guillem|last5=Ruscheweyh|first5=Hans-Joachim|last6=Cuenca|first6=Miguelangel|last7=Hingamp|first7=Pascal|last8=Alves|first8=Renato|last9=Costea|first9=Paul I|date=2019-12|title=Microbial abundance, activity and population genomic profiling with mOTUs2|url=http://www.nature.com/articles/s41467-019-08844-4|journal=Nature Communications|volume=10|issue=1|pages=1014|language=en|doi=10.1038/s41467-019-08844-4|issn=2041-1723|pmid=30833550|pmc=PMC6399450}}</ref>。[https://github.com/seqan/slimm SLIMM]などの手法では、個々のリファレンスゲノムにおけるリードカバレッジの分布を調べることで、偽陽性を最小限に抑えて信頼性のある相対存在量を計算する<ref>{{Cite journal|last=Dadi|first=Temesgen Hailemariam|last2=Renard|first2=Bernhard Y.|last3=Wieler|first3=Lothar H.|last4=Semmler|first4=Torsten|last5=Reinert|first5=Knut|date=2017-03-28|title=SLIMM: species level identification of microorganisms from metagenomes|url=https://peerj.com/articles/3138|journal=PeerJ|volume=5|pages=e3138|language=en|doi=10.7717/peerj.3138|issn=2167-8359|pmid=28367376|pmc=PMC5372838}}</ref>。一方、組成に基づくビニングの手法では、オリゴヌクレオチドの頻度やコドン使用頻度のバイアスなどの情報を利用する<ref>{{Cite journal|last=Wooley|first=John C.|last2=Godzik|first2=Adam|last3=Friedberg|first3=Iddo|editor-last=Bourne|editor-first=Philip E.|date=2010-02-26|title=A Primer on Metagenomics|url=https://dx.plos.org/10.1371/journal.pcbi.1000667|journal=PLoS Computational Biology|volume=6|issue=2|pages=e1000667|language=en|doi=10.1371/journal.pcbi.1000667|issn=1553-7358|pmid=20195499|pmc=PMC2829047}}</ref>。配列の由来系統が推定機でうことで、はじめて元々のサンプルに含まれていたコミュニティの多様性が比較分析できるようになる。


== データ解析 ==
== データ解析 ==
{{Stub}}


== 歴史と背景 ==
== 歴史と背景 ==

2020年3月21日 (土) 08:58時点における版

露天掘り炭鉱からの酸性排水を受けるこの河川にも、環境に適応した微生物群集が存在している。メタゲノミクスにより、このような微生物群集の研究が可能になる。

メタゲノミクス(英:Metagenomics)は、環境サンプルから直接回収されたゲノムDNAを扱う研究分野である。広義には環境ゲノミクスエコゲノミクス群集ゲノミクスとも呼ばれる[1]メタゲノム解析(Metagenomic analysis)、あるいは単純にメタゲノム(Metagenome)とも呼称される。従来の微生物のゲノム解析では単一菌種の分離・培養過程を経てゲノムDNAを調製していたが、メタゲノム解析はその過程を経ずに、微生物の集団から直接そのゲノムDNAを調製し、そのヘテロなゲノムDNAをそのままシーケンスする。そのため、メタゲノム解析により従来の方法では困難であった難培養菌のゲノム情報が入手可能となった。地球上に棲息する細菌の99%以上は単独では培養できない菌種であると推察されており[2]、メタゲノム解析は環境中に埋没する膨大な数の未知の細菌、未知の遺伝子を解明する手法として期待されている。DNAシークエンシングのコストが年々安価になっていることから、メタゲノミクスは微生物学において、より大規模で詳細な研究が行われることも見込まれる。メタゲノム解析は一般に、サンプル中に含まれる微生物コミュニティの菌叢網羅的な配列情報をショットガンシーケンスにより取得し解析することを指す[3]が、日本においてはしばしばPCRを経た増幅シーケンス(16S rRNAタグシーケンスなど)もメタゲノム解析に含むことがある。

今日では、ヒトの腸内細菌叢、海中の微生物群、海底の鯨骨細菌群、農場土壌の細菌群、鉱山廃水中のバイオフィルム、メタン酸化古細菌群など、様々な環境を対象としたメタゲノム解析が論文として報告されている。

語源

メタゲノムという用語は、「ゲノム」に高次元を表す「メタ」という言葉を付け加えて命名された[4]。これは単一生物のゲノムを研究するように、環境中から遺伝子配列を纏めて収集し、解析をすることが可能であろうという考えが元にある。この用語はJo Handelsman, Jon Clardy, Robert M. Goodman, Sean F Bradyらにより1998年に初めて論文内で使用された[4]。Kevin ChenとLior Pachterは2005年にメタゲノミクスを「個々の菌を研究室内で単離したり培養したりする必要がない現代ゲノム技術の応用分野」と定義している[5]

ゲノムシーケンシング

BACライブラリによる環境ショットガンシーケンス。(A)生息地からのサンプリング。(B)通常、サイズによる粒子のフィルタリングを行う。(C)細胞溶解およびDNA抽出(D)クローニングとライブラリ構築。 E)クローンのシーケンス。(F)コンティグとスキャフォールドへの配列アセンブリ。

かつては環境サンプルから数千塩基対よりも長いDNA配列の回収することは困難であったが、分子クローニング用のベクターとしてBAC(bacterial artificial chromosomes)が開発されたことにより、ライブラリーの構築が可能になった。現在では次世代シーケンサーの登場により、BACライブラリを経ることなくより大量の配列情報を取得することが可能である。 (詳細はDNAシーケンシングを参照)

典型的なメタゲノムプロジェクトのフロー図[6]

ショットガンシーケンシングの登場

バイオインフォマティクスの進歩、DNA増幅(PCR)の改良、および計算能力の急増により、環境サンプルから得られたDNA配列の分析能力は飛躍的に向上し、ショットガンシーケンスをメタゲノムサンプルに応用することが可能になった(全メタゲノムショットガンシーケンス(Whole Metagenome Shotgun Sequence)、または頭文字を取ってWMGSと呼ばれることがある)。培養微生物とヒトゲノムを始めとする大半のゲノムシーケンスにおいては、DNAをランダムに短く切断し、それらの配列を大量にシーケンスし、アセンブリを経てコンセンサス配列を再構築する、というステップを経る。このようなプロセスを経ることで、メタゲノム解析におけるショットガンシーケンシングにより、環境サンプルに存在する遺伝子配列を網羅的に得ることが可能である。歴史的には、このシーケンスを容易にするために、BAC等を利用したクローンライブラリが使用されてきた。ショットガンメタゲノムはコニュニティ内で、どのような系統群の生物が存在し、どのような代謝プロセスが可能か、等についての情報を提供する。理想的には、その環境中における細胞量によって回収されるDNA量も決まるため、環境サンプル内で最も多く存在する生物種は最も大量にシーケンスされ、配列情報も多く得ることができる。一方で、存在量の少ない生物種(そのサンプルにおける希少種)では十分に配列情報が得られない可能性があり、その生物種のゲノムを完全に決定するためには高いカバレッジが必要になり、合わせて非常に多くのサンプルが必要となる。反面、ショットガンシーケンスは(理想的には)完全にランダムにDNA断片のシーケンスを行うため、従来の培養技術では見過ごされていた生物種であっても、大なり小なりゲノム情報を得ることができる。

次世代シーケンシング技術の活用

次世代シーケンサー(ハイスループットシーケンシング技術)の登場と進歩により、クローニングのステップは不要になり、この手順を省略してシーケンスデータの収量を増やすことが、今日では可能である。次世代シーケンスを使用して実施された最初のメタゲノム研究では、454パイロシーケンシングが利用された[7]。その後、Ion Torrent Personal Genome Machineや、Illumina MiSeq、HiSeq、Applied Biosystems SOLiDシステム等が登場し、メタゲノム解析に利用されるようになった[8]。 これらのDNAシーケンシング技術は、サンガーシーケンスよりも短い配列を得られる。例えばサンガー法では750bp程度のリードを得られるのに対し、Ion Torrent PGM Systemや454パイロシーケンシングでは約400bp、Illumina MiSeqでは400-700bp、SOLiDは25-75bp程度である(2008年のカタログスペック値)[9]。一方で、次世代シーケンシングでは圧倒的に多量のDNA配列を読むことができる。例えば454パイロシーケンスでは200〜500Mb、Illuminaプラットフォームでは20〜50Gbもの配列情報を排出し、この値は年々ますます増加している(2009年のカタログスペック値)[10]

新しい技術の活用

2010年にPacBio RS2が発売されたことを皮切りに、次世代シーケンサーよりも更に長いロングリードを読むことができる、いわゆる第3世代シーケンサーがPacBioやNanopore社から登場している。このような第3世代シーケンシングをメタゲノム解析に応用することで、さらに効率できなゲノムアセンブリが可能になると考えられる[11]。また、ショットガンシーケンスと染色体コンフォメーションキャプチャ法(Hi-C)を組み合わせることで、同じ細胞内で近接するDNA断片の情報を得ることができ、この情報を活用して微生物ゲノムのアセンブリを効率化する研究も報告されている[12]

バイオインフォマティクス解析

ショットガンシーケンスから得られるデータは膨大であり、ノイズが多く、ときには数万を超える生物種に由来するDNA配列が含まれている。例えば牛のルーメンをサンプルとして実施されたメタゲノム解析では279Gpもの配列データが得られ[13]、またヒト腸内細菌叢を対象とした研究では567.7Gbの配列情報から330万個の遺伝子を同定し遺伝子カタログを作成している[14]。 このようなビッグデータから有用な生物学的情報を収集、管理、抽出すること、本質的に重要なバイオインフォマティクス上の課題となっている[15][11]

シーケンス配列のフィルタリング

メタゲノムデータ分析の最初のステップでは、冗長な配列や低品質な配列、ヒトを含む真核生物に由来すると思われる配列の除去などを行う、事前フィルタリングを行うことが多い[16][17]。混入した真核生物ゲノムDNA配列の除去には、Eu-DetectやDeConseqなどのツールが利用可能である[18][19]

ゲノムアセンブリ

ゲノムプロジェクトとメタゲノムプロジェクトの両者において、扱うDNA配列データの基本的構造は同じである。前者では単一種由来の配列データのみなのでより高いカバレッジでゲノム配列を得ることができるが、一方で後者は異なる生物種由来の配列がミックスされている分、非常に冗長性が低いことが多い。さらに、第2世代のシーケンシングテクノロジーではリード長が短い。そのため、メタゲノムシーケンスリードのアセンブリでは多くがエラーが混入し、得られた結果の信頼性が低くなる事がある。特に反復配列の存在は、このようなミスアセンブリを誘発しやすい[20]。また、異なる複数種由来の配列を誤ってアセンブリしてしまう、いわゆるキメラコンティグを作り出すようなミスアセンブリも起きる[21]

このようなエラーを最小限にし、かつできるだけ長くアセンブリが繋がるように、様々なツールが現在も開発されている。様々なアセンブリツールが提案されているが、その多くはアセンブリの精度を向上させるためにペアエンドリードの情報を使用する。PhrapやCelera Assemblerなどの一部のプログラムは、単一のゲノムをアセンブルするために使用するように設計されているにも関わらず、メタゲノムデータセットにおいても良好なアセンブル結果を生み出す[22]。Velvetなどの他のプログラムはde Bruijnグラフを使用しており、第2世代のシーケンスで生成される短いリード用に最適化されている[23][24]。リファレンスゲノムを使用することでアセンブリを改善するアプローチも提案されているが、この方法は既にゲノムが読まれている限られた微生物系統にした適応できない[25]。アセンブリが作成された後、そのコンティグがどの系統に由来しているのかを推定することも、技術上の課題である[26]

配列からの遺伝子予測 

アセンブルされたコンティグから遺伝子配列(コーディング領域)をアノテーションするには、大きく分けて2つのアプローチが取られる[27]。1つ目は、BLAST等を用いた配列類似性検索により、 シーケンスデータベース上で公開されている遺伝子との配列類似性に基づいて遺伝子を識別する方法である。この方法は、例えばMEGAN 4というツールで実装されている[28]。2番目の方法としては、関連する生物種に由来した既知の配列情報から遺伝子配列に関する特徴量を学習し、コンティグ配列から直接コーディング領域を予測する方法である。例えばGeneMarkやGLIMMERといったプログラムで採用されている[29]。このab initioな予測方法では、配列データベースに類似したものがない新規性のあるコーディング領域も検出できることである[30]

配列の系統推定

2016に提唱された「生命の木」[31]

遺伝子アノテーションにより「それが何なのか(とういう機能を持つ遺伝子なのか)」という情報がわかる一方で、配列の由来系統の推定により「それが誰なのか(どういう系統群に由来した配列なのか)」という情報が得られる[32]。メタゲノム内でコミュニティの構成と機能を結び付けるためには、アセンブリされる前のショットガンリードあるいはアセンブリ後に得られるコンティグ配列が、元々どのような生物系統に由来していたのかを推定する、配列の由来系統推定を行う必要がある。配列類似性に基づく方法としては、BLASTなどのツールと既存の公共データベースを利用して、各系統に特異的なマーカー配列や類似したゲノム上の配列を検索することで、その配列やコンティグがどのような系統に由来していたのかを推定する。このアプローチはMEGANで実装されている[33]。異なる手法としては補間マルコフモデルを使用した方法があり、PhymmBLなどで実装されている。MetaPhlAnおよびAMPHORAでは、より高速に生物の相対存在量を推定するための、マーカー遺伝子をベースとした手法が実装されている[34]mOTU[35][36]やMetaPhyler[37]などのツールでは、ユニバーサルなマーカー遺伝子を使用して原核生物種のプロファイルを作成する。mOTUsプロファイラーを使用すると、参照ゲノムなしで種をプロファイリングでき、微生物群集の多様性の推定ができる[38]SLIMMなどの手法では、個々のリファレンスゲノムにおけるリードカバレッジの分布を調べることで、偽陽性を最小限に抑えて信頼性のある相対存在量を計算する[39]。一方、組成に基づくビニングの手法では、オリゴヌクレオチドの頻度やコドン使用頻度のバイアスなどの情報を利用する[40]。配列の由来系統が推定機でうことで、はじめて元々のサンプルに含まれていたコミュニティの多様性が比較分析できるようになる。

データ解析

歴史と背景

従来のDNAシーケンスは、単一の細菌株を培養することが最初に必要であった。しかし初期のメタゲノミクスの研究により、多くの環境には培養が不可能でシーケンスが困難な微生物が多く存在することが明らかにされた。これらの初期の研究では16S rRNA遺伝子配列を調べることに焦点が当てられた。この遺伝子配列は比較的短く、原核生物種内において保存性が高い一方で、異なる種間で変化が見られるため、ゲノム全体をシーケンスするよりも簡便に環境中の微生物群集を系統的に調べることが出来る。多くの環境サンプルに対して16S rRNA遺伝子配列のDNAシーケンスが実施され、その結果、培養されている既知の生物種には当てはまらない配列が多数見つかった。このことはすなわち、環境中には極めて多様な未培養系統群の微生物が存在していることを示している。このようにして16S rRNA遺伝子配列を培養を経ず環境中から直接得た研究により、培養を元にした方法で見つけられる試料中の真性細菌古細菌は全体の1%に満たないことが論文で報告された[41]

PCRを使用してリボソームRNA配列の多様性を調査するという初期の分子生物学的な研究は、ノーマンR.ペースと同僚によって行われた[42]。 これらの先駆的な研究から得られた知見から発展して、環境試料から直接DNAをクローニングするアイデアが1985年に発表された[43]。そして、実際に大西洋の海水という環境サンプルからDNAを抽出してびクローニングした最初の報告が、Paceらによって1991年に発表された[44]。これらがPCR偽陽性ではないことが相当な努力により示され、未探索の系統群によって形作られる複雑な微生物コミュニティの存在が示唆された。 この方法論は、高度に保存された非タンパク質コード遺伝子の探索に限定されていたが、培養方法で知られていたよりもはるかに複雑な多様性が存在するという、初期の微生物形態ベースの観察結果をサポートしていた。 すぐその後、Healyは実験室に置いていた乾燥したの上で増殖していた環境微生物の複合培養物から構築した「野生ライブラリ」(zoolibraries)とでも呼ぶべきものから、機能遺伝子をメタゲノム的に単離したと1995年に報告した[45]。その後Edward DeLongらは、海洋サンプルからライブラリー構築と16S rRNAシーケンスを実施し、環境中の原核生物を系統的に解析する研究の基礎を築いた[46]

2002年、 Mya BreitbartとForest Rohwerらは、ショットガンシーケンスを使用して、200リットルの海水に5000種類以上のウイルスが含まれていることを示した[47]。その後の研究により、ヒトの糞便には1000種以上のウイルス種が存在し、また海洋堆積物1キログラムあたりには多くのバクテリオファージを含む百万種ものウイルスが存在する可能性があることが示された。これらの研究で見つかったウイルスは大半が新種であった。 2004年には、Gene TysonとJill Banfieldらは、 酸性の鉱山排水システムから抽出された細菌叢DNAの配列を決定した[48]。この研究では、培養が試みられつつも成功していなかった少数の細菌および古細菌系統の、完全またはほぼ完全なゲノムが得られている。

2003年からは、 ヒトゲノムプロジェクトに並行して進められた民間資金ベースのプロジェクトをリーダーとして率いていたCraig Venterが、 グローバル・オーシャン・サンプリング・エクスペディション (GOS)を主導し、世界中を周回する旅を通じてメタゲノムサンプルを蒐集した。得られたサンプルはすべて、新規なゲノム(すなわち新規生物)が特定されることを期待して、ショットガンシーケンスが実施された。 これに先駆けて実施されたパイロットプロジェクトでは、サルガッソー海で採取したサンプルの解析を行い、約2000種もの異なるDNAを発見し、内148種は新規な細菌種に由来すると考えられた[49]。ベンターは地球を一周し、米国西海岸を集中的にサンプリングし、さらに2年間をかけてバルト海地中海黒海でサンプリングを行った。この間に収集されたメタゲノムデータの分析により海洋表層の細菌層は、富栄養/貧栄養の環境条件に適応した分類群と、比較的少ないがより豊富で広く分布する主にプランクトンで構成される分類群という、2つのグループによって構成されていることが判明した[50]

2005年、 ペンシルベニア州立大学のStephan C. Schusterらは、ハイスループットシーケンスで生成された環境サンプルの最初のシーケンスを公開した[51]。これは454 Life Sciences開発した超並列パイロシーケンスによるものであった。 この分野の別の初期の論文は、2006年にサンディエゴ州立大学のRobert EdwardsとForest Rohwerらよって発表された[52]

関連項目 

外部リンク

脚注

  1. ^ 木暮(2011). "海洋における環境ゲノミクス". 地球環境 Vol. 16 No. 1 71-79.
  2. ^ 工藤俊章 『難培養微生物の利用技術』 シーエムシー出版、2010年、はじめに
  3. ^ Peach, Ken (2007-10-02). “Welcome to PMC Physics A”. PMC Physics A 1 (1). doi:10.1186/1754-0410-1-1. ISSN 1754-0410. http://dx.doi.org/10.1186/1754-0410-1-1. 
  4. ^ a b Handelsman, J.; Rondon, M. R.; Brady, S. F.; Clardy, J.; Goodman, R. M. (1998-10). “Molecular biological access to the chemistry of unknown soil microbes: a new frontier for natural products”. Chemistry & Biology 5 (10): R245–249. doi:10.1016/s1074-5521(98)90108-9. ISSN 1074-5521. PMID 9818143. https://www.ncbi.nlm.nih.gov/pubmed/9818143. 
  5. ^ Chen, K.; Pachter, L. (2005). "Bioinformatics for Whole-Genome Shotgun Sequencing of Microbial Communities". PLoS Computational Biology 1 (2): e24. doi:10.1371/journal.pcbi.0010024
  6. ^ Thomas, T.; Gilbert, J.; Meyer, F. (2012). “Metagenomics - a guide from sampling to data analysis”. Microbial Informatics and Experimentation 2 (1): 3. doi:10.1186/2042-5783-2-3. PMC 3351745. PMID 22587947. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3351745/. 
  7. ^ Poinar, Hendrik N.; Schwarz, Carsten; Qi, Ji; Shapiro, Beth; MacPhee, Ross D. E.; Buigues, Bernard; Tikhonov, Alexei; Huson, Daniel H. et al. (2006-01-20). “Metagenomics to Paleogenomics: Large-Scale Sequencing of Mammoth DNA” (英語). Science 311 (5759): 392–394. doi:10.1126/science.1123360. ISSN 0036-8075. https://www.sciencemag.org/lookup/doi/10.1126/science.1123360. 
  8. ^ Rodrigue, Sébastien; Materna, Arne C.; Timberlake, Sonia C.; Blackburn, Matthew C.; Malmstrom, Rex R.; Alm, Eric J.; Chisholm, Sallie W. (2010-07-28). Gilbert, Jack Anthony. ed. “Unlocking Short Read Sequencing for Metagenomics” (英語). PLoS ONE 5 (7): e11840. doi:10.1371/journal.pone.0011840. ISSN 1932-6203. PMC PMC2911387. PMID 20676378. https://dx.plos.org/10.1371/journal.pone.0011840. 
  9. ^ Schuster, Stephan C (2008-01). “Next-generation sequencing transforms today's biology” (英語). Nature Methods 5 (1): 16–18. doi:10.1038/nmeth1156. ISSN 1548-7091. http://www.nature.com/articles/nmeth1156. 
  10. ^ “Metagenomics versus Moore's law” (英語). Nature Methods 6 (9): 623–623. (2009-09). doi:10.1038/nmeth0909-623. ISSN 1548-7091. http://www.nature.com/articles/nmeth0909-623. 
  11. ^ a b Hiraoka, Satoshi; Yang, Ching-chia; Iwasaki, Wataru (2016). “Metagenomics and Bioinformatics in Microbial Ecology: Current Status and Beyond” (英語). Microbes and environments 31 (3): 204–212. doi:10.1264/jsme2.ME16024. ISSN 1342-6311. PMC PMC5017796. PMID 27383682. https://www.jstage.jst.go.jp/article/jsme2/31/3/31_ME16024/_article. 
  12. ^ Watson, Mick; Roehe, Rainer; Walker, Alan W.; Dewhurst, Richard J.; Snelling, Timothy J.; Ivan Liachko; Langford, Kyle W.; Press, Maximilian O. et al. (28 February 2018). “Assembly of 913 microbial genomes from metagenomic sequencing of the cow rumen” (英語). Nature Communications 9 (1): 870. Bibcode2018NatCo...9..870S. doi:10.1038/s41467-018-03317-6. ISSN 2041-1723. PMC 5830445. PMID 29491419. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5830445/. 
  13. ^ Hess, M.; Sczyrba, A.; Egan, R.; Kim, T.-W.; Chokhawala, H.; Schroth, G.; Luo, S.; Clark, D. S. et al. (2011-01-28). “Metagenomic Discovery of Biomass-Degrading Genes and Genomes from Cow Rumen” (英語). Science 331 (6016): 463–467. doi:10.1126/science.1200387. ISSN 0036-8075. https://www.sciencemag.org/lookup/doi/10.1126/science.1200387. 
  14. ^ MetaHIT Consortium; Qin, Junjie; Li, Ruiqiang; Raes, Jeroen; Arumugam, Manimozhiyan; Burgdorf, Kristoffer Solvsten; Manichanh, Chaysavanh; Nielsen, Trine et al. (2010-03). “A human gut microbial gene catalogue established by metagenomic sequencing” (英語). Nature 464 (7285): 59–65. doi:10.1038/nature08821. ISSN 0028-0836. PMC PMC3779803. PMID 20203603. http://www.nature.com/articles/nature08821. 
  15. ^ Oulas, A; Pavloudi, C; Polymenakou, P; Pavlopoulos, GA; Papanikolaou, N; Kotoulas, G; Arvanitidis, C; Iliopoulos, I (2015). “Metagenomics: tools and insights for analyzing next-generation sequencing data derived from biodiversity studies”. Bioinformatics and Biology Insights 9: 75–88. doi:10.4137/BBI.S12462. PMC 4426941. PMID 25983555. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4426941/. 
  16. ^ Mende, Daniel R.; Alison S. Waller; Shinichi Sunagawa; Aino I. Järvelin; Michelle M. Chan; Manimozhiyan Arumugam; Jeroen Raes; Peer Bork (23 February 2012). “Assessment of Metagenomic Assembly Using Simulated Next Generation Sequencing Data”. PLoS ONE 7 (2): e31386. Bibcode2012PLoSO...731386M. doi:10.1371/journal.pone.0031386. ISSN 1932-6203. PMC 3285633. PMID 22384016. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3285633/. 
  17. ^ Balzer, S.; Malde, K.; Grohme, M. A.; Jonassen, I. (2013). “Filtering duplicate reads from 454 pyrosequencing data”. Bioinformatics 29 (7): 830–836. doi:10.1093/bioinformatics/btt047. PMC 3605598. PMID 23376350. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3605598/. 
  18. ^ Mohammed, MH; Sudha Chadaram; Dinakar Komanduri; Tarini Shankar Ghosh; Sharmila S Mande (2011). “Eu-Detect: an algorithm for detecting eukaryotic sequences in metagenomic data sets”. Journal of Biosciences 36 (4): 709–717. doi:10.1007/s12038-011-9105-2. PMID 21857117. 
  19. ^ R, Schmeider; R Edwards (2011). “Fast identification and removal of sequence contamination from genomic and metagenomic datasets”. PLoS ONE 6 (3): e17288. Bibcode2011PLoSO...617288S. doi:10.1371/journal.pone.0017288. PMC 3052304. PMID 21408061. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3052304/. 
  20. ^ Kunin, V.; Copeland, A.; Lapidus, A.; Mavromatis, K.; Hugenholtz, P. (2008-12-01). “A Bioinformatician's Guide to Metagenomics” (英語). Microbiology and Molecular Biology Reviews 72 (4): 557–578. doi:10.1128/MMBR.00009-08. ISSN 1092-2172. PMC PMC2593568. PMID 19052320. http://mmbr.asm.org/cgi/doi/10.1128/MMBR.00009-08. 
  21. ^ Burton, Joshua N.; Liachko, Ivan; Dunham, Maitreya J.; Shendure, Jay (2014-07). “Species-Level Deconvolution of Metagenome Assemblies with Hi-C–Based Contact Probability Maps” (英語). G3&#58; Genes|Genomes|Genetics 4 (7): 1339–1346. doi:10.1534/g3.114.011825. ISSN 2160-1836. PMC PMC4455782. PMID 24855317. http://g3journal.org/lookup/doi/10.1534/g3.114.011825. 
  22. ^ Wooley, John C.; Godzik, Adam; Friedberg, Iddo (2010-02-26). Bourne, Philip E.. ed. “A Primer on Metagenomics” (英語). PLoS Computational Biology 6 (2): e1000667. doi:10.1371/journal.pcbi.1000667. ISSN 1553-7358. PMC PMC2829047. PMID 20195499. https://dx.plos.org/10.1371/journal.pcbi.1000667. 
  23. ^ Zerbino, D. R.; Birney, E. (2008-02-21). “Velvet: Algorithms for de novo short read assembly using de Bruijn graphs” (英語). Genome Research 18 (5): 821–829. doi:10.1101/gr.074492.107. ISSN 1088-9051. PMC PMC2336801. PMID 18349386. http://www.genome.org/cgi/doi/10.1101/gr.074492.107. 
  24. ^ Namiki, Toshiaki; Hachiya, Tsuyoshi; Tanaka, Hideaki; Sakakibara, Yasubumi (2012-11-01). “MetaVelvet: an extension of Velvet assembler to de novo metagenome assembly from short sequence reads” (英語). Nucleic Acids Research 40 (20): e155–e155. doi:10.1093/nar/gks678. ISSN 1362-4962. PMC PMC3488206. PMID 22821567. https://academic.oup.com/nar/article/40/20/e155/2414459. 
  25. ^ Kunin, V.; Copeland, A.; Lapidus, A.; Mavromatis, K.; Hugenholtz, P. (2008-12-01). “A Bioinformatician's Guide to Metagenomics” (英語). Microbiology and Molecular Biology Reviews 72 (4): 557–578. doi:10.1128/MMBR.00009-08. ISSN 1092-2172. PMC PMC2593568. PMID 19052320. http://mmbr.asm.org/cgi/doi/10.1128/MMBR.00009-08. 
  26. ^ Burton, Joshua N.; Liachko, Ivan; Dunham, Maitreya J.; Shendure, Jay (2014-07). “Species-Level Deconvolution of Metagenome Assemblies with Hi-C–Based Contact Probability Maps” (英語). G3&#58; Genes|Genomes|Genetics 4 (7): 1339–1346. doi:10.1534/g3.114.011825. ISSN 2160-1836. PMC PMC4455782. PMID 24855317. http://g3journal.org/lookup/doi/10.1534/g3.114.011825. 
  27. ^ Kunin, V.; Copeland, A.; Lapidus, A.; Mavromatis, K.; Hugenholtz, P. (2008-12-01). “A Bioinformatician's Guide to Metagenomics” (英語). Microbiology and Molecular Biology Reviews 72 (4): 557–578. doi:10.1128/MMBR.00009-08. ISSN 1092-2172. PMC PMC2593568. PMID 19052320. http://mmbr.asm.org/cgi/doi/10.1128/MMBR.00009-08. 
  28. ^ Huson, D. H.; Mitra, S.; Ruscheweyh, H.-J.; Weber, N.; Schuster, S. C. (2011-09-01). “Integrative analysis of environmental sequences using MEGAN4” (英語). Genome Research 21 (9): 1552–1560. doi:10.1101/gr.120618.111. ISSN 1088-9051. PMC PMC3166839. PMID 21690186. http://genome.cshlp.org/cgi/doi/10.1101/gr.120618.111. 
  29. ^ Zhu, Wenhan; Lomsadze, Alexandre; Borodovsky, Mark (2010-07). “Ab initio gene identification in metagenomic sequences” (英語). Nucleic Acids Research 38 (12): e132–e132. doi:10.1093/nar/gkq275. ISSN 1362-4962. PMC PMC2896542. PMID 20403810. https://academic.oup.com/nar/article-lookup/doi/10.1093/nar/gkq275. 
  30. ^ Wooley, John C.; Godzik, Adam; Friedberg, Iddo (2010-02-26). Bourne, Philip E.. ed. “A Primer on Metagenomics” (英語). PLoS Computational Biology 6 (2): e1000667. doi:10.1371/journal.pcbi.1000667. ISSN 1553-7358. PMC PMC2829047. PMID 20195499. https://dx.plos.org/10.1371/journal.pcbi.1000667. 
  31. ^ Hug, Laura A.; Baker, Brett J.; Anantharaman, Karthik; Brown, Christopher T.; Probst, Alexander J.; Castelle, Cindy J.; Butterfield, Cristina N.; Hernsdorf, Alex W. et al. (11 April 2016). “A new view of the tree of life”. Nature Microbiology 1 (5): 16048. doi:10.1038/nmicrobiol.2016.48. PMID 27572647. 
  32. ^ Konopka, Allan (2009-11). “What is microbial community ecology?” (英語). The ISME Journal 3 (11): 1223–1230. doi:10.1038/ismej.2009.88. ISSN 1751-7362. http://www.nature.com/articles/ismej200988. 
  33. ^ Huson, D. H.; Auch, A. F.; Qi, J.; Schuster, S. C. (2007-02-06). “MEGAN analysis of metagenomic data” (英語). Genome Research 17 (3): 377–386. doi:10.1101/gr.5969107. ISSN 1088-9051. PMC PMC1800929. PMID 17255551. http://www.genome.org/cgi/doi/10.1101/gr.5969107. 
  34. ^ Segata, Nicola; Waldron, Levi; Ballarini, Annalisa; Narasimhan, Vagheesh; Jousson, Olivier; Huttenhower, Curtis (2012-08). “Metagenomic microbial community profiling using unique clade-specific marker genes” (英語). Nature Methods 9 (8): 811–814. doi:10.1038/nmeth.2066. ISSN 1548-7091. PMC PMC3443552. PMID 22688413. http://www.nature.com/articles/nmeth.2066. 
  35. ^ Liu, Bo; Gibbons, Theodore; Ghodsi, Mohammad; Treangen, Todd; Pop, Mihai (2011). “Accurate and fast estimation of taxonomic profiles from metagenomic shotgun sequences” (英語). BMC Genomics 12 (Suppl 2): S4. doi:10.1186/1471-2164-12-S2-S4. ISSN 1471-2164. PMC PMC3194235. PMID 21989143. http://bmcgenomics.biomedcentral.com/articles/10.1186/1471-2164-12-S2-S4. 
  36. ^ Milanese, Alessio; Mende, Daniel R; Paoli, Lucas; Salazar, Guillem; Ruscheweyh, Hans-Joachim; Cuenca, Miguelangel; Hingamp, Pascal; Alves, Renato et al. (2019-12). “Microbial abundance, activity and population genomic profiling with mOTUs2” (英語). Nature Communications 10 (1): 1014. doi:10.1038/s41467-019-08844-4. ISSN 2041-1723. PMC PMC6399450. PMID 30833550. http://www.nature.com/articles/s41467-019-08844-4. 
  37. ^ Liu, Bo; Gibbons, Theodore; Ghodsi, Mohammad; Treangen, Todd; Pop, Mihai (2011). “Accurate and fast estimation of taxonomic profiles from metagenomic shotgun sequences” (英語). BMC Genomics 12 (Suppl 2): S4. doi:10.1186/1471-2164-12-S2-S4. ISSN 1471-2164. PMC PMC3194235. PMID 21989143. http://bmcgenomics.biomedcentral.com/articles/10.1186/1471-2164-12-S2-S4. 
  38. ^ Milanese, Alessio; Mende, Daniel R; Paoli, Lucas; Salazar, Guillem; Ruscheweyh, Hans-Joachim; Cuenca, Miguelangel; Hingamp, Pascal; Alves, Renato et al. (2019-12). “Microbial abundance, activity and population genomic profiling with mOTUs2” (英語). Nature Communications 10 (1): 1014. doi:10.1038/s41467-019-08844-4. ISSN 2041-1723. PMC PMC6399450. PMID 30833550. http://www.nature.com/articles/s41467-019-08844-4. 
  39. ^ Dadi, Temesgen Hailemariam; Renard, Bernhard Y.; Wieler, Lothar H.; Semmler, Torsten; Reinert, Knut (2017-03-28). “SLIMM: species level identification of microorganisms from metagenomes” (英語). PeerJ 5: e3138. doi:10.7717/peerj.3138. ISSN 2167-8359. PMC PMC5372838. PMID 28367376. https://peerj.com/articles/3138. 
  40. ^ Wooley, John C.; Godzik, Adam; Friedberg, Iddo (2010-02-26). Bourne, Philip E.. ed. “A Primer on Metagenomics” (英語). PLoS Computational Biology 6 (2): e1000667. doi:10.1371/journal.pcbi.1000667. ISSN 1553-7358. PMC PMC2829047. PMID 20195499. https://dx.plos.org/10.1371/journal.pcbi.1000667. 
  41. ^ Hugenholz, P; Goebel BM; Pace NR (1 September 1998). "Impact of Culture-Independent Studies on the Emerging Phylogenetic View of Bacterial Diversity". J. Bacteriol 180(18): 4765–74. PMC 107498.PMID 9733676
  42. ^ Lane, D. J.; Pace, B.; Olsen, G. J.; Stahl, D. A.; Sogin, M. L.; Pace, N. R. (1985-10). “Rapid determination of 16S ribosomal RNA sequences for phylogenetic analyses”. Proceedings of the National Academy of Sciences of the United States of America 82 (20): 6955–6959. doi:10.1073/pnas.82.20.6955. ISSN 0027-8424. PMC PMC391288. PMID 2413450. https://www.ncbi.nlm.nih.gov/pubmed/2413450. 
  43. ^ Pace, Norman R.; Stahl, David A.; Lane, David J.; Olsen, Gary J. (1986). Marshall, K. C.. ed (英語). Advances in Microbial Ecology. Boston, MA: Springer US. pp. 1–55. doi:10.1007/978-1-4757-0611-6_1. ISBN 978-1-4757-0611-6. https://doi.org/10.1007/978-1-4757-0611-6_1 
  44. ^ Schmidt, T M; DeLong, E F; Pace, N R (1991). “Analysis of a marine picoplankton community by 16S rRNA gene cloning and sequencing.” (英語). Journal of Bacteriology 173 (14): 4371–4378. doi:10.1128/JB.173.14.4371-4378.1991. ISSN 0021-9193. PMC PMC208098. PMID 2066334. https://jb.asm.org/content/173/14/4371. 
  45. ^ Healy, F. G.; Ray, R. M.; Aldrich, H. C.; Wilkie, A. C.; Ingram, L. O.; Shanmugam, K. T. (1995-09). “Direct isolation of functional genes encoding cellulases from the microbial consortia in a thermophilic, anaerobic digester maintained on lignocellulose” (英語). Applied Microbiology and Biotechnology 43 (4): 667–674. doi:10.1007/BF00164771. ISSN 0175-7598. http://link.springer.com/10.1007/BF00164771. 
  46. ^ Stein, J L; Marsh, T L; Wu, K Y; Shizuya, H; DeLong, E F (1996). “Characterization of uncultivated prokaryotes: isolation and analysis of a 40-kilobase-pair genome fragment from a planktonic marine archaeon.” (英語). Journal of bacteriology 178 (3): 591–599. doi:10.1128/JB.178.3.591-599.1996. ISSN 0021-9193. PMC PMC177699. PMID 8550487. https://jb.asm.org/content/178/3/591. 
  47. ^ Breitbart, M.; Salamon, P.; Andresen, B.; Mahaffy, J. M.; Segall, A. M.; Mead, D.; Azam, F.; Rohwer, F. (2002-10-29). “Genomic analysis of uncultured marine viral communities” (英語). Proceedings of the National Academy of Sciences 99 (22): 14250–14255. doi:10.1073/pnas.202488399. ISSN 0027-8424. PMC PMC137870. PMID 12384570. http://www.pnas.org/cgi/doi/10.1073/pnas.202488399. 
  48. ^ Tyson, Gene W.; Chapman, Jarrod; Hugenholtz, Philip; Allen, Eric E.; Ram, Rachna J.; Richardson, Paul M.; Solovyev, Victor V.; Rubin, Edward M. et al. (2004-03). “Community structure and metabolism through reconstruction of microbial genomes from the environment” (英語). Nature 428 (6978): 37–43. doi:10.1038/nature02340. ISSN 0028-0836. http://www.nature.com/articles/nature02340. 
  49. ^ Venter, J. C. (2004-04-02). “Environmental Genome Shotgun Sequencing of the Sargasso Sea” (英語). Science 304 (5667): 66–74. doi:10.1126/science.1093857. ISSN 0036-8075. https://www.sciencemag.org/lookup/doi/10.1126/science.1093857. 
  50. ^ Yooseph, Shibu; Nealson, Kenneth H.; Rusch, Douglas B.; McCrow, John P.; Dupont, Christopher L.; Kim, Maria; Johnson, Justin; Montgomery, Robert et al. (2010-11). “Genomic and functional adaptation in surface ocean planktonic prokaryotes” (英語). Nature 468 (7320): 60–66. doi:10.1038/nature09530. ISSN 0028-0836. http://www.nature.com/articles/nature09530. 
  51. ^ Poinar, Hendrik N.; Schwarz, Carsten; Qi, Ji; Shapiro, Beth; MacPhee, Ross D. E.; Buigues, Bernard; Tikhonov, Alexei; Huson, Daniel H. et al. (2006-01-20). “Metagenomics to Paleogenomics: Large-Scale Sequencing of Mammoth DNA” (英語). Science 311 (5759): 392–394. doi:10.1126/science.1123360. ISSN 0036-8075. https://www.sciencemag.org/lookup/doi/10.1126/science.1123360. 
  52. ^ Edwards, Robert A; Rodriguez-Brito, Beltran; Wegley, Linda; Haynes, Matthew; Breitbart, Mya; Peterson, Dean M; Saar, Martin O; Alexander, Scott et al. (2006-12). “Using pyrosequencing to shed light on deep mine microbial ecology” (英語). BMC Genomics 7 (1): 57. doi:10.1186/1471-2164-7-57. ISSN 1471-2164. PMC PMC1483832. PMID 16549033. https://bmcgenomics.biomedcentral.com/articles/10.1186/1471-2164-7-57.