コンテンツにスキップ

「リファレンスゲノム」の版間の差分

出典: フリー百科事典『ウィキペディア(Wikipedia)』
削除された内容 追加された内容
sakujo
タグ: 置換
Yamagu (会話 | 投稿記録)
ページ「Reference genome」の翻訳により作成
1行目: 1行目:
[[ファイル:Wellcome_genome_bookcase.png|右|サムネイル|250x250ピクセル|ロンドンのWellcome Collectionで展示されているヒトの最初に決定されたリファレンスゲノムを印刷して製本したもの]]
<!-- 削除についての議論が終了するまで、下記のメッセージ部分は除去しないでください。もしあなたがこのテンプレートを除去した場合、差し戻されます。またページが保護されることもあります。 -->
リファレンスゲノム(参照ゲノム配列などとも呼ばれる)とは、ゲノム解読プロジェクトなどで解読された大量の塩基配列を研究者がアセンブルし、その生物の種の理想的な個体の遺伝子セットの代表例として構築し、各種の情報を整備したデータベースでである(広義のデータベースであって、必ずしも実装はリレーショナルデータベース等ではない)。
{{Sakujo/本体|2023年4月27日|リファレンスゲノム}}

<!-- 削除についての議論が終了するまで、上記部分は削除しないでください。 -->
リファレンスゲノムは、複数のサンプルのDNAシークエンシングデータからアセンブル(組み立て)されるため、アセンブルされた塩基配列は任意の単一の個体の遺伝子セットを正確に表しているわけではない(ただし、各サンプルからの異なるDNA配列がハプロイド配列として提供される場合はある)。例えば、最新の人間のリファレンスゲノム(アセンブリGRCh38 / hg38)は、60人以上のゲノムのクローンライブラリに由来している<ref name="GRC_FAQ2">{{cite web |title=How many individuals were sequenced for the human reference genome assembly? |url=https://www.ncbi.nlm.nih.gov/grc/help/faq/#human-reference-genome-individuals |website=Genome Reference Consortium |access-date=7 April 2022}}</ref>。
{{Copyrights}}

現在、ウイルス、バクテリア、菌類、植物、動物の複数の種に対するリファレンスゲノムが公開されている。リファレンスゲノムは、新しいゲノムをアセンブルする際のガイドとして利用される他、RNA-Seqなどの遺伝子発現解析、GWASなどの遺伝統計解析など、様々の用途に利用される。

初期のヒトゲノムプロジェクトなどでは膨大なコストががかかっていたが、次世代シーケンサーや第3世代シーケンサーなどの登場により、現在はそれよりもはるかに迅速かつ安価に構築することができる。リファレンスゲノムは、EnsemblやUCSC Genome Browser<ref name="ensembl2">{{cite journal|date=January 2008|title=Ensembl 2008|journal=Nucleic Acids Research|volume=36|issue=Database issue|pages=D707–D714|doi=10.1093/nar/gkm988|pmc=2238821|pmid=18000006|vauthors=Flicek P, Aken BL, Beal K, Ballester B, Caccamo M, Chen Y, Clarke L, Coates G, Cunningham F, Cutts T, Down T, Dyer SC, Eyre T, Fitzgerald S, Fernandez-Banet J, Gräf S, Haider S, Hammond M, Holland R, Howe KL, Howe K, Johnson N, Jenkinson A, Kähäri A, Keefe D, Kokocinski F, Kulesha E, Lawson D, Longden I, Megy K, Meidl P, Overduin B, Parker A, Pritchard B, Prlic A, Rice S, Rios D, Schuster M, Sealy I, Slater G, Smedley D, Spudich G, Trevanion S, Vilella AJ, Vogel J, White S, Wood M, Birney E, Cox T, Curwen V, Durbin R, Fernandez-Suarez XM, Herrero J, Hubbard TJ, Kasprzyk A, Proctor G, Smith J, Ureta-Vidal A, Searle S|display-authors=6}}</ref>などのWebサイト上でWebブラウザを使用してアクセスできる他、IGVなどのアプリケーションを利用して見ることもできる。また、そのようなWebアプリケーションやIGVのようなリファレンスゲノムを表示できるソフトウェアはゲノムブラウザなどと呼ばれる。

== リファレンスゲノムの特性 ==

=== 長さの測定 ===
ゲノムの長さは、何通りかの表現方法がある。 簡単な方法は、アセンブリ中の塩基数を数えるもので<ref>{{cite web |title=Help - Glossary - Homo sapiens - Ensembl genome browser 87 |url=http://www.ensembl.org/Help/Glossary?id=230 |website=www.ensembl.org}}</ref>、物理的距離、物理位置などと呼ばれることがある。



ゴールデンパスと呼ばれるUCSCのとった手法では、ハプロタイプ領域[4][5] やPseudo autosomalなどの冗長領域を除外した長さを用いている。これは通常、物理的なマップ上にハプロタイプのシークエンシング情報を重ねるようにして構築され、スキャッフォールド(骨格)の情報とすりあわされている。これはゲノムがどのように見えるかの「最良の推定値」であり、通常はギャップを含むため、典型的な塩基対アセンブリよりも長くなる[6]。

=== Contigs and scaffolds ===
[[ファイル:Contigs_and_Scaffolds.png|サムネイル|300x300ピクセル|Diagram of reads arrangement, forming [[コンティグ|contigs]] and these can be assembled into [[足場|scaffolds]] in the complete process of sequencing and assembly of a reference genome. The gap between contig 1 and 2 is indicated as sequenced, forming a scaffold, while the other gap is not sequenced and separates scaffold 1 and 2.]]
Reference genomes assembly requires reads overlapping, creating [[コンティグ|contigs]], which are contiguous DNA regions of [[コンセンサス配列|consensus sequences]].<ref name="textbook">{{Cite book |last=Gibson |first=Greg |last2=Muse |first2=Spencer V. |title=A Primer of Genome Science |edition=3rd |page=84 |publisher=Sinauer Associates |year=2009 |isbn=978-0-878-93236-8}}</ref> If there are gaps between contigs, these can be filled by scaffolding, either by contigs amplification with PCR and sequencing or by Bacterial Artificial Chromosome (BAC) cloning.<ref>{{Cite web |title=Help - Glossary - Homo_sapiens - Ensembl genome browser 107 |url=http://www.ensembl.org/Help/Glossary |access-date=2022-09-26 |website=www.ensembl.org}}</ref><ref name="textbook" /> Filling these gaps is not always possible, in this case multiple scaffolds are created in a reference assembly.<ref>{{Cite journal|last=Luo|first=Junwei|last2=Wei|first2=Yawei|last3=Lyu|first3=Mengna|last4=Wu|first4=Zhengjiang|last5=Liu|first5=Xiaoyan|last6=Luo|first6=Huimin|last7=Yan|first7=Chaokun|date=2021-09-02|title=A comprehensive review of scaffolding methods in genome assembly|url=https://pubmed.ncbi.nlm.nih.gov/33634311/|journal=Briefings in Bioinformatics|volume=22|issue=5|pages=bbab033|doi=10.1093/bib/bbab033|issn=1477-4054|pmid=33634311}}</ref> Scaffolds are classified in 3 types: 1) Placed, whose chromosome, genomic coordinates and orientations are known; 2) Unlocalised, when only the chromosome is known but not the coordinates or orientation; 3) Unplaced, whose chromosome is not known.<ref>{{Cite web |title=Chromosomes, scaffolds and contigs |url=http://www.ensembl.org/info/genome/genebuild/chromosomes_scaffolds_contigs.html |access-date=2022-09-26 |website=www.ensembl.org}}</ref>

The number of [[コンティグ|contigs]] and [[足場|scaffolds]], as well as their average lengths are relevant parameters, among many others, for a reference genome assembly quality assessment since they provide information about the continuity of the final mapping from the original genome. The smaller the number of scaffolds per chromosome, until a single scaffold occupies an entire chromosome, the greater the continuity of the genome assembly.<ref>{{Cite journal|last=Meader|first=Stephen|last2=Hillier|first2=LaDeana W.|last3=Locke|first3=Devin|last4=Ponting|first4=Chris P.|last5=Lunter|first5=Gerton|date=May 2010|title=Genome assembly quality: Assessment and improvement using the neutral indel model|journal=Genome Research|volume=20|issue=5|pages=675–684|doi=10.1101/gr.096966.109|issn=1088-9051|pmc=2860169|pmid=20305016}}</ref><ref>{{Cite journal|last=Rice|first=Edward S.|last2=Green|first2=Richard E.|date=2019-02-15|title=New Approaches for Genome Assembly and Scaffolding|url=https://www.annualreviews.org/doi/10.1146/annurev-animal-020518-115344|journal=Annual Review of Animal Biosciences|volume=7|issue=1|pages=17–40|language=en|doi=10.1146/annurev-animal-020518-115344|issn=2165-8102|pmid=30485757}}</ref><ref>{{Cite journal|last=Cao|first=Minh Duc|last2=Nguyen|first2=Son Hoang|last3=Ganesamoorthy|first3=Devika|last4=Elliott|first4=Alysha G.|last5=Cooper|first5=Matthew A.|last6=Coin|first6=Lachlan J. M.|date=2017-02-20|title=Scaffolding and completing genome assemblies in real-time with nanopore sequencing|journal=Nature Communications|volume=8|issue=1|pages=14515|language=en|bibcode=2017NatCo...814515C|doi=10.1038/ncomms14515|issn=2041-1723|pmc=5321748|pmid=28218240}}</ref> Other related parameters are N50 and L50. N50 is the length of the contigs/scaffolds in which the 50% of the assembly is found in fragments of this length or greater, while L50 is the number of contigs/scaffolds whose length is N50. The higher the value of N50, the lower the value of L50, and vice versa, indicating high continuity in the assembly.<ref>{{Cite journal|last=Mende|first=Daniel R.|last2=Waller|first2=Alison S.|last3=Sunagawa|first3=Shinichi|last4=Järvelin|first4=Aino I.|last5=Chan|first5=Michelle M.|last6=Arumugam|first6=Manimozhiyan|last7=Raes|first7=Jeroen|last8=Bork|first8=Peer|date=2012-02-23|title=Assessment of Metagenomic Assembly Using Simulated Next Generation Sequencing Data|journal=PLOS ONE|volume=7|issue=2|pages=e31386|bibcode=2012PLoSO...731386M|doi=10.1371/journal.pone.0031386|issn=1932-6203|pmc=3285633|pmid=22384016}}</ref><ref>{{Cite journal|last=Alhakami|first=Hind|last2=Mirebrahim|first2=Hamid|last3=Lonardi|first3=Stefano|date=2017-05-18|title=A comparative evaluation of genome assembly reconciliation tools|journal=Genome Biology|volume=18|issue=1|pages=93|doi=10.1186/s13059-017-1213-3|issn=1474-7596|pmc=5436433|pmid=28521789}}</ref><ref>{{Cite journal|last=Castro|first=Christina J.|last2=Ng|first2=Terry Fei Fan|date=2017-11-01|title=U50: A New Metric for Measuring Assembly Output Based on Non-Overlapping, Target-Specific Contigs|journal=Journal of Computational Biology|volume=24|issue=11|pages=1071–1080|doi=10.1089/cmb.2017.0013|pmc=5783553|pmid=28418726}}</ref>{{Reflist|2}}
[[Category:DNAシークエンシング]]
[[Category:バイオインフォマティクス]]
[[Category:人類遺伝学]]
[[Category:ゲノミクス]]
[[Category:ゲノムプロジェクト]]

2023年4月29日 (土) 09:55時点における版

ロンドンのWellcome Collectionで展示されているヒトの最初に決定されたリファレンスゲノムを印刷して製本したもの

リファレンスゲノム(参照ゲノム配列などとも呼ばれる)とは、ゲノム解読プロジェクトなどで解読された大量の塩基配列を研究者がアセンブルし、その生物の種の理想的な個体の遺伝子セットの代表例として構築し、各種の情報を整備したデータベースでである(広義のデータベースであって、必ずしも実装はリレーショナルデータベース等ではない)。

リファレンスゲノムは、複数のサンプルのDNAシークエンシングデータからアセンブル(組み立て)されるため、アセンブルされた塩基配列は任意の単一の個体の遺伝子セットを正確に表しているわけではない(ただし、各サンプルからの異なるDNA配列がハプロイド配列として提供される場合はある)。例えば、最新の人間のリファレンスゲノム(アセンブリGRCh38 / hg38)は、60人以上のゲノムのクローンライブラリに由来している[1]

現在、ウイルス、バクテリア、菌類、植物、動物の複数の種に対するリファレンスゲノムが公開されている。リファレンスゲノムは、新しいゲノムをアセンブルする際のガイドとして利用される他、RNA-Seqなどの遺伝子発現解析、GWASなどの遺伝統計解析など、様々の用途に利用される。

初期のヒトゲノムプロジェクトなどでは膨大なコストががかかっていたが、次世代シーケンサーや第3世代シーケンサーなどの登場により、現在はそれよりもはるかに迅速かつ安価に構築することができる。リファレンスゲノムは、EnsemblやUCSC Genome Browser[2]などのWebサイト上でWebブラウザを使用してアクセスできる他、IGVなどのアプリケーションを利用して見ることもできる。また、そのようなWebアプリケーションやIGVのようなリファレンスゲノムを表示できるソフトウェアはゲノムブラウザなどと呼ばれる。

リファレンスゲノムの特性

長さの測定

ゲノムの長さは、何通りかの表現方法がある。 簡単な方法は、アセンブリ中の塩基数を数えるもので[3]、物理的距離、物理位置などと呼ばれることがある。


ゴールデンパスと呼ばれるUCSCのとった手法では、ハプロタイプ領域[4][5] やPseudo autosomalなどの冗長領域を除外した長さを用いている。これは通常、物理的なマップ上にハプロタイプのシークエンシング情報を重ねるようにして構築され、スキャッフォールド(骨格)の情報とすりあわされている。これはゲノムがどのように見えるかの「最良の推定値」であり、通常はギャップを含むため、典型的な塩基対アセンブリよりも長くなる[6]。

Contigs and scaffolds

Diagram of reads arrangement, forming contigs and these can be assembled into scaffolds in the complete process of sequencing and assembly of a reference genome. The gap between contig 1 and 2 is indicated as sequenced, forming a scaffold, while the other gap is not sequenced and separates scaffold 1 and 2.

Reference genomes assembly requires reads overlapping, creating contigs, which are contiguous DNA regions of consensus sequences.[4] If there are gaps between contigs, these can be filled by scaffolding, either by contigs amplification with PCR and sequencing or by Bacterial Artificial Chromosome (BAC) cloning.[5][4] Filling these gaps is not always possible, in this case multiple scaffolds are created in a reference assembly.[6] Scaffolds are classified in 3 types: 1) Placed, whose chromosome, genomic coordinates and orientations are known; 2) Unlocalised, when only the chromosome is known but not the coordinates or orientation; 3) Unplaced, whose chromosome is not known.[7]

The number of contigs and scaffolds, as well as their average lengths are relevant parameters, among many others, for a reference genome assembly quality assessment since they provide information about the continuity of the final mapping from the original genome. The smaller the number of scaffolds per chromosome, until a single scaffold occupies an entire chromosome, the greater the continuity of the genome assembly.[8][9][10] Other related parameters are N50 and L50. N50 is the length of the contigs/scaffolds in which the 50% of the assembly is found in fragments of this length or greater, while L50 is the number of contigs/scaffolds whose length is N50. The higher the value of N50, the lower the value of L50, and vice versa, indicating high continuity in the assembly.[11][12][13]

  1. ^ How many individuals were sequenced for the human reference genome assembly?”. Genome Reference Consortium. 2022年4月7日閲覧。
  2. ^ “Ensembl 2008”. Nucleic Acids Research 36 (Database issue): D707–D714. (January 2008). doi:10.1093/nar/gkm988. PMC 2238821. PMID 18000006. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2238821/. 
  3. ^ Help - Glossary - Homo sapiens - Ensembl genome browser 87”. www.ensembl.org. Template:Cite webの呼び出しエラー:引数 accessdate は必須です。
  4. ^ a b Gibson, Greg; Muse, Spencer V. (2009). A Primer of Genome Science (3rd ed.). Sinauer Associates. p. 84. ISBN 978-0-878-93236-8 
  5. ^ Help - Glossary - Homo_sapiens - Ensembl genome browser 107”. www.ensembl.org. 2022年9月26日閲覧。
  6. ^ Luo, Junwei; Wei, Yawei; Lyu, Mengna; Wu, Zhengjiang; Liu, Xiaoyan; Luo, Huimin; Yan, Chaokun (2021-09-02). “A comprehensive review of scaffolding methods in genome assembly”. Briefings in Bioinformatics 22 (5): bbab033. doi:10.1093/bib/bbab033. ISSN 1477-4054. PMID 33634311. https://pubmed.ncbi.nlm.nih.gov/33634311/. 
  7. ^ Chromosomes, scaffolds and contigs”. www.ensembl.org. 2022年9月26日閲覧。
  8. ^ Meader, Stephen; Hillier, LaDeana W.; Locke, Devin; Ponting, Chris P.; Lunter, Gerton (May 2010). “Genome assembly quality: Assessment and improvement using the neutral indel model”. Genome Research 20 (5): 675–684. doi:10.1101/gr.096966.109. ISSN 1088-9051. PMC 2860169. PMID 20305016. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2860169/. 
  9. ^ Rice, Edward S.; Green, Richard E. (2019-02-15). “New Approaches for Genome Assembly and Scaffolding” (英語). Annual Review of Animal Biosciences 7 (1): 17–40. doi:10.1146/annurev-animal-020518-115344. ISSN 2165-8102. PMID 30485757. https://www.annualreviews.org/doi/10.1146/annurev-animal-020518-115344. 
  10. ^ Cao, Minh Duc; Nguyen, Son Hoang; Ganesamoorthy, Devika; Elliott, Alysha G.; Cooper, Matthew A.; Coin, Lachlan J. M. (2017-02-20). “Scaffolding and completing genome assemblies in real-time with nanopore sequencing” (英語). Nature Communications 8 (1): 14515. Bibcode2017NatCo...814515C. doi:10.1038/ncomms14515. ISSN 2041-1723. PMC 5321748. PMID 28218240. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5321748/. 
  11. ^ Mende, Daniel R.; Waller, Alison S.; Sunagawa, Shinichi; Järvelin, Aino I.; Chan, Michelle M.; Arumugam, Manimozhiyan; Raes, Jeroen; Bork, Peer (2012-02-23). “Assessment of Metagenomic Assembly Using Simulated Next Generation Sequencing Data”. PLOS ONE 7 (2): e31386. Bibcode2012PLoSO...731386M. doi:10.1371/journal.pone.0031386. ISSN 1932-6203. PMC 3285633. PMID 22384016. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3285633/. 
  12. ^ Alhakami, Hind; Mirebrahim, Hamid; Lonardi, Stefano (2017-05-18). “A comparative evaluation of genome assembly reconciliation tools”. Genome Biology 18 (1): 93. doi:10.1186/s13059-017-1213-3. ISSN 1474-7596. PMC 5436433. PMID 28521789. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5436433/. 
  13. ^ Castro, Christina J.; Ng, Terry Fei Fan (2017-11-01). “U50: A New Metric for Measuring Assembly Output Based on Non-Overlapping, Target-Specific Contigs”. Journal of Computational Biology 24 (11): 1071–1080. doi:10.1089/cmb.2017.0013. PMC 5783553. PMID 28418726. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5783553/.