リファレンスゲノム

出典: フリー百科事典『ウィキペディア(Wikipedia)』
ロンドンのWellcome Collectionで展示されているヒトの最初に決定されたリファレンスゲノムを印刷して製本したもの

リファレンスゲノム: Reference genome)は、ある生物のゲノム解読プロジェクトなどで解読された大量の塩基配列を研究者がアセンブル(組み立て)し、その生物の種の理想的な個体の遺伝子セットの代表例として構築し、各種の情報を整備したデータベースである(広義のデータベースであって、必ずしも実装はリレーショナルデータベース等ではない)。参照ゲノム配列などとも呼ばれる。

リファレンスゲノムは、複数のサンプルのDNAシークエンシングデータからアセンブルされるため、アセンブルされた塩基配列は任意の単一の個体の遺伝子セットを正確に表しているわけではない(ただし、各サンプルからの異なるDNA配列がハプロイド配列として提供される場合はある)。例えば、最新の人間のリファレンスゲノム(アセンブリGRCh38 / hg38)は、60人以上のゲノムのクローンライブラリに由来している[1]

現在、ウイルス、バクテリア、菌類、植物、動物の複数の種に対するリファレンスゲノムが公開されている。リファレンスゲノムは、新しいゲノムをアセンブルする際のガイドとして利用される他、RNA-Seqなどの遺伝子発現解析、GWASなどの遺伝統計解析など、様々の用途に利用される。

初期のヒトゲノムプロジェクトなどでは膨大なコストががかかっていたが、次世代シーケンサーや第3世代シーケンサーなどの登場により、現在はそれよりもはるかに迅速かつ安価に構築することができる。リファレンスゲノムは、EnsemblやUCSC Genome Browser[2]などのWebサイト上でWebブラウザを使用してアクセスできる他、IGVなどのアプリケーションを利用して見ることもできる。また、そのようなWebアプリケーションやIGVのようなリファレンスゲノムを表示できるソフトウェアはゲノムブラウザなどと呼ばれる。

リファレンスゲノムの特性[編集]

長さの測定[編集]

ゲノムの長さは、何通りかの表現方法がある。簡単な方法は、アセンブリ中の塩基数を数えるもので[3]、物理的距離、物理位置などと呼ばれることがある。

ゴールデンパスと呼ばれるUCSCのとった手法では、ハプロタイプ領域[4][5]やPseudo autosomalなどの冗長領域を除外した長さを用いている。これは通常、物理的なマップ上にハプロタイプのシークエンシング情報を重ねるようにして構築され、スキャフォールド(骨格)の情報とすりあわされている。これはゲノムがどのように見えるかの「最良の推定値」であり、通常はギャップを含むため、典型的な塩基対アセンブリよりも長くなる[6]

コンティグとスキャフォールド[編集]

リード、コンティグとスキャフォールドを表した図

リファレンスゲノムのアセンブルは、リードを重ね合わせていくことでコンティグを作り、それを適切に並び替え、つなぎ合わせるという作業である。このコンティグと呼ばれる塩基配列はそれらのリードのアライメントによって作られるコンセンサス配列である[7]。もしコンティグ間にギャップがある場合にはスキャフォールディングと呼ばれる組み立て作業でギャップ(コンティグの間)を埋めていく。実際の作業としてはPCRやBacterial Artificial Chromosome (BAC) クローニングなどで配列を増幅してシーケンサーで読むことになる[8][7]。ギャップの中には埋められないものもあり、そのような場合にはリファレンス中に複数のスキャフォールドが作られることになる[9]

脚注[編集]

  1. ^ How many individuals were sequenced for the human reference genome assembly?”. Genome Reference Consortium. 2022年4月7日閲覧。
  2. ^ “Ensembl 2008”. Nucleic Acids Research 36 (Database issue): D707–D714. (January 2008). doi:10.1093/nar/gkm988. PMC 2238821. PMID 18000006. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2238821/. 
  3. ^ Help - Glossary - Homo sapiens - Ensembl genome browser 87”. www.ensembl.org. 2023年5月16日閲覧。
  4. ^ Golden path length | VectorBase”. www.vectorbase.org. 2020年8月7日時点のオリジナルよりアーカイブ。2016年12月12日閲覧。
  5. ^ Help - Glossary - Homo sapiens - Ensembl genome browser 87”. www.ensembl.org. 2023年5月16日閲覧。
  6. ^ Whole assembly vs Golden path length in Ensembl? - SEQanswers”. seqanswers.com. 2016年12月12日閲覧。
  7. ^ a b Gibson, Greg; Muse, Spencer V. (2009). A Primer of Genome Science (3rd ed.). Sinauer Associates. p. 84. ISBN 978-0-878-93236-8 
  8. ^ Help - Glossary - Homo_sapiens - Ensembl genome browser 107”. www.ensembl.org. 2022年9月26日閲覧。
  9. ^ Luo, Junwei; Wei, Yawei; Lyu, Mengna; Wu, Zhengjiang; Liu, Xiaoyan; Luo, Huimin; Yan, Chaokun (2021-09-02). “A comprehensive review of scaffolding methods in genome assembly”. Briefings in Bioinformatics 22 (5): bbab033. doi:10.1093/bib/bbab033. ISSN 1477-4054. PMID 33634311. https://pubmed.ncbi.nlm.nih.gov/33634311/.