コンティグ

出典: フリー百科事典『ウィキペディア(Wikipedia)』

コンティグContig)は、DNA配列断片群を重ね合わせ(シーケンスアライメント)して できるコンセンサス配列や、それを構成する配列断片群のことを指す、ゲノミクス分野における用語である[1] 。英単語の'contiguous'に由来している('continuous'ではないことに注意)。

この用語には、大きく分けて2つの意味合いがある。ひとつは、ボトムアップのシークエンシングプロジェクトにおけるものであり、この方法ではショットガンシーケンスによって得られた短い配列断片(read)をアセンブルすることによって、リード末端が連続的に重なり合うように伸長された配列群を情報処理的に得ることができ、この大きな配列断片のことをコンティグと呼ぶ[2]。一方でトップダウンのシークエンシングプロジェクトにおいては、生物が持つ長大なゲノム配列の全体を遺伝子地図のレベルの大きな長さ単位で端が重複するように物理的にせん断するが、この部分的に重複したゲノムクローンの断片のことをコンティグと呼称する[3]。すなわちコンティグとは、リードの重ね合わせと伸長から得られる大きなDNA断片配列と、染色体ゲノムの物理的なせん断から得られる部分的に重複したクローンDNA、の両方を指す用語となっている。

元来のコンティグの定義[編集]

1980年に、Staden[4]次のように書いている。

ショットガンシーケンシング法によって得られたデータについて話しやすくするために、「コンティグ」という単語を考案しました。コンティグは、シーケンスのオーバーラップによって互いに関連している一連のゲルリードです。すべてのゲルリードは1つのコンティグにだけ属し、各コンティグには少なくとも1つのゲルリードが含まれています。コンティグ内のゲルリードを合計して、隣接するコンセンサス配列を形成することができ、この配列の長さはコンティグの長さとなります。

シーケンスコンティグ[編集]

ペアエンドのシーケンスリードによるコンティグ作成の概略図。コンティグと、既知の長さのギャップを含むスキャフォールドを示す。

シーケンスコンティグとは、ボトムアップのシーケンス戦略によって生成された小さなDNA配列断片(リード)の再構成から得られる、連続的な塩基配列を指す。このコンティグの意味は、Rodger Staden(1979)による元の定義と一致する[5]。このボトムアップ戦略では、まず最初に生物のゲノムを多くの小さな断片に剪断し(細分化)、これらの断片をシーケンシングし、それらをコンティグに再組み立てすることで最終的にゲノム全体を復元する(再構築)という3ステップを踏む。現在主流となっているDNAシーケンシング技術では、比較的短いDNA断片配列(300〜1000ヌクレオチド程度)を得ることが一般的であるため、ゲノムDNAはシーケンシングの前に予め細かく断片化しておく必要がある[6]。すなわち、ゲノムから直接、あるいは一旦PCR等によって任意の領域が増幅された部分領域から、DNAがランダムに断片化され、シーケンスに適したサイズの断片が作成される。この小断片に由来するシーケンスデータであるリード(read)データを元に、次にアセンブリソフトウェアによって、末端がオーバーラップするようなリードのペアを検索する[6]。このようなペアのリードを組み立てていき、より長い連続したリード配列を生成する、というプロセスを何度も繰り返すことで、最初は短いリードのペアであってもアセンブリによってより長く伸長して行くことができ、コンティグと呼ばれる大きな配列断片を得ることができる。理想的には、このプロセスは最終的には染色体全体のDNA配列を決定することができることが期待される。

今日ではIllumina社製のシーケンサを利用して、ほぼ同じ長さのDNA断片の両端を部分的にシーケンスする、いわゆるペアエンドシーケンスを行うことが一般的に行われている。ここでコンティグとは、リードのオーバーラップによって連続的に伸長された配列データを指す。ライブラリを作成するDNA断片の長さは任意に設定できるため、同じ断片に由来する2つの末端配列リード間(リード内のギャップ)の距離は既知の情報である[7] 。例えば、1000bpのDNA断片について300bpの末端の両方をシーケンスした場合、そのDNA断片に由来するリードは2つ得られ、その間には400bpの何かしらの配列が存在していることになる(300+400+300=1000 bp)。このリード内ギャップの距離情報は、コンティグの向きに関する情報を与えると共に、アセンブリによってスキャフォールド(scaffolds)と呼ばれるコンティグの集合体を作成する上で重要になる。

スキャフォールドは、既知の長さのギャップで区切られた重複するコンティグで構成される。コンティグの向き情報を考慮することで、ゲノム内で高度に反復された配列の配置を決定することが可能になる場合がある。例えば、一端のリードが反復配列を持っている場合、その対となるリードがコンティグ内に配置されていれば、自動的に反復配列の配置も推定することができる[8]。スキャフォールド内におけるコンティグ間のギャップは、例えばPCR増幅とその後のシーケンシング(小さいギャップの場合)、あるいはBACクローニング法とシーケンシング(大きいギャップの場合)などを経ることで、シーケンスによる配列決定を進めることもできる[9]

BACコンティグ[編集]

コンティグはまた、トップダウンまたは階層的シーケンシング戦略が使用されている場合において、染色体の物理的地図(遺伝子地図)を形成するような、重複するクローンを指す[10]。このシーケンシング方法では、リードのアセンブリを行う前に、シーケンシングに先立って低解像度のマップを作成する。このマップは、シーケンスに使用されるクローンの相対位置とオーバーラップを識別する際に利用される。そして、連続的なゲノム配列を形成するための重複したクローンのセットのことを、コンティグと呼ぶ。染色体全体をカバーするために必要な最小のコンティグクローンの数でタイリングパスを構成し、そのコンティグを利用してシーケンシングが行われる。具体的には、設定されたタイリングパスに沿って各コンポーネントはBACに入れられ、各BACはより小さなフラグメントに断片化されてシーケンスされる。したがってコンティグは、階層的なシーケンスの枠組みの中で必要となる概念である[11] 。コンティグマップの組み立てにはいくつかのステップが含まれる。まず、DNAをより大きな断片(50〜200kb)に断片化し、BACまたはPACにクローン化してBACライブラリーを形成する。これらのクローンはゲノム/染色体全体をカバーする必要がある。また、染色体全体をカバーするBACのコンティグを組み立てることも、理論的には可能である[10] が、大抵の場合には現実ではない。この手法においても多くの場合、ギャップが残り、マップ領域をカバーするようなスキャフォールドが得られることが多い[10] 。コンティグ間のギャップは、以下に概説するさまざまな方法で埋めることができる。

BACコンティグの構築[編集]

BACコンティグは、既知の重複領域を持つようなBACをさまざまな方法で整列させることによって構築することができる。一般的な戦略の1つは、シーケンスタグ付きサイト(STS)のマッピングを使用して、BAC間で共通のDNAサイトを検出することである。オーバーラップの程度は、2つのクローン間で共通のSTSマーカーの数によって概算できる。すなわち、共通するマーカーが多いほど、オーバーラップが大きくなる[12] 。しかしながらこの戦略は、オーバーラップについての非常に大まかな見積もりしか推測することが出来ない。そのため、より正確にクローンのオーバーラップを測定するために、制限酵素処理による切断断片分析がよく利用される[12] 。この戦略では、クローンを1~2種程度の制限酵素で処理し、得られたフラグメントをゲル電気泳動で分離し、そのバンドのパターンを調べる。もし2つのクローンで多くの制限サイトが共通していた場合、電気泳動によって得られるバンドパターンもまた部分的に共通することが期待される[13]。すなわち、共通するフラグメント数と共通しないフラグメントの長さがわかるため、オーバーラップの程度を高い精度で推定できる。

コンティグ間のギャップ[編集]

多くの場合、最初のBACコンティグ構築後でも、多くのギャップが残る。これらのギャップは、スクリーニングされたバクテリア人工染色体 (BAC)ライブラリーの複雑さが低い場合、つまり、STSや制限酵素サイトの数が多くない場合、または特定の領域のクローニングホストでの安定性が低く、ライブラリーで過小評価されている場合に発生する[14] 。STSマッピングと制限酵素によるフィンガープリントの実行後でも、このようなコンティグ間のギャップが残っている場合、このギャップ部分を追加でシーケンスすることでギャップを閉じることが行われる。この最終段階のシーケンス戦略においては、基本的には、他のコンティグをスクリーニングするための新しいSTSを作成する。 あるいは、コンティグの末端配列をもとにプライマーを設計して、ギャップを横切るように直接シーケンスすることもある[15]

脚注[編集]

  1. ^ Gregory, S. Contig Assembly. Encyclopedia of Life Sciences, 2005.
  2. ^ Gibson, Greg; Muse, Spencer V. (2009). A Primer of Genome Science (3rd ed.). Sinauer Associates. p. 84. ISBN 978-0-878-93236-8 
  3. ^ Dear, P. H. Genome Mapping.
  4. ^ Staden, R (1980). “A new computer method for the storage and manipulation of DNA gel reading data”. Nucleic Acids Research 8 (16): 3673–3694. doi:10.1093/nar/8.16.3673. PMC 324183. PMID 7433103. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC324183/. 
  5. ^ Staden R (1979). “A strategy of DNA sequencing employing computer programs”. Nucleic Acids Research 6 (7): 2601–2610. doi:10.1093/nar/6.7.2601. PMC 327874. PMID 461197. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC327874/. 
  6. ^ a b Dunham, I. Genome Sequencing.
  7. ^ “Next-generation DNA sequencing of paired-end tags (PET) for transcriptome and genome analyses”. Genome Research 19 (4): 521–532. (2009). doi:10.1101/gr.074906.107. PMC 3807531. PMID 19339662. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3807531/. 
  8. ^ “Next-generation DNA sequencing of paired-end tags (PET) for transcriptome and genome analyses”. Genome Research 19 (4): 521–532. (2009). doi:10.1101/gr.074906.107. PMC 3807531. PMID 19339662. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3807531/. 
  9. ^ Gibson, Greg; Muse, Spencer V. (2009). A Primer of Genome Science (3rd ed.). Sinauer Associates. p. 84. ISBN 978-0-878-93236-8 
  10. ^ a b c Gregory, S. Contig Assembly. Encyclopedia of Life Sciences, 2005.
  11. ^ Dear, P. H. Genome Mapping.
  12. ^ a b Gibson, Greg; Muse, Spencer V. (2009). A Primer of Genome Science (3rd ed.). Sinauer Associates. p. 84. ISBN 978-0-878-93236-8 
  13. ^ Dear, P. H. Genome Mapping.
  14. ^ Gregory, S. Contig Assembly. Encyclopedia of Life Sciences, 2005.
  15. ^ Gibson, Greg; Muse, Spencer V. (2009). A Primer of Genome Science (3rd ed.). Sinauer Associates. p. 84. ISBN 978-0-878-93236-8