コンセンサス配列
分子生物学やバイオインフォマティクスにおいて、コンセンサス配列(英: consensus sequence)もしくはカノニカル配列(英: canonical sequence)とは、シーケンスアラインメントの各位置における最も高頻度の残基(ヌクレオチドやアミノ酸など)が計算された配列である。関連のある配列が比較され、類似の配列モチーフについて多重配列アラインメントがなされた結果を表している。このような情報は、RNAポリメラーゼのような配列依存性の酵素について考慮する場合に重要である[1]。
生物学的重要性
[編集]コンセンサス配列で表されるタンパク質結合部位は、ゲノム中に何度か現れるヌクレオチドの短い配列であり、異なる位置であっても同じ役割を果たすと考えられている。例えば多くの転写因子は、調節する遺伝子のプロモーター領域の中の特定のパターンを認識する。同様に、制限酵素は多くの場合、パリンドロミックなコンセンサス配列を持ち、その部位のDNAを切断する。トランスポゾンは、転位のための標的配列の同定においてほとんど同じように振る舞う。そして、スプライシング部位(エクソンとイントロンの境界の直前直後の配列)についてもコンセンサス配列と考えることができる。
このように、コンセンサス配列は、推定されるDNA結合部位のモデルである。特定の認識部位について既知の例をすべてアラインメントすることによって得られる、各位置において優勢な塩基が表された、理想化された配列として定義される。すべての実例が、いくつかの置換という以上にコンセンサスから異なっていてはならないが、ミスマッチの数を数えるという方法はコンセンサス配列を計算する際に必ずしも適切であるとは言えない[2]。
コアプロモーター配列において、コンセンサス配列に近くなるようなヌクレオチドの変異はup mutationとして知られる。一般的にこの種の変異はプロモーターを強化し、RNAポリメラーゼは転写しようとするDNAとより強い結合を形成するために、転写が上昇する。反対に、コンセンサス配列において保存されているヌクレオチドを破壊する変異はdown mutationとして知られる。この種の変異は、もはやRNAポリメラーゼがコアプロモーター配列に強固に結合できなくなるため、転写は低下する。
配列解析
[編集]パターン認識のためのソフトウェア開発は、遺伝学、分子生物学、そしてバイオインフォマティクスにおいて主要なトピックである。特定の配列モチーフは、生合成をコントロールする制御配列として、もしくは細胞内の特定の位置に分子を差し向けたり、分子の成熟を調節するようなシグナル配列として機能する。これらの配列の制御機能は重要であるため、進化の長い過程にわたって保存されていると考えられている。いくつかの場合においては、進化的な関連性がこれらの部位の保存性の程度から推定される。
表記法
[編集]保存された配列モチーフはコンセンサス配列と呼ばれ、どの残基が保存され、どの残基が変化しやすいものであるかを示している。次のようなDNA配列の例について考えてみよう。
A[CT]N{A}YR
この表記では、左端のAは常にこの位置にAが見つかることを意味している。[CT]はこの位置にCまたはTが見つかること、Nはこの位置にすべての塩基が入りうること、{A}は A 以外の塩基、Yはピリミジン塩基(pYrimidine)、Rはプリン塩基(puRine)をそれぞれ意味している。
この例での[CT]という表記にはその位置におけるCとTの相対的頻度について何の情報も示されていない。コンセンサス配列を表現する別の方法として、シーケンスロゴが用いられる。シーケンスロゴはコンセンサス配列の画像的な表現であり、特定の位置におけるヌクレオチド(もしくはアミノ酸)の頻度がそのシンボルのサイズによって表現される。より多く保存されている残基は、より大きなシンボルで描かれ、頻度の低いものは小さなシンボルで描かれる。シーケンスロゴはWebLogoやGestalt Workbenchを用いることで生成することができる[2]。
ソフトウェア
[編集]バイオインフォマティクスのツールでコンセンサス配列を計算し視覚化することができる。JalViewやUGENEなどのツールがある。
出典
[編集]関連項目
[編集]- 位置特異的スコア行列
- 正規表現 — 形式言語理論のシンボルで複数配列を表す
- 配列モチーフ
- シーケンスロゴ