Transformer (機械学習モデル)

Transformer（トランスフォーマー）は、2017年6月12日にGoogleの研究者等が発表した深層学習モデルであり、主に自然言語処理（NLP）の分野で使用される^[1]。

自然言語などの時系列データを扱って翻訳やテキスト要約などのタスクを行うべく設計されているのは回帰型ニューラルネットワーク（RNN）と同様だが、Transformer の場合、時系列データを逐次処理する必要がないという特徴がある。たとえば、入力データが自然言語の文である場合、文頭から文末までの順に処理する必要がない。このため、Transformer では回帰型ニューラルネットワークよりもはるかに多くの並列化が可能になり、トレーニング時間が短縮される^[1]。

その導入以来、Transformer モデルは自然言語処理の多くの問題に取り組む上で広く選択されており、 Long Short-term Memory（LSTM）などの古い回帰型ニューラルネットワークモデルに取って代わった。Transformer モデルはトレーニング中の並列化を容易にするため、より大きなデータセットでのトレーニングを可能にした。このことが、 BERT （Bidirectional Encoder Representations from Transformers）や GPT （Generative Pre-trained Transformers）などの事前トレーニング済みシステムの開発につながった。これらは、巨大な一般言語データセットでトレーニングされており、特定の言語タスクにファインチューニングできる^[2]^[3]。

背景[編集]

トランスフォーマー登場以前には、自然言語処理の分野で注意機構（アテンション）を回帰型ニューラルネットワークモデルに追加するモデルが広く採用されていた。

注意機構[編集]

「アテンション (機械学習)」も参照

注意機構（英: attention mechanism）またはアテンション（英: Attention）は系列信号の重み付き統合である。

アテンションの基本は次のモデル式で表される。

${\boldsymbol {z}}=\Sigma w(i){\boldsymbol {v}}(i)$

系列信号に対し、 $i$ 番目の信号 ${\boldsymbol {x_{i}}}$ からベクトル値 ${\boldsymbol {v}}(i)$ とスカラ重み $w(i)$ を計算し、系列全長にわたって重み付け和したものがアテンションである。系列の特定時刻に大きな重みを置くことを動物における注意に例えてアテンションと名付けられた。アテンション ${\boldsymbol {z}}$ はベクトルの和で求められるため系列長に関わらず同じshapeを持ち、また ${\boldsymbol {v}}(i)$ と $w(i)$ は動的に算出される。ゆえにアテンションは可変長系列を入力に取れる。

RNNでの利用[編集]

ニューラルネットワークの分野ではLSTMやGRUなどの回帰型ニューラルネットワークにアテンション機構を追加したモデルが高性能な自然言語処理システムで採用されてきた。

ゲート付き RNN はトークンを順次処理し、各トークンの後に表示されるデータの表現を含む状態ベクトルを維持する。 $n$ 番目のトークンを処理するとき、モデルは文の ${\textstyle n-1}$ 番目のトークンまでを表現する状態と、新しいトークンの情報とを組み合わせて新しい状態を作り出す。そしてこの新しい状態が文の ${\textstyle n}$ 番目のトークンまでを表現する。理論的には、あるトークンに関する情報を全ての時点でエンコードし続ける場合、シーケンスの任意の長さまで伝播できる。しかし実際には勾配消失問題を一因としてこの機構は不完全であり、長い文の終わりにおける状態からは、初期のトークンに関する情報の多くは不正確ないし抽出不可能である。

この問題は、アテンション機構の導入によって対処された。アテンション機構により、モデルは文の前の任意の時点の状態を直接見て、そこから引き出すことができる。アテンション層は以前のすべての状態にアクセスでき、現在のトークンとの関連性の学習値に従ってそれらを重み付けして、遠く離れた関連するトークンに関する明瞭な情報を提供する。アテンションの効用の明確な例は翻訳である。英語からフランス語への翻訳システムでは、フランス語出力の最初の単語は、英語入力の最初の単語に最も強く依存することが想定される。しかし、古典的なエンコーダー/デコーダー LSTM モデルでは、フランス語出力の最初の単語を生成するために、英語入力の最後の単語の状態ベクトルのみがモデルに与えられる。理論的には、このベクトルは英語の文全体に関する情報をエンコードして、モデルに必要なすべての知識を与えることができるが、実際には、この情報はしばしば欠落している。アテンション機構が導入されている場合、モデルは代わりに、フランス語の出力の始まりを生成するときに初期の英語トークンの状態に対応することを学習できるため、翻訳対象の概念をよりよく伝えることができる。

基本設計[編集]

Transformer 以前に発明されたモデルと同様に、Transformer はエンコーダ・デコーダ構造である。エンコーダは、入力を次々と繰り返し処理する一連のエンコード層で構成され、デコーダは、エンコーダの出力に対して同じことを行う一連のデコード層で構成される。

各エンコード層の機能は、入力のどの部分が互いに関連しているかに関する情報を含め、入力を処理してエンコーディングを生成することである。各エンコード層は一連のエンコーディングを次のエンコーダ層に入力として渡す。

各デコーダーレイヤーは行うことはこの逆であり、すべてのエンコーディングを取得して処理し、組み込まれたコンテキスト情報を使用して出力シーケンスを生成する^[4]。

これを実現するために、各エンコーダ層とデコーダ層はアテンション機構を利用する。アテンション機構は、各入力について、他のすべての入力との関連性で重み付けし、情報を引き出し、出力を生成する^[5]。各デコーダ層には、エンコーディングからの情報を取得するより前に、前のデコーダ層からの情報を取得するためのアテンション機構がある。エンコーダ層とデコーダ層の両方に、出力をさらに処理するためのフィードフォワードニューラルネットワークがあり、残りの接続と層の正規化手順が含まれている。

アテンション単位[編集]

Transformer の基本的な構成要素は、Scaled dot-product attention unit と表現されるアテンション単位である。文が Transformer モデルに渡されると、アテンションの重みがすべてのトークン間で同時に計算される。アテンション単位は、コンテキスト内の全てのトークンの埋め込みを生成するが、そこにはトークン自体の情報だけでなく、他の関連トークンとの関連（についてアテンションの重みで重み付けされたもの）も含まれる。

具体的には、Transformerモデルは、各アテンション単位について、クエリの重み行列 $W_{Q}$ 、キーの重み行列 $W_{K}$ 、値の重み行列 $W_{V}$ の 3 つを学習する。 $i$ 番目のトークンに対し、入力の埋め込み $x_{i}$ に重み行列のそれぞれを乗じることで、クエリベクトル $q_{i}=x_{i}W_{Q}$ 、キーベクトル $k_{i}=x_{i}W_{K}$ 、値ベクトル $v_{i}=x_{i}W_{V}$ ができる。アテンションの重み $a_{ij}$ はクエリベクトル $q_{i}$ とキーベクトル $k_{j}$ の内積（dot product）として計算され、勾配の安定化のためにキーベクトル $k_{j}$ の次元の平方根 ${\sqrt {d_{k}}}$ で除算され（scaled）、さらに softmax 関数で重みの合計が 1 に正規化される。

クエリの重み $W_{Q}$ とキーの重み $W_{K}$ は異なる行列であり、アテンションが非対称になりうることに注意が必要である。トークン $i$ がトークン $j$ に関心を向ける（すなわち $q_{i}\cdot k_{j}$ が大きい）場合であっても、トークン $j$ がトークン $i$ に注意を向ける（すなわち $q_{j}\cdot k_{i}$ が大きい）とは限らない。トークン $i$ へのアテンション単位の出力はすべてのトークンの値ベクトルの加重和であり、アテンションの重み $a_{ij}$ （トークン $i$ からそれぞれのトークンへのアテンション）で重み付けされている。

すべてのトークンのアテンションの計算は、1つの大きな行列計算として表現できる。これは、行列演算を高速に実行できる行列演算最適化を用いたトレーニングに役立つ。行列 $Q$ 、 $K$ 、 $V$ の $i$ 番目の行は、それぞれ、クエリベクトル $q_{i}$ 、キーベクトル $k_{i}$ 、値ベクトル $v_{i}$ に相当する。

{\begin{aligned}\mathrm {Attention} (Q,K,V)=\mathrm {softmax} \left({\frac {QK^{\mathrm {T} }}{\sqrt {d_{k}}}}\right)\,V\end{aligned}}

マルチヘッドアテンション[編集]

$\left(W_{Q},W_{K},W_{V}\right)$ 行列の 1 セットがアテンションヘッドと呼ばれ、Transformer モデルの各層には複数のアテンションヘッドがある。1つのアテンションヘッドは各トークンに関連するトークンに注意を向けるが、複数のアテンションヘッドがあると、モデルは様々な定義の「関連性」に対して同様の操作を行うことができる。トランスフォーマーの多くのアテンションヘッドは、人間が解釈可能な関連性関係をエンコードしていることが研究によって示された。たとえば、主に次の単語に注意を向けるアテンションヘッド、主に動詞から直接目的語に注意を向けるアテンションヘッドなどがある^[6]。 Transformer モデルには複数のアテンションヘッドがあるため、表層レベルからセマンティックまで、多くのレベルと関連性関係の型をとらえることができる。マルチヘッドアテンション層からの複数の出力は、連結されてフィードフォワードニューラルネットワーク層に渡される。

{\begin{aligned}\mathrm {MultiHead} (Q,K,V)=\mathrm {Concat} \left(\mathrm {head} _{1},\dots ,\mathrm {head} _{h}\right)\,W^{O}\\\mathrm {where} \quad \mathrm {head} _{i}=\mathrm {Attention} (QW_{i}^{Q},KW_{i}^{W},VW_{i}^{V})\end{aligned}}

point-wise feed-forward サブレイヤ[編集]

$FFN(x_{t})=ReLU(x_{t}W_{1})W_{2}$

Point-wise Feed-forward サブレイヤでは、位置 $t$ における入力ベクトル $x_{t}$ に対しフィードフォワード全結合ネットワーク（MLP）を適用する^[7]。重み $W_{1}$ $W_{2}$ は位置 $t$ に依らず共有されている（異なるレイヤでは異なる重み）^[8]。すなわち特徴量をチャネルとした位置方向への 2-layer pointwise Conv1d と等価の処理をおこなう^[9]。

FFNは層内の並列計算が可能である。ゆえにこのサブレイヤは位置方向に並列計算が可能であり、Transformerの目標である高い並列性の学習が可能になっている^[10]。

サブレイヤはResidual connection内で利用されるため、入出力次元を合わせることが好ましい。原論文では入出力次元を $d_{model}=512$ で固定したうえで^[11] 中間層の次元を入出力より大きくしている^[12]。

エンコーダ[編集]

各エンコーダは、セルフ・アテンション機構および point-wise フィードフォワードサブレイヤ（FFサブレイヤ）の2コンポーネントで構成されている。セルフ・アテンション機構は、前のエンコーダからの一連の入力エンコーディングを取り込み、それらの相互の関連性を重み付けして、一連の出力エンコーディングを生成する。次にFFサブレイヤは、各出力エンコーディングを個別にさらに処理する。これらの出力エンコーディングは、最終的に、デコーダに加えて次のエンコーダへの入力として渡される。

最初のエンコーダは、エンコードではなく、位置情報と入力シーケンスの埋め込みを入力として受け取る。他の部位では位置情報を使用しないため、位置情報は Transformer がシーケンスの順序を使用する上で必須である^[1]。

デコーダ[編集]

各デコーダは、セルフ・アテンション機構、エンコーディングに関するアテンション機構、FFサブレイヤの3コンポーネントで構成されている。デコーダはエンコーダと同様に機能する、エンコーダによって生成されたエンコーディングから関連情報を引き出す追加のアテンション機構が挿入される^[1]^[5]。

最初のエンコーダと同様に、最初のデコーダは、エンコーディングではなく、位置情報と出力シーケンスの埋め込みを入力として受け取る。ただし、Transformer は現在または将来の出力を使用して出力を予測するべきではないため、この逆の情報フローを防ぐために出力シーケンスを部分的にマスクする必要がある^[1]。最後のデコーダーの後には、最終的な線形変換とsoftmax層が続き、語彙に対する出力確率が生成される。

代替案[編集]

Transformer ベースのアーキテクチャのトレーニングは、特に長い文の場合、非常にコストがかかる可能性がある^[13]。代替アーキテクチャとして挙げられるReformer では、計算負荷 $O(L^{2})$ から $O(L\ln L)$ へと減らす（ただし、 $L$ はシーケンス長）。Reformer は、局所性鋭敏型ハッシュと可逆層を使用する^[14]^[15]。

訓練[編集]

Transformer は一般に、半教師あり学習（教師なし学習による事前学習とその後の教師あり学習によるファインチューニング）を受ける。ラベル付けされたトレーニングデータの可用性は限られているため、事前学習はファインチューニングよりもはるかに大きなデータセットに対して行われることが多い。事前学習およびファインチューニングのタスクは以下のようなものである。

実装[編集]

Transformer モデルは、TensorFlow や PyTorch などの主要なディープラーニングフレームワークに実装されている。

Transformer の単純な実装の疑似コードを以下に示す。

def vanilla_transformer(enc_inp, dec_inp):
    """Transformer variant known as the "vanilla" transformer."""
    x = embedding(enc_inp) * sqrt(d_m)
    x = x + pos_encoding(x)
    x = dropout(x)
    for _ in range(n_enc_layers):
        attn = multi_head_attention(x, x, x, None)
        attn = dropout(attn)
        attn = layer_normalization(x + attn)

        x = point_wise_ff(attn)
        x = layer_normalization(x + attn)

    # x is at this point the output of the encoder
    enc_out = x

    x = embedding(dec_inp) * sqrt(d_m)
    x = x + pos_encoding(x)
    x = dropout(x)
    mask = causal_mask(x)
    for _ in range(n_dec_layers):
        attn1 = multi_head_attention(x, x, x, mask)
        attn1 = layer_normalization(attn1 + x)

        attn2 = multi_head_attention(attn1, enc_out, enc_out, None)
        attn2 = dropout(attn2)
        attn2 = layer_normalization(attn1 + attn2)

        x = point_wise_ff(attn2)
        x = layer_normalization(attn2 + x)
    return dense(x)

応用[編集]

Transformer は機械翻訳や時系列予測などの自然言語処理の分野で主に応用されてきた^[17]。GPT（GPT-1、GPT-2、GPT-3、GPT-4、ChatGPT）、BERT、XLNet、RoBERTaなどの多くの事前トレーニング済みモデルは、Transformer がそのような自然言語処理関連のさまざまなタスクを実行する能力を実証しており、以下の様な現実世界のタスクに応用しうる^[2]^[3]^[18]。

機械翻訳
自動要約
自然言語生成
固有表現抽出（NER） ^[19]
生物学的配列分析

2020年には、Transformer のアーキテクチャを用いた GPT-2 をファインチューニングすることで、チェスをプレイできることが示された^[20]。

Google の研究チームが 2020 年に発表した Vision Transformer では、Transformer のアーキテクチャを画像認識の分野に適用することで、畳み込みニューラルネットワークを凌駕する成績が得られた^[21]。

脚注[編集]

[脚注の使い方]

出典[編集]

^ ^a ^b ^c ^d ^e Polosukhin, Illia; Kaiser, Lukasz (12 June 2017). "Attention Is All You Need". arXiv:1706.03762 [cs.CL]。
^ ^a ^b ^c “Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing”. Google AI Blog. 2019年8月25日閲覧。
^ ^a ^b ^c “Better Language Models and Their Implications”. OpenAI (2019年2月14日). 2019年8月25日閲覧。
^ “Sequence Modeling with Neural Networks (Part 2): Attention Models”. Indico (2016年4月18日). 2019年10月15日閲覧。
^ ^a ^b Alammar. “The Illustrated Transformer”. jalammar.github.io. 2019年10月15日閲覧。
^ Clark, Kevin; Khandelwal, Urvashi; Levy, Omer; Manning, Christopher D. (August 2019). “What Does BERT Look at? An Analysis of BERT's Attention”. Proceedings of the 2019 ACL Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP (Florence, Italy: Association for Computational Linguistics): 276–286. doi:10.18653/v1/W19-4828.
^ "In addition to attention sub-layers, each of the layers in our encoder and decoder contains a fully connected feed-forward networkk, which is applied to each position separately and identically." from original paper.
^ "While the linear transformations are the same across different positions, they use different parameters from layer to layer." original paper.
^ "Another way of describing this is as two convolutions with kernel size 1." from original paper.
^ "The Transformer allows for significantly more parallelization" from original paper
^ "To facilitate these residual connections, all sub-layers in the model ... produce outputs of dimension d_model = 512." from original paper
^ "the inner-layer has dimensionality d_ff = 2048." from original paper
^ Kitaev, Nikita; Kaiser, Łukasz. "Reformer: The Efficient Transformer". arXiv:2001.04451 [cs.LG]。
^ “Task with long sequences”. 2020年11月20日閲覧。
^ “Reformer: The Efficient Transformer” (英語). Google AI Blog. 2020年10月22日閲覧。
^ Wang, Alex; Singh, Amanpreet; Michael, Julian; Hill, Felix; Levy, Omer; Bowman, Samuel (2018). “GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding”. Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP (Stroudsburg, PA, USA: Association for Computational Linguistics): 353–355. arXiv:1804.07461. doi:10.18653/v1/w18-5446.
^ Allard (2019年7月1日). “What is a Transformer?” (英語). Medium. 2019年10月21日閲覧。
^ Yang, Zhilin Dai, Zihang Yang, Yiming Carbonell, Jaime Salakhutdinov, Ruslan Le, Quoc V. (2019-06-19). XLNet: Generalized Autoregressive Pretraining for Language Understanding. OCLC 1106350082
^ Monsters (2017年9月26日). “10 Applications of Artificial Neural Networks in Natural Language Processing” (英語). Medium. 2019年10月21日閲覧。
^ Noever, David; Ciolino, Matt (21 August 2020). "The Chess Transformer: Mastering Play using Generative Language Models". arXiv:2008.04057 [cs.AI]。
^ “An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale”. 2020年11月19日閲覧。

[:0-1] Polosukhin, Illia; Kaiser, Lukasz (12 June 2017). "Attention Is All You Need". arXiv:1706.03762 [cs.CL]。

[:6-2] “Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing”. Google AI Blog. 2019年8月25日閲覧。

[:7-3] “Better Language Models and Their Implications”. OpenAI (2019年2月14日). 2019年8月25日閲覧。

[4] “Sequence Modeling with Neural Networks (Part 2): Attention Models”. Indico (2016年4月18日). 2019年10月15日閲覧。

[:1-5] Alammar. “The Illustrated Transformer”. jalammar.github.io. 2019年10月15日閲覧。

[6] Clark, Kevin; Khandelwal, Urvashi; Levy, Omer; Manning, Christopher D. (August 2019). “What Does BERT Look at? An Analysis of BERT's Attention”. Proceedings of the 2019 ACL Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP (Florence, Italy: Association for Computational Linguistics): 276–286. doi:10.18653/v1/W19-4828.

[7] "In addition to attention sub-layers, each of the layers in our encoder and decoder contains a fully connected feed-forward networkk, which is applied to each position separately and identically." from original paper.

[8] "While the linear transformations are the same across different positions, they use different parameters from layer to layer." original paper.

[9] "Another way of describing this is as two convolutions with kernel size 1." from original paper.

[10] "The Transformer allows for significantly more parallelization" from original paper

[11] "To facilitate these residual connections, all sub-layers in the model ... produce outputs of dimension d_model = 512." from original paper

[12] "the inner-layer has dimensionality d_ff = 2048." from original paper

[13] Kitaev, Nikita; Kaiser, Łukasz. "Reformer: The Efficient Transformer". arXiv:2001.04451 [cs.LG]。

[14] “Task with long sequences”. 2020年11月20日閲覧。

[15] “Reformer: The Efficient Transformer” (英語). Google AI Blog. 2020年10月22日閲覧。

[:8-16] Wang, Alex; Singh, Amanpreet; Michael, Julian; Hill, Felix; Levy, Omer; Bowman, Samuel (2018). “GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding”. Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP (Stroudsburg, PA, USA: Association for Computational Linguistics): 353–355. arXiv:1804.07461. doi:10.18653/v1/w18-5446.

[17] Allard (2019年7月1日). “What is a Transformer?” (英語). Medium. 2019年10月21日閲覧。

[18] Yang, Zhilin Dai, Zihang Yang, Yiming Carbonell, Jaime Salakhutdinov, Ruslan Le, Quoc V. (2019-06-19). XLNet: Generalized Autoregressive Pretraining for Language Understanding. OCLC 1106350082

[:9-19] Monsters (2017年9月26日). “10 Applications of Artificial Neural Networks in Natural Language Processing” (英語). Medium. 2019年10月21日閲覧。

[20] Noever, David; Ciolino, Matt (21 August 2020). "The Chess Transformer: Mastering Play using Generative Language Models". arXiv:2008.04057 [cs.AI]。

[21] “An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale”. 2020年11月19日閲覧。

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]