Transformers vs RNNs

  • RNNでは、本当に長い列の場合、LSTMやGRUでもgradient vanishingは起きる
  • RNNは、並列化に向かない
  • Transformerでは、multi head attentionを使って、列全体を一気に処理
  • Transformerでは、文章中の位置の情報が失われるので、それは別途コード化する

Transformer Applications

  • GPT2, BERT, T5はTransformerの応用
  • T5は、複数のタスク(翻訳、要約、質問応答など)を同一のモデルでこなす。すごい

Dot-Product Attention

  • attentionはdot-productだと言っている
  • それは分かってるんだが・・

Causal Attention

Attentionの3タイプ

  • encoder/decoder
  • Causal
  • bidirectional

Causalは、1つの文章の中で、一つの単語とそれより前の単語の関連度合いを考慮するもの。 Bidirectionalは、1つの文章の中で、1つの単語とそれ以外のすべての単語の関連度合いを考慮するもの。