トランスフォーマー革命注意力がすべて」はいかに現代のAIを作り変えたか

誰かが "大規模言語モデル "と口にするたびに、GPUのうなり声が聞こえてくるような気がしないだろうか?その宇宙レベルのざわめきには理由がある:トランスフォーマーアーキテクチャだ。その現象をビッグバンの瞬間までさかのぼると、Google BrainとGoogle Researchのエンジニアグループによる、今や伝説となった2017年の論文に行き着く:アテンション・イズ・オール・ユー・ニード

一見すると、このフレーズはマインドフルネスに向けた優しい後押しのように聞こえるかもしれないが、自然言語処理(NLP)、そしてそれ以上に革命を告げるものだった。Transformerモデルは、AIの現状を一挙に覆した。RNN、LSTM、畳み込みベースのシーケンスモデルといった、インチ単位での進歩はもうない。その代わりに、並列化可能でアテンション駆動型のシステムを手に入れ、より速く学習し、より大きくスケールし、そしてここからがキッカーだが、より良い結果を達成するのだ。

1.ビッグ・アイデア自己注目万歳

トランスフォーマーがシーンに登場する前、シーケンス変換(言語翻訳、要約などを考える)のゴールドスタンダードには、慎重に設計されたゲートメカニズムを持つリカレントニューラルネットワークや、長距離依存性を処理するために複雑なスタッキングを持つ畳み込みニューラルネットワークが使われていた。効果的か?そうだ。遅い?特に、本当に膨大なデータセットを分析する必要がある場合はそうだ。

最も単純に言えば、自己アテンションとは、シーケンス内のすべてのトークン(単語やサブワードなど)が他のすべてのトークンを同時に「見る」ことができるメカニズムであり、データを一歩一歩這い回ることを強いられることなく、文脈上の関係を発見することができる。このアプローチは、RNNやLSTMのような、シーケンスの大部分を逐次的に処理しなければならなかった旧来のモデルとは対照的である。

トランスフォーマーは、再帰(とそれに伴うオーバーヘッド)を捨てることで、はるかに多くの並列化を可能にする。大量のGPUを問題に投げつけ、膨大なデータセットで訓練し、数週間ではなく数日で結果を見ることができる。

図1:エンコーダー(左)とデコーダー(右)のマルチヘッド注目レイヤーを示すTransformerの完全なアーキテクチャ。出典Vaswaniら、「Attention Is All You Need」(2017年)。画像はフェアユースの下、教育目的で複製された。

簡単なパフォーマンスメモ:オリジナルのTransformerは、WMT 2014の英語からドイツ語へのタスクで28.4 BLEUスコアを示した。これは、CNNベースやRNNベースのモデルのような以前のニューラル機械翻訳アーキテクチャーを大きく上回るもので、せいぜい25~26 BLEU程度だった。最近では、改良されたTransformer(GPT-4やその同類を考えてほしい)がさらに進化し、翻訳以外のタスクも処理できるようになっている。

2.アンダー・ザ・フッド:多頭注意と位置エンコーディング

マルチヘッド・アテンション

トランスフォーマーの自己アテンションには、マルチヘッドアテンションモジュールと呼ばれる魔法の獣がいる。これは、ネットワークに異なるタイプの関係を並行して学習させる。データのさまざまな部分を同時に照らすために、複数のスポットライトを配置するようなものだ。あるアテンション・ヘッドは長距離の依存関係(代名詞と名詞の参照など)を追跡し、別のアテンション・ヘッドは局所的な文脈("cat "の周りにある "on the mat "というフレーズなど)に注目する。これらの特化したサブアテンションを組み合わせることで、Transformerはニュアンスに富んだ意味をよりよくエンコードすることができる。

図2:クエリ(Q)、キー(K)、およびバリュー(V)ベクトルがどのように相互作用するかを示す、スケールされたドットプロダクトアテンションメカニズムの図解。出典Vaswaniら、「Attention Is All You Need」(2017年)。画像はフェアユースの下、教育目的で複製された。

これらのヘッドは、標準的な構成要素としてスケールド・ドット・プロダクト・アテンションを使用している:

輸入トーチ
インポート数学

def scaled_dot_product_attention(Q, K, V):
    # Q、K、Vは[batch_size、heads、seq_len、d_k]である。
    d_k = Q.size(-1)
    score = torch.matmul(Q, K.transpose(-2, -1)) / math.sqrt(d_k)
    weights = torch.softmax(scores, dim=-1)
    return torch.matmul(weights, V)

それぞれのヘッドは、異なる投影バージョンのクエリー(Q)、キー(K)、値(V)を操作し、その結果をマージする。この並列化可能な設計がTransformerの効率の鍵である。

位置エンコーディング

再発はないのか?そこで疑問が生じる:このモデルはどのようにして語順を追跡しているのだろうか?位置エンコーディングは、各トークンの埋め込みに追加される正弦波または学習されたパターンであり、Transformerが順序の感覚を維持するのに役立つ。各単語にユニークなタイムスタンプを与えるようなものだ。

3.クイックパフォーマンス対決

  • RNN/LSTM:シーケンスタスクには最適だが、ステップバイステップの処理のため、長いシーケンスには遅い。

  • CNN(ConvS2Sなど):RNNよりも高速だが、長距離の依存関係に対してはまだ完全には並列化されていない。

  • トランスフォーマー

    • より高いスループット:シーケンス全体を並列処理できるため、トレーニングが大幅に高速化。

    • より良い結果:Transformersは、機械翻訳(WMT14 EN-DEで28.4 BLEU)のようなタスクで、少ない学習時間で最先端のスコアを達成しました。

    • スケーラブル:より多くのGPUをデータに投入すれば、(ハードウェアとメモリの制限内で)ほぼリニアにスケールします。

4.複雑さの考察:O(n²)とそれが重要な理由

Transformersは並列化により学習を加速するが、自己注意はシーケンス長nに関してO(n²)の複雑さを伴う。言い換えれば、全てのトークンが他の全てのトークンに注意を払うことになり、非常に長いシーケンスではコストがかかる。研究者は、このコストを軽減するために、より効率的な注意メカニズム(スパース注意やブロックワイズ注意など)を積極的に研究している。

それでも、トークン数が数百万ではなく数千になるような典型的なNLPタスクでは、このO(n²)のオーバーヘッドは、並列計算の利点によって、特に適切なハードウェアがある場合には、しばしば上回る。

5.大規模言語モデル(LLM)が重要な理由

GPT、BERT、T5のような最新のLLMは、その系譜を直接Transformerにたどる。というのも、元論文が並列性、自己注意、柔軟なコンテキストウィンドウに重点を置いていたため、翻訳以外のタスクにも理想的に適していたからだ:

  • テキスト生成と要約

  • 質疑応答

  • コードの完成

  • 多言語チャットボット

  • そう、あなたの新しいAIライティング・アシスタントは、いつもダジャレを用意しているようだ。

要するに、"Attention Is All You Need "は、何十億ものトークンをインジェストし、どんなNLPタスクにも対応する大規模モデルへの道を開いたのだ。

6.もっとコンピュートが必要になるイントロールのデプロイメントの出番

これが問題だ:トランスフォーマーはお腹を空かせているのだ。大規模な言語モデルのトレーニングは、フォークリフトの荷台でコンピューティング・リソースをかき集めることを意味します。その並列性をすべて利用するためには、数千(または数万)ものロバストなGPUが必要です。そこでハイパフォーマンス・コンピューティング(HPC)インフラの出番です。

イントロールでは、このようなシステムがいかに巨大になるかを目の当たりにしてきました。私たちは、10万個以上のGPUを含むビルドをタイトなスケジュールで行ってきました。GPUサーバー、ラック、高度な電源/冷却セットアップを配備し、すべてが効率的に動作するようにすることが私たちの仕事です。Transformerベースのモデルを何千ものノードで同時にトレーニングする場合、ハードウェアのボトルネックは時間とお金の両面でエネルギーの渦となります。

  • 大規模GPUクラスタ:ラック&スタック構成、ケーブル配線、すべてを安定させるための電源/冷却戦略の複雑さを理解しています。

  • 迅速な動員:2,000GPUノードを数日で追加する必要がありますか?当社の専門チームが72時間以内にオンサイトで運用を開始します。

  • エンドツーエンドのサポート:ファームウェアのアップデートやiDRACの設定から、継続的なメンテナンスやパフォーマンスチェックまで、お客様のデータサイエンティストがイノベーションに集中できるよう、ロジスティクスを管理します。

7.先を見据えてより大きなモデル、より大きな夢

「Attention Is All You Need」は単なるマイルストーンではなく、将来の拡張のための青写真である。研究者たちはすでに、より長いコンテキストのトランスフォーマー、効率的なアテンション・メカニズム、そして膨大なコーパス(地元の書店だけでなく、図書館全体を考えてみよう)を扱うための高度なスパース性を探求している。GPUアクセラレーション・コンピューティングへの欲求は高まる一方だ。

そして、それこそがトランスフォーマー時代の美点なのだ。我々は、適切なハードウェア戦略とマッチさせれば、エレガントに拡張できるモデルを持っている。そのため、次のジェネレーティブAI現象を構築するにしても、ユニバーサル翻訳の限界を押し広げるにしても、大規模なGPU導入に精通したインフラストラクチャー・パートナーを持つことは、単なる優れものではありません。

最後に思うことAIゲームの変革

論文『Attention Is All You Need』は、単に気の利いたタイトルというだけではなかった。トランスフォーマーは、機械翻訳からコード生成、そしてそれ以上に至るまで、あらゆるものを変革してきた。そのパワーを大規模に利用したいのであれば、鍵となるのは、優れたアーキテクチャと同様に優れたインフラをマッチさせることである。

規模拡大の準備はできていますか?イントロールの特化した GPUインフラ導入適切なハードウェアがAIを大きく変えるからです。

本稿のビジュアライゼーションは、オリジナルの「Attention Is All You Need」論文(Vaswani et al.完全な研究に興味のある読者のために、論文はhttps://arxiv.org/abs/1706.03762。

前へ
前へ

AI時代の米国データセンター:GPUインフラはいかに変貌するか

次のページ
次のページ

2025年にフォローすべき最高のAIニュースレター、ブログ、リソース