30Jul2023

LoRA: Low-Rank Adaptation of Large Language Models

公開日：2023/07/30
更新日：2023/07/30
投稿者：n bit

LoRA（Low-Rank Adapter）という手法が提案。LoRAは、計算コストを抑えつつ、大規模な事前学習モデルの適応性を向上させるためのもので、特定のタスクに対してモデルを微調整する際に有用です。

URL: https://arxiv.org/pdf/2106.09685.pdf

この記事は約分で読めます。（文字）

どのような研究か？

この研究は、大規模なニューラルネットワークモデルのスケーリングと適応に関するものです。特に、低ランク適応（LoRA）という手法を提案し、その効果を評価しています。LoRAは、訓練済みのTransformerの重み行列の一部を適応させることで、下流のタスクの性能を最大化することを目指しています。また、この研究では、適応行列が本当にランクが低いかどうか、そして適切なランクは何かを調査しています。さらに、どの重み行列のサブセットを適応させるべきか、また、その選択がどの程度ヒューリスティックに依存しているかなど、いくつかの重要な疑問についても検討しています。この研究は、大規模なニューラルネットワークの効率的な適応とスケーリングに関する理解を深めることを目指しています。

先行研究と比較して、どのような点が優れているのか?

この研究では、RoBERTa、DeBERTa、GPT–2などの既存の事前学習済みモデルに対して、LoRA（Low-Rank Adapter）という新しい適応アプローチを適用し、その性能を評価しています。LoRAは、既存のモデルのパラメータを直接調整するのではなく、低ランク行列を導入してモデルの表現能力を向上させるというアプローチです。

先行研究と比較して、LoRAの優れている点は以下の通りです。

パラメータの数を増やすことなく、モデルのタスク性能を向上させることができます。これは、計算コストを抑えつつ、モデルの性能を向上させることができるという点で優れています。
LoRAは、GLUEベンチマークなどのNLPタスクにおいて、既存の事前学習済みモデルと同等またはそれ以上の性能を発揮することができます。これは、LoRAが既存のモデルの性能を向上させるだけでなく、新たなタスクに対しても適応できるという点で優れています。
LoRAは、Fine-tuningやPre-ﬁxベースのアプローチと比較しても優れた性能を発揮します。特に、学習例数が少ない場合でもLoRAの性能は高く、学習例数を増やすとその差はさらに小さくなります。

以上のように、LoRAは既存の事前学習済みモデルの性能を向上させるだけでなく、新たなタスクに対しても適応でき、学習例数が少ない場合でも高い性能を発揮するという点で優れています。

技術や手法のポイントはどのような点か？

いくつかの研究論文が引用されており、それぞれが自然言語処理（NLP）、ニューラルネットワーク、特徴学習、重み行列の選択、ランク対称性など、機械学習と深層学習のさまざまな側面を探求しています。これらの論文は、最先端の自然言語処理モデル（トランスフォーマー）、特徴学習のためのニューラルネットワーク、重み行列の選択に関するヒューリスティック、ランク対称性の可能性など、機械学習と深層学習のさまざまな側面を探求しています。

どのような結果が得られたか？

この研究では、大規模なモデルのスケーリングについて調査し、その結果を報告しています。特に、Gshardという巨大モデルのスケーリングについての研究や、自然言語理解タスクのためのGLUE Benchmarkなどが引用されています。

また、Quadro RTX8000を使用して、1回のフォワードパスの待ち時間を測定し、その結果を報告しています。その結果、バッチサイズとシーケンス長を大きくすることで待ち時間が軽減されることが確認されましたが、オンライン、短いシーケンス長のシナリオでは、待ち時間は30%以上にもなることがわかりました。

さらに、GPT–2 Mediumを使用して異なるランクrで達成したE2E NLGチャレンジの検証損失とテストセットのメトリクスについても報告しています。その結果、GPT–2 Mediumの最適なランクは、使用するメトリックによって4から16の間であり、GPT–3 175Bのランクと同様であることが示されました。

また、低ランク更新行列に関する調査からの追加結果も示されています。その結果、Wには、Wでは強調されない「課題特異的」な方向が含まれていることがわかりました。これは、モデル適応がうまく機能するためには、課題特異的な方向をどの程度「強く」増幅する必要があることを示しています。

どのような評価を行ったか？

RoBERTa base (125M)とRoBERTa large (355M)を取り出し、GLUEベンチマークのタスクについて、異なる効率的な適応アプローチの性能を評価しました。また、Houlsbyら(2019)とPfeifferら(2021)のセットアップを再現しました。公平な比較を保証するために、適応器と比較する際のLoRAの評価方法に2つの重要な変更を加えました。第一に、全てのタスクで同じバッチサイズを使用し、アダプターのベースラインと一致させるために128のシーケンス長を使用しました。第二に、ﬁne-tuningベースラインのようにMNLIに適応済みのモデルではなく、MRPC、RTE、STS-B用に事前に訓練したモデルを初期化しました。また、推論レイテンシの減速率をプロットし、アダプターなしのベースラインと比較しました。

今後の課題はどのような点か？

今後の研究の方向性として、以下の4つの課題が挙げられています。

1) LoRAは他の効率的な適応手法と組み合わせることができ、直交的な改善を提供できる可能性がある。つまり、LoRAと他の手法を組み合わせることで、さらなる改善が期待できるということです。

2) fine-tuningやLoRAの背後にあるメカニズムは、事前学習中に学習された特徴が、どのように下流のタスクでうまくいくように変換されるのか？この問いは、事前学習された特徴がどのように活用され、最終的なタスクのパフォーマンスにどのように影響するのかを理解することを目指しています。

3) LoRAを適用する重み行列の選択は、ほとんどヒューリスティックに依存している。もっと原理的な方法はありますか？この問いは、重み行列の選択方法について、より理論的なアプローチが可能かどうかを探るものです。

4) 最後に、Wsのランク対称性は、Wcもランク対称である可能性を示唆している。この問いは、WsとWcの関係性について深く探ることを示唆しています。

どのような応用が可能か？

この文脈では、LoRA（Low-Rank Adapter）という手法が提案されています。LoRAは、大規模な事前学習モデルの適応性を向上させるためのもので、特定のタスクに対してモデルを微調整する際に有用です。具体的には、自然言語処理（NLP）のタスクにおいて、GLUEベンチマークなどの様々なタスクでの性能を向上させることが可能です。

また、LoRAはモデルの一部の重み行列を低ランク行列として近似することで、パラメータの数を大幅に削減し、計算効率を向上させることができます。これにより、大規模なモデルを効率的に学習し、適応させることが可能となります。

さらに、LoRAはヒューリスティックに依存する部分があるため、これを改善するための新たな手法の開発や、理論的な解析の対象となる可能性もあります。

したがって、LoRAは大規模な事前学習モデルの効率的な適応、特定のタスクへの性能向上、モデルの理論的理解の向上など、様々な応用が可能と考えられます。

議論すべきはどのような点か？

議論すべき点は以下の通りです。

1) パラメータ予算の制約がある場合、訓練済みのTransformerのどの重み行列のサブセットを適応させれば、下流の性能を最大化できるか？2) 「最適な」適応行列Wは本当にランクが低いのか？もしそうなら、実際に使用するのに適したランクは？3) LoRAを適用する重み行列の選択は、ほとんどヒューリスティックに依存している。もっと原理的な方法はありますか？4) 最後に、Wsのランク対称性は、Wcもランク対称である可能性を示唆している。これについての詳細な議論が必要です。

また、LoRAの利点と限界についても議論が必要です。特に、推論のレイテンシをなくすためにAandBintoWを吸収することを選択した場合、AandBintoが異なるタスクへの入力を1回のフォワードパスでバッチ処理するのは簡単ではありません。しかし、遅延が重要でないシナリオでは、重みをマージせず、バッチ内のサンプルに使用するLoRAモジュールを動的に選択することが可能である。この点についての詳細な議論が必要です。