多段階テキスト検索のための LLaMA の微調整: アブレーション研究と分析

in Vlog

著者:

(1)Xueguang Ma、David R. Cheriton School of Computer Science、ウォータールー大学

(2)マイクロソフトリサーチのリアン・ワン氏

(3)ナン・ヤン、マイクロソフトリサーチ

(4)マイクロソフトリサーチのFuru Wei氏

(5)ジミー・リン、ウォータールー大学デイビッド・R・チェリトンコンピュータサイエンス学部。

概要と序論

方法

実験

アブレーション研究と分析

関連作業

結論、謝辞および参考文献

4 アブレーション研究と分析

4.1 完全な微調整と LoRA の比較

大規模な言語モデルを微調整する場合、モデル内のすべてのパラメータを更新する完全な微調整を実行するか、LoRA などのパラメータ効率の高い方法を使用するかが重要な決定となります。表 4 は、パッセージ検索タスクに対して完全な微調整と LoRA を使用してトレーニングした場合の RepLLaMA の有効性を比較したものです。両方のモデルは、1 エポックのトレーニング セットでトレーニングされています。

完全な微調整により、トレーニング セットで LoRA を使用した場合よりも約 6 ポイント高い MRR@10 スコアが達成されることがわかります。ただし、開発セットでは、完全な微調整では LoRA と比較して有効性が 0.4 ポイントしか向上しません。興味深いことに、独立した人間の判断から得られた TREC DL19/DL20 データセットでは、LoRA の方が有効性が高くなっています。これは、完全な微調整ではトレーニング セットの分布に過剰適合する傾向がある一方で、パラメーターが大幅に少ない LoRA の方が一般化しやすいことを示唆しています。このため、メインの実験 (セクション 3) で紹介するすべてのモデルでは、完全な微調整ではなく LoRA を使用しています。

4.2 入力シーケンスの長さ

セクション 3.2 で説明したように、RankLLaMA は、LLaMA バックボーンがより長いコンテキスト ウィンドウで事前トレーニングされているため、BERT などの以前のモデルと比較して、より長い入力に対応できるという利点があります。最大トレーニング入力長と推論入力長の変化がドキュメント再ランク付けタスクのモデル有効性に与える影響を調査します。図 2 に示す結果は明確な傾向を示しています。最大トレーニング長が 512 から 2048 に増加すると、RankLLaMA の有効性が向上し、MRR@100 スコアは 48.5 から 50.3 に向上します。再ランク付け入力長がさらに 4096 に増加すると、MRR@100 スコアは 50.6 に上昇します。これは、より長いシーケンスを活用して有効性を向上させるモデルの能力を示しています。

図 2: 異なる最大入力長でトレーニングされ、異なる最大入力長を使用して評価された RankLLaMA のドキュメント ランキング MRR@100 スコアの比較。各線は特定の最大長でトレーニングされたモデルを表し、線に沿った点は推論 (再ランキング) 中に入力長を変更した場合の有効性を示しています。図 2: 異なる最大入力長でトレーニングされ、異なる最大入力長を使用して評価された RankLLaMA のドキュメント ランキング MRR@100 スコアの比較。各線は特定の最大長でトレーニングされたモデルを表し、線に沿った点は推論 (再ランキング) 中に入力長を変更した場合の有効性を示しています。

ただし、一定の長さを超えるとゲインが頭打ちになり、収穫逓減点が示唆されることに注意することが重要です。長さ 4096 でトレーニングされたモデルの MRR@100 は、トレーニングの長さに一致する入力長で評価した場合、長さ 2048 でトレーニングされたモデルよりもわずか 0.3 ポイント高いだけです。さらに、長さ 4096 でトレーニングされたモデルは 16 × V100 GPU を使用してトレーニングするのに約 8 日かかりますが、長さ 2048 のモデルは約 4 日かかります。推論にも同じ相対的なレイテンシ コストが適用されます。したがって、RankLLaMA ははるかに長い入力ドキュメントを処理できますが、この機能と計算効率の実際的な考慮事項とのバランスを取ることが重要です。

関連記事

前の投稿
多段階テキスト検索のための LLaMA の微調整に関する関連研究
次の投稿
初心者のための JavaScript ループ: 基本を学ぶ