多段階テキスト検索のための LLaMA の微調整: アブレーション研究と分析

Posted on 7月 6, 2024

in Vlog

著者:

（１）Xueguang Ma、David R. Cheriton School of Computer Science、ウォータールー大学

（２）マイクロソフトリサーチのリアン・ワン氏

（３）ナン・ヤン、マイクロソフトリサーチ

（4）マイクロソフトリサーチのFuru Wei氏

（５）ジミー・リン、ウォータールー大学デイビッド・R・チェリトンコンピュータサイエンス学部。

リンク一覧

概要と序論

方法

実験

アブレーション研究と分析

4 アブレーション研究と分析

4.1 完全な微調整と LoRA の比較

大規模な言語モデルを微調整する場合、モデル内のすべてのパラメータを更新する完全な微調整を実行するか、LoRA などのパラメータ効率の高い方法を使用するかが重要な決定となります。表 4 は、パッセージ検索タスクに対して完全な微調整と LoRA を使用してトレーニングした場合の RepLLaMA の有効性を比較したものです。両方のモデルは、1 エポックのトレーニングセットでトレーニングされています。

完全な微調整により、トレーニングセットで LoRA を使用した場合よりも約 6 ポイント高い MRR@10 スコアが達成されることがわかります。ただし、開発セットでは、完全な微調整では LoRA と比較して有効性が 0.4 ポイントしか向上しません。興味深いことに、独立した人間の判断から得られた TREC DL19/DL20 データセットでは、LoRA の方が有効性が高くなっています。これは、完全な微調整ではトレーニングセットの分布に過剰適合する傾向がある一方で、パラメーターが大幅に少ない LoRA の方が一般化しやすいことを示唆しています。このため、メインの実験 (セクション 3) で紹介するすべてのモデルでは、完全な微調整ではなく LoRA を使用しています。

4.2 入力シーケンスの長さ

セクション 3.2 で説明したように、RankLLaMA は、LLaMA バックボーンがより長いコンテキストウィンドウで事前トレーニングされているため、BERT などの以前のモデルと比較して、より長い入力に対応できるという利点があります。最大トレーニング入力長と推論入力長の変化がドキュメント再ランク付けタスクのモデル有効性に与える影響を調査します。図 2 に示す結果は明確な傾向を示しています。最大トレーニング長が 512 から 2048 に増加すると、RankLLaMA の有効性が向上し、MRR@100 スコアは 48.5 から 50.3 に向上します。再ランク付け入力長がさらに 4096 に増加すると、MRR@100 スコアは 50.6 に上昇します。これは、より長いシーケンスを活用して有効性を向上させるモデルの能力を示しています。

図 2: 異なる最大入力長でトレーニングされ、異なる最大入力長を使用して評価された RankLLaMA のドキュメントランキング MRR@100 スコアの比較。各線は特定の最大長でトレーニングされたモデルを表し、線に沿った点は推論 (再ランキング) 中に入力長を変更した場合の有効性を示しています。図 2: 異なる最大入力長でトレーニングされ、異なる最大入力長を使用して評価された RankLLaMA のドキュメントランキング MRR@100 スコアの比較。各線は特定の最大長でトレーニングされたモデルを表し、線に沿った点は推論 (再ランキング) 中に入力長を変更した場合の有効性を示しています。

ただし、一定の長さを超えるとゲインが頭打ちになり、収穫逓減点が示唆されることに注意することが重要です。長さ 4096 でトレーニングされたモデルの MRR@100 は、トレーニングの長さに一致する入力長で評価した場合、長さ 2048 でトレーニングされたモデルよりもわずか 0.3 ポイント高いだけです。さらに、長さ 4096 でトレーニングされたモデルは 16 × V100 GPU を使用してトレーニングするのに約 8 日かかりますが、長さ 2048 のモデルは約 4 日かかります。推論にも同じ相対的なレイテンシコストが適用されます。したがって、RankLLaMA ははるかに長い入力ドキュメントを処理できますが、この機能と計算効率の実際的な考慮事項とのバランスを取ることが重要です。

前の投稿

多段階テキスト検索のための LLaMA の微調整に関する関連研究

次の投稿

初心者のための JavaScript ループ: 基本を学ぶ

多段階テキスト検索のための LLaMA の微調整: アブレーション研究と分析

リンク一覧

4 アブレーション研究と分析

4.1 完全な微調整と LoRA の比較

4.2 入力シーケンスの長さ

関連記事

関連記事

ムーンナイトは印象的な（そしてとんでもない）MCUレコードを設定します

2023年春のあらゆる機会に最適な23のミディドレス

不死の (またはそれに近い!) 5 種類の素晴らしい動物に会いましょう!

チェンジドのトニー・トッドは、ホラー犯罪者と疑わしい悪役を倒すことに身を投じました

Deathloop Goldenloop アップデート – すべての新しいものを見つける場所

愛らしい「ゾンビスネーク」が孵化した後、本能的に死んで遊ぶ

ゴッサム騎士団の警官を倒すと満足感が得られるが、XP は得られない

声優、ADRディレクターのダマンミルズが性的違法行為で告発-関心

アリゾナ州の旗: 歴史、意味、象徴性

マスクラットの歯: あなたが今まで知りたかったことすべて

2018年の世紀の結婚式

エルニーニョとは？完全な説明

メニュー

メニュー