著者:
(1)Xueguang Ma、David R. Cheriton School of Computer Science、ウォータールー大学
(2)マイクロソフトリサーチのリアン・ワン氏
(3)ナン・ヤン、マイクロソフトリサーチ
(4)マイクロソフトリサーチのFuru Wei氏
(5)ジミー・リン、ウォータールー大学デイビッド・R・チェリトンコンピュータサイエンス学部。
リンク一覧
概要と序論
方法
実験
アブレーション研究と分析
関連作業
結論、謝辞および参考文献
5.1 大規模言語モデル
Transformer アーキテクチャ (Vaswani et al., 2017) に基づく事前学習済み言語モデルは、BERT (Devlin et al., 2019) の登場以来、さまざまな下流タスクに合わせて微調整されたときに優れた機能を発揮してきました。事前学習済み Transformer は、アーキテクチャに応じて、エンコーダーのみのモデル (Devlin et al., 2019、Liu et al., 2019、Conneau et al., 2020)、エンコーダー – デコーダー モデル (Raffel et al., 2020、Lewis et al., 2020a)、およびデコーダーのみのモデル (Radford et al., 2018) の 3 つのカテゴリに分類できます。GPT/GPT-2 のようなデコーダーのみのモデルは、モデル アーキテクチャと事前学習手順の点でシンプルであることが高く評価されています (Radford et al., 2018、2019)。
最近の研究では、より大規模で高品質のコーパスを使用して、より大きなデコーダーのみのモデルを事前トレーニングすることで LLM をスケールアップすると、質問応答やコード生成などの汎用 NLP タスクのモデル機能が大幅に強化されることが示されています (Wei et al., 2022; Chen et al., 2021)。これは、人間のフィードバックによる強化学習を使用して、事前トレーニング済みの LLM を指示に従うデータで微調整することで実現されます。InstructGPT (Ouyang et al., 2022) と GPT-4 (OpenAI, 2023) は、このクラスのモデルの 2 つの人気のある代表例です。オープンソースの大規模言語モデルの多くの実装の中で、LLaMA (Touvron et al., 2023a,b) は最新のものであり、さまざまなタスクで最高のパフォーマンスを発揮します。
5.2 多段階テキスト検索
多段階検索パイプラインは 10 年以上前に遡りますが (Matveeva 他、2006 年、Cambazoglu 他、2010 年、Wang 他、2011 年)、近年では monoBERT 再ランキング モデル (Nogueira および Cho、2019 年) に始まり、BERT などの事前トレーニング済み言語モデルから多大な恩恵を受けています。Nogueira 他 (2019 年) は、BM25 リトリーバーとそれに続く 2 つの BERT ベースの再ランキング ステージを採用した多段階検索パイプラインを提案しました。この設計は、再ランキング タスクにおける事前トレーニング済み言語モデルの有効性を実証しています。RankLLaMA は monoBERT と同じ基本設計に従います。 高密度パッセージリトリーバー (DPR) では、さらに BERT を微調整して、BM25 リトリーバーをバイエンコーダー設計の高密度検索モデルに置き換えることを提案しました (Karpukhin ら、2020 年)。DPR はテキストを低次元の高密度ベクトル表現にエンコードし、検索を最近傍検索タスクとして扱います。RepLLaMA も同じバイエンコーダー設計に従います。
マルチステージパイプラインでリトリーバーとリランカーの有効性を高めるために、いくつかのソリューションが導入されています。リトリーバー側では、ANCE (Xiong et al., 2021)、RocketQA (Qu et al., 2021)、CoCondenser (Gao and Callan, 2022b)、RetroMAE (Xiao et al., 2022)、SimLM (Wang et al., 2023) などの研究により、ハードネガティブマイニングまたは継続的なリトリーブ指向の事前トレーニングでトレーニングデータを拡張すると、高密度リトリーバーの有効性が向上することが示されています。リランカー側では、monoT5 (Nogueira et al., 2020) と monoELECTRA (Pradeep et al., 2022) は、カスタムの事前トレーニング済みモデルでリランカーを初期化すると有効性が向上することを実証しました。 Gao et al., 2021 は、デフォルトのペアワイズ損失の代わりに、リランカーのトレーニングに対照損失を使用することを提案しました。Zhuang et al. (2023) は、T5 をリランカーとして使用することを研究し、さまざまなモデルアーキテクチャと損失関数の影響を分析しました。ただし、多段階検索のために現代の数十億パラメータ規模の大規模言語モデルを直接微調整することは、これまで検討されていません。
最近、LLM は、少数ショットまたはゼロショットのテキスト生成を実行するように求められた場合、印象的な有効性を示しています。 序論で述べたように、研究者は再ランク付けをテキスト生成と位置付けています。 これらのモデルは、候補の並べ替えられたリストを直接生成するために活用できます。たとえば、LRL (Ma et al., 2023)、RankGPT (Sun et al., 2023)、RankVicuna (Pradeep et al., 2023) などです。 あるいは、PRP (Qin et al., 2023) など、ペアワイズ方式でパッセージを比較することもできます。 プロンプトベースの方法はゼロショットの有効性が良好であることが示されていますが、複数のデコードパスが必要であるため、遅く、並列化できません。 さらに、プロンプトによる再ランク付けでは、MS MARCO (Bajaj et al., 2016) などの利用可能な人間の判断を活用して有効性をさらに向上させることが困難です。 最後に、これらのアプローチでは、再ランク付け者と取得者の共同最適化は許可されません。 対照的に、私たちはこれらすべての問題に対処します。
私たちの研究は、GPT-XXL (Ni et al., 2022) や SGPT (Muennighoff, 2022) に最も似ています。これらも、高密度リトリーバーのバックボーンとして数十億パラメータ規模のモデルを使用し、小規模モデルよりも優れたゼロショット効果を達成しました。ただし、LLaMA は自然言語生成タスクでさらに優れた効果を実証しており、より優れたバックボーンとして機能する可能性があることを示唆しており、さらなる調査が必要です。1,750億パラメータの GPT-3 モデルで初期化された cpt-text モデル (Neelakantan et al., 2022) も、強力なゼロショット効果を示しています。ただし、cpt-text はオープンソース モデルではありません。さらに、上記のモデルはいずれも、マルチステージ検索パイプライン用に完全に最適化されていません。 当社の RepLLaMA および RankLLaMA モデルは完全にオープンソースであり、多段階検索用に最適化されており、ドメイン内およびドメイン外の評価の両方において、検索と再ランク付けの両方で最先端の有効性を実現します。