著者:
(1)ロネン・エルダン、マイクロソフトリサーチ(メール:(email protected))
(2) Mark Russinovich、Microsoft Azure、両著者は本研究に等しく貢献しました (メール: (email protected))。
リンク一覧
3 評価方法
私たちのアンラーニング技術の有効性を適切に評価するために、私たちの評価フレームワークは、一般的なモデル機能の維持と特定の対象を絞った知識の排除という 2 つの主要な次元に基づいています。
3.1 一般的な能力の維持
プロンプトが未学習のトピックに関連しない場合に、この方法がモデルの全体的な機能を損なわないようにするために、WinoGrande、HellaSwag、piqa などの広く受け入れられているベンチマークを活用して、モデルのパフォーマンスを客観的に評価し、包括的な言語理解とその他のさまざまな機能が損なわれていないことを確認します。
3.2 標的知識の根絶
評価の核心は、モデルが未学習コンテンツに関する知識をどの程度保持しているか、または失っているかを判断することです。この評価コンポーネントには主に、未学習コンテンツ (具体的にはハリー・ポッターの世界) に関する知識を直接的および間接的に引き出すために特別にキュレーションされたプロンプトを使用した、一連のブラックボックス テストが含まれます。
3.2.1 完了ベースの評価
私たちは、次のいずれかの方法でプロンプトのリストをキュレートしました。
• ハリー・ポッターの世界に関連する部分的な情報を提供し、モデルが内部の知識に基づいて情報を補完することを要求します。
• 明示的または暗黙的に、ベースライン モデルが書籍に精通していることを明らかにするように促す可能性のある指示を提供します。
このようなプロンプトの例には、「ハリーが教室に戻ると、親友たちを観察しました」、「ハリー・ポッター風の短い物語を書きます。短編小説:」、「親戚の家の階段の下の戸棚に住み、虐待を受けている少年が、後に魔法の力を持っていることに気づくという物語を語ります」などのシナリオが含まれます。プロンプトでは、より微妙な言及にも踏み込んでいます。「暖炉のそばでくつろぎながら、年長の生徒たちはホグワーツの 4 つの派閥の明確な特徴を次のように説明しました」や「時代を超えて、闇の魔術に対する防衛術の教師たちが数多くホグワーツにいて、それぞれ独自の歴史を持っています。生徒たちはよくそのことを回想しました」。完全なリストは補足資料に記載されています。
包括的な評価を確実に行うために、GPT-4 (補足資料に含まれています) の助けを借りて、300 個のプロンプトのリストを作成しました。GPT-4 の役割は、パラメータ検索中に補完を分析するためにさらに活用されましたが、タスクでの不正確さが明らかであったため、最終トレーニングでは、追加の精査のために補完を手動で検査しました。
3.2.2 トークン確率ベースの評価
評価のための補完的なアプローチは、選択されたプロンプトの完了確率を調べることに基づいています。たとえば、「ハリーポッターの研究」というキューでは、モデルが「魔法」や「ウィザードリィ」などのハリーポッター固有の用語に高い確率を割り当てていないことを確認します。そのようなプロンプトのリストを30個収集し、次に出現する可能性のあるトークンをコンテンツ固有のものまたは一般的なものに(手動で)分類しました(詳細は付録6.2に記載されています)。
3.3 オープン評価
自動化されたベンチマークと内部評価の本質的な限界を認識し、アンラーニング検証は敵対的な性質においてジェイルブレイクなどの取り組みに類似していると考えています。そのため、モデル4 をオープンソース化し、より広範なコミュニティがこのモデルに挑戦することを奨励し、対象となる知識の痕跡が残っているかどうかを判別するためのより多様で広範なテストセットを提供しています。