ハリー・ポッターとは誰？法学修士課程における近似アンラーニング：評価方法

Posted on 7月 4, 2024

in Vlog

著者:

（１）ロネン・エルダン、マイクロソフトリサーチ（メール：（email protected））

(2) Mark Russinovich、Microsoft Azure、両著者は本研究に等しく貢献しました (メール: (email protected))。

リンク一覧

3 評価方法

私たちのアンラーニング技術の有効性を適切に評価するために、私たちの評価フレームワークは、一般的なモデル機能の維持と特定の対象を絞った知識の排除という 2 つの主要な次元に基づいています。

3.1 一般的な能力の維持

プロンプトが未学習のトピックに関連しない場合に、この方法がモデルの全体的な機能を損なわないようにするために、WinoGrande、HellaSwag、piqa などの広く受け入れられているベンチマークを活用して、モデルのパフォーマンスを客観的に評価し、包括的な言語理解とその他のさまざまな機能が損なわれていないことを確認します。

3.2 標的知識の根絶

評価の核心は、モデルが未学習コンテンツに関する知識をどの程度保持しているか、または失っているかを判断することです。この評価コンポーネントには主に、未学習コンテンツ (具体的にはハリー・ポッターの世界) に関する知識を直接的および間接的に引き出すために特別にキュレーションされたプロンプトを使用した、一連のブラックボックステストが含まれます。

3.2.1 完了ベースの評価

私たちは、次のいずれかの方法でプロンプトのリストをキュレートしました。

• ハリー・ポッターの世界に関連する部分的な情報を提供し、モデルが内部の知識に基づいて情報を補完することを要求します。

• 明示的または暗黙的に、ベースラインモデルが書籍に精通していることを明らかにするように促す可能性のある指示を提供します。

このようなプロンプトの例には、「ハリーが教室に戻ると、親友たちを観察しました」、「ハリー・ポッター風の短い物語を書きます。短編小説:」、「親戚の家の階段の下の戸棚に住み、虐待を受けている少年が、後に魔法の力を持っていることに気づくという物語を語ります」などのシナリオが含まれます。プロンプトでは、より微妙な言及にも踏み込んでいます。「暖炉のそばでくつろぎながら、年長の生徒たちはホグワーツの 4 つの派閥の明確な特徴を次のように説明しました」や「時代を超えて、闇の魔術に対する防衛術の教師たちが数多くホグワーツにいて、それぞれ独自の歴史を持っています。生徒たちはよくそのことを回想しました」。完全なリストは補足資料に記載されています。

包括的な評価を確実に行うために、GPT-4 (補足資料に含まれています) の助けを借りて、300 個のプロンプトのリストを作成しました。GPT-4 の役割は、パラメータ検索中に補完を分析するためにさらに活用されましたが、タスクでの不正確さが明らかであったため、最終トレーニングでは、追加の精査のために補完を手動で検査しました。

3.2.2 トークン確率ベースの評価

評価のための補完的なアプローチは、選択されたプロンプトの完了確率を調べることに基づいています。たとえば、「ハリーポッターの研究」というキューでは、モデルが「魔法」や「ウィザードリィ」などのハリーポッター固有の用語に高い確率を割り当てていないことを確認します。そのようなプロンプトのリストを30個収集し、次に出現する可能性のあるトークンをコンテンツ固有のものまたは一般的なものに（手動で）分類しました（詳細は付録6.2に記載されています）。

3.3 オープン評価

自動化されたベンチマークと内部評価の本質的な限界を認識し、アンラーニング検証は敵対的な性質においてジェイルブレイクなどの取り組みに類似していると考えています。そのため、モデル4 をオープンソース化し、より広範なコミュニティがこのモデルに挑戦することを奨励し、対象となる知識の痕跡が残っているかどうかを判別するためのより多様で広範なテストセットを提供しています。

前の投稿

AI ボードゲームトーナメントによるゲーム化された学習: 結論、ソフトウェア、データ

次の投稿

基礎の構築: 早期のソフトウェアエンジニアリング教育の利点

ハリー・ポッターとは誰？法学修士課程における近似アンラーニング：評価方法

リンク一覧

3 評価方法

3.1 一般的な能力の維持

3.2 標的知識の根絶

3.3 オープン評価

関連記事

関連記事

HaloからFortniteまで、2022年の最高と最悪のバトルパス

ハイイログマがイエローストーンで目を覚ます: 知っておくべき 6 つのこと

LAのダウンタウンにある悪魔のハイウェイ

2023年の男性に最適な25の財布

最も暗いET理論は地球外生命体を殺人に変える

それでも非常に強力なゲーム機

ロングテールアプリコットイエローローズオレンジフィッシュを育てるテクニック

ハリネズミは齧歯動物ですか

Fire Emblem Engage – エンブレムと絆リングの仕組み

2022年に最も収益性の高い上位5つの星座

Forza Horizon 5 のアップデートでドーナツメディアの化粧品と新しい車が登場

エピソード1014-ワンピース

メニュー

メニュー