ハリー・ポッターとは誰?法学修士課程における近似アンラーニング:結論、謝辞、参考文献

in Vlog

著者:

(1)ロネン・エルダン、マイクロソフトリサーチ(メール:(email protected))

(2) Mark Russinovich、Microsoft Azure、両著者は本研究に等しく貢献しました (メール: (email protected))。

5。結論

大規模言語モデル (LLM) に選択的に忘れる、つまり「忘れる」ように教えるという野心的な試みは、人工知能と機械学習の世界に内在する微妙な複雑さの証です。困難な作業と広くみなされている LLM でこのような機能を実現する試みは、革新的なソリューションの先駆けであり、この点で、私たちの概念実証は進歩を強調していると言えるでしょう。

まず、私たちの研究は、学習の取り消しは困難ではあるものの、Llama2-7b モデルを使った実験で得られた肯定的な結果が示唆するように、克服できない課題ではないことを示しています。しかし、この成果は慎重に文脈化されなければなりません。私たちの現在の方法論 (モデルに提示されたプロンプトに基づいて評価し、その結果として得られる完了を評価する) は、特定のシナリオでは効果的ですが、情報抽出のより敵対的な手段を見逃す可能性があります。トークンの確率分布を詳しく調べるなどの非伝統的または複雑な方法により、モデルが未学習コンテンツに潜在的に精通していることが意図せず明らかになる可能性も考えられます。

私たちの手法の潜在的な一般性をさらに深く掘り下げると、ハリー ポッター シリーズのユニークな属性を考慮すると、適切な観察が浮かび上がります。この本には、独特の表現や特徴的な名前が満載です。後から考えてみると、これらの特徴が私たちのアンラーニング戦略を助長していた可能性があります。多くの LLM のトレーニング データ全体にハリー ポッターのテーマが顕著に存在することで、課題がさらに複雑になっています。このような幅広い表現を考えると、プロンプトにほんのわずかなヒントがあっても、関連する補完が次々と引き起こされ、モデルに深く刻み込まれた記憶の深さが強調される可能性があります。

私たちの方法論の微妙な点は、GPT-4 のハリー・ポッターの世界に関する既存の知識への依存です。特定のアンカー用語を検出し、汎用的な対応物を考案するには、GPT-4 の専門知識が役立つことが証明されました。これにより、このような膨大な事前知識がなくても、私たちの手法が同様の有効性を達成できるかどうかという疑問が生じます。予備実験では、この知識がなくてもエンティティ抽出は効果的であることが示されており、特異な表現への慣れの欠如は単純な n グラム頻度分析で対処できると推測していますが、より徹底した研究は今後の作業に残します。

このアプローチを他の種類のコンテンツ、特にノンフィクションや教科書に拡張すると、独自の課題が生じます。ハリー・ポッターの架空の世界とは異なり、ノンフィクションのコンテンツには、独自の用語やフレーズがそれほど多く含まれません。さらに、ノンフィクションのテキストには、アイデア、概念、文化的視点などの高レベルの構成が埋め込まれていることがよくあります。私たちの手法が、これらのより抽象的な要素にどの程度効果的に対処し、忘れ去ることができるかは不明です。明らかに、私たちの手法の適応が必要になります。

結論として、私たちの手法は有望なスタートを切っていますが、さまざまなコンテンツ タイプへの適用性については、まだ徹底的にテストされていません。提示されたアプローチは基礎を提供しますが、LLM におけるより広範なアンラーニング タスクのために方法論を改良および拡張するには、さらなる研究が必要です。

了承

著者は、この研究に使用された Azure GPU VM の構成と管理に協力してくれた Yanan Cai に感謝の意を表します。

参考文献

(BHT+19) Yonatan Bisk、Ari Holtzman、Jesse Thomason、Jacob Andreas、Yoshua Bengio、Joyce Y Chai、Mirella Lapata、Angeliki Lazaridou、Ryan J Maynez、Piyush Narang、他 Piqa: 自然言語における物理的常識についての推論。arXiv プレプリント arXiv:1911.11641、2019。

(CLC+19) Christopher Clark、Kenton Lee、Ming-Wei Chang、Tom Kwiatkowski、Michael Collins、Kristina Toutanova。Boolq: 自然な yes/no 質問の意外な難しさの探究。2019 年北米支部計算言語学会会議議事録: 人間言語技術、第 1 巻 (長編および短編論文)、2924 ~ 2936 ページ、2019 年。

(GTB+21) Leo Gao、Jonathan Tow、Stella Biderman、Sid Black、Anthony DiPofi、Charles Foster、Laurence Golding、Jeffrey Hsu、Kyle McDonell、Niklas Muennighoff、Jason Phang、Laria Reynolds、Eric Tang、Anish Thite、Ben Wang、Kevin Wang、Andy Zou。少数ショット言語モデル評価のためのフレームワーク、2021年9月。

(JLZ+22) Yiwen Jiang、Shenglong Liu、Tao Zhao、Wei Li、Xianzhou Gao。「機械学習のアンラーニング調査」。第5回国際メカトロニクスおよびコンピューター技術工学会議 (MCTE 2022)、第12500巻、1596~1603ページ。SPIE、2022年。

(JYY+22) Joel Jang、Dongkeun Yoon、Sohee Yang、Sungmin Cha、Moontae Lee、Lajanugen Logeswaran、およびMinjoon Seo。言語モデルにおけるプライバシーリスクを軽減するための知識のアンラーニング。arXivプレプリントarXiv:2210.01504、2022年。

(MCKS18) Todor Mihaylov、Peter Clark、Tushar Khot、Ashish Sabharwal。「鎧は電気を伝導できるか?オープンブックの質問回答のための新しいデータセット」arXiv プレプリント arXiv:1809.02789、2018 年。

(NHN+22) Thanh Tam Nguyen、Thanh Trung Huynh、Phi Le Nguyen、Alan Wee-Chung Liew、Hongzhi Yin、Quoc Viet Hung Nguyen。 機械学習のアンラーニングに関する調査。 arXivプレプリントarXiv:2209.02299、2022年。

(Row07) JK ローリング。ハリー・ポッターシリーズ。ブルームズベリー、1997-2007 年。収録作品: ハリー・ポッターと賢者の石、ハリー・ポッターと秘密の部屋、ハリー・ポッターとアズカバンの囚人、ハリー・ポッターと炎のゴブレット、ハリー・ポッターと不死鳥の騎士団、ハリー・ポッターと謎のプリンス、ハリー・ポッターと死の秘宝。

(SLBBC19) 坂口 啓介、ロナン ル ブラス、チャンドラ バガヴァトゥラ、イェジン チェイ。「Winogrande: 大規模な敵対的 winograd スキーマ チャレンジ」arXiv プレプリント arXiv:1907.10641、2019 年。

WCY+23) Lingzhi Wang、Tong Chen、Wei Yuan、Xingshan Zeng、Kam-Fai Wong、Hongzhi Yin。Kga: 知識ギャップアライメントに基づく一般的な機械学習アンラーニングフレームワーク。arXiv プレプリント arXiv:2305.06535、2023。

(YBS19) Vikas Yadav、Steven Bethard、Mihai Surdeanu。「素早く(それほど)汚くない:マルチホップ質問応答のための正当化文の教師なし選択」arXiv プレプリント arXiv:1911.07176、2019 年。

(ZFBH+23) Dawen Zhang、Pamela Finckenberg-Broman、Thong Hoang、Shidong Pan、Zhenchang Xing、Mark Staples、Xiwei Xu。大規模言語モデルの時代における忘れられる権利:影響、課題、解決策。arXivプレプリントarXiv:2307.03941、2023年。

(ZHB+19) Rowan Zellers、Ari Holtzman、Yonatan Bisk、Ali Farhadi、Yejin Choi。Hellaswag: 機械は本当にあなたの文章を完成させることができるのか? 計算言語学会第 57 回年次会議の議事録、4791 ~ 4800 ページ、2019 年。

(ZNIS23) 張海波、中村徹、磯原隆正、桜井幸一。機械学習の反学習に関するレビュー。SNコンピュータサイエンス、4(4):337、2023年。

関連記事

前の投稿
量子アニーリングを用いた高性能コンピューティングの負荷分散: 平滑化粒子流体力学
次の投稿
ハリー・ポッターとは誰?法学修士課程における近似アンラーニング:結果