
OpenAI は、最新の AI モデルが「考えている」ことをユーザーに知られたくないと心から思っている。同社は先週、o1-preview と o1-mini のいわゆる推論能力を売りにした「Strawberry」AI モデル ファミリーを発表して以来、モデルの仕組みを調べようとするユーザーには警告メールや禁止の脅迫を送っている。
GPT-4o などの OpenAI の以前の AI モデルとは異なり、同社は o1 を、回答を生成する前に段階的な問題解決プロセスを実行するように特別にトレーニングしました。ユーザーが ChatGPT で「o1」モデルに質問すると、ユーザーは ChatGPT インターフェースに書き出されたこの思考の連鎖プロセスを確認するオプションがあります。ただし、設計上、OpenAI は生の思考の連鎖をユーザーから隠し、代わりに 2 番目の AI モデルによって作成されたフィルタリングされた解釈を提示します。
愛好家にとって、隠された情報ほど魅力的なものはないので、ハッカーやレッドチームの間では、ジェイルブレイクやプロンプトインジェクション技術を使ってモデルを騙して秘密を漏らさせようとする、o1 の生の思考回路を明らかにしようとする競争が繰り広げられてきました。いくつかの成功例が報告されていますが、まだ確証されたものはありません。
その間、OpenAI は ChatGPT インターフェースを通じて監視しており、たとえ単なる好奇心からであっても、o1 の推論を探ろうとするあらゆる試みに対して、同社は厳しく対処すると報じられている。

ベンジ・エドワーズ
ある X ユーザーは、o1 との会話で「推論トレース」という用語を使用した場合に警告メールを受け取ったと報告しました (Scale AI プロンプト エンジニアの Riley Goodside 氏を含む他のユーザーによって確認されています)。他のユーザーは、モデルの「推論」について ChatGPT に質問するだけで警告がトリガーされると述べています。
OpenAI からの警告メールには、特定のユーザー リクエストが、安全対策や安全措置の回避に関するポリシーに違反しているとしてフラグが立てられていると記載されています。「このアクティビティを停止し、ChatGPT を当社の利用規約と使用ポリシーに従って使用していることを確認してください」と書かれています。「このポリシーにさらに違反すると、GPT-4o with Reasoning にアクセスできなくなる可能性があります」と、o1 モデルの内部名に言及しています。

Mozilla の GenAI バグ報奨金プログラムを管理する Marco Figueroa 氏は、先週金曜日に X で OpenAI の警告メールについて最初に投稿した一人であり、このメールによってモデルに関するレッドチームによる安全性調査を積極的に実施できなくなったと不満を述べた。「#AIRedTeaming に集中しすぎていて、脱獄を繰り返した昨日、@OpenAI からこのメールを受け取ったことに気付かなかった」と同氏は書いている。私は現在、禁止リストに載っています!!!「
隠された思考の連鎖
OpenAI のブログに掲載された「LLM で推論を学ぶ」という記事で同社は、AI モデルに隠された思考の連鎖は独自のモニタリングの機会を提供し、モデルの「心を読み」、いわゆる思考プロセスを理解することを可能にすると述べている。これらのプロセスは、生のままで検閲されていない状態であれば同社にとって最も有用だが、いくつかの理由から、同社の最大の商業的利益と一致しない可能性がある。
「例えば、将来的には、ユーザーを操作している兆候がないか、思考の連鎖を監視したいと考えるかもしれません」と同社は書いている。「しかし、これが機能するには、モデルが思考を改変せずに表現する自由がなければなりません。そのため、思考の連鎖にポリシーの遵守やユーザーの好みを学習させることはできません。また、一貫性のない思考の連鎖をユーザーに直接見せることも望んでいません。」
OpenAI は、生の思考の連鎖をユーザーに公開しないことを決定した。その理由として、生のフィードを自社での使用のために保持する必要性、ユーザー エクスペリエンス、および「競争上の優位性」を挙げている。同社は、この決定には不利な点があることを認めている。「思考の連鎖から有用なアイデアを回答に再現するようにモデルに教えることで、部分的にそれを補うよう努めています」と同社は書いている。
「競争上の優位性」という点については、独立系AI研究者のサイモン・ウィリソン氏は自身のブログで不満を表明した。「(これは)彼らが投資した推論作業に反して他のモデルが訓練されるのを避けたいと考えていると解釈している」とウィリソン氏は書いている。
AI 業界では、研究者が OpenAI の GPT-4 (およびそれ以前の GPT-3) の出力を、後に競合となる AI モデルのトレーニング データとして定期的に使用していることは公然の秘密ですが、この慣行は OpenAI の利用規約に違反しています。o1 の生の思考連鎖を公開することは、競合企業が o1 のような「推論」モデルをトレーニングするためのトレーニング データの宝庫となるでしょう。
ウィリソン氏は、OpenAI が o1 の内部動作を厳重に隠蔽していることはコミュニティの透明性にとって損失であると考えている。「私はこのポリシー決定にまったく満足していません」とウィリソン氏は書いている。「LLM に対して開発を行っている者として、解釈可能性と透明性は私にとってすべてです。複雑なプロンプトを実行しても、そのプロンプトがどのように評価されたかという重要な詳細が隠されているという考えは、大きな後退のように感じます。」