OpenAI の新しい「推論」AI モデルが登場: o1-preview と o1-mini

in Vlog
ピクセルのようなブロックで作られたイチゴのイラスト。

OpenAI は木曜日、噂されていた「Strawberry」AI 言語モデルをついに公開し、従来の大規模言語モデル (LLM) に比べて「推論」と問題解決機能が大幅に向上したと主張した。正式には「OpenAI o1」と名付けられたこのモデル ファミリは、当初は o1-preview と o1-mini の 2 つの形式でリリースされ、ChatGPT Plus と特定の API ユーザーに本日から提供される。

OpenAI は、o1-preview は競技プログラミング、数学、および「科学的推論」を含む複数のベンチマークで前身の GPT-4o より優れていると主張している。しかし、このモデルを使用した人々によると、すべての指標で GPT-4o を上回っているわけではないという。他のユーザーは、クエリに回答する前に舞台裏で複数のステップの処理が行われるため、モデルからの応答の受信が遅れると批判している。

OpenAI のプロダクト マネージャーである Joanne Jang 氏は、めったにない大げさな宣伝を打ち消すツイートで、「私のフィードには O1 の宣伝がたくさんあるので、間違った期待を持たせているのではないかと心配しています。O1 とは何か: 非常に難しいタスクで優れた能力を発揮する最初の推論モデルであり、今後さらに良くなる一方です (個人的には、このモデルの可能性と軌道に興奮しています!)。O1 とは何か (まだ!): 以前のモデルよりもあらゆる面で優れている奇跡のモデルです。本日のリリースにこのような期待を抱いている方は、がっかりされるかもしれませんが、私たちはそこに到達するために取り組んでいます!」と述べました。

OpenAI は、o1-preview が Codeforces の競技プログラミング問題で 89 パーセンタイルにランクされたと報告しています。数学では、国際数学オリンピックの予選試験で 83 パーセントのスコアを獲得し、GPT-4o は 13 パーセントでした。OpenAI はまた、ベンチマークを精査し、時間をかけて独自の評価を実行することで後で異議を唱えられる可能性がある主張として、o1 は物理学、化学、生物学の特定のタスクで博士課程の学生に匹敵するパフォーマンスを発揮すると述べています。小型の o1-mini モデルはコーディングタスク専用に設計されており、o1-preview よりも 80 パーセント安くなっています。

OpenAIが提供したベンチマークチャート。彼らは次のように書いている。
拡大する / OpenAI が提供したベンチマーク チャート。彼らは、「o1 は、54/57 の MMLU サブカテゴリを含む幅広いベンチマークで GPT-4o よりも優れています。説明のために 7 つを示しています。」と書いています。

OpenAI は、o1 の進歩は、モデルが応答する前に問題を「じっくり考える」ことにもっと時間を費やすように教える新しい強化学習 (RL) トレーニング アプローチによるものだと考えています。これは、「ステップごとに考えてみましょう」という思考の連鎖を促すことで、他の LLM の出力を改善できる方法に似ています。新しいプロセスにより、o1 はさまざまな戦略を試し、自分の間違いを「認識」できます。

AI ベンチマークは信頼性が低く、簡単に操作できることで有名ですが、ユーザーによる独立した検証と実験により、時間の経過とともに o1 の進歩の全容が明らかになります。MIT リサーチが今年初めに、OpenAI が昨年 GPT-4 で宣伝したベンチマークの一部が誤りであったり誇張されていたりすることを示したことは注目に値します。

さまざまな機能

OpenAI は、「o1」が「strawberry」という単語の R の数を正しく数えるデモを行っています。

OpenAI がウェブサイトやソーシャル メディアで共有した、プログラミング タスクを完了したり、論理パズルを解いたりする o1 のデモ ビデオが多数ある中で、おそらく最も重要でなく、最も印象に残らないデモが 1 つ目だったが、LLM に「strawberry」という単語の R の数を数えるように求めるミームが繰り返されているため、最も話題になるかもしれない。

LLM がトークンと呼ばれるデータ チャンクで単語を処理するトークン化により、ほとんどの LLM は、通常、単語の文字ごとの違いを認識しません。どうやら、o1 には、文字を数える方法を理解し、ユーザーの支援なしに正確な回答を提供する自己反映機能があるようです。

OpenAI のデモ以外にも、オンラインでは o1-preview に関する楽観的だが慎重な実践レポートが見受けられます。ウォートンの Ethan Mollick 教授は X に次のように書いています。「この 1 か月間、GPT-4o1 を使っています。非常に興味深いです。すべてが優れているわけではありませんが、LLM にとって非常に難しい問題を解決します。また、将来的にも大きなメリットが期待できます。」

Mollick 氏は、自身のブログ「One Useful Thing」で、新しいモデルを使った実験の詳細を記した実践的な投稿を公開しました。「誤解のないように言っておきますが、o1-preview はあらゆる点で優れているわけではありません。たとえば、GPT-4o よりも優れたライターというわけではありません。しかし、計画を必要とするタスクの場合、変更は非常に大きくなります。」

Mollick 氏は、o1-preview に「以下の論文にヒントを得て、教師と生徒の意見を考慮し、複数のエージェントと生成 AI を使用した」教育シミュレーターを構築するよう依頼し、その後、完全なコードを構築するよう依頼した例を挙げ、Mollick 氏が感銘を受けた結果が得られたと述べています。

モリック氏はまた、o1-preview に 8 つのクロスワード パズルのヒントを与え、それをテキストに翻訳しました。モデルは多くのステップを経て 108 秒かけてそれを解き、すべての答えは正解しましたが、モリック氏が与えなかった特定のヒントについては作話しました。早期の実践的な印象を得るには、モリック氏の投稿全体を読むことをお勧めします。新しいモデルの経験から、o1 は GPT-4o と非常によく似ていますが、ループ内で反復的に動作するようです。これは、いわゆる「エージェント」AutoGPT および BabyAGI プロジェクトが 2023 年初頭に実験したものです。

これが「人類を脅かす」ものなのでしょうか?

ループで実行されるエージェントモデルといえば、Strawberry は昨年 11 月以来、当初 Q* (Q-star) と呼ばれていた頃から、大々的な宣伝の対象となっていた。当時、The Information と Reuters は、サム・アルトマンが CEO を短期間解任される直前に、OpenAI の従業員が OpenAI の取締役会に、Q* と呼ばれる新しい OpenAI モデルが「人類を脅かす」可能性があると内部的に警告していたと主張した。

8月には、OpenAIがStrawberryを米国国家安全保障当局者に披露したとThe Informationが報じ、話題はさらに続いた。

筆者が昨年 11 月に指摘したように、私たちは Q* と Strawberry をめぐる誇大宣伝については、噂が最初に浮上して以来ずっと懐疑的でした。また、Timothy B. Lee は昨年 12 月に Q* に関する優れた記事で徹底的に取り上げました。

そのため、o1 がリリースされたにもかかわらず、AI 業界のウォッチャーは、このモデルのリリースが間近に迫っていることがマスコミで危険な進歩として取り上げられた一方で、OpenAI は公に軽視していないことに注目すべきです。クロスワード パズルの 8 つのヒントを解くのに 108 秒かかり、1 つの答えを幻覚で表す AI モデルの場合、その潜在的な危険性は誇大宣伝だった可能性が高いと言えます (今のところ)。

「推論」の用語をめぐる論争

技術関係者の中には、AI モデルを擬人化したり、これらのニューラル ネットワーク システムが実行する合成および処理操作を説明するために「思考」や「推論」などの用語を使用することに問題があると考える人がいることは周知の事実です。

OpenAI o1の発表直後、ハギングフェイスのCEO クレメント・デラング 「もう一度言いますが、AI システムは『考える』のではなく、『処理する』、『予測を実行する』のです。Google やコンピューターがやっているのと同じです。テクノロジー システムが人間的であるという誤った印象を与えるのは、実際よりも賢いと思わせるための安っぽいインチキ薬やマーケティングにすぎません。」と書いています。

「推論」もまた、人間の場合でさえもその意味を正確に定義するのが難しいため、いくぶん曖昧な用語である。発表の数時間前、独立系 AI 研究者のサイモン・ウィリソン氏は、ストロベリーに関するブルームバーグの記事に応えて、「LLM 機能の観点から『推論』を定義するのはまだ難しい。現在のモデルでは失敗してもストロベリーでは成功し、その用語の意味を示すのに役立つプロンプトを見つけることに興味がある」とツイートした。

理由があるかどうかは別として、o1-preview には現在、Web ブラウジング、画像生成、ファイルのアップロードなど、以前のモデルにあった機能がいくつか欠けています。OpenAI は、o1 および GPT モデル シリーズの開発を継続するとともに、今後のアップデートでこれらの機能を追加する予定です。

OpenAI は o1-preview モデルと o1-mini モデルが本日リリースされると発表していますが、どちらのモデルも ChatGPT Plus インターフェースではまだ利用できないため、評価できていません。このモデルがこれまで取り上げた他の LLM とどのように異なるかについて、私たちの印象を報告します。

関連記事

前の投稿
Unityは不評だったインストールごとのランタイム料金を廃止する
次の投稿
裁判所は、操作されたデータを特定した研究者を名誉毀損で無罪とした