Anthropic、最新モデルは「神話レベル」だが厳格な安全対策が施されていると発表

Posted on 10 6月 5:58 am

4月に遡ると、Anthropicはその「Mythos」モデルを世界に発表した。伝えられるところによると、Mythos Preview はそのようなものですあらゆる種類のソフトウェアにわたるセキュリティ上の欠陥を検出できる強力なモデルです。悪意のある者がこのモデルを悪用し、私たちのほとんどが現代のデジタル生活に依存しているプログラム、サービス、サイトの脆弱性を発見する可能性があります。事実上、Mythos は史上最大のハッキングの機会を開く可能性があります。なんというピッチだ。

そのため、Anthropic は Mythos にブレーキを掛けました。同社は、最終的にはモデルを一般に公開すると主張したが、最初は限られた信頼できるテスターを集めて「プロジェクト・グラスウィング」と呼ぶプロジェクトで試用する必要があった。まず、それはモデルを米国およびその他の政府に公開することを意味しました。あなたや私のような人は Mythos をまだ利用できませんが、Anthropic はサイバーセキュリティのリスクを伴うことなく、Mythos の多くの機能を約束する新しいモデルをリリースします。

Anthropic’s Fable 5 と Mythos 5 とは何ですか?

火曜日、Anthropic は最新モデル Claude Fable 5 を発表しました。同社はこれを「Mythos クラスのモデル」と呼び、「一般的な使用には安全です」としています。同社によれば、Fable 5 は他の公開モデルよりも優れており、より高性能であると考えられます。 Anthropic は、Fable 5 がソフトウェアエンジニアリング、ナレッジワーク、ビジョンタスク、研究などのほとんどのベンチマークで最高のスコアを獲得していると主張しています。同社は「タスクが長く複雑になればなるほど、Fable 5 の他のモデルに対するリードは大きくなる」とまで述べています。 Mythos 5 もあります。これは、特定の制限のない Fable 5 のようですが、一般公開されていません。

Anthropic のベンチマークによると、Fable 5 と Mythos 5 は同様に、エージェントコーディング、ナレッジワーク、空間推論、ツールの使用、法律、学際的な推論 (ツールなし)、生物学、サイバーセキュリティ、健康のカテゴリで Mythos Preview、Opus 4.8、OpenAI の GPT-5.5、Google の Gemini 3.1 Pro よりも優れています。 Mythos Preview は、コンピューターの使用と多分野の推論 (ツールを使用) において成功を収めていますが、他のすべてのモデルを完全に圧倒しています。

クレジット: Anthropic

Anthropic によれば、Fable 5 はチームが 2 か月以上かかるコーディングプロジェクトをわずか 1 日で完了することができたとのことです。スクリーンショットだけから Web アプリのソースコードを再構築できます。それは勝つことができます ポケットモンスターファイアレッド 他のクロードモデルはまったくプレイするのに苦労する一方で、「最小限の視覚のみのハーネス」を備えていました。遊ぶことができました スパイアを倒す Opus 4.8 の 3 倍の頻度で最終幕に到達しました。Mythos 5 は、薬剤設計における統計の向上、分子生物学の問題に関する新しい仮説、およびゲノミクスにおける新しい研究を生み出す能力を備えた研究能力を基盤としています。

Anthropic はどのようにして Fable 5 を安全に保っているのでしょうか?

それが大きな問題です。Fable 5 が Mythos クラスである場合、一般公開しても安全であることをどのように確認できるでしょうか?悪意のある攻撃者が Fable 5 の機能を利用して、セキュリティ上の脆弱性を発見して開示させることはできないでしょうか?

Anthropic はそれを理解したと言っています。 Fable 5 は多くの点で Mythos レベルかもしれないが、同社は Project Glasswing のテストにより、公開リリースに向けて適切な安全策を備えたモデルを作成したと述べています。 Fable 5 は、応答すべきではないとわかっている「分類子」、つまり非常に機密性の高いトピックを探します。これが意味するのは、Fable 5 がサイバーセキュリティ、生物学、化学、または蒸留に関連すると思われるリクエストを受け取った場合、質問自体には答えないということです。代わりに、クエリを Anthropic の「次に高性能な」モデルである Opus 4.8 に渡します。このモデルは、正確な回答を提供するのに十分強力である必要がありますが、悪意のあるユーザーに他のユーザーを悪用するために必要なツールを提供することはできません。

これまでのところどう思いますか？

アンスロピック社は、同社の新しいガードレールは慎重かつ保守的で、やり過ぎの可能性があると述べている。良性のリクエストが誤って Fable 5 のセキュリティアラームを作動させる可能性がありますが、それは確率で約 5% 発生すると考えられています。そのため、Anthropic 氏は、Fable 5 はおよそ 95% の確率でリクエスト自体を処理できると述べています。さらに同社は、バグ報奨金プログラムの実施後、1,000時間のテストを経ても、どのホワイトハッカーも普遍的なジェイルブレイク（または安全プロトコルをバイパスするエクスプロイト）を見つけることができなかったことを発見した。ある組織が脱獄の発見に進展を見せている一方で、Anthropic 社は、同社のプロトコルにより、ハッカーが会社より先に脱獄を発見することは現実的ではないと確信していると述べています。

なぜ生物学と化学のリクエストを削除するのでしょうか?アンスロピック氏は、ミトス社は遺伝子治療の研究開発を支援するのにも非常に優れており、科学者にとっては利益になる可能性があるが、悪者の手に渡れば大きなリスクになると述べている。さらに、Anthropic は、クロードモデルの能力を「抽出」して、自分のモデルをトレーニングして、やりたいことを何でも実行させようとしている攻撃者がいることを知っています。そのため、これらのリクエストはいずれも、パフォーマンスの低いモデルで起動されます。

Anthropic は、Fable 5 と Mythos 5 のデータ保持ポリシーも変更します。これらのモデルでは、同社はトレーニングのためではなく、将来のサイバー攻撃やジェイルブレイクから保護するために、データを 30 日間保持します。 Fable 5とMythos 5の価格はどちらも同じで、入力トークン100万あたり10ドル、出力トークン100万あたり50ドルで、Anthropicによれば、これはMythos Previewの半額以下だという。

{このテーマについてさらに詳しく知りたい方は以下をご覧ください|関連情報は以下のリンクからご確認いただけます}

{完全ガイドはこちら|詳しい情報を見る|公式情報はこちら}

前の投稿

Microsoft の Windows 用の新しい Linux ユーティリティは的を外している – WSL が勝てる理由はここにある

次の投稿

今週（6 月 8 ～ 14 日）楽しめるエミー賞受賞の HBO Max 番組 3 本