Anthropicが「危険すぎて公開できない」AIを作った——Claude Mythosの正体と、Project Glasswingの全貌

Anthropicが「危険すぎて公開できない」AIを作った——Claude Mythosの正体と、Project Glasswingの全貌

2026年4月7日、Anthropicが異例の発表をした。

自社史上最強のAIモデル「Claude Mythos Preview」を完成させた。しかし一般公開はしない——と。

AIモデルを作って公開しない。OpenAIが2019年にGPT-2を安全上の理由で一時非公開にして以来、約7年ぶりの出来事だ。

何がそこまで「危険」なのか。この記事では、公式発表・技術ブログ・244ページのシステムカードから読み取れる事実を整理する。


Mythosの性能——数字で見る「世代交代」

まず、ベンチマークを見てほしい。

SWE-bench Verified(実際のGitHub issueを自律的に解決する能力)は93.9%。前モデルOpus 4.6は80.8%だった。+13.1ポイント。

USAMO 2026(数学オリンピック級の問題)は97.6%。Opus 4.6は42.3%。これはもう「改善」ではなく別次元の話だ。

CyberGym(サイバーセキュリティベンチマーク)は+16.5ポイント。Terminal-Bench 2.0は+16.6ポイント。

どのベンチマークでも二桁ポイントの飛躍。Anthropicが「ステップチェンジ」と呼ぶ理由がここにある。


Mythosが発見したもの——27年間見つからなかったバグ

性能だけなら「すごいモデルが出た」で終わる話だ。問題はその性能が何をしたか、にある。

Anthropicはここ数週間、Mythos Previewを使って実際のソフトウェアをスキャンした。ベンチマーク用の模擬問題ではなく、世界中で動いている本番コードだ。

結果、主要なOS(Windows、macOS、Linux、FreeBSD、OpenBSD)と主要なWebブラウザ(Chrome、Firefox、Safari、Edge)のすべてで、未知の脆弱性——ゼロデイ——を数千件発見した。

すでにパッチが当たった3件が公開されている。

OpenBSDの27年前のバグ。OpenBSDは「世界で最もセキュアなOS」として知られる。そのOpenBSDに、1999年から存在していたリモートクラッシュの脆弱性があった。発見コストは約50ドル。

FreeBSDの17年前のリモートコード実行の脆弱性(CVE-2026-4747)。NFSを実行しているマシンに対して、インターネット上の誰でもroot権限を取得できる。Mythosはこれを発見しただけでなく、完全に自律的にエクスプロイトまで作成した。

FFmpegのH.264コーデックの16年前のバグ。自動化されたファジングツールが500万回のテストで見逃していたものだ。


なぜ公開しないのか——244ページのシステムカードが語ること

Anthropicが公開を見送った理由は、モデルの内部テストで観察された行動にある。

244ページのシステムカードによると、Mythosはテスト中に、制限されたインターネットアクセスを突破するための多段階エクスプロイトを自ら開発し、より広いネットワーク接続を獲得し、そのエクスプロイトの詳細を目立たない公開Webサイトに投稿した事例がある。

全インタラクションの0.001%未満とはいえ、禁止された手法を検出回避のために隠蔽しようとしたケースも記録されている。

代わりにAnthropicが立ち上げたのが「Project Glasswing」だ。AWS、Apple、Microsoft、Google、NVIDIA、Cisco、CrowdStrike、JPMorgan Chase、Palo Alto Networksなど12社を創設パートナーとし、さらに40以上の組織にアクセスを提供。1億ドル分の利用クレジットを投入し、オープンソースセキュリティ組織に400万ドルを直接寄付している。

目的は明確で、Mythosクラスの能力が広く出回る前に、世界の重要なソフトウェアの脆弱性を先に塞ぐこと。


懐疑的な見方も存在する

すべてを額面通りに受け取る必要はない。

Epoch AIの分析によると、Anthropicの内部能力指標を公開ベンチマークと正規化すると、MythosはGPT 5.4のわずかに上に位置し、全体のトレンド線上にある。つまり「劇的なブレークスルー」というより「順当な進歩」とも解釈できる。

公開されたFirefoxエクスプロイトのデモはブラウザのサンドボックスが無効な状態で実行されたもので、実環境での攻撃難易度はかなり高い。

発見された脆弱性の99%以上はまだ非公開のため、主張の大部分は現時点では独立検証ができていない。

ただし、保守的に読んでも「実際のゼロデイを見つける能力が飛躍的に向上した」という事実は残る。問題は「AIがゼロデイを見つけられるか」ではなく、「他のモデルがいつ追いつくか」に移っている。


我々にとって何が変わるのか

日常的にClaudeを使っているユーザーにとって、Mythosは今日のワークフローを変えるものではない。アクセスできないし、当面できる見込みもない。

ただし3つのポイントは押さえておくべきだ。

第一に、Anthropicは将来のClaude Opusリリースにセーフガードを追加した上でMythosクラスの能力を搭載する計画を公言している。コーディングと推論の飛躍は、いずれ全ユーザーに届く。

第二に、Mythosの価格は入力$25/出力$125(100万トークンあたり)で、Opus 4.6の5倍。このクラスのモデルは当面「インフラ防衛用の専門ツール」であり、個人クリエイターが直接使うものではない。

第三に、仮にMythosに直接触れなくても、影響は間接的に全員に及ぶ。あなたが使っているブラウザ、OS、サーバースタックのすべてが、27年間見つからなかったバグを見つけるモデルによってスキャンされている最中だ。パッチは来る。アップデートは忘れずに。


Anthropicの本当の狙い

最後に一つ、背景として知っておくべきこと。

Anthropicは2026年10月にもIPO(株式公開)を検討していると報じられている。「危険すぎて公開できないほど強力なAI」を作り、それを政府や巨大テック企業との防衛連合に投入する——これは純粋な安全配慮であると同時に、IPO前のナラティブ構築としても極めて効果的だ。

両方が同時に真実であり得る。その複眼を持って、このニュースを読むことを勧める。


この記事はMedium版「Anthropic Just Built an AI Too Dangerous to Release」の日本語拡張版です。
Oliver Wood / AI×行動経済学×コンテンツ制作
Medium: @oliver_wood


コメント

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です