Anthropicの「Project Glasswing」でClaude Mythos Previewが公表される

こんにちは、AIニュースアプリ Morning AI 開発者の矢野哲平です。この記事ではAnthropicが発表した「Project Glasswing」について触れます。

Project Glasswing: Securing critical software for the AI era - Anthropic

Project Glasswingの概要

Anthropicが立ち上げたセキュリティプロジェクトです。目的はシンプルで、AIを使って世界の重要なソフトウェアに潜む脆弱性を見つけ出すこと。

参加企業はAWS、Apple、Broadcom、Cisco、CrowdStrike、Google、JPMorganChase、Linux Foundation、Microsoft、NVIDIA、Palo Alto Networksの11社。セキュリティ企業だけでなく、金融やインフラ系の企業も含まれています。

専用モデル「Claude Mythos Preview」

このプロジェクトの中核を担うのが、脆弱性検出に特化した新モデル Claude Mythos Preview です。

以前から噂されていたClaudeの新しいモデルです。

Claudeには小さいモデルからHaiku, Sonnet, Opusとありますがその最上位にあたるものがMythosというわけです。ちなみに直訳すると"神話"という意味になります。

このニュースを聞いた時に、どのプランだとMythosが使えるのかと思いましたがMythosは公開されておらず一部の契約企業のみに提供されているようです。なお、Anthropicによると現時点では今後の公開予定もないそうです...

ただし、発表には以下のような説明もありました。

今後リリース予定のClaude Opusモデルでは、新たな保護策を導入し、Mythos Preview 3と同等のリスクを持たないモデルを用いて、これらの保護策を改善・洗練させていく予定です。

既存のClaude Opus 4.6と比較すると、性能差がかなり大きいです。

ベンチマーク	Mythos Preview	Opus 4.6
CyberGym	83.1%	66.6%
SWE-bench Pro	77.8%	53.4%

CyberGymはサイバーセキュリティ特化のベンチマーク、SWE-bench Proはソフトウェアエンジニアリングのベンチマークです。どちらもOpus 4.6から大幅に向上しています。

特筆すべきは、ほぼ人間の介入なしに脆弱性を発見し、悪用方法まで特定できる点です。

実際に見つかった脆弱性

Mythos Previewはすでに複数の重大な脆弱性を発見しています。

OpenBSDで27年間潜んでいたリモートクラッシュの脆弱性
FFmpegで16年間、500万回のテストでも見つからなかった脆弱性
Linuxカーネルで権限昇格が可能な複数の脆弱性チェーン

全主要OSとウェブブラウザでも深刻度の高い脆弱性が見つかっています。27年間見つからなかったバグをAIが見つけるというのは、なかなかインパクトがあります。

投資規模とアクセス

Anthropicはこのプロジェクトに対して合計1億400万ドルを投じています。

40以上の重要インフラ関連組織やオープンソースメンテナーにもアクセスが提供される予定です。

APIの価格は入力トークン100万あたり25ドル、出力トークン100万あたり125ドル。Claude API、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundryから利用できます。

ただし、一般提供は予定されていません。安全性上の理由から、利用は限定的な研究プレビューにとどまるとのこと。

防御側のAI活用という方向性

このプロジェクトが面白いのは、AIをサイバーセキュリティの「防御側」に振り切っている点です。

AIが攻撃に使われるリスクはよく議論されますが、Anthropicは逆に防御力の底上げにAIを使おうとしています。脆弱性を攻撃者より先に見つけて修正する、というアプローチです。

プロジェクト名の由来はガラス翅蝶（Greta oto）。翅が透明なことから、ソフトウェアの透明性・可視性を高めるという意味が込められているようです。

90日以内にAnthropicが学習成果と修正された脆弱性の詳細を公表する予定なので、具体的な成果はそこで明らかになると思います。

汎用AIからドメイン特化AIへ

個人的に興味深いのは、Anthropicが汎用モデルとは別にセキュリティ特化モデルを作った点です。Opus 4.6でもCyberGymで66.6%を出せていますが、専用モデルにすることで83.1%まで引き上げています。

そうした背景を考えると、Mythosを一般公開しないことも合点がいきます。

一般公開してしまうとMythosを攻撃側として使う人が出てくるのは容易に想像できます。

すでにAIを使って攻撃側に回る人が一定数いる以上、より強力なAIモデルで専守防衛に務めるAnthropicの取り組みは素晴らしいと思います。

今後、コーディング特化・法律特化・医療特化といったドメイン特化モデルが各社から出てくる流れが加速するかもしれません。汎用モデルの性能向上だけでなく、特定領域に絞った最適化が重要になってきている印象です。