2026年4月16日——Anthropicが最新フラッグシップモデル「Claude Opus 4.7」を正式リリースした。前世代Opus 4.6からわずか70日での高速イテレーション。コーディング能力+13%、視覚解像度3.3倍、新エフォートレベル「xhigh」の追加——開発者とエージェント自律実行の現場に、直接的なインパクトをもたらす進化となった。
• リリース日: 2026年4月16日、Opus 4.6から70日での高速アップデート
• コーディング: SWE-bench Pro 64.3%(+10.9pp)、CursorBench 70%(+12pp)
• 視覚: 画像解像度3.3倍(最大2,576px)、XBOW精度98.5%
• 新機能: xhigh エフォートレベル、自己検証、マルチエージェント協調強化
• 価格: $5/$25(100万トークン)据え置き、コンテキスト1M tokens
1. スペック比較:Opus 4.6 vs Opus 4.7
まずは数字で見る進化の全容:
| 項目 | Opus 4.6 | Opus 4.7 | 変化 |
|---|---|---|---|
| SWE-bench Pro | 53.4% | 64.3% | +10.9pp |
| SWE-bench Verified | 80.8% | 87.6% | +6.8pp |
| CursorBench | 58% | 70% | +12pp |
| Rakuten-SWE-Bench | ベース | 3倍のタスク解決 | 3x |
| XBOW視覚精度 | ~60% | 98.5% | 大幅向上 |
| 画像最大解像度 | ~780px | 2,576px | 3.3x |
| コンテキスト窓 | 200K | 1M tokens | 5x |
| 最大出力 | 32K | 128K tokens | 4x |
| 価格(入力/出力) | $5/$25 | $5/$25 | 変更なし |
2. コーディング能力の飛躍的向上
Opus 4.7の最も顕著な進化はソフトウェアエンジニアリングの領域にある。93項目のコーディングベンチマークでOpus 4.6比+13%の向上を記録した。
2-1. SWE-bench Pro:53.4% → 64.3%
現実のGitHubイシューを解決する能力を測るSWE-bench Proで、10.9ポイントの大幅ジャンプを達成。これは単なる漸進的改善ではなく、実務上の違いを生むレベルの進化だ。
2-2. CursorBench:58% → 70%
AIコーディングアシスタントの実用性を測るCursorBenchでも、12ポイントの向上を記録。IDE統合環境での実際の開発体験が大きく改善されることを示している。
2-3. Rakuten-SWE-Bench:3倍のタスク解決
より実務に近いRakuten-SWE-Benchでは、Opus 4.6と比較して3倍の本番タスクを解決。コード品質とテスト品質の両面で二桁の改善が確認されている。
Opus 4.7は「コードを書くAI」から「自律的にソフトウェアを構築するAI」への移行点に位置している。Rakuten-SWE-Bench 3倍という数字は、実際のプロダクションコードの修正・追加において、AIが人間のレビューを必要とする頻度が大幅に減ることを意味する。
3. 視覚能力の革命的アップグレード
Opus 4.7のもう一つの大きな変化は視覚理解の領域だ。
3-1. 画像解像度3.3倍
最大画像解像度が従来の約780pxから2,576px(3.75メガピクセル)に拡大。これにより以下が可能になった:
- 技術図面の精細な解析
- UIモックアップの忠実な再現
- 設計仕様書からの正確なコード生成
- 複雑なチャート・グラフの読み取り
3-2. XBOW視覚精度:98.5%
XBOWベンチマークでの視覚精度が98.5%に到達。これは従来の約60%からの劇的な飛躍であり、視覚理解において「実用段階」から「ほぼ完璧」への移行を意味する。
この視覚能力向上のニュースは、AdobeとFigmaの株価に2%以上の下落をもたらしたと報じられている。AIが設計インターフェースを解析・再現できるようになることは、デザインツール業界にとって構造的な脅威となりつつある。
3-3. 視覚推論・文書推論の高スコア
視覚推論82.1%、文書推論80.6%という高スコアも注目に値する。単に「画像を見る」だけでなく、その内容を論理的に理解し、文脈に沿って推論する能力が実用レベルに達した。
4. 新エフォートレベル「xhigh」
Opus 4.7では、推論の深さを制御するエフォートレベルに新たに「xhigh」が追加された。
| エフォートレベル | 特徴 | 想定用途 |
|---|---|---|
| low | 高速・低コスト | 単純な質問応答 |
| medium | バランス型 | 一般的なタスク |
| high | 深い推論 | 複雑な分析 |
| xhigh 🆕 | 高品質・コスト最適 | 長時間エージェントタスク |
| max | 最深推論・最高コスト | 最も難易度の高い問題 |
「xhigh」はhighとmaxの中間に位置する設定で、コストを抑えつつ高品質な出力を維持できる。自律型エージェントの長時間タスク実行において、最適なバランスを提供する。
5. エージェント自律実行の強化
Opus 4.7の根底にあるのは、「自律型エージェント」というAnthropicの戦略的方針だ。
5-1. 長時間非同期タスクの遂行
コンテキスト窓が1M tokensに拡大し、最大出力が128K tokensに到達したことで、AIはより長時間・より複雑なタスクを中断なく実行できるようになった。
5-2. 自己検証(Self-verification)
Opus 4.7は自己検証機能を新たに備えた。生成したコードや回答の品質を自律的にチェックし、必要に応じて修正を行う。これにより、人間のレビュー負荷が大幅に軽減される。
5-3. マルチエージェント協調の精度改善
複数のAIエージェントが協調して作業するシナリオにおいて、指示追従の厳格化とツール使用の精度向上が図られた。エージェント間の通信ミスやタスクの重複を減らし、効率的なチーム実行を実現する。
6. 利用可能プラットフォーム
Opus 4.7は主要なAIプラットフォームで即日利用可能:
| プラットフォーム | 提供形態 |
|---|---|
| Claude Code | CLI / IDE統合 |
| Claude アプリ | Web / デスクトップ |
| GitHub Copilot | コーディングアシスタント |
| Amazon Bedrock | クラウドAPI |
| Google Vertex AI | クラウドAPI |
| Microsoft Azure | クラウドAPI |
7. Mythos Previewとの二戦略
AnthropicはOpus 4.7の一般提供と同時に、研究プレビュー版「Claude Mythos」も継続提供している。
• Opus 4.7: 安定した本番利用向け。高い信頼性と予測可能な品質
• Mythos Preview: 最先端能力の探求向け。AGI水準の推論能力を實験的に提供
この二本柱により、実務利用と研究の両面を同時にカバーする戦略を明確化した。
8. 価格面の注意点
価格は$5/$25(100万トークンあたり)で据え置かれたが、新トークナイザの導入により実質的なコストが最大35%増加する可能性がある点に注意が必要だ。同じテキストでも新トークナイザではトークン数が増える場合がある。
まとめ
| 評価項目 | 評価 |
|---|---|
| 革新性 | ★★★★★(視覚3倍+xhigh+自己検証の複合進化) |
| 実用性 | ★★★★★(コーディング+13%は実務に直結) |
| コストパフォーマンス | ★★★★☆(価格据え置きだが新トークナイザに注意) |
| 業界への影響 | ★★★★★(デザインツール業界に構造的脅威) |
Claude Opus 4.7は、Anthropicが「エージェント自律実行」に本格的に舵を切ったことを示すリリースだ。コーディングの実用精度、視覚理解の質、長時間タスクの自律遂行——これらすべてが実務レベルに到達しつつある。価格据え置きで性能だけが上がるこの方向性は、開発者コミュニティに大きな歓迎をもって受け入れられている。
Anthropic公式: Introducing Claude Opus 4.7
LLM Stats: Claude Opus 4.7: Benchmarks, Pricing, Context & What's New
LushBinary: Claude Opus 4.7 Developer Guide
Impress: Anthropic、最新鋭モデル「Claude Opus 4.7」を発表