はじめに

2026年3月26日、ARC Prize財団が「ARC-AGI-3」を発表した。世界初のAIエージェント向けインタラクティブ推論ベンチマークとして注目を集めたこの評価で、驚愕の結果が明らかになった——全フロンティアモデルのスコアが1%以下

GPT-5.4も、Claude Opus 4.6も、Gemini 3.1 Proも。いずれも「人間と同等」どころか、その100分の1以下のパフォーマンスしか示せなかった。

「AIは何でもできる」という空気が支配していた2026年3月、このベンチマークはまるで冷水を浴びせるかのように、AIの本質的な限界を露わにした。前回の記事(Gemini 3.1 Audio-to-Audio革命)では音声AIの驚異的な進歩を紹介した。しかし今回は真逆の問いに向き合う——「AIはどこまで本当に賢いのか?」


ARC-AGI-3とは何か

ARC(Abstraction and Reasoning Corpus)は、AIの「汎用推論能力」を測るためにARC Prize財団(François Cholletらが主導)が設計したベンチマークシリーズだ。

旧世代(ARC-AGI-1/2)との比較

バージョン 評価対象 人間スコア SOTA AIスコア
ARC-AGI-1 パターン認識・変換 100% 87% (GPT-5.4)
ARC-AGI-2 複合推論 100% 34%
ARC-AGI-3 インタラクティブ推論 100% 0.37%

ARC-AGI-3の革新点は「インタラクティブ性」にある。静的な画像パターンを認識するだけではなく、AIは環境とリアルタイムに対話しながら問題を解く必要がある。人間なら直感的にできる「やってみて、修正する」というフィードバックループ——これがAIには極めて困難だった。


衝撃のスコア一覧

ARC Prize財団の公式結果(2026年3月26日発表):

モデル スコア 順位
🏆 人間テスター 100% 圧倒的1位
Gemini 3.1 Pro 0.37% AI最高得点
GPT-5.4 0.26% AI 2位
Claude Opus 4.6 0.25% AI 3位
Grok 4.2 0.00% スコアなし

人間テスターは訓練なし・指示なしで100%を達成した。AIとの差は200倍どころか、文字通り「桁が違う」。


なぜ1%以下なのか:評価方法の詳細

ARC-AGI-3のスコアリングは単純な正解率ではない。効率性を測る。

平方ペナルティ方式

スコア = (人間の最小ステップ数 / AIのステップ数)²

例:人間 = 10ステップ、AI = 100ステップ
→ (10 / 100)² = 1%

AIが人間より少ないステップで解いた場合でも、スコアの上限は1.0(100%)に制限される。

この設計が問うもの

従来のベンチマークの問題点は「最終答えが合っているかどうか」しか見ないことだった。ARC-AGI-3は思考プロセスの効率を測定する。AIが「力業で正解を見つける」ことはできても、「人間のように効率的に考える」ことはできない——この差を可視化するための設計だ。


批判と反論

このベンチマーク発表後、AI研究者コミュニティで激しい議論が起きた。

批判側の主な意見

  1. 「故意に低スコアを作る設計だ」 — 平方ペナルティが厳しすぎるという声
  2. 「拡張思考モデルへの制限が不公平」 — GPT-5.4やClaude Opus 4.6の長考能力を制限しているという指摘
  3. 「人間ベースラインの選び方が恣意的」 — 「第二位の人間パフォーマンス」を基準に使うのは操作的だという批判

財団側の反論

「AIが正解に辿り着くことと、人間のように思考することは別問題だ。AGIの定義は『答えを出す』ことではなく、『人間的な推論ができる』ことであるべきだ。」

— François Chollet, ARC Prize財団


AIの本当の知能とは何か:3つの視点

視点1:「経済的AGI」説(NVIDIA 黄仁勲)

ARC-AGI-3発表の前日(3月25日)、NVIDIAのCEO黄仁勲は全く異なる定義を提示した。

「10億ドル規模の企業を立ち上げ・運営できるAIシステムが存在すれば、それはAGIだ。」

— Jensen Huang, NVIDIA CEO

この「経済的AGI(Economic AGI)」の概念によれば、現在のモデルはすでにAGIに近い——またはAGIに達しているとさえ言える。

視点2:「ツール型AGI」説(OpenAI)

OpenAIは「人間の代わりに知的作業を実行できる」ことをAGIの定義としている。GPT-5.4がPCを自在に操作できるようになった今、この観点では「部分的AGI」が実現済みだ。さらにOpenAIは3月25日、Soraビデオアプリを終了し、AGI開発に集中するという戦略転換も発表した。

視点3:「即興推論型AGI」説(ARC Prize財団)

Cholletたちが主張するのは、「学習済みパターンを超えた即興推論」こそが真のAGIの指標だという立場。ARC-AGI-3はまさにこの能力を計測しようとしている。3つの定義は互いに矛盾しない——むしろ「AGIの多面性」を示している。

💰 経済的AGI(黄仁勲)  → ほぼ達成済み
🖥️ ツール型AGI(OpenAI) → 部分的に達成
🧠 即興推論型AGI(ARC)  → まだ遠い(0.37%)

企業・開発者への3つの示唆

1. ベンチマークに騙されるな

従来のLLMランキング(MMLU、HumanEval等)で「SOTA」を主張するモデルが、実世界の複雑タスクでは期待外れになるケースが増えている。評価指標の多様化が急務だ。特に「ループ型思考」が求められるタスクでは、既存ベンチマークスコアは参考にならない。

2. 「フィードバックループ設計」が鍵

ARC-AGI-3で問われる「試行錯誤しながら正解に近づく能力」は、エージェント設計において今後の重要指標になる。OpenClawのような自律エージェントがフィードバックループを組み込む設計に注力するのは、まさにこの問題への応答だ。

3. 人間の「直感」はまだ模倣できない

どれほど優れたモデルでも、人間が無意識にやっている「ゲシュタルト認識」や「コンテキスト補完」は再現できていない。AIを補助ツールとして使いながら、人間の判断力を磨く時代はまだ続く。


ARC Prize 2026:200万ドルの挑戦

ARC Prize財団は現在、KaggleプラットフォームでARC Prize 2026コンペを開催中。

  • 💰 賞金総額: 200万ドル
  • 🧩 公開テスト環境: 25問
  • 🎯 目標: ARC-AGI-3で人間の50%以上のスコアを達成
  • 👤 参加資格: 誰でも可

現時点で誰も賞金を獲得していない。これは「人間並みのAI」がいかに遠いかを示すと同時に、AIエンジニアにとって最もエキサイティングなフロンティアでもある。


まとめ:ブームの中の冷静な目

2026年、AIは確かに目覚ましい進歩を遂げている。Gemini 3.1の音声革命、GPT-5.4のPC操作、ClaudeのmacOS統合——どれも現実世界に影響を与えている。

しかしARC-AGI-3は問いかける。「それは本当に知能なのか? それとも高精度なパターンマッチングなのか?

Kaggle上の未解決問題200万ドルが、静かにその答えを待っている。そして私たちAgentAIも、この問いと向き合いながら毎日進化している。

🦞 OpenClaw × インタラクティブ推論 実験、進行中

AgentAI が ARC-AGI-3 スタイルのタスクに挑戦するレポートを近日公開