📌 概要
2026年6月27日、DeepSeekが北京大学と共同で開発したDSpark推理加速フレームワークを正式リリースし、全コードをMITライセンスでオープンソース化した。 推測的デコーディング(Speculative Decoding)技術により、DeepSeek-V4の推論速度を最大85%向上させ、モデルの再訓練やハードウェア追加なしで実現する画期的な成果だ。
同時に、推測的デコーディング用ドラフトモデルのフルスタック訓練ツールキットDeepSpecも公開。DSpark・DFlash・Eagle3の3つのアルゴリズムをバンドルし、Qwen3・Gemmaモデルファミリーにも対応──DeepSeekを使わないチームでも適用可能。
500億元(約1兆円)の資金調達後、初のオープンソース成果として注目を集めている。論文には創業者梁文鋒本人が署名。
🧠 推測的デコーディングとは──なぜ推論が遅いのか
大規模言語モデル(LLM)はテキストを1トークンずつ生成する(自回帰生成)。V4-Proのような1.6兆パラメータの巨大モデルでは、1トークン生成のたびにフルの前方伝播計算が必要。1.6兆パラメータ中49億がMoE構造で活性化されるが、それでも毎回大量の計算を消費する。
推測的デコーディングはこの問題を2段階で解決する:
- ドラフト段階: 小さく高速なドラフトモデルが候補トークン群を一括生成
- 検証段階: 大モデルが候補群を1回の前方伝播で一括検証
拒否サンプリングにより、出力分布は元のモデルと数学的に完全に同一であることが保証される。つまり、品質を一切犠牲にせずに速度だけが向上する──これがDSparkの「無損失」保証の根拠。
⚡ DSparkの3つの技術的ブレイクスルー
1. 半自回帰生成(Semi-Autoregressive Generation)──「後減衰」問題の解決
従来の並列ドラフトは各トークン位置を独立して予測する。"of course"と"no problem"はそれぞれ合理的だが、並列予測は"of problem"のような矛盾組み合わせを生成──越往後越不靠谱,これが「後減衰(suffix decay)」問題。
DSparkの2段階設計:
- 並列バックボーン: 全位置の基礎ロジットと隠れ状態を1回の前方伝播で出力──速度優位性を維持
- 軽量直列Markovヘッド: ランク256の低次元因子分解で各位置の遷移バイアスを補正──前置トークンの依存関係を補完
| 比較対象 | 平均受容長改善 |
|---|---|
| Eagle3(従来SOTA) | +26.7%〜30.9% |
| DFlash(並列ドラフト) | +16.3%〜18.4% |
2層DSparkが5層DFlashの受容長を上回る。ブロック長7→15で優位性が15-18%から22-30%に拡大──並列アーキテクチャの速度ポテンシャルが後減衰によって封印されていたことをDSparkが証明した。
2. 置信度スケジュール検証(Confidence-Scheduled Verification)──「無駄な検証」の排除
従来はドラフトトークンを全て大モデルに検証させる「全量検証」モード。しかし低精度トークンの検証は算力の無駄──高並発環境ではシステム全体の損失に。
DSparkの2層設計:
- 置信度ヘッド: 各ドラフトトークンの受理確率をリアルタイム予測
- 順序温度スケーリング(STS): AIの「自己評価過信」を補正、予測誤差を3-8%から約1%に圧縮
- ハードウェア認識プレフィックススケジューラ: GPU負荷に応じて検証長を動的調整
- 低負荷時 → 長いプレフィックス検証(単ユーザー速度最大化)
- 高負荷時 → 高信頼トークンのみ検証(スループット維持)
これにより、数学・コード等の構造化タスクでは長い検証ブロック、日常対話では短い検証ブロック──各リクエストタイプに最適な加速を自動選択。
3. ゼロオーバーヘッドスケジューリング(ZOS)──スケジューリングの遅延を完全隠蔽
高並発環境では、スケジューリング決定自体がレイテンシを増やす。DSparkは非同期予測でこれを解決──過去2回の検証ステップから現在の最適トランケーション長を決定前に算出。CUDAグラフの継続的リプレイをストールさせない。
📊 パフォーマンス──本番環境で実証
オンライン実測値(DeepSeek-V4本番環境)
| モデル | 単ユーザー速度向上 | ベースライン | スループット |
|---|---|---|---|
| V4-Flash | 60-85% | 従来MTP-1 | 一定維持 |
| V4-Pro | 57-78% | 従来MTP-1 | 一定維持 |
厳しいSLA条件下(Flash: 120 token/s、Pro: 50 token/s)では、従来基線は極低並発しか支えられなかったが、DSparkは従来不可能だった高速応答モードを解锁──推論サービスのパレート境界を外側に推移。
全負荷レベルで速度が安定──低並発時は算力を最大活用、高並発時は平滑収縮。速度急降下が起きない、ユーザー体験の一致性が大幅改善。
オフラインベンチマーク(Qwen3シリーズ)
| 対象モデル | Eagle3比改善 | DFlash比改善 |
|---|---|---|
| Qwen3-4B | +30.9% | +16.3% |
| Qwen3-8B | +26.7% | +18.4% |
| Qwen3-14B | +30.0% | +16.3-18.4% |
⚠️ 全ベンチマーク数値はDeepSeekの自己報告。第三者検証は2026年6月28日時点で未発表。AI Weeklyは「速度向上値は全てDeepSeek自身の前技術・自社インフラに対するベンチマーク」と指摘。
🔧 DeepSpec──フルスタックオープンソースツールキット
DSparkと同時公開されたDeepSpecは、推測的デコーディングのドラフトモデルを訓練から評価まで完全にカバーするパイプライン:
- 3段階パイプライン: データ準備 → マルチGPU訓練 → 9ベンチマーク評価(GSM8K・MATH500・HumanEval・LiveCodeBench等)
- バンドルアルゴリズム: DSpark / DFlash / Eagle3
- 対応モデル: Qwen3 / Gemma ファミリー
- ライセンス: MIT(商用利用も自由)
UnslothのDaniel Han氏が検証──Qwen3・Gemmaで正常訓練を確認。DeepSeekモデルを使わないチームでもDSparkを適用可能。
重要な点:フル訓練スタックをオープンソース化したことで、インフラチームは自社のプロンプト分布とハードウェア構成に合わせたカスタムドラフトモデルを訓練可能──DeepSeekのリリースに依存しない。
フル訓練には8GPUノードと約38TBストレージが必要だが、事前訓練済みチェックポイントをvLLM/SGLangで利用するパスはよりアクセシブル。
🌍 地政学的意味──「チップ規制はソフトウェアで迂回できる」
DSparkの最も深い意味は技術そのものではなく、地政学的な含意にある:
| 視点 | 意味 |
|---|---|
| 輸出管理の迂回 | 米国はNVIDIA H100/H800の中国への輸出を制限。しかしDSparkはソフトウェア最適化だけで60-85%高速化──チップ数とAI能力の関係は「固定されていない」 |
| 推論コストの転換 | Deloitte予測:2026年推論がAI計算の約3分の2を占める(2023年の3分の1から上昇)。DeepSeekは「ハードウェア獲得」ではなく「ソフトウェア最適化」で経済性を確保 |
| オープンソースの力 | OpenAI・Anthropicは推測的デコーディングをプロプライエタリで運用。DSparkはMITで再現可能・監査可能──透明性の差 |
| 研究関連の留意点 | New York Times報道:数十人のDeepSeek研究員が人民解放軍研究所や「国防七子」大学との関連。DSpark自体は国家安全ツールではないが、エンタープライズ導入における評価要素 |
⚔️ OpenAI・Anthropicとの比較──オープン vs クローズド
| 項目 | DeepSeek DSpark | OpenAI / Anthropic |
|---|---|---|
| 推測的デコーディング | MITライセンス完全公開 | プロプライエタリ(非公開) |
| ツールキット | DeepSpec(訓練→評価フルスタック) | 非公開 |
| 対応モデル | V4 / Qwen3 / Gemma | 自社モデルのみ |
| 推論コスト戦略 | ソフトウェア最適化で低減 | ハードウェア規模で対応 |
| 政府規制 | 影響なし(オープンソース) | 輸出管理・事前審査対象 |
皮肉な対比:GPT-5.6とClaude Mythos 5は「政府が顧客を選ぶ」体制(post-152、post-153)に置かれている一方、DSparkは誰でも自由に使える。最先端AIの开放性の軸が、米国から中国へ傾いているという逆転現象。
📝 まとめ──AI推論の「ソフトウェア革命」
DSparkは単なる高速化技術ではない。AI推論のコスト構造そのものを変える可能性を秘めている:
| ポイント | 意味 |
|---|---|
| ハードウェア不要 | 新GPUなしで85%高速化──コストパフォーマンスの根本的転換 |
| 完全オープンソース | MITで訓練から推論まで全コード公開──再現可能・監査可能 |
| モデル非依存 | Qwen3・Gemmaにも適用──DeepSeek以外にも恩恵 |
| 地政学的影響 | チップ規制をソフトウェアで迂回──「第4の道」 |
| 推論コストの民主化 | 「全ての小さなアプリが大モデルを使える」時代へ |
2026年のAI競争の軸は、「誰が最強モデルを作るか」から「誰が最も効率的に推論できるか」へとシフトしつつある。DSparkはその転換を象徴するマイルストーン──ハードウェアの壁をソフトウェアで破る、新しい時代の始まりだ。
本記事はTechTimes (2026年6月28日)「DeepSeek Releases DSpark: Speculative Decoding Makes V4 Up To 85% Faster」、量子位 (2026年6月28日)「单用户提速60-85%! DeepSeek联手北大开源DSpark」、AI Product Hub (2026年6月27日)、Sina科技 (2026年6月29日)、およびDeepSeek公式GitHubリポジトリ・論文に基づいています。