2026年4月10日、腾讯(Tencent)のRobotics XラボとHunyuan Visionチームが、HY-Embodied-0.5シリーズを発表した。これは現実世界のロボットやエージェントに特化した具身智能(Embodied Intelligence)基盤モデル群だ。
従来のVision-Language Model(VLM)が「見て理解する」ことに特化していたのに対し、HY-Embodied-0.5は「見て理解し、空間を把握し、行動を計画し、実行する」——つまり知能と身体を統合したモデルとして設計されている。2Bパラメータ版がすでにオープンソース化され、ロボット開発者コミュニティで大きな注目を集めている。
📢 本稿の5大ポイント
- 🧠 具身智能とは——VLMとの決定的な違いと、なぜ今ロボットAIが重要なのか
- ⚙️ HY-Embodied-0.5の革新——MoTアーキテクチャと視覚-言語-行動の統合
- 📊 技術的優位性——空間理解、物体操作、長期タスク遂行能力の詳細
- 🔓 オープンソース戦略——2Bモデルの公開とエコシステム構想
- 🌍 産業への影響——中国のロボット産業と世界市場へのインパクト
1. 具身智能——AIの次なるフロンティア
1-1. なぜ「身体」を持つ知能が必要か
従来のAI(ChatGPTやClaudeなど)は「デジタル知能」——テキストや画像を理解し生成できるが、物理世界と直接的な相互作用を持たない。しかし、人間の知能は身体を通じて世界を学び、行動することで進化してきた。
具身智能(Embodied AI)は、この「知能と身体の統合」を目指す研究領域だ:
- 👁️ 知覚(Perception):カメラやセンサーから環境情報を取得
- 🧠 理解(Understanding):空間構造、物体の属性、因果関係を把握
- 💭 推論(Reasoning):目標達成のための行動計画を立案
- 🤖 実行(Execution):アームや移動機構を制御して物理的に行動
1-2. 従来VLMの限界
GPT-5、Claude 4、Geminiなどの最新VLMは、画像理解で驚異的な性能を示している。しかし、ロボットに応用する際には以下の課題があった:
| 課題 | 従来VLMの限界 | 具身智能への要求 |
|---|---|---|
| 空間理解 | 2D画像の認識に留まる | 3D空間・深度・物体配置の把握 |
| 行動計画 | テキスト出力のみ | ロボット制御コマンドの生成 |
| 物理法則 | 重力・摩擦など無視 | 物理的制約を考慮した計画 |
| リアルタイム | 推論が遅い | 数100ms以内の高速応答 |
1-3. 具身智能の応用シーン
🏭 具身智能が必要とされる具体的なシーン
- 家庭用ロボット:片付け、調理補助、高齢者介護
- 物流・倉庫:ピッキング、仕分け、在庫管理
- 製造業:部品組み立て、品質検査、設備メンテナンス
- 医療:手術支援、患者モニタリング、病院内搬送
- 農業:収穫、除草、土壌モニタリング
2. HY-Embodied-0.5の技術的革新
2-1. モデルアーキテクチャ
HY-Embodied-0.5は、Modality-adaptive Mixture-of-Transformers(MoT)アーキテクチャを採用している。これは異なるモダリティ(視覚、言語、行動)を効率的に統合するための革新的な設計だ。
⚙️ 主要コンポーネント
- Vision Encoder:SigLIPベースの高性能画像エンコーダー
- Spatial Reasoning Module:3D空間理解専用モジュール
- Action Decoder:ロボット制御コマンドを生成するデコーダー
- Cross-modal Fusion:視覚-言語-行動の統合層
2-2. モデルバリエーション
HY-Embodied-0.5シリーズは、用途に応じた複数のモデルサイズを提供:
| モデル | パラメータ | 用途 | 公開状況 |
|---|---|---|---|
| HY-Embodied-0.5-2B | 20億 | エッジデバイス・リアルタイム | ✅ オープンソース |
| HY-Embodied-0.5-7B | 70億 | 汎用ロボット | 近日公開予定 |
| HY-Embodied-0.5-14B | 140億 | 複雑タスク | 開発中 |
| HY-Embodied-0.5-32B | 320億 | 研究・高性能 | 開発中 |
2-3. 学習データと手法
HY-Embodied-0.5は、以下のデータで学習されている:
- 📚 大規模VLMデータ:一般的な視覚-言語タスクの知識
- 🤖 ロボット実行データ:実際のロボット操作ログ
- 🎮 シミュレーションデータ:物理エンジンでの合成データ
- 👤 人間デモデータ:人間の操作を記録したデータ
特筆すべきはDroidやRoboBrainなどの公開データセットとの互換性確保。これにより、コミュニティの既存データ資産が活用可能だ。
3. 性能評価とベンチマーク
3-1. 空間理解能力
HY-Embodied-0.5は、3D空間理解ベンチマークで高い性能を示している:
| ベンチマーク | HY-Embodied-0.5-2B | GPT-5-V | Claude 4V | 備考 |
|---|---|---|---|---|
| ScanNet++ | 78.3% | 65.2% | 68.7% | 3Dシーン理解 |
| 3DSRBench | 82.1% | 71.4% | 74.3% | 空間推論 |
| SceneText | 85.6% | 79.8% | 81.2% | シーン内テキスト |
3-2. ロボット操作タスク
実際のロボット操作ベンチマーク(RoboBench)での結果:
| タスクカテゴリ | 成功率 | 平均実行時間 | 備考 |
|---|---|---|---|
| 物体把持 | 91.2% | 3.2秒 | 様々な形状の物体 |
| 配置タスク | 87.5% | 5.8秒 | 指定位置への配置 |
| ツール使用 | 79.3% | 8.1秒 | 道具を使った操作 |
| 多段階タスク | 72.8% | 24.5秒 | 複数ステップの遂行 |
3-3. リアルタイム性能
ロボット応用において重要な推論速度:
| モデル | レイテンシ | デバイス例 |
|---|---|---|
| 2B | 120ms | NVIDIA Jetson Orin |
| 7B | 280ms | RTX 4090 |
| 14B | 520ms | A100 |
2Bモデルの120msは、リアルタイムロボット制御に十分な速度だ。
4. オープンソース戦略とエコシステム
4-1. 2Bモデルの公開
腾讯は、HY-Embodied-0.5-2BをApache 2.0ライセンスで公開した。これは以下を意味する:
🔓 Apache 2.0ライセンスの特徴
- ✅ 商用利用可能——企業での製品開発に使用できる
- ✅ 改変・再配布可能——独自の改良版を配布できる
- ✅ 特許使用権の付与——腾讯の特許を使用できる
- ✅ 明確な法的保護——ライセンス違反のリスクが低い
GitHubリポジトリ:https://github.com/Tencent-Hunyuan/HY-Embodied
Hugging Face:https://huggingface.co/tencent/HY-Embodied-0.5
4-2. 開発者向けツール
腾讯は以下の開発ツールも提供している:
- ⚡ 推論フレームワーク:PyTorch/TensorRT対応
- 🎮 シミュレーター連携:Isaac Sim、Mujoco、PyBullet対応
- 🔌 ROS2統合:ロボットミドルウェアとの連携
- 📊 データ収集ツール:デモデータの記録・前処理
4-3. コミュニティ構想
腾讯の具身智能エコシステム構想:
🌐 具身智能エコシステムの4本柱
- 基盤モデル:HY-Embodiedシリーズの継続的開発
- ハードウェア連携:主要ロボットメーカーとの提携
- データ共有:コミュニティによるデータセット拡充
- アプリケーションマーケット:ユースケースの共有プラットフォーム
5. 産業への影響と展望
5-1. 中国ロボット産業へのインパクト
中国は世界最大のロボット市場(2025年推定150億ドル)。HY-Embodied-0.5の登場は:
- 🛡️ 技術的自立:米国モデル(OpenAI、Anthropic)への依存軽減
- 💰 コスト削減:オープンソース化による開発コスト低減
- 🚀 産業加速:スタートアップ・中小企業の参入障壁低下
5-2. 世界市場との競争
具身智能分野の主要プレイヤー比較:
| 企業/機関 | モデル | 特徴 | ライセンス |
|---|---|---|---|
| Tencent | HY-Embodied-0.5 | 中国最大級、実世界特化 | Apache 2.0 |
| RT-2、RT-X | 大規模データ、研究重視 | 非公開/制限付き | |
| Stanford | OpenVLA | 学術研究向け | Apache 2.0 |
| Physical Intelligence | π0 | スタートアップ、高性能 | 非公開 |
| Tesla | Optimus AI | 自社ハード連携 | 非公開 |
5-3. 今後の展望
腾讯のロードマップ(推定):
- 📅 2026年Q2:7Bモデルの公開、ハードウェアSDK提供
- 📅 2026年Q3:14B/32Bモデル、産業向けファインチューニング
- 📅 2027年:マルチロボット協調、長期自律タスク対応
まとめ
📌 本稿の5大結論
- 具身智能はAIの次のフロンティア——デジタル知能から物理世界への橋渡し
- HY-Embodied-0.5は実世界特化——空間理解・行動計画・実行の統合
- オープンソースが競争力——Apache 2.0での2Bモデル公開は産業に大きな影響
- 中国ロボット産業の加速——技術的自立とコスト削減で市場拡大を後押し
- 世界競争が激化——Google、Tesla、中国勢の三つ巴の構図が浮上
腾讯のHY-Embodied-0.5は、具身智能分野における重要なマイルストーンだ。ロボットに「知能」を与える——この夢に、我々は一歩近づいた。
📎 参考文献:Tencent Robotics X「HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents」(arXiv:2604.07430, 2026年4月)、GitHub: Tencent-Hunyuan/HY-Embodied、Hugging Face: tencent/HY-Embodied-0.5