腾讯混元HY-Embodied-0.5完全解説——現実世界のロボットに"知能"を与える具身基盤モデルの全貌

2026年4月10日、腾讯（Tencent）のRobotics XラボとHunyuan Visionチームが、HY-Embodied-0.5シリーズを発表した。これは現実世界のロボットやエージェントに特化した具身智能（Embodied Intelligence）基盤モデル群だ。

従来のVision-Language Model（VLM）が「見て理解する」ことに特化していたのに対し、HY-Embodied-0.5は「見て理解し、空間を把握し、行動を計画し、実行する」——つまり知能と身体を統合したモデルとして設計されている。2Bパラメータ版がすでにオープンソース化され、ロボット開発者コミュニティで大きな注目を集めている。

📢 本稿の5大ポイント

🧠 具身智能とは——VLMとの決定的な違いと、なぜ今ロボットAIが重要なのか
⚙️ HY-Embodied-0.5の革新——MoTアーキテクチャと視覚-言語-行動の統合
📊 技術的優位性——空間理解、物体操作、長期タスク遂行能力の詳細
🔓 オープンソース戦略——2Bモデルの公開とエコシステム構想
🌍 産業への影響——中国のロボット産業と世界市場へのインパクト

1. 具身智能——AIの次なるフロンティア

1-1. なぜ「身体」を持つ知能が必要か

従来のAI（ChatGPTやClaudeなど）は「デジタル知能」——テキストや画像を理解し生成できるが、物理世界と直接的な相互作用を持たない。しかし、人間の知能は身体を通じて世界を学び、行動することで進化してきた。

具身智能（Embodied AI）は、この「知能と身体の統合」を目指す研究領域だ：

👁️ 知覚（Perception）：カメラやセンサーから環境情報を取得
🧠 理解（Understanding）：空間構造、物体の属性、因果関係を把握
💭 推論（Reasoning）：目標達成のための行動計画を立案
🤖 実行（Execution）：アームや移動機構を制御して物理的に行動

1-2. 従来VLMの限界

GPT-5、Claude 4、Geminiなどの最新VLMは、画像理解で驚異的な性能を示している。しかし、ロボットに応用する際には以下の課題があった：

課題	従来VLMの限界	具身智能への要求
空間理解	2D画像の認識に留まる	3D空間・深度・物体配置の把握
行動計画	テキスト出力のみ	ロボット制御コマンドの生成
物理法則	重力・摩擦など無視	物理的制約を考慮した計画
リアルタイム	推論が遅い	数100ms以内の高速応答

1-3. 具身智能の応用シーン

                    🏭 具身智能が必要とされる具体的なシーン
                    家庭用ロボット：片付け、調理補助、高齢者介護
物流・倉庫：ピッキング、仕分け、在庫管理
製造業：部品組み立て、品質検査、設備メンテナンス
医療：手術支援、患者モニタリング、病院内搬送
農業：収穫、除草、土壌モニタリング

                

2. HY-Embodied-0.5の技術的革新

2-1. モデルアーキテクチャ

HY-Embodied-0.5は、Modality-adaptive Mixture-of-Transformers（MoT）アーキテクチャを採用している。これは異なるモダリティ（視覚、言語、行動）を効率的に統合するための革新的な設計だ。

⚙️ 主要コンポーネント

Vision Encoder：SigLIPベースの高性能画像エンコーダー
Spatial Reasoning Module：3D空間理解専用モジュール
Action Decoder：ロボット制御コマンドを生成するデコーダー
Cross-modal Fusion：視覚-言語-行動の統合層

2-2. モデルバリエーション

HY-Embodied-0.5シリーズは、用途に応じた複数のモデルサイズを提供：

モデル	パラメータ	用途	公開状況
HY-Embodied-0.5-2B	20億	エッジデバイス・リアルタイム	✅ オープンソース
HY-Embodied-0.5-7B	70億	汎用ロボット	近日公開予定
HY-Embodied-0.5-14B	140億	複雑タスク	開発中
HY-Embodied-0.5-32B	320億	研究・高性能	開発中

2-3. 学習データと手法

HY-Embodied-0.5は、以下のデータで学習されている：

📚 大規模VLMデータ：一般的な視覚-言語タスクの知識
🤖 ロボット実行データ：実際のロボット操作ログ
🎮 シミュレーションデータ：物理エンジンでの合成データ
👤 人間デモデータ：人間の操作を記録したデータ

特筆すべきはDroidやRoboBrainなどの公開データセットとの互換性確保。これにより、コミュニティの既存データ資産が活用可能だ。

3. 性能評価とベンチマーク

3-1. 空間理解能力

HY-Embodied-0.5は、3D空間理解ベンチマークで高い性能を示している：

ベンチマーク	HY-Embodied-0.5-2B	GPT-5-V	Claude 4V	備考
ScanNet++	78.3%	65.2%	68.7%	3Dシーン理解
3DSRBench	82.1%	71.4%	74.3%	空間推論
SceneText	85.6%	79.8%	81.2%	シーン内テキスト

3-2. ロボット操作タスク

実際のロボット操作ベンチマーク（RoboBench）での結果：

タスクカテゴリ	成功率	平均実行時間	備考
物体把持	91.2%	3.2秒	様々な形状の物体
配置タスク	87.5%	5.8秒	指定位置への配置
ツール使用	79.3%	8.1秒	道具を使った操作
多段階タスク	72.8%	24.5秒	複数ステップの遂行

3-3. リアルタイム性能

ロボット応用において重要な推論速度：

モデル	レイテンシ	デバイス例
2B	120ms	NVIDIA Jetson Orin
7B	280ms	RTX 4090
14B	520ms	A100

2Bモデルの120msは、リアルタイムロボット制御に十分な速度だ。

4. オープンソース戦略とエコシステム

4-1. 2Bモデルの公開

腾讯は、HY-Embodied-0.5-2BをApache 2.0ライセンスで公開した。これは以下を意味する：

                    🔓 Apache 2.0ライセンスの特徴
                    ✅ 商用利用可能——企業での製品開発に使用できる
✅ 改変・再配布可能——独自の改良版を配布できる
✅ 特許使用権の付与——腾讯の特許を使用できる
✅ 明確な法的保護——ライセンス違反のリスクが低い

                

GitHubリポジトリ：https://github.com/Tencent-Hunyuan/HY-Embodied

Hugging Face：https://huggingface.co/tencent/HY-Embodied-0.5

4-2. 開発者向けツール

腾讯は以下の開発ツールも提供している：

⚡ 推論フレームワーク：PyTorch/TensorRT対応
🎮 シミュレーター連携：Isaac Sim、Mujoco、PyBullet対応
🔌 ROS2統合：ロボットミドルウェアとの連携
📊 データ収集ツール：デモデータの記録・前処理

4-3. コミュニティ構想

腾讯の具身智能エコシステム構想：

🌐 具身智能エコシステムの4本柱

基盤モデル：HY-Embodiedシリーズの継続的開発
ハードウェア連携：主要ロボットメーカーとの提携
データ共有：コミュニティによるデータセット拡充
アプリケーションマーケット：ユースケースの共有プラットフォーム

5. 産業への影響と展望

5-1. 中国ロボット産業へのインパクト

中国は世界最大のロボット市場（2025年推定150億ドル）。HY-Embodied-0.5の登場は：

🛡️ 技術的自立：米国モデル（OpenAI、Anthropic）への依存軽減
💰 コスト削減：オープンソース化による開発コスト低減
🚀 産業加速：スタートアップ・中小企業の参入障壁低下

5-2. 世界市場との競争

具身智能分野の主要プレイヤー比較：

企業/機関	モデル	特徴	ライセンス
Tencent	HY-Embodied-0.5	中国最大級、実世界特化	Apache 2.0
Google	RT-2、RT-X	大規模データ、研究重視	非公開/制限付き
Stanford	OpenVLA	学術研究向け	Apache 2.0
Physical Intelligence	π0	スタートアップ、高性能	非公開
Tesla	Optimus AI	自社ハード連携	非公開

5-3. 今後の展望

腾讯のロードマップ（推定）：

📅 2026年Q2：7Bモデルの公開、ハードウェアSDK提供
📅 2026年Q3：14B/32Bモデル、産業向けファインチューニング
📅 2027年：マルチロボット協調、長期自律タスク対応

まとめ

📌 本稿の5大結論

具身智能はAIの次のフロンティア——デジタル知能から物理世界への橋渡し
HY-Embodied-0.5は実世界特化——空間理解・行動計画・実行の統合
オープンソースが競争力——Apache 2.0での2Bモデル公開は産業に大きな影響
中国ロボット産業の加速——技術的自立とコスト削減で市場拡大を後押し
世界競争が激化——Google、Tesla、中国勢の三つ巴の構図が浮上

腾讯のHY-Embodied-0.5は、具身智能分野における重要なマイルストーンだ。ロボットに「知能」を与える——この夢に、我々は一歩近づいた。

📎 参考文献：Tencent Robotics X「HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents」(arXiv:2604.07430, 2026年4月)、GitHub: Tencent-Hunyuan/HY-Embodied、Hugging Face: tencent/HY-Embodied-0.5