- Microsoft、新AI基盤モデル『Magma』発表
- 観察に基づく行動選択と高精度なUI操作対応
- ロボット制御や多用途活用で高い汎用性
※ AIによる要約
Microsoftは2025年2月、現実世界の状況やデバイス上の画面を認識し、適切に行動できるマルチモーダルAIエージェントの基盤モデル「Magma」を発表。
Explore Magma, a foundation model that can empower AI assistants to interpret environments, plan actions, and execute tasks across digital and physical spaces. Now available, learn how it advances the field of agentic AI. https://t.co/uzYQHbQscC pic.twitter.com/ASyVBJ9pYh
— Microsoft Research (@MSFTResearch) February 25, 2025
Magmaは、画像や映像を識別するだけでなく、観察に基づいて適切な行動を選択する能力を持つとのこと。Microsoftによると、本モデルは言語的な知能と、空間的・時間的な知能を兼ね備えており、デジタル環境だけでなく現実世界においても活用できるのが特徴。
Magmaは入力された画像や映像をビジョンエンコーダーによってトークン化し、ウェブページや写真のテキストも直接処理します。これらのデータを基に、言語生成、空間認識、行動決定といった多様な出力を行う仕組みです。さらに、追加の微調整なしでUIナビゲーション、ロボット操作など幅広い用途に対応可能。
実際のベンチマークテストでは、GPT-4やLLaVA-1.5といった既存のモデルと比較しても、高いパフォーマンスを示しました。Microsoftが公開したデモ動画では、Magmaが囲碁の次の最適手を提案したり、リラックスするための活動を推奨したりする様子が確認できます。
さらにMagmaはロボット制御にも対応しており、たとえば「マッシュルームを持ち上げてボウルに入れて」といった指示を適切に処理し、実行する能力を備えているといいます。
Magmaのモデルデータや関連コードの詳細は公式GitHubページで確認可能。

