分子とタンパク質の配列・3D構造・自然言語テキストを単一モデルで処理する「BioMatrix」を解説。80のタスク中77でSOTAまたは競合性能を達成した、生物学向けマルチモーダル基盤モデルの仕組みと成果を紹介します。
静的な埋め込みモデルの限界を超え、逐次更新される潜在メモリで文脈に応じた動的ベクトルを生成する「EvoEmbedding」を解説。Qwen3-Embedding-8Bなど大規模モデルを凌ぎ、RAGやエージェント記憶に直接応用できます。
コミュニティLoRAを合成データ生成の足場として活用し、スタイルと内容を独立制御するデュアルリファレンス画像生成「FreeStyle」。注意機構レベル制約と周波数対応RoPE変調で高品質な分離を実現しました。
拡散言語モデルの並列デコードを活かし、画像内の複数マスク領域を一括でキャプション生成するPerceptionDLMを解説します。スループット3.44倍を達成し、新ベンチマークParaDLC-Benchで62.4%の精度を記録しています。
視覚言語モデルが苦手とする3D空間推論を、階層的ツールと二重メモリで克服する「S-Agent」が登場。8Bの小型モデルでもGPT-5.4やGemini 3と同等の空間知能スコアを達成した仕組みを解説します。
UC Berkeleyが提案するRATs(Robotics Agent Teams)は、タスク前の「遊び」で自律的にスキルを習得するロボット学習手法です。LIBERO-PROで+20.6ポイントの精度向上を実証しました。
1枚の画像からカメラ移動・物体の動き・天気変化を単一モデルで独立制御してビデオを生成する「Holo-World」を解説。新データセットと統合アダプターにより、従来は困難だった複合制御を実現しました。
ロボット行動制御にビデオ生成は必要か、を実験で問い直したImageWAM。画像編集のKVキャッシュを行動予測に活用するだけでFLOPs 1/6・遅延1/4(263ms)を達成し、実機ロボットでも84.5%の成功率を記録しました。
ルターガース大学のチームが発表したSSDは、画像トークンの2次元空間構造を活かした投機的デコードで自己回帰型画像生成を最大13.3倍に高速化。DPG-BenchとGenEvalで生成品質を維持したまま高速化を達成しています。
人間の一人称視点映像(エゴセントリック映像)を適切に処理すると実ロボットデータを凌駕することを実証した「HumanScale」を解説。分布外タスクで90%の成功率向上を達成し、身体的AIのデータ収集コスト問題に新たな解法を示します。
わずか0.22Bパラメータで産業用10Bモデル「FLUX.1-Fill-Dev」に匹敵する画像修復品質を実現する軽量フレームワーク「Moebius」を紹介します。LλMIブロックと適応的多粒度蒸留により推論速度15倍超を達成し、個人開発者のGPUでも高品質な画像修復が可能です。
物理AI向け世界モデル「Kairos」は、3種の注意機構を組み合わせたハイブリッド時間アーキテクチャで誤差蓄積の上限を理論的に証明し、RoboTwin 2.0など複数ベンチマークで最高水準の性能を達成しました。
LLMはなぜ日本文化に偏る? 欧州研究が明かすAIの隠れた文化バイアス
MolmoAct2とは?GPT-5・Gemini Roboticsを超えたオープンVLAモデルを解説
GitHub Copilot がトークン課金制へ移行、一部ユーザーで月額29ドルが750ドルに急騰
arXiv、AI任せ論文の著者を1年間投稿禁止へ — 学術AI利用規制が本格化
Absolicsのガラス基板とは?AIチップ性能を10倍高密度化する次世代パッケージング