スクウェア・エニックスがドラゴンクエストXオンラインにGemini 3 FlashとLive APIを用いた音声対話キャラ「おしゃべりスラミィ」を実装。ゲーム文脈に応じた4段階AIで会話を実現します。
動画生成モデルが時間的整合性のある映像を生成するために習得した暗黙的な3D構造知識を、明示的な3D監督なしでMLLMへ注入するVEGA-3Dを解説します。複数のシーン理解ベンチマークで既存手法を上回る性能を達成しました。
OpenAI最高科学責任者のJakub Pachocki氏が、完全自動化AI研究者を今後数年間の「北極星」と位置付け、2026年9月と2028年の段階的公開ロードマップを公表した。
OpenAIは2026年3月19日、PythonツールのAstral買収を発表しました。ruff・uv・tyをCodexエコシステムに統合し、AIがPython開発ライフサイクル全体を担う基盤を構築する方針です。
成功したタスク解決を実行可能なPythonコードとして蓄積・再利用するLLMエージェントフレームワーク「AgentFactory」の仕組みと実験結果を解説します。
拡散モデル(Diffusion Model)の仕組みをDDPMのノイズ付加・除去プロセスから図解します。DDIM・Stable Diffusion・Flow Matchingへの進化、DiTアーキテクチャとSoraへの展開までわかりやすく解説します。
MIT Technology ReviewのLynn Comp氏が、エージェントAIを「幼児期」に例えて自律AIガバナンスの課題を分析。権限管理・ゾンビエージェント・財務超過という構造的課題と対処策を体系的に把握できます。
MicrosoftがGRP-Obliterationと呼ばれる攻撃手法を公開。強化学習を悪用してファインチューニングし、15種類のLLMの安全ガードレールを無効化できると実証し、対策を呼びかけています。
45,320個のDocker環境を自動合成し、SWE-bench Verifiedで66.0%を達成したオープンソースSWEエージェント訓練基盤「daVinci-Env」を紹介します。品質フィルタリングで抽出した9,000個の環境と完全公開されたインフラで、AI駆動型ソフトウェア開発の民主化を実現します。
韓国企業Absolicsが2026年にガラス基板の商業生産を開始します。配線密度10倍・反り解消など、AIチップパッケージングの根本課題を素材レベルで解決する技術の現状を解説します。
事前学習済みモデルの重みの近傍には、タスク固有の専門家解が高密度に存在するという「Neural Thicket」現象を報告したMIT発の研究。ランダムサンプリングとアンサンブルのみでPPO・GRPOと同等性能を実現します。
事前学習済みビデオ拡散モデルを決定論的な深度回帰器に変換する世界初フレームワーク「DVD」を解説します。識別モデル比163倍少ないデータでNYUv2・KITTIなど複数ベンチマークのゼロショットSOTAを達成した3つの核心設計を紹介します。
MolmoAct2とは?GPT-5・Gemini Roboticsを超えたオープンVLAモデルを解説
SANA-WMとは?単一GPUで720p・60秒動画を生成するNVIDIAの効率的世界モデル
Sapiens2とは?MetaのヒューマンAI基盤モデルが5Bパラメータ・4K解像度で姿勢・法線・点群推定を統合
arXiv、AI任せ論文の著者を1年間投稿禁止へ — 学術AI利用規制が本格化
HY-World 2.0とは?テキスト・画像・動画から3D世界を生成するマルチモーダルワールドモデル