論文解説

論文解説強化学習

Maestroとは？RL駆動の動的モデル選択で4B軽量AIがGPT-5を超える新手法

4Bの軽量オーケストレータが強化学習で専門モデルを動的に選択する「Maestro」が10ベンチマーク平均70.1%を達成し、GPT-5（69.3%）やGemini-2.5-Proを上回りました。再訓練なしで未学習モデルへも汎化する拡張性が際立ちます。

2026年5月22日

Maestroとは？RL駆動の動的モデル選択で4B軽量AIがGPT-5を超える新手法

論文解説強化学習

RELEXとは？15%の学習ステップでRLVR訓練を完遂するランク1外挿法

RLVR訓練の重みパラメータがほぼランク1の軌跡を描くという発見に基づき、わずか15%の学習ステップを観測するだけでフル訓練と同等以上の性能を引き出すRELEX手法を解説します。

2026年5月21日

論文解説言語・LLM

HRM-Textとは？1,500ドルの学習コストで7Bモデルに匹敵するLLM事前学習フレームワーク

階層型再帰モデル（HRM）を採用した新事前学習フレームワーク「HRM-Text」が提案されました。1Bモデルを約1,500ドルで学習し、MMLU 60.7%・GSM8K 84.5%を達成。2〜7Bクラスと同等の性能を最大432倍少ない計算量で実現します。

2026年5月21日

HRM-Textとは？1,500ドルの学習コストで7Bモデルに匹敵するLLM事前学習フレームワーク

論文解説言語・LLM

OScaRとは？KVキャッシュINT2量子化でLLMを3倍高速化する軽量フレームワーク

KVキャッシュ量子化の根本課題「Token Norm Imbalance（TNI）」を定義・解決する軽量フレームワーク「OScaR」を解説。INT2量子化でBF16比3倍高速・5.3倍省メモリを実現し、KIVI等の既存手法を精度で上回ります。

2026年5月21日

OScaRとは？KVキャッシュINT2量子化でLLMを3倍高速化する軽量フレームワーク

論文解説マルチモーダル

Thudとは？動画AIが音を「見て推測」する欠陥を暴く反事実的診断フレームワーク

動画AIモデルが映像から音を推測する「音のClever Hans効果」を診断するThudフレームワークを解説。Shift・Mute・Swapの3種の介入で欠陥を体系的に暴き、わずか1万サンプルで28ポイントの性能向上を達成した最新研究です。

2026年5月20日

Thudとは？動画AIが音を「見て推測」する欠陥を暴く反事実的診断フレームワーク

論文解説画像

TideGSとは？単一24GB GPUで10億個超の3Dガウスを訓練するアウトオブコア最適化手法

単一24GB GPUで10億個超の3Dガウシアンを訓練するフレームワーク「TideGS」を解説。ブロック仮想化・非同期パイプライン・差分ストリーミングの3技術でVRAMの壁を突破し、ICML 2026 Spotlightに採択されました。

2026年5月20日

TideGSとは？単一24GB GPUで10億個超の3Dガウスを訓練するアウトオブコア最適化手法

論文解説画像

PixVerveとは？100メガピクセルのネイティブ画像生成を実現した新フレームワーク

テキストから1億画素（100MP）の超高解像度画像をネイティブ生成するフレームワーク「PixVerve」を解説。9.5万枚のデータセットと8指標の評価ベンチを合わせて紹介します。

2026年5月20日

PixVerveとは？100メガピクセルのネイティブ画像生成を実現した新フレームワーク

論文解説マルチモーダル

Lanceとは？画像・動画の理解・生成・編集を単一モデルで統合するByteDanceの新手法

ByteDanceが提案するLanceは、画像・動画の理解・生成・編集を単一モデルで統合するフレームワークです。3Bの活性化パラメータで7BクラスのShow-o2やBAGELを複数ベンチマークで上回る性能を発揮します。

2026年5月19日

Lanceとは？画像・動画の理解・生成・編集を単一モデルで統合するByteDanceの新手法

論文解説画像

VFMTokとは？視覚基盤モデルを凍結転用した高速・高精度画像生成トークナイザー

凍結した視覚基盤モデル（VFM）を画像トークナイザーへ転用するVFMTokを解説します。領域適応的量子化とセマンティック再構成目標により、ImageNetでgFID 1.36を達成し、収束速度3倍・推論速度最大4倍の高速化も実現します。

2026年5月19日

VFMTokとは？視覚基盤モデルを凍結転用した高速・高精度画像生成トークナイザー

論文解説動画

LongLive-2.0とは？NVFP4並列インフラで長時間動画生成を2倍高速化する新手法

NVIDIAが発表したLongLive-2.0は、NVFP4（4bit浮動小数点）精度を訓練・推論の全工程に適用した長時間動画生成インフラです。Balanced SPとNVFP4の組み合わせで訓練2.15倍・推論1.84倍の高速化を達成し、5BモデルでFPS45.7のリアルタイム生成を実現しました。

2026年5月19日