AI-Papers

AI最前線コラム

AI-PapersAI論文解説・ニュースブログ

検索運営者情報お問い合わせプライバシーポリシー利用規約

論文解説の記事一覧 (6ページ目) | AI-Papers

ホーム
論文解説

論文解説

論文解説言語・LLM

Hopeとは？人間の睡眠を模した記憶統合でLLM継続学習を実現する新フレームワーク

人間の睡眠中の記憶統合を着想源に、LLM向け「Sleep」パラダイムを提案。Knowledge SeedingとDreamingの2段階で壊滅的忘却を抑制し、数学推論・長文脈理解など複数タスクで既存手法を上回ることを実証した。

2026年6月3日

Hopeとは？人間の睡眠を模した記憶統合でLLM継続学習を実現する新フレームワーク

論文解説マルチモーダル

Crafterとは？多エージェント協調で論文品質の科学図表を自動生成するフレームワーク

複数の専門エージェントが役割分担して科学図表を自動生成する「Crafter」を解説。従来手法比+39ポイントの性能向上と、ラスター画像をSVGに変換するCraftEditorも同時公開。

2026年6月2日

Crafterとは？多エージェント協調で論文品質の科学図表を自動生成するフレームワーク

論文解説言語・LLM

Dominoとは？因果モデリングとドラフト生成を分離してLLM推論を5.8倍高速化

投機的デコーディングの新手法「Domino」を解説します。並列ドラフト生成と軽量な因果補正の2段構成で、Qwen3-8BのLLM推論を最大5.8倍高速化しました。

2026年6月2日

Dominoとは？因果モデリングとドラフト生成を分離してLLM推論を5.8倍高速化

論文解説言語・LLM

NITPとは？暗黙トークン予測でLLM事前学習を強化し推論コストゼロで精度向上

標準的な次トークン予測（NTP）に浅い層の表現を自己教師信号とした連続監督を追加するNITPが提案されました。0.5B〜9BパラメータのLLMでMMLP-Proに5.7%・C3に6.4%の精度向上を実現しながら推論コストはゼロです。

2026年6月2日

論文解説マルチモーダル

Representation Forcingとは？VAEを排除して画像生成と理解を統合する新手法

VAEを排除し、デコーダが視覚表現を自己回帰的に予測するRepresentation Forcing（RF）。画像生成でVAEベース手法と同等スコアを達成し、理解タスクでも8指標中6指標で上回った。

2026年6月1日

Representation Forcingとは？VAEを排除して画像生成と理解を統合する新手法

論文解説マルチモーダル

VLM3とは？3要素だけで標準VLMが深度推定・カメラポーズ推定を専門モデル並みに解く新手法

MetaとPrinceton大学が提案するVLM3は、焦点距離統一・テキストでのピクセル参照・データスケーリングの3要素のみで、深度推定δ₁精度0.90・カメラポーズ推定AUC94%など多様な3Dタスクを専門モデル並みに解けることを実証した研究を解説します。

2026年6月1日

VLM3とは？3要素だけで標準VLMが深度推定・カメラポーズ推定を専門モデル並みに解く新手法

論文解説言語・LLM

LongTraceRLとは？知識グラフ探索とルーブリック報酬で長文脈推論を強化するRL手法

知識グラフのランダムウォークと検索軌跡を訓練データとするRL手法「LongTraceRL」が提案されました。ルーブリック報酬で推論の質を直接最適化し、4B〜30Bモデルで5つの長文脈ベンチマークを上回る性能を達成しています。

2026年6月1日

LongTraceRLとは？知識グラフ探索とルーブリック報酬で長文脈推論を強化するRL手法

論文解説マルチモーダル

NAVAとは？音声と映像をネイティブ同期生成する6.3Bモデルの仕組みを解説

BaiduのERNIEグループが提案するNAVAは、音声と映像を専用空間で対応付けてから文脈条件付けを行う「Align-then-Fuse」方式を採用し、6.3Bパラメータで大規模な既存手法を超える音声映像同期精度と映像品質を実現します。

2026年5月31日

論文解説動画

VideoMLAとは？MLAをビデオ拡散に初適用しKVキャッシュを92.7%削減する新手法

DeepSeek V2/V3で注目されたMLA技術をビデオ拡散に初適用した「VideoMLA」を解説します。KVキャッシュを92.7%削減しながら分単位の長尺動画生成を実現し、VBenchで最高スコアを達成しました。

2026年5月31日

VideoMLAとは？MLAをビデオ拡散に初適用しKVキャッシュを92.7%削減する新手法

論文解説言語・LLM

OmniRetrievalとは？テキスト・テーブル・知識グラフを横断検索する新フレームワーク

テキスト・テーブル・知識グラフを各形式のまま横断検索する「OmniRetrieval」を解説します。13データセット・309知識ベースで検証し、既存RAGの均質化問題を解決した新フレームワークです。

2026年5月31日

OmniRetrievalとは？テキスト・テーブル・知識グラフを横断検索する新フレームワーク

論文解説画像

Colored Noise Samplingとは？拡散モデルの生成品質をFID 24%改善する新手法

拡散モデルが低周波から高周波の順に情報を解像する「スペクトルバイアス」に着目し、周波数ごとにノイズを動的配分するColored Noise Sampling（CNS）を解説。追加学習不要でFIDを最大30%改善します。

2026年5月30日

Colored Noise Samplingとは？拡散モデルの生成品質をFID 24%改善する新手法

論文解説画像

GenClawとは？SVG・HTMLコードを中間層に使ったエージェント型画像生成の仕組み

テンセントHunyuanが提案するGenClawは、LLMがSVG・HTMLコードで「視覚スケッチ」を生成し画像モデルが仕上げを担う3段階パイプラインで、複雑な空間構成とテキスト生成の精度を大幅に高めます。

2026年5月30日

論文解説

Hopeとは？人間の睡眠を模した記憶統合でLLM継続学習を実現する新フレームワーク

Crafterとは？多エージェント協調で論文品質の科学図表を自動生成するフレームワーク

Dominoとは？因果モデリングとドラフト生成を分離してLLM推論を5.8倍高速化

NITPとは？暗黙トークン予測でLLM事前学習を強化し推論コストゼロで精度向上

Representation Forcingとは？VAEを排除して画像生成と理解を統合する新手法

VLM3とは？3要素だけで標準VLMが深度推定・カメラポーズ推定を専門モデル並みに解く新手法

LongTraceRLとは？知識グラフ探索とルーブリック報酬で長文脈推論を強化するRL手法

NAVAとは？音声と映像をネイティブ同期生成する6.3Bモデルの仕組みを解説

VideoMLAとは？MLAをビデオ拡散に初適用しKVキャッシュを92.7%削減する新手法

OmniRetrievalとは？テキスト・テーブル・知識グラフを横断検索する新フレームワーク

Colored Noise Samplingとは？拡散モデルの生成品質をFID 24%改善する新手法

GenClawとは？SVG・HTMLコードを中間層に使ったエージェント型画像生成の仕組み

人気記事