AI最前線コラム

AI-PapersAI論文解説・ニュースブログ

検索運営者情報お問い合わせプライバシーポリシー利用規約

© 2026 AI-Papers. All rights reserved.

論文解説の記事一覧 (13ページ目) | AI-Papers

ホーム
論文解説

論文解説

論文解説言語・LLM

Ctx2Skillとは？マルチエージェント自己対戦でLLMのコンテキスト学習を強化する新手法

清華大学らが提案するCtx2Skillは、3つのLLMエージェントによるSelf-Playでコンテキスト固有スキルを人間監督なしに自動精錬するフレームワーク。CL-benchで既存手法を一貫して上回る性能向上を達成しました。

2026年5月5日

Ctx2Skillとは？マルチエージェント自己対戦でLLMのコンテキスト学習を強化する新手法

論文解説マルチモーダル

MolmoAct2とは？GPT-5・Gemini Roboticsを超えたオープンVLAモデルを解説

Allen AIが公開した完全オープンVLAモデル「MolmoAct2」を解説します。VLMバックボーンMolmoERがGPT-5・Gemini Roboticsを超え、実環境でPi-0.5を上回る仕組みを詳しく紹介します。

2026年5月5日

MolmoAct2とは？GPT-5・Gemini Roboticsを超えたオープンVLAモデルを解説

論文解説動画

UniVidXとは？動画・アルベド・法線・RGBAを1モデルで統一生成する新手法

動画・アルベド・法線・RGBAを単一モデルで統一生成するフレームワーク「UniVidX」をSIGGRAPH 2026に発表。1,000本未満のデータで既存SOTAと同等以上の性能を達成しています。

2026年5月5日

UniVidXとは？動画・アルベド・法線・RGBAを1モデルで統一生成する新手法

論文解説言語・LLM

RoundPipeとは？コンシューマーGPU複数台でLLMファインチューニングを最大2.16倍高速化する新スケジューリング手法

パイプライン並列化の「weight binding問題」を解消する新手法RoundPipeを解説します。GPUをステートレスなワーカープールとして扱うラウンドロビン方式で8×RTX 4090でのLLMファインチューニングを最大2.16倍高速化し、単一コンシューマーサーバーでQwen3-235BのLoRAチューニングを実現します。

2026年5月4日

RoundPipeとは？コンシューマーGPU複数台でLLMファインチューニングを最大2.16倍高速化する新スケジューリング手法

論文解説マルチモーダル

Eywaとは？科学基盤モデルをLLMエージェントに統合するヘテロジニアスフレームワーク

UIUCが提案するEywaは、時系列・表形式データを扱う科学基盤モデルをLLMエージェントと統合するフレームワークです。3層設計と双方向Tsaheyluインターフェースにより、従来比7%の性能向上と30%のトークン削減を実証しました。

2026年5月3日

Eywaとは？科学基盤モデルをLLMエージェントに統合するヘテロジニアスフレームワーク

論文解説マルチモーダル

MiniCPM-o 4.5とは？全二重リアルタイム・オムニモーダルインタラクションを9Bで実現

9BパラメータながらGemini 2.5 Flashに匹敵する視覚言語性能を実現したMiniCPM-o 4.5。Omni-Flowが可能にする全二重リアルタイム対話の仕組みと性能を解説します。

2026年5月1日

MiniCPM-o 4.5とは？全二重リアルタイム・オムニモーダルインタラクションを9Bで実現

論文解説マルチモーダル

Sapiens2とは？MetaのヒューマンAI基盤モデルが5Bパラメータ・4K解像度で姿勢・法線・点群推定を統合

MetaのFacebook Researchが発表したSapiens2は、10億枚の人物画像で事前学習した0.4B〜5Bパラメータの統合基盤モデルです。姿勢推定+4 mAP・法線推定誤差45.6%削減を達成し、ICLR 2026に採択されました。

2026年4月29日

Sapiens2とは？MetaのヒューマンAI基盤モデルが5Bパラメータ・4K解像度で姿勢・法線・点群推定を統合

論文解説言語・LLM

Abstract Chain-of-Thoughtとは？抽象トークン推論でCoTを最大11.6倍効率化

推論ステップに64種の抽象トークンを使う「Abstract CoT」を解説。Qwen3-8BでMATH-500精度90.8%を保ちながら推論コストを最大11.6倍削減する後学習手法です。

2026年4月28日

Abstract Chain-of-Thoughtとは？抽象トークン推論でCoTを最大11.6倍効率化

論文解説動画

Vista4Dとは？4Dポイントクラウドで動画を任意視点から再合成するCVPR 2026手法

CVPR 2026採択のVista4Dは、4Dポイントクラウドを活用して動画を任意の視点・カメラ軌跡から再合成するフレームワークです。深度推定誤差や外観保存の失敗という従来課題を、静的ピクセル永続性と多視点動的データ学習で解決します。

2026年4月27日

Vista4Dとは？4Dポイントクラウドで動画を任意視点から再合成するCVPR 2026手法

論文解説マルチモーダル

LLaDA2.0-Uniとは？離散拡散LLMで理解・生成・編集を統合するマルチモーダルの新手法

離散拡散LLMを採用したLLaDA2.0-Uniは、SigLIP-VQ・MoEバックボーン・拡散デコーダの3層構造で、テキスト理解・画像生成・画像編集を単一モデルで統合します。その仕組みと実験成果を詳しく解説します。

2026年4月24日

LLaDA2.0-Uniとは？離散拡散LLMで理解・生成・編集を統合するマルチモーダルの新手法

論文解説言語・LLM

Agent-Worldとは？MCPで1,978環境を自律合成し商用モデルを超える自己進化型エージェント

ByteDance Seedが発表したAgent-Worldは、MCPを活用して1,978の実世界環境を自律合成し、自己進化型の強化学習ループで23ベンチマークでGPT-4oなど商用モデルを上回る性能を実現しました。

2026年4月22日

Agent-Worldとは？MCPで1,978環境を自律合成し商用モデルを超える自己進化型エージェント

論文解説マルチモーダル

PersonaVLMとは？長期記憶と強化学習で進化するパーソナライズドマルチモーダルLLM

CVPR 2026採択。4種類のメモリ構造とBig Five性格モデルで時間的に進化するユーザープロファイルを構築し、Persona-MMEベンチマークで既存手法比22.4%向上・GPT-4oを5.2%上回るパーソナライズドマルチモーダルLLM「PersonaVLM」を解説します。

2026年4月20日

PersonaVLMとは？長期記憶と強化学習で進化するパーソナライズドマルチモーダルLLM

前へ
1
…
12
13
14
…
25
次へ

カテゴリ

論文解説
ニュース
- 技術
- ビジネス
AI最前線コラム

人気記事

LLMはなぜ日本文化に偏る？欧州研究が明かすAIの隠れた文化バイアス
2026年4月30日
GitHub Copilot がトークン課金制へ移行、一部ユーザーで月額29ドルが750ドルに急騰
2026年5月31日
MolmoAct2とは？GPT-5・Gemini Roboticsを超えたオープンVLAモデルを解説
2026年5月5日
arXiv、AI任せ論文の著者を1年間投稿禁止へ — 学術AI利用規制が本格化
2026年5月17日
Absolicsのガラス基板とは？AIチップ性能を10倍高密度化する次世代パッケージング
2026年3月15日