コミュニティLoRAを合成データ生成の足場として活用し、スタイルと内容を独立制御するデュアルリファレンス画像生成「FreeStyle」。注意機構レベル制約と周波数対応RoPE変調で高品質な分離を実現しました。
ルターガース大学のチームが発表したSSDは、画像トークンの2次元空間構造を活かした投機的デコードで自己回帰型画像生成を最大13.3倍に高速化。DPG-BenchとGenEvalで生成品質を維持したまま高速化を達成しています。
わずか0.22Bパラメータで産業用10Bモデル「FLUX.1-Fill-Dev」に匹敵する画像修復品質を実現する軽量フレームワーク「Moebius」を紹介します。LλMIブロックと適応的多粒度蒸留により推論速度15倍超を達成し、個人開発者のGPUでも高品質な画像修復が可能です。
単一のDiTモデルで画像と深度マップを同時生成する「Modality Forcing」を解説。疎な実世界深度データで学習し、従来手法比AbsRelエラーを57%削減した仕組みと成果を紹介します。
スタンフォード大が300以上の実験で体系化したテキスト→画像拡散モデルの設計レシピ。公開データのみで訓練した3Bパラメータモデルが5ベンチマーク平均で既存オープンモデルを29.5pt上回る性能を達成しました。
拡散モデルの生成タイムラインをde Boorの等分配原理で自動分割する「複雑性均衡拡散分割(CBS)」を解説します。SiT-XL/2でFIDを35%改善しながら推論コストは変わりません。
ペアデータなしで画像・動画編集モデルを訓練できるフレームワーク「ByG」がICML 2026に採択されました。凍結した基盤モデルのEMAコピーで疑似ターゲットを生成し、循環一貫性と勾配ルーティングで100万ペアの教師あり手法を上回る性能を実証しています。
拡散モデルが低周波から高周波の順に情報を解像する「スペクトルバイアス」に着目し、周波数ごとにノイズを動的配分するColored Noise Sampling(CNS)を解説。追加学習不要でFIDを最大30%改善します。
テンセントHunyuanが提案するGenClawは、LLMがSVG・HTMLコードで「視覚スケッチ」を生成し画像モデルが仕上げを担う3段階パイプラインで、複雑な空間構成とテキスト生成の精度を大幅に高めます。
50種の画像効果LoRAを1つのモデルに統合する「CollectionLoRA」を解説します。ストレージを従来の2%まで削減しながら、ユーザー評価でConsistency 66.2%を達成した新手法です。
マスク領域Transformer(MRT)は、テキスト・画像・レイヤー間の3タスクを統合した20Bパラメータ拡散モデルです。Qwen-Image-Layeredと比較して最大108倍の高速化と90%のメモリ削減を実現し、デザイン向け画像生成・編集の実用性を大幅に高めます。
三角形プリミティブで3Dシーンを再構成するフィードフォワード手法「TriSplat」を解説します。幾何精度40%向上と最大249倍の高速化を実現し、UnityやIsaac Simへの直接インポートにも対応します。
LLMはなぜ日本文化に偏る? 欧州研究が明かすAIの隠れた文化バイアス
MolmoAct2とは?GPT-5・Gemini Roboticsを超えたオープンVLAモデルを解説
GitHub Copilot がトークン課金制へ移行、一部ユーザーで月額29ドルが750ドルに急騰
arXiv、AI任せ論文の著者を1年間投稿禁止へ — 学術AI利用規制が本格化
Absolicsのガラス基板とは?AIチップ性能を10倍高密度化する次世代パッケージング