GoogleがImageNet-512でFID 1.4、Kinetics-600でFVD 1.3を達成する新フレームワーク「Unified Latents(UL)」を提案。拡散事前分布で潜在空間を正則化し、Stable Diffusionより少ない学習FLOPsで優れた品質を実現する潜在表現学習の仕組みを解説します。
再学習不要でDiffusion Transformerを最大3.52倍高速化するDDiTの仕組みと検証結果を解説。FLUX-1.DevやWan 2.1に即適用でき、推論コスト削減に活用できます。
拡散トランスフォーマーベースの命令駆動型画像編集システム「FireRed-Image-Edit 1.0」が登場。16億サンプルの大規模データと強化学習を組み合わせ、独自ベンチマークREDEdit-Benchの全15カテゴリで商用システムと同等以上の性能を達成します。
従来のコードブック方式に代わりバイナリトークンを採用した画像生成手法「BitDance」を解説。260Mパラメータで自己回帰モデル最高のFID 1.24を達成し、最大30倍の高速化を実現した仕組みを紹介します。
Shanghai Innovation Instituteが開発した50億パラメータの軽量モデル「DeepGen 1.0」は、画像生成と編集を統合的に処理し、800億パラメータのモデルを28%上回る性能を実現。独自のSCB手法と3段階学習戦略が鍵となっています。
離散トークンをビット単位で段階的に予測する新手法「BAR」が、ImageNet-256でFID 0.99を達成。Diffusionモデルを含む従来手法を上回る生成品質と最大20倍の高速化を両立し、画像生成の新たなパラダイムを提示しました。
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 この論文では、拡散モデル(Diffusion Models)における推論時間の効率化の課題に焦点を当てています。従 […]
Diffusionモデルを活用した線画自動着色手法「MangaNinja」を解説。参照画像に基づく精密な色付けにより、マンガやイラストの着色作業を効率化するAI技術の仕組みと特徴を紹介します。
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 この研究は、画像生成モデルにおける「個性化」を実現しつつ、元の特徴や品質を保つ新たな手法「Nested Atten […]
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 この論文では、「Latent Diffusion Models(LDM)」における再構成と生成のトレードオフ問題を […]
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 この論文では、幾何学的図形の逐次的な認識を行うための「Slow Perception」という手法を提案しています。 […]
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 この論文「Edicho: Consistent Image Editing in the Wild」は、画像編集に […]
ゴールドマン・サックスがClaude AIを会計業務に導入 — 金融AI活用の最前線
NVIDIAが日本語特化LLM「Nemotron 2 Nano 9B」を公開 — ソブリンAI実現に向けた性能を解説
AIエージェントフレームワーク比較【2026】LangGraph・CrewAI・OpenAI Agents SDKの選び方
開発者向け検索AI「Phind 2」登場、視覚的検索強化!
Step 3.5 Flashとは?110億パラメータでGPT-5.2級の性能を達成したオープンモデル