動画・アルベド・法線・RGBAを単一モデルで統一生成するフレームワーク「UniVidX」をSIGGRAPH 2026に発表。1,000本未満のデータで既存SOTAと同等以上の性能を達成しています。
RLHF・DPO・GRPOはLLMを人間の価値観に合わせるアライメント技術です。ChatGPTの基盤RLHFから効率化されたDPO、DeepSeek-R1を支えるGRPOまで、仕組みと違いを初学者向けにわかりやすく解説します。
ハーバード医科大学とBeth Israel医療センターの共同研究がScience誌に掲載。OpenAI o1が救急トリアージ診断で67%の正確率を達成し、内科専門医2名(55%・50%)を上回りました。医療AIの実用化議論に新たなエビデンスが加わりました。
パイプライン並列化の「weight binding問題」を解消する新手法RoundPipeを解説します。GPUをステートレスなワーカープールとして扱うラウンドロビン方式で8×RTX 4090でのLLMファインチューニングを最大2.16倍高速化し、単一コンシューマーサーバーでQwen3-235BのLoRAチューニングを実現します。
Replit CEO Amjad Masad氏が、Cursorとの買収交渉の内幕、AppleのApp Storeブロックとの摩擦、粗利益プラスを根拠に独立を維持する戦略をインタビューで明かした。
UIUCが提案するEywaは、時系列・表形式データを扱う科学基盤モデルをLLMエージェントと統合するフレームワークです。3層設計と双方向Tsaheyluインターフェースにより、従来比7%の性能向上と30%のトークン削減を実証しました。
マスク氏が自社xAIによるOpenAIモデルの蒸留を法廷で認め、波紋が広がっています。非営利から営利への転換の合法性を問う本裁判の第1週の主要証言を解説します。
Google DeepMindが発表した「AI Co-Clinician」は、医師・AI・患者が協働する三者医療モデルを提唱。140以上の診療指標で遠隔診療AIの性能を多角的に評価します。
9BパラメータながらGemini 2.5 Flashに匹敵する視覚言語性能を実現したMiniCPM-o 4.5。Omni-Flowが可能にする全二重リアルタイム対話の仕組みと性能を解説します。
MoE(Mixture of Experts)の仕組みとDenseモデルとの違い、ゲーティング機構・負荷分散の課題から、Mixtral・DeepSeek V3・Gemma 4など主要LLMへの応用まで初学者向けにわかりやすく解説します。
スペイン・バスク大学と英カーディフ大学の研究チームが、GPT-4o-miniなど8つのLLMを独自データセットで評価。6モデルで日本が最頻参照国となる文化的偏りの実態と、その原因がファインチューニングにあることを明らかにしました。
MetaのFacebook Researchが発表したSapiens2は、10億枚の人物画像で事前学習した0.4B〜5Bパラメータの統合基盤モデルです。姿勢推定+4 mAP・法線推定誤差45.6%削減を達成し、ICLR 2026に採択されました。
MolmoAct2とは?GPT-5・Gemini Roboticsを超えたオープンVLAモデルを解説
SANA-WMとは?単一GPUで720p・60秒動画を生成するNVIDIAの効率的世界モデル
Sapiens2とは?MetaのヒューマンAI基盤モデルが5Bパラメータ・4K解像度で姿勢・法線・点群推定を統合
arXiv、AI任せ論文の著者を1年間投稿禁止へ — 学術AI利用規制が本格化
HY-World 2.0とは?テキスト・画像・動画から3D世界を生成するマルチモーダルワールドモデル