本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 本研究では、「Virgo」というマルチモーダル大規模言語モデル(MLLM)の開発を通じて、視覚推論と呼ばれる複雑な […]
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 VITA-1.5は、音声と視覚のマルチモーダルなリアルタイムインタラクションを目指したモデルとして提案されました。 […]
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 この論文では、画像が有害かどうかを判断する手法「MLLM-as-a-Judge」を提案しています。この方法は、大規 […]
マルチモーダルLLMを医療画像解析に応用する研究を解説。CTやX線など多様な医療画像に対応するデータセット「Med-MAT」の構築手法と、診断支援における精度向上への貢献を紹介します。
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 概要 この論文は、視覚タスクの理解とゼロショット一般化を目指した「Explanatory Instructions」というアプロ […]
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 この研究のポイントは? この論文では、人間の視覚的な注意と反応を予測する統合モデル「UniAR」を提案しています。 背景と概要 […]
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 この研究のポイントは? 本論文は、画像と言語の学習において、従来のCLIPのような対照学習の課題を解決する手法「SuperCla […]
ゴールドマン・サックスがClaude AIを会計業務に導入 — 金融AI活用の最前線
NVIDIAが日本語特化LLM「Nemotron 2 Nano 9B」を公開 — ソブリンAI実現に向けた性能を解説
AIエージェントフレームワーク比較【2026】LangGraph・CrewAI・OpenAI Agents SDKの選び方
開発者向け検索AI「Phind 2」登場、視覚的検索強化!
Step 3.5 Flashとは?110億パラメータでGPT-5.2級の性能を達成したオープンモデル