250名以上の業界専門家と共同設計した1,490タスクで構成されるAIエージェント評価ベンチマーク「ALE」を解説します。最良モデルでも全体合格率26.2%にとどまる結果が示す、現在のAIエージェントの実力と今後の課題を詳しく紹介します。
正しい答えを返しながら根拠箇所を誤引用する「帰属ハルシネーション」を体系的に定量化するベンチマーク「CiteVQA」が公開されました。711本のPDF・1,897問・7ドメインで構成し、最強モデルでもSAA 76.0%という大きなギャップを明らかにします。
NVIDIAが提案したMemLensは789問・5能力・4段階のコンテキスト長でマルチモーダル長期記憶を評価する初の体系的ベンチマークです。最先端モデルも30%以下に留まる視覚記憶の壁を解説します。
64人の数学者が設計した研究レベル数学ベンチマーク「Soohak」を解説します。最先端モデルでもGemini-3-Proが30.4%、GPT-5が26.4%止まりで、不当な問題を見抜く「Refusal Subset」ではいかなるモデルも50%未満でした。
45,320個のDocker環境を自動合成し、SWE-bench Verifiedで66.0%を達成したオープンソースSWEエージェント訓練基盤「daVinci-Env」を紹介します。品質フィルタリングで抽出した9,000個の環境と完全公開されたインフラで、AI駆動型ソフトウェア開発の民主化を実現します。
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 論文「METAGENE-1: Metagenomic Foundation Model for Pandemic […]
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 本論文では、LLM(大規模言語モデル)の数学的推論能力を向上させる新しいアプローチ「BoostStep」が提案され […]
競技プログラミング向けの新ベンチマーク「CodeELO」を解説。ELOレーティングに基づきLLMのコード生成能力を多面的に評価する仕組みと、各モデルの評価結果を紹介します。
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 この論文では、時系列データを生成するために新しいモデル「Population-Aware Diffusion fo […]
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 この論文では、地理空間推論能力を評価するための新しいベンチマークデータセット「MapEval」が提案されています。 […]
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 本論文の概要 この研究では、視覚と言語の統合された事前学習を可能にする「Multimodal-Textboo」と呼ばれる新しいデ […]
本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。 この研究のポイントは? 本論文は、多数の会話を含む検索拡張生成(RAG)システムの評価のための新しいベンチマーク「CORAL」を […]
LLMはなぜ日本文化に偏る? 欧州研究が明かすAIの隠れた文化バイアス
MolmoAct2とは?GPT-5・Gemini Roboticsを超えたオープンVLAモデルを解説
GitHub Copilot がトークン課金制へ移行、一部ユーザーで月額29ドルが750ドルに急騰
arXiv、AI任せ論文の著者を1年間投稿禁止へ — 学術AI利用規制が本格化
Absolicsのガラス基板とは?AIチップ性能を10倍高密度化する次世代パッケージング