AI最前線コラム

AI-PapersAI論文解説・ニュースブログ

検索運営者情報お問い合わせプライバシーポリシー利用規約

© 2026 AI-Papers. All rights reserved.

ホーム
論文解説
データセット

データセット

論文解説データセット

Agents' Last Exam（ALE）とは？経済的価値で測るAIエージェント汎用ベンチマーク

250名以上の業界専門家と共同設計した1,490タスクで構成されるAIエージェント評価ベンチマーク「ALE」を解説します。最良モデルでも全体合格率26.2%にとどまる結果が示す、現在のAIエージェントの実力と今後の課題を詳しく紹介します。

2026年6月9日

Agents' Last Exam（ALE）とは？経済的価値で測るAIエージェント汎用ベンチマーク

論文解説データセット

CiteVQAとは？文書AIの「帰属ハルシネーション」を測定する新ベンチマーク

正しい答えを返しながら根拠箇所を誤引用する「帰属ハルシネーション」を体系的に定量化するベンチマーク「CiteVQA」が公開されました。711本のPDF・1,897問・7ドメインで構成し、最強モデルでもSAA 76.0%という大きなギャップを明らかにします。

2026年5月18日

CiteVQAとは？文書AIの「帰属ハルシネーション」を測定する新ベンチマーク

論文解説データセット

MemLensとは？789問で測るマルチモーダル長期記憶—最先端モデルも30%以下に留まる

NVIDIAが提案したMemLensは789問・5能力・4段階のコンテキスト長でマルチモーダル長期記憶を評価する初の体系的ベンチマークです。最先端モデルも30%以下に留まる視覚記憶の壁を解説します。

2026年5月17日

MemLensとは？789問で測るマルチモーダル長期記憶—最先端モデルも30%以下に留まる

論文解説データセット

Soohakとは？64人の数学者が作る研究レベル数学ベンチマークでGPT-5も26%止まり

64人の数学者が設計した研究レベル数学ベンチマーク「Soohak」を解説します。最先端モデルでもGemini-3-Proが30.4%、GPT-5が26.4%止まりで、不当な問題を見抜く「Refusal Subset」ではいかなるモデルも50%未満でした。

2026年5月12日

Soohakとは？64人の数学者が作る研究レベル数学ベンチマークでGPT-5も26%止まり

論文解説データセット

OpenSWEとは？45,320のDocker環境を自動合成しSWE-bench Verified 66%を達成する訓練基盤

45,320個のDocker環境を自動合成し、SWE-bench Verifiedで66.0%を達成したオープンソースSWEエージェント訓練基盤「daVinci-Env」を紹介します。品質フィルタリングで抽出した9,000個の環境と完全公開されたインフラで、AI駆動型ソフトウェア開発の民主化を実現します。

2026年3月16日

OpenSWEとは？45,320のDocker環境を自動合成しSWE-bench Verified 66%を達成する訓練基盤

データセット論文解説

【METAGENE-1】ウイルス検出や感染症の監視を強化するTransformer

本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。本論文の概要論文「METAGENE-1: Metagenomic Foundation Model for Pandemic […]

2025年2月2日

【METAGENE-1】ウイルス検出や感染症の監視を強化するTransformer

データセット論文解説

【BoostStep】LLMの数学的な推論能力を大幅向上させる手法

本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。本論文の概要本論文では、LLM（大規模言語モデル）の数学的推論能力を向上させる新しいアプローチ「BoostStep」が提案され […]

2025年1月31日

【BoostStep】LLMの数学的な推論能力を大幅向上させる手法

データセット論文解説

CodeELOとは？競技プログラミングでLLMのコード生成力を評価する新ベンチマーク

競技プログラミング向けの新ベンチマーク「CodeELO」を解説。ELOレーティングに基づきLLMのコード生成能力を多面的に評価する仕組みと、各モデルの評価結果を紹介します。

2025年1月27日

CodeELOとは？競技プログラミングでLLMのコード生成力を評価する新ベンチマーク

データセット論文解説

時系列データ解析のための生成モデル「PaD-TS」

本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。本論文の概要この論文では、時系列データを生成するために新しいモデル「Population-Aware Diffusion fo […]

2025年1月27日

時系列データ解析のための生成モデル「PaD-TS」

データセット論文解説

GPT-4で地理情報推論力を評価するデータセット「MapEval」の提案

本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。本論文の概要この論文では、地理空間推論能力を評価するための新しいベンチマークデータセット「MapEval」が提案されています。 […]

2025年1月24日

GPT-4で地理情報推論力を評価するデータセット「MapEval」の提案

データセット論文解説

YouTubeの教育動画データセットで視覚質問の応答性能を向上

本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。本論文の概要この研究では、視覚と言語の統合された事前学習を可能にする「Multimodal-Textboo」と呼ばれる新しいデ […]

2025年1月7日

YouTubeの教育動画データセットで視覚質問の応答性能を向上

AI最前線コラムデータセット言語・LLM論文解説

【CORAL】会話における複数回のやり取りデータを含むRAGのベンチマーク

本記事で使用している画像は論文中の図表、またはそれを参考に作成した画像を使用しております。この研究のポイントは？本論文は、多数の会話を含む検索拡張生成(RAG)システムの評価のための新しいベンチマーク「CORAL」を […]

2024年11月4日

【CORAL】会話における複数回のやり取りデータを含むRAGのベンチマーク

カテゴリ

論文解説
- 音楽
- 音声
- 言語・LLM
- 画像
- 強化学習
- 動画
- マルチモーダル
- データセット
ニュース
- 技術
- ビジネス
AI最前線コラム

人気記事

LLMはなぜ日本文化に偏る？欧州研究が明かすAIの隠れた文化バイアス
2026年4月30日
MolmoAct2とは？GPT-5・Gemini Roboticsを超えたオープンVLAモデルを解説
2026年5月5日
GitHub Copilot がトークン課金制へ移行、一部ユーザーで月額29ドルが750ドルに急騰
2026年5月31日
arXiv、AI任せ論文の著者を1年間投稿禁止へ — 学術AI利用規制が本格化
2026年5月17日
Absolicsのガラス基板とは？AIチップ性能を10倍高密度化する次世代パッケージング
2026年3月15日