記事一覧 (25ページ目)

ニュース技術

Google、Gemini 3.1 Proを発表 — ARC-AGI-2で前世代比2倍超の推論性能を達成

GoogleがARC-AGI-2で77.1%を達成した「Gemini 3.1 Pro」を発表。前世代比2倍超の推論性能向上が確認され、API料金は据え置きでGemini APIとVertex AI経由での即日利用が可能となった。

2026年2月20日

Google、Gemini 3.1 Proを発表 — ARC-AGI-2で前世代比2倍超の推論性能を達成

AI最前線コラム

AIエージェントフレームワーク比較【2026】LangGraph・CrewAI・OpenAI Agents SDKの選び方

LangGraph・CrewAI・AutoGen・OpenAI Agents SDK・Google ADKを徹底比較。2026年のユースケース別選び方と、MCP対応など最新トレンドをわかりやすく解説します。

2026年2月19日

AIエージェントフレームワーク比較【2026】LangGraph・CrewAI・OpenAI Agents SDKの選び方

論文解説マルチモーダル

UniWeTokとは？超大規模コードブック2^128で画像再構成・理解・生成を統合する新手法

2^128サイズのバイナリコードブックを持つ視覚トークナイザー「UniWeTok」が提案されました。従来手法REPA比8分の1以下の33Bトークンで訓練しながらFID 1.38を達成し、画像生成DPGスコア86.63でFLUX.1を上回る性能を示しています。

2026年2月19日

UniWeTokとは？超大規模コードブック2^128で画像再構成・理解・生成を統合する新手法

ニュース技術

Google Gemini、テキスト・画像から音楽を生成できる「Lyria 3」を搭載 — AIが音楽制作の新ツールに

GoogleがDeepMindの最新AI音楽生成モデル「Lyria 3」をGeminiアプリに統合。テキストや写真から30秒のオリジナル楽曲を生成する機能の詳細と、著作権保護の仕組みを解説します。

2026年2月19日

Google Gemini、テキスト・画像から音楽を生成できる「Lyria 3」を搭載 — AIが音楽制作の新ツールに

論文解説画像

FireRed-Image-Edit 1.0とは？16億サンプルと強化学習で命令駆動型画像編集をSoTAへ導く拡散トランスフォーマー

拡散トランスフォーマーベースの命令駆動型画像編集システム「FireRed-Image-Edit 1.0」が登場。16億サンプルの大規模データと強化学習を組み合わせ、独自ベンチマークREDEdit-Benchの全15カテゴリで商用システムと同等以上の性能を達成します。

2026年2月19日

FireRed-Image-Edit 1.0とは？16億サンプルと強化学習で命令駆動型画像編集をSoTAへ導く拡散トランスフォーマー

ニュース技術

NVIDIAが日本語特化LLM「Nemotron 2 Nano 9B」を公開 — ソブリンAI実現に向けた性能を解説

NVIDIAが日本語特化の90億パラメータLLM「Nemotron-Nano-9B-v2-Japanese」を公開。Nejumi Leaderboard 4の10B以下カテゴリで1位を獲得し、最大6倍のスループット向上とエージェント能力を両立したソブリンAI向けモデルの詳細を解説します。

2026年2月18日

NVIDIAが日本語特化LLM「Nemotron 2 Nano 9B」を公開 — ソブリンAI実現に向けた性能を解説

論文解説マルチモーダル

Embed-RLとは？強化学習でマルチモーダル埋め込みの推論能力を獲得する新手法

清華大学が提案するEmbed-RLは、強化学習で埋め込みモデルの推論を最適化する新フレームワークです。4BパラメータでありながらMMEB-V2ベンチマークでスコア68.1を達成し、7Bの既存手法を上回る性能を実現した手法の仕組みと成果を解説します。

2026年2月18日

Embed-RLとは？強化学習でマルチモーダル埋め込みの推論能力を獲得する新手法

ニュースビジネス

India AI Impact Summit — OpenAI・Anthropic・Googleら集結、インドAI投資が加速する全発表まとめ

インド政府主催のAI Impact Summitで、OpenAI・Anthropic・Googleら大手が集結。11億ドルの政府VCファンド設立やAdaniの1000億ドルデータセンター計画など、インドのAIハブ化を加速させる主要発表を解説します。

2026年2月17日

India AI Impact Summit — OpenAI・Anthropic・Googleら集結、インドAI投資が加速する全発表まとめ

AI最前線コラム

LLMの量子化とは？GPTQ・AWQ・GGUFの違いと選び方をわかりやすく解説

LLMの量子化技術であるGPTQ・AWQ・GGUFの仕組みと違いを初心者向けに解説。自分のハードウェア環境に最適な手法の選び方をベンチマークデータとともに紹介します。

2026年2月17日

論文解説言語・LLM

BFS-POとは？Best-First Searchで推論モデルのoverthinking問題を解消する新手法

大規模推論モデルの「overthinking」問題を解決するBFS-POを解説。最大エントロピーノードでバックトラッキングし、最短正解パスを探索することでDAPO比1.37倍の高速化と精度向上を同時に達成した強化学習手法を紹介します。

2026年2月17日

BFS-POとは？Best-First Searchで推論モデルのoverthinking問題を解消する新手法

論文解説言語・LLM

WebWorldとは？100万件超のWeb操作で訓練されたAIエージェント用大規模ワールドモデル

Qwenチームが開発した初の大規模オープンWebシミュレータ「WebWorld」を解説。106万件のWeb操作データで訓練され、WebArenaで+9.2%改善しGPT-4o相当の性能を達成した仕組みと成果を紹介します。

2026年2月17日

WebWorldとは？100万件超のWeb操作で訓練されたAIエージェント用大規模ワールドモデル

論文解説画像

BitDanceとは？バイナリトークンで自己回帰画像生成を革新しFID 1.24を達成した新手法

従来のコードブック方式に代わりバイナリトークンを採用した画像生成手法「BitDance」を解説。260Mパラメータで自己回帰モデル最高のFID 1.24を達成し、最大30倍の高速化を実現した仕組みを紹介します。

2026年2月17日

Google、Gemini 3.1 Proを発表 — ARC-AGI-2で前世代比2倍超の推論性能を達成

AIエージェントフレームワーク比較【2026】LangGraph・CrewAI・OpenAI Agents SDKの選び方

UniWeTokとは？超大規模コードブック2^128で画像再構成・理解・生成を統合する新手法

Google Gemini、テキスト・画像から音楽を生成できる「Lyria 3」を搭載 — AIが音楽制作の新ツールに

FireRed-Image-Edit 1.0とは？16億サンプルと強化学習で命令駆動型画像編集をSoTAへ導く拡散トランスフォーマー

NVIDIAが日本語特化LLM「Nemotron 2 Nano 9B」を公開 — ソブリンAI実現に向けた性能を解説

Embed-RLとは？強化学習でマルチモーダル埋め込みの推論能力を獲得する新手法

India AI Impact Summit — OpenAI・Anthropic・Googleら集結、インドAI投資が加速する全発表まとめ

LLMの量子化とは？GPTQ・AWQ・GGUFの違いと選び方をわかりやすく解説

BFS-POとは？Best-First Searchで推論モデルのoverthinking問題を解消する新手法

WebWorldとは？100万件超のWeb操作で訓練されたAIエージェント用大規模ワールドモデル

BitDanceとは？バイナリトークンで自己回帰画像生成を革新しFID 1.24を達成した新手法

人気記事