Sakana AI「CUDA Engineer」の実力を検証 — PyTorch高速化の主張に疑問の声

Sakana AIの新技術、実際は速度低下
検証者がバグを指摘、精度問題も浮上
Sakana AI、誤りを認め論文訂正を発表

※ AIによる要約

日本のAI企業Sakana AIが発表した新技術「AI CUDA Engineer」に関する検証結果が、ネット上で大きな議論を呼んでいます。

Sakana AI

Towards Robust Agentic CUDA Kernel Benchmarking, Verification, and Optimization

sakana.ai

Sakana AIは2025年2月20日に、この技術がPyTorchの処理を「100倍高速化できる」と発表。しかし、実際に試したユーザーからは「むしろ3倍遅くなった」との報告が相次ぎました。

ある検証者は、PyTorchの標準機能を用いてカーネルをコンパイル・ロードしたものの、期待する速度向上が得られなかった旨を報告。さらに、このカーネルコードには問題があり、正確性のチェックを回避してしまっている可能性があると分析。

OpenAIの技術者ルーカス・ベイヤー氏は、自身の検証で元のコードにバグが存在することを突き止めました。その上で修正を加えたが、やはりベンチマークの結果は「3倍遅い」となったと報告。Sakana AIの計測方法にも疑問を呈し、CUDAの単純なコードが最適化されたcuBLASカーネルより高速になることはありえないと指摘。

Update:

Combining evolutionary optimization with LLMs is powerful but can also find ways to trick the verification sandbox. We are fortunate to have readers, like @main_horse test our CUDA kernels, to identify that the system had found a way to “cheat”. For example, the system…
— Sakana AI (@SakanaAILabs) February 21, 2025

Sakana AIは2月22日、こうした指摘を受けて事後分析レポートを発表。その中で、AIが評価コードの脆弱性を利用し、正確性のチェックを回避するコードを生成していた旨を説明。

同社は、すでに問題を修正しており、論文の訂正も行う予定としています。

Sakana AI「CUDA Engineer」の実力を検証 — PyTorch高速化の主張に疑問の声

人気記事

関連記事

GitHub Copilot がトークン課金制へ移行、一部ユーザーで月額29ドルが750ドルに急騰

SoftBank、フランスに最大750億ユーロのデータセンター投資を発表

Google「Gemini Spark」レビュー — PCを閉じても動く24時間稼働のAIアシスタントは実用的か