AI-Papers
MiniMax Sparse Attention: 1Mトークン長文脈で注意機構の計算量を28倍削減する高速化手法 | AI-Papers