
具有表达性隐藏状态的RNN,将会颠覆Transformer?
发布日期:2024-07-29 10:55 点击次数:207
来自斯坦福大学、加州大学圣地亚哥分校、加州大学伯克利分校、Meta 人工智能部门的一帮作者,发布了一款挑战 Transformer 的新架构。该论文表示:
“自注意力机制在长上下文中表现良好,但具有二次复杂度。现有的 RNN 层具有线性复杂度,但它们在长上下文中的表现受到其隐藏状态的表达能力的限制。
我们提出了一类具有线性复杂度和富有表现力的隐藏状态的新型序列建模层。关键思想是使隐藏状态本身成为机器学习模型,并将更新规则作为自监督学习的一个步骤。
由于隐藏状态即使在测试序列上也通过训练进行更新,因此我们的层被称为测试时训练 (TTT) 层。
我们考虑两个实例:TTT-Linear 和 TTT-MLP,其隐藏状态分别是线性模型和两层 MLP。我们在 125M 到 1.3B 参数的规模上评估我们的实例,并与强大的 Transformer 和现代 RNN Mamba 进行比较。TTT-Linear 和 TTT-MLP 都达到或超过了基线。
与 Transformer 类似,它们可以通过调节更多 token 来继续降低困惑度,而 Mamba 在 16k 上下文之后就无法做到这一点。
经过初步的系统优化,TTT-Linear 在 8k 上下文中已经比 Transformer 更快,并在挂钟时间上与 Mamba 匹敌。
TTT-MLP 在内存 I/O 方面仍面临挑战,但在长上下文中显示出更大的潜力,为未来的研究指明了一个有希望的方向。”
论文地址:https://arxiv.org/pdf/2407.04620
可以在本公众号后台回复“TTT”下载。
//
END.
发布于:北京市