14 篇 Transformer 热门论文汇总，涵盖多个研究方向，快来看看吧

显示全部楼层 · 2024-10-28 12:07:00

在人工智能研究领域，Transformer模型持续受到广泛关注。近期，其架构的改进和创新成果不断涌现，这些成果包括提升模型性能和简化模型结构，各具特色。

浅层前馈网络模拟注意力机制研究

在当前的研究领域，研究人员对Transformer进行了深入的研究。他们尝试构建浅层前馈网络，以模拟Transformer模型中的注意力机制。具体做法是将浅层前馈网络替换Transformer中注意力机制的关键部分，并运用知识蒸馏技术对这些网络进行训练。实验主要在他们试验的地点进行，并在IWSLT2017数据集上展开。实验结果表明，去除了注意力的变形金刚在性能上与原始架构相近。这一发现指出，在特定条件和数据集下，简单的浅层前馈网络具有替代原有注意力机制的巨大潜力。同时，研究人员对线性注意力的不足进行了深入分析，并进行了相应的改进。他们通过引入映射函数和秩恢复模块，增强了自我注意力的表现力，同时保证了低计算复杂度。这对于工业场景中计算资源有限的应用具有重要意义。

SeTformer新型变压器

SeTformer，一种新型变压器，由研究人员提出。该变压器全面运用了自优化传输（SeT）技术，摒弃了传统的点积自注意力（DPSA）。其技术核心包括两个softmax属性：一是确保注意力矩阵的非负性，二是通过非线性重新加权机制来强化关键标记。此技术替换旨在提高性能与计算效率。在GLUE基准测试中，SeTformer取得了领先的语言建模成绩。这一成就充分展示了其在视觉与语言任务中的广泛应用前景。无论是视觉处理还是语言理解，SeTformer均有可能引领新的研究方向，为未来研究奠定坚实基础。

MonarchMixer新架构M2

MonarchMixer（M2）这一新架构被提出。该架构采用亚二次基元，实现了序列长度与模型维度的扩展，其扩展方法具有显著创新性。M2的功能执行依赖于Monarch矩阵，这是一种结构化的矩阵类型，既简单又具有表现力。在GPU上，这种矩阵类型展现出高效性能，是其一大优势。尤其在当前对硬件性能要求较高的人工智能计算领域，这一优势显得尤为珍贵，显著提高了模型在硬件上的执行效率。

iTransformer模型

iTransformer模型拥有显著特点。该模型将时间序列中的各个变量独立嵌入为子token，并利用自注意力机制与前馈网络学习非线性表示。这种处理策略有助于模型捕捉多变量间的关联性，并增强预测准确性。实验研究表明，这一创新为自监督视觉模型在密集视觉预测任务中树立了新的技术标准。此举显著促进了相关应用的发展，例如，它使得使用更大规模模型进行目标检测成为可能，并为视觉处理的后续步骤提供了更流畅的特征图和注意力图。

Pathformer多尺度Transformer模型

Pathformer模型作为一项新近提出的自适应通路多尺度Transformer架构，主要应用于时间序列预测领域。尽管目前公开的细节信息相对有限，该模型在时间序列预测领域已显示出开辟新研究方向的潜力。在处理与时间相关的数据方面，Pathformer可能展现出其独特的架构优势。展望未来，对其性能研究的详细成果将持续受到关注。

Crossformer多变量时间序列预测模型

Crossformer是一款专为多变量时间序列（MTS）预测设计的模型。该模型采用DSW嵌入技术，将MTS数据转换成二维数组形式。接着，利用两阶段注意力（TSA）层来识别时间序列中的时间依赖和跨维度关系。这种独特的设计为多变量时间序列预测提供了新的视角。其核心目标是精确捕捉多变量之间的关联，因此在处理复杂的多变量时间序列数据时，有望表现出卓越的性能。

人工智能领域进展迅猛，众多基于Transformer的新型模型陆续推出。这些模型多样化，有望在各行各业带来变革。亲爱的读者们，请问您认为哪款模型最有可能在现实应用中快速普及？我们热切期待您的积极参与，欢迎点赞、转发，并在评论区分享您的宝贵观点。

14 篇 Transformer 热门论文汇总，涵盖多个研究方向，快来看看吧

相关帖子