ACL 2025 最佳论文：原生稀疏注意力：硬件对齐且本征可训练的稀疏注意力

最新推荐文章于 2025-08-15 22:59:14 发布

AI天才研究院

最新推荐文章于 2025-08-15 22:59:14 发布

阅读量682

点赞数 17

CC 4.0 BY-SA版权

文章标签：人工智能机器学习深度学习

本文链接：https://blog.csdn.net/universsky2015/article/details/150353770

摘要

长上下文建模对于下一代语言模型至关重要，但标准注意力机制的高计算成本带来了显著的计算挑战。稀疏注意力提供了一种提高效率同时保持模型能力的有前景的方向。我们提出了 NSA，这是一种本征可训练的稀疏注意力机制，将算法创新与硬件对齐的优化相结合，以实现高效的长上下文建模。NSA 使用动态分层稀疏策略，结合粗粒度的 token 压缩与细粒度的 token 选择，以保持全局上下文感知和局部精度。我们的方法在稀疏注意力设计方面有两个关键创新：（1）我们通过算术强度平衡的算法设计实现显著的加速，并针对现代硬件进行了实现优化。（2）我们实现了端到端训练，减少了预训练计算量而不牺牲模型性能。如图 1 所示，实验表明，使用 NSA 预训练的模型在通用基准、长上下文任务以及指令驱动的推理中，能够保持或超越全注意机制模型的性能。同时，NSA 在 64k 长度序列的解码、前向传播和反向传播中实现了显著的速度提升，验证了其在整个模型生命周期中的高效性。

图 1：全注意模型与我们的 NSA 在性能和效率上的比较。左：尽管 NSA 是稀疏的，但在通用基准、长上下文任务和推理评估中，NSA 平均性能优于全注意基线。右：对于 64k 长度的序列处理，NSA 在所有阶段（解码、前向传播和反向传播）相比全注意都实现了显著的计算加速。

研究社区越来越认识到，长上下文建模是下一代大型语言模型的关键能力，这推动了从深入推理 (Zelikman 等, 2022; DeepSeek-AI, 2025)、仓库级代码生成 (Zhang 等, 2023a) 和多轮自主代理系统 (Park 等, 2023) 等多样化的实际应用。近期的突破包括 OpenAI 的 o 系列模型、DeepSeek-R1(DeepSeek-AI, 2025) 和 Gemini 1.5 Pro(Google 等, 2024)，使模型能够处理整个代码库、长文档，并在数千个标记中保持连贯的多轮对话，以及在长距离依赖关系中进行复杂推理。然而，随着序列长度增加，传统的 Attention 机制 (Vaswani 等, 2017) 的高复杂性成为关键的延迟瓶颈。理论估计表明，在解码 64k 长度上下文时，使用 softmax 架构的注意力计算占总延迟的 70%到 80%，这凸显了更高效注意力机制的迫切需求。

一种高效的长上下文建模自然方法是利用 softmax 注意力的固有稀疏性 (Ge 等, 2023; Jiang 等, 2023)，通过选择性地计算关键的查询-键对可以显著减少计算开销同时保持性能。最近的研究通过多种策略展示了这一潜力：基于 KV 缓存的淘汰方法 (Zhang 等, 2023b; Li 等, 2024; Zhou 等, 2024)，基于块的 KV 缓存选择方法 (Tang 等, 2024; Xiao 等, 2024a; Gao 等, 2024)，以及基于采样、聚类或哈希的选择方法 (Chen 等, 2024b; Liu 等, 2024; Desai 等, 2024)。尽管这些策略很有前景，但现有的稀疏注意力方法在实际部署中往往不尽如人意。许多方法未能实现与其理论增益相媲美的加速效果；此外，大多数方法缺乏有效的训练时支持，无法充分利用注意力机制的稀疏模式。

为了解决这些限制，有效的稀疏注意力部署必须应对两个关键挑战：（1） 硬件友好的推理加速 ：在填充和解码阶段都需要进行硬件友好的算法设计，以缓解内存访问和硬件调度瓶颈，从而将理论上的计算减少转化为实际的加速效果；（2） 训练感知的算法设计 ：通过使用可训练的操作符实现端到端的计算，以降低训练成本同时保持模型性能。这些要求对于实际应用实现快速长上下文推理或训练至关重要。当同时考虑这两个方面时，现有方法仍然存在明显的差距。

为了实现更有效率的稀疏注意力机制，我们提出了 NSA（Natively Trainable Sparse Attention）架构，该架构集成了分层的 token 建模。如图 2 所示，NSA 通过将键和值组织成时间块，并通过三种注意力路径进行处理：压缩的粗粒度 token、选择性保留的细粒度 token 以及用于局部上下文信息的滑动窗口，从而减少每个查询的计算量。然后我们实现了专门的内核以最大化其实用效率。NSA 引入了两个核心创新，对应于上述关键要求：（1）硬件对齐系统：优化块状稀疏注意力以提高张量核心利用率和内存访问效率，确保算术强度平衡。（2）训练感知设计：通过高效的算法和反向操作实现端到端的稳定训练。这种优化使得 NSA 能够支持高效的部署和端到端的训练。

我们通过在真实世界语言语料库上的全面实验评估了 NSA。在使用 270 亿参数的 Transformer 骨干网络并训练 2600 亿个标记后，我们评估了 NSA 在通用语言评估、长上下文评估以及链式推理评估中的性能。我们还比较了 NSA 在 A100 GPU 上的内核速度与经过优化的 Triton (Tillet et al., 2019) 实现的性能。实验结果表明，NSA 在性能上与全注意机制相当或更优，同时在解码、前向和后向阶段的性能上优于现有稀疏注意机制，且随着序列长度的增加，性能提升比例也增大。这些结果验证了我们分层稀疏注意机制设计有效地平衡了模型能力和计算效率。

现代稀疏注意力方法在降低变压器模型的理论计算复杂度方面取得了显著进展。然而，大多数方法主要在推理时应用稀疏性，而保留一个预训练的全注意力骨干网络，这可能会引入架构偏见，限制了它们充分利用稀疏注意力优势的能力。在介绍我们自己的原生稀疏架构之前，我们通过两个关键视角系统地分析了这些局限性。

图 2：NSA 架构概述。左侧：框架通过三个并行的注意力分支处理输入序列：对于给定的查询，前序的键和值被处理成压缩注意力以识别粗粒度模式，选择注意力以识别重要令牌块，滑动注意力以处理局部上下文。右侧：每个分支生成的不同注意力模式的可视化。绿色区域表示需要计算注意力分数的区域，而白色区域表示可以跳过的区域。

2.1 高效推理的幻象

尽管在注意力计算中实现了稀疏性，但许多方法未能相应地减少推理延迟，主要原因在于两个挑战：

阶段受限的稀疏性。 诸如 H2O (张等, 2023b) 的方法在自回归解码过程中应用稀疏性，但在预填充阶段需要进行计算密集型的预处理（例如，注意力图计算、索引构建）。相比之下，MInference (江等, 2024) 等方法仅关注预填充阶段的稀疏性。这些方法无法在整个推理阶段实现加速，因为在至少一个阶段的计算成本仍然与全注意力相当。这种阶段专业化降低了这些方法在以预填充为主的任务（如书籍摘要和代码补全）或以解码为主的任务（如长链推理 (魏等, 2022)）中的加速能力。

与高级注意力架构不兼容。 一些稀疏注意力方法无法适应现代解码高效架构，如多查询注意力（MQA）(Shazeer, 2019) 和分组查询注意力（GQA）(Ainslie et al., 2023)，这些架构通过在多个查询头之间共享 KV 来显著减少了解码过程中的内存访问瓶颈。例如，在像 Quest (Tang et al., 2024) 这样的方法中，每个注意力头独立选择其 KV 缓存子集。尽管它在多头注意力（MHA）模型中展示了持续的计算稀疏性和内存访问稀疏性，但在基于 GQA 等架构的模型中，KV 缓存的内存访问量对应于同一 GQA 组内所有查询头选择的并集。这种架构特性意味着，虽然这些方法可以减少计算操作，但所需的 KV 缓存内存访问量仍然相对较高。这一限制迫使我们在一个关键选择之间做出决定：虽然一些稀疏注意力机制能够减少计算量，但它们不连续的内存访问模式与先进架构高效的内存访问设计相冲突。

这些限制源于许多现有的稀疏注意力方法专注于减少 KV 缓存或理论计算量，但在先进框架或后端中实现显著的延迟减少方面却力不从心。这促使我们开发结合了先进架构和硬件高效实现的算法，以充分利用稀疏性来提高模型效率。

2.2 可训练稀疏性的神话

我们追求原生可训练稀疏注意力机制，主要受到仅限推理方法分析中两个关键洞察的驱动：(1) 性能退化：事后应用稀疏性会迫使模型偏离其预训练优化轨迹。正如 Chen 等（2024b）所展示的，前 20%的注意力机制仅能覆盖总注意力分数的 70%，使得预训练模型中的检索头部在推理过程中容易被剪枝。 (2) 训练效率需求：高效处理长序列训练对于现代 LLM 的发展至关重要。这包括在更长文档上进行预训练以增强模型容量，以及后续的适应阶段，如长上下文微调和强化学习。然而，现有的稀疏注意力方法主要针对推理，而训练过程中的计算挑战则被很大程度上忽略了。这一限制阻碍了通过高效训练开发更强大的长上下文模型。此外，努力将现有稀疏注意力机制适应于训练也暴露了诸多挑战：

非可训练组件。 方法如 ClusterKV 等中的离散操作 (Liu et al., 2024) （包括 k-means 聚类）和 MagicPIG(Chen et al., 2024b)（包括基于 SimHash 的选择）在计算图中创建了不连续性。这些不可训练的组件阻止了梯度在 token 选择过程中的流动，限制了模型学习最优稀疏模式的能力。

低效的反向传播。 一些理论上可训练的稀疏注意力方法在实际训练中存在效率问题。像 HashAttention（Desai 等人，2024）这类方法采用的以词元为粒度的选择策略，在注意力计算过程中需要从 KV 缓存中加载大量不连续的词元。这种非连续的内存访问阻碍了 FlashAttention 等依赖连续内存访问和块状计算以实现高吞吐量的快速注意力技术的有效适应。因此，实现上不得不退回到低硬件利用率，显著降低了训练效率。

2.3 本征稀疏性的重要性

这些推理效率和训练可行性方面的限制促使我们对稀疏注意力机制进行根本性的重新设计。我们提出了 NSA（本征稀疏注意力）框架，该框架同时解决了计算效率和训练需求问题。在接下来的章节中，我们将详细阐述 NSA 的算法设计和操作实现。

4 实验

我们从三个角度评估 NSA：（1）通用基准性能，（2）长上下文基准性能，以及（3）思路链推理性能，并与全注意力基线和最先进的稀疏注意力方法进行比较。我们将稀疏计算范式的效率分析推迟到第 5 节，其中我们将详细讨论训练和推理速度。

https://arxiv.org/html/2502.11089?_immersive_translate_auto_translate=1

奖项

最佳论文

LLMs 响应采样理论：描述与规范并重
Sarath Sivaprasad, Pramod Kaushik, Sahar Abdelnabi, Mario Fritz
通过差异意识实现公平性：测量 LLMs 中期望的群体歧视
Angelina Wang, Michelle Phan, Daniel E. Ho, Sanmi Koyejo
语言模型抵制对齐：来自数据压缩的证据
姬嘉明, 王楷乐, 丘天一, 陈博远, 周嘉伊, 李畅野, 刘涵涛, 戴 juntao, 刘云槐, 杨耀东
本地稀疏注意力：硬件对齐且本源可训练的稀疏注意力
袁 Jingyang, 高化卓, 戴大迈, 罗 junyu, 赵亮, 张正 yan, 谢紫达, Y. X. 魏, 王 Lean, 许志平, 王雨晴, 袁冲, 张明, 梁文峰, 曾王定

AfriMed-QA：泛非多专科医疗问答基准数据集
查尔斯·尼莫, 托比·奥拉图吉, 阿布拉罕·托鲁瓦塞·奥沃杜尼, 塔萨拉赫·阿卜杜拉希, 艾曼纽尔·阿约德勒, 玛尔迪亚·桑尼, 埃齐万纳·C·阿卡, 福拉芬米·奥莫福耶, 芳斯塞·约赫戈, 蒂莫西·凡纳里兰, 本诺瓦恩·F·P·多苏, 摩西杜·奥基尼, 乔纳斯·肯普, 凯瑟琳·A·赫勒, 朱德·奇杜贝姆·奥梅基, 谢迪·阿苏, MD, 纳奥梅·A·埃托里, 埃梅鲁·尼迪耶, 伊费玛·奥科, 艾文斯·多·奥卡森西, 温蒂·基纳拉, 迈克尔·贝斯特, 伊夫·埃萨, 斯蒂芬·爱德华·摩尔, 克里斯·福瑞, 梅丽莎·尼亚梅瓦·阿西杜
人工智能差距：社会经济地位如何影响语言技术互动
埃莉萨·巴萨吉纳, 艾曼达·塞拉斯·库里, 迪尔克·霍维

最佳资源论文

规则是来被打破的吗？通过 UniMoral 理解多语言道德推理作为计算管道
Shivani Kumar, David Jurgens
BRIGHTER：弥合 28 种语言人类标注文本情绪识别数据集之间的差距
Shamsuddeen Hassan Muhammad, Nedjma Ousidhoum, Idris Abdulmumin, Jan Philip Wahle, Terry Ruas, Meriem Beloucif, Christine de Kock, Nirmal Surange, Daniela Teodorescu, Ibrahim Said Ahmad, David Ifeoluwa Adelani, Alham Fikri Aji, Felermino D. M. A. Ali, Ilseyar Alimova, Vladimir Araujo, Nikolay Babakov, Naomi Baes, Ana-Maria Bucur, Andiswa Bukula, 贺冠群, 罗德里戈·图菲诺, 刘迪, 查玛卡·伊乔玛·楚克温内克, Alexandra Ciobotaru, 德米特里娅·登米耶娃, Murja Sani Gadanya, 罗伯特·盖斯林格, 贝拉·吉普, 奥玛伊玛·侯拉兰, 翁娜·伊格纳特, 法拉卢·易卜拉欣·拉万, 罗韦蒂尔·马布亚, 罗哈姆德·马亨德拉, 维库西·马里瓦特, 亚历山大·潘钦科, 安德鲁·派珀, 查尔斯·亨里克·波托·费雷拉, 维塔利·普罗塔索夫, 萨缪尔·鲁图纳, 曼尼什·什里瓦斯塔瓦, Aura Cristina Udrea, 利莉安·迪安娜·奥沃·万扎雷, 苏菲·吴, 弗洛里安·瓦伦廷·温德尔利希, 马哈福兹·穆罕默德·扎法兰, 张天辉, 周毅, 萨伊夫·穆罕默德
Palm: 一个适用于阿拉伯语 LLMs 的文化包容性和语言多样性数据集
法赫里丁·阿洛瓦吉赫, 阿德尔拉赫曼·艾·马德尼, 萨马尔·穆罕默德·马吉德, 阿卜杜勒拉赫曼·A.艾尔马达尼, 奥梅尔·纳卡尔, 艾尔·莫泰兹·比拉赫·纳古迪, 瑞姆·阿卜杜勒-萨拉姆, 哈尼·阿特瓦尼, 优素福·纳法, 阿卜杜勒法塔赫·穆罕默德·亚赫亚, 拉赫夫·阿赫马鲁里, 贺兹哈·A.艾尔萨迪, 西巴·扎耶德, 萨拉·沙特纳维, 赛里·西巴伊, 亚瑟尔·埃奇-查马赫基, 沃利德·阿勒-达巴尼, 马尔瓦·穆罕默德·阿里, 伊曼·贾拉拉, 埃德姆·乌马尔·艾尔-尚吉蒂, 阿依莎·阿尔拉伊西, 摩哈迈德·安瓦尔·阿勒-格拉威, 阿卜杜勒拉赫曼·S.阿勒-巴塔蒂, 埃尔吉佐利·穆罕默德, 诺哈·塔哈·埃尔-甘迪尼, 沙姆德·塞埃德, 哈杜伊法·阿图, 伊萨姆·艾特·亚赫亚, 阿卜杜勒哈克·波亚德, 摩哈迈德·马奇鲁赫, 阿马尔·马库阿, 达尼娅·阿克瓦伊, 穆克塔尔·穆罕默德, 萨法·塔赫尔·阿卜杜勒法德, 阿明·齐亚德·奥努格诺格内, 安菲尔·鲁阿布希亚, 罗瓦·阿西, 埃德姆·索尔卡蒂, 摩哈迈德·楚克·图拉德, 安尼斯·库巴, 伊萨姆·伯拉达, 沙马斯·贾拉尔, 马苏德·贾拉尔, 萨迪·谢赫塔, 莫罕默德·阿卜杜勒-马吉德

最佳主题论文

MaCP: 最小而强大的适应性通过分层余弦投影
沈一贤, 毕琪, 黄家宏, 朱宏毅, 安迪·D.皮门特尔, 安朱·帕特尼亚
元评价器：预训练语言模型的多维度数据选择方法
庄新林, 彭嘉辉, 马仁, 王银帆, 白天一, 魏兴健, 张秋建涛, 张弛, 袁影, 何丛辉
SubLIME：基于秩相关预测的子集选择，用于数据高效的大语言模型评估
Gayathri Saranathan, Cong Xu, Mahammad Parwez Alam, Tarun Kumar, Martin Foltin, Soon Yee Wong, Suparna Bhattacharya

杰出论文

基于上下文多样性的 Zipf 意义-频率定律的新表述
奈良龙，田中石纪
并非所有闪光的都是新颖的：AI 生成研究中的抄袭问题
Tarun Gupta, Danish Pruthi
介于电路与乔姆斯基之间：在形式语言上进行预预训练可传递语言偏见
Michael Y. Hu, Jackson Petty, Chuan Shi, William Merrill, Tal Linzen
超越 N 元语法：重新思考多语言抽象总结的评估指标和策略
伊塔伊·蒙什丁、特兹夫·帕兹-阿加拉曼、雷特·特萨法蒂
在推理时跨语言干预：弥合大型语言模型的语言鸿沟
王伟玄，吴明浩，巴里·哈德伍，亚历山德拉·伯奇
字节潜藏变换器：块比令牌更胜一筹
Artidoro Pagnoni, Ramakanth Pasunuru, Pedro Rodriguez, John Nguyen, Benjamin Muller, Margaret Li, Chunting Zhou, LILI YU, Jason E Weston, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Ari Holtzman, Srini Iyer
细粒度能力向量：损失与下游任务能力的精细对齐
Ge Qiming, Xing Shuhao, Gao Songyang, Zhou Yunhua, Zou Yicheng, Zhang Songyang, Chen Zhi, Yan Hang, Zhang Qi, Guo Qipeng, Chen Kai
从真实到合成：合成数百万条多样化且复杂的用户指令并进行属性关联 grounding
朱超伟, 徐本峰, 王晓瑞, 毛振东
HALOGEN: 极具创意的 LLM 幻觉及其来源
阿比拉沙·拉维查 nder, 赛斯蒂·格莱拉, 大卫·沃登, 芝金·崔
HateDay: 来自推特一天代表性仇恨言论数据集的见解
Manuel Tonneau, Diyi Liu, Niyati Malhotra, Scott A. Hale, Samuel Fraiberger, Victor Orozco-Olvera, Paul Röttger
IOT: 面向零模态差距的标准化嵌入方法
Na Min An, Eunki Kim, James Thorne, Hyunjung Shim
IndicSynth：面向低资源印度语言的大规模多语言合成语音数据集
Divya V Sharma, Vijval Ekbote, Anubha Gupta
LaTIM: 测量 Mamba 模型中的潜在词间交互作用
Hugo Pitorro, Marcos Vinicius Treviso
Llama 见，Llama 做：关于 LLMs 上下文同步与干扰的机制视角
牛 Jingcheng, 元 Xingdi, 王 Tong, 哈米德雷扎·萨吉尔, 阿米尔·H·阿比迪
LLMs 知道它们的漏洞：通过自然分布偏移发现安全性缺口
任 Qibing, 李 Hao, 刘 Dongrui, 谢 Zhanxu, 陆 Xiaoya, 梁 Yu, 邵 Lei, 严 Junchi, 马 Lizhuang, 邵 Jing
通过对数似然向量映射 1,000+ 语言模型
Momose Oyama, Hiroaki Yamagiwa, Yusuke Takase, 柿原英人
MiniLongBench：面向大规模语言模型的低成本长上下文理解基准
黄中赞, 凌国明, 中珊珊, 吴河峰, 林梁
PARME: 低资源中东语言并行语料库
萨因·阿哈马迪, 瑞科·森尼廷, 厄法恩·卡拉米, 阿科·马拉尼, 法尔维兹·费克拉扎德, 吉拉姆雷扎·阿克巴兹德·巴赫班, 哈纳·哈迪, 赛姆科·海达里, 贝尔海尔, 佩德兰·阿萨迪, 达什内·巴希尔, 摩哈末·阿明·古德拉蒂, 科罗斯·阿米尼, 泽娜·阿肖尔内哲德, 曼纳·巴尔达迪, 阿夫谢德·埃扎提, 阿利雷扎·加塞米法尔, 达里尤什·侯赛因普尔, 贝赫鲁兹·阿巴兹达赫, 阿明·哈桑普尔, 巴哈丁·贾拉尔·哈马敏, 萨亚·卡马尔·哈马, 阿德希尔·莫苏维, 萨尔科·纳齐尔·侯赛因, 伊萨尔·内贾德古里, 默罕默德·奥尔梅兹, 哈罗姆·奥斯曼普尔, 拉希德·罗尚·拉梅兹尼, 阿里安·塞迪格·阿兹, 阿里·萨莱希, 摩哈末雷扎·雅德加里, 科瓦尔·雅德加里, 赛迪赫·赞姆尼鲁达萨里
过去遇见现在：大型语言模型创建历史类比
年琪李, 于思宇, 陈江杰, 梁家庆, 魏峰, 梁祖杰, 杨德青, 小晓阳 hua
Pre³: 使确定性推进栈自动机加速结构化 LLM 生成
陈 junyi, 白世浩, 王在军, 吴思宇, 杜楚恒, 杨海龙, 龚瑞豪, 刘胜中, 吴 fan, 陈贵海
从概率论视角重新审视 LLM 测试时扩展的提示策略作用：一种观点
刘野翔, 李泽坤, 方之, 徐南, 何然, 谈铁牛
重新审视大型语言模型的组合作用泛化能力，考虑指令遵循能力
夏目善辅, 高屋英孝, 渡边太郎
朝向自动发现犬类音素字母表
王 theon, 李星元, 刘希得, 邓团明, 吴梦月, 朱 Kenny Q.
关于蒸馏语言模型的容量差距定律的研究
张晨, 李起奇, 宋大为, 叶泽宇, 高 yan, 胡 Yao
变废为宝：通过令牌回收加速大型语言模型的推理
罗贤真，王一轩，朱庆付，张志明，张宣宇，杨庆，徐栋梁
面向非洲自然语言处理的类型学引导适应
南达帕·纳卡什勒

TACL 最佳论文

The Test of Time Award (TACL 2213-121)
弱监督学习语义解析器以将指令映射到动作
Yoav Anzhi Luke Zettlemoyer
The Best Paper Award (TACL 2224)
隐含文本阅读：基于短篇故事总结评估大型语言模型
梅琳达·苏比亚，肖恩·张，莉迪亚·B·奇林顿，凯瑟琳·麦克昆

最佳演示

OLMoTrace：追踪语言模型输出回万亿训练令牌
刘嘉城, 费尔廷·布莱顿, 詹妮弗·艾拉兹, 梅修文, 陈言松, 阿纳维·乔塔瑞, 陈胡, 伯纳迪·比肖夫, 埃里克·马什, 迈克尔·施密茨, 卡迪西·特里, 阿隆·萨尔纳特, 詹娜·詹姆斯, 本杰明·博尔赫德, 贝利·基尔, 艾薇·朱恩-延·程, 凯伦·法雷利, 塔伊拉·安德森, 大卫·阿尔布雷希特, 卡丽萨·肖恩尼克, 卢卡·索尔达尼, 迪尔克·格罗内韦尔德, 潘洛克·延· pang, 科·魏·科, 纳奥姆·阿·史密斯, 索菲·勒布雷赫特, 詹妮斯· Choi, 哈奈赫·哈吉希里, 阿里·法哈迪, 杰西·多德

最佳学生研究研讨会论文

多视角 NLP 系统：一篇论文提案
本内黛塔·穆萨托

SAC 突出成果

一字胜千词：来自 LLMs 的文本嵌入秘密与关键词对齐良好
Nie Zhijie, Zhang Richong, Wu Zhanyu
一个捣蛋鬼带着传染性的逃狱行为在诚实小镇制造混乱
天一门，曹鹏飞，金卓然，陈宇博，刘康，赵 jun
一次适配，持续更新：基于演进基模型的可迁移参数高效微调
顾乃滨，付鹏，刘西宇，马凯，林正，王飞跃
AntiLeakBench：通过自动构建更新后的现实知识基准防止数据污染
吴小宝, 盘亮明, 谢宇希, 周瑞文, 郑帅, 马宇博, 杜明哲, 饶瑞, 路安童, 王威廉
平衡预算：理解监督微调与基于偏好的微调之间的权衡
莫希特·拉格哈万德兰, 杰姆莫·康, 阿兰·里特
超越位置：Transformer 中波 let-like 属性的涌现
瓦莱里娅·鲁西奥, 安布罗塞托·南尼, 法布里齐奥·西尔维斯特里
BookCoref：图书规模的共指解析
Giuliano Martinelli, Tommaso Bonomo, Pere-Lluís Huguet Cabot, Roberto Navigli
Centurio：大型视觉-语言模型多语言能力的驱动因素
Gregor Geigle, Florian Schneider, Carolin Holtermann, Chris Biemann, Radu Timofte, Anne Lauscher, Goran Glavaš
CoMet: 以隐喻驱动的多智能体语言游戏中的隐蔽通信
许舒航, 中方伟
用交互式 AI 代理在数小时内完成系统性回顾，而非数月
邱瑞, 陈诗杰, 苏宇, 言泊音, 沈寒伟
去人性化机器：文本生成系统中缓解拟人化行为
陈美雅, 布洛格特·苏·林, 德维罗·艾丽西亚, 埃杰迪·丽莎, 奥尔泰努·阿历克谢娅
面向多样性的数据增强方法与大规模语言模型
王宅田, 张景涵, 张新浩, 刘坤鹏, 王鹏飞, 周元春
LLMs 理解对话吗？一个对话行为案例研究
阿伊莎·卡马尔，乔纳森·通，刘瑞红
通过最小预计算实现高效知识编辑
阿克什特·古普塔，马 ochuan 陆，托马斯·哈特维格森，戈帕拉·安努曼奇帕利
评估多模态语言模型作为视障用户视觉辅助工具的有效性
Antonia Karamolegkou, Malvina Nikandrou, Georgios Pantazopoulos, Danae Sanchez Villegas, Phillip Rust, Ruchira Dhar, Daniel Hershcovich, Anders Søgaard
评价代理：面向视觉生成模型的高效可提示评估框架
张帆，田诗林，黄子祺，乔宇，刘子薇
FaithfulRAG：基于事实的冲突建模以实现上下文忠实的检索增强生成
张庆刚, 肖之尚, 肖一林, 王磊, 李俊辉, 王欣润, 苏金松
图像中寻针记：多模态 LLMs 能否定位细部特征？
帕尔特·塔卡尔, 安库什·阿格拉瓦尔, 普拉萨德·卡苏, 普尔克特·班萨尔, 艾贾纳雅纳·德瓦古普塔
FlashAudio：校正流以实现快速高保真文本转音频生成
刘华黛，王嘉磊，黄荣杰，刘洋，卢恒，赵 zhou，薛伟
FloorPlan-LLaMa：在建筑平面图生成中对齐建筑师反馈与领域知识
尹 jun，曾 pengyu，孙浩远，戴玉琴，郑涵，张淼，张亚超，路帅
语言模型生命周期中组合性的几何特征
金河李, 托马斯·吉拉勒松庞, 雷·宇, 约书亚·本吉奥, 艾米丽·程
图说：借助对话洞察揭露社交媒体中的不当行为
塞莉亚·诺里, 克洛尔·克雷瓦尔, 詹-菲利普·科廷
机器翻译评估是否达到了人类水平？人类参考与进步的局限性
Lorenzo Proietti, Stefano Perrella, Roberto Navigli
HoPE：一种新型无长期衰减的位置编码，以增强上下文感知和外推能力
Yuhan Chen, Ang Lv, Jian Luan, Bin Wang, Wei Liu
通过检索头部引导优化提高大型语言模型的上下文忠实度
黄磊, 邓肖成, 马伟涛, 范玉春, 邓夏冲, 叶阳帆, 中卫红, 顾宇轩, 王宝欣, 吴大卫, 胡光平, 秦兵
将领域知识融入材料标记化
Yerim Oh, Jun-Hyung Park, Junho Kim, SungHo Kim, SangKeun Lee
影响 LLM 校准的因素：响应一致性、损失函数和提示风格的研究
Yuxi Xia, Pedro Henrique Luz de Araujo, Klim Zaporojets, Benjamin Roth
融合音频、视觉和语义信息以增强多模态演讲者识别在多方对话中的应用
程路遥，王辉，邓崇，郑思齐，陈亚峰，黄荣杰，张清林，陈茜，李希浩，王文
迷失在多语言性中：探究 Transformer 语言模型中的跨语言事实不一致性
王明阳，阿德 Heike，兰格 Lukas，刘义红，聂尔聪，斯特罗滕 Jannik，舒特策 Hinrich
Mamba Knockout 用于解析事实信息流
尼尔·恩迪，伊丹·达尼埃尔·格斯伯德，尤瓦尔·兰-米罗，约纳坦·斯卢茨基，伊塔伊·特沙瓦，拉雅·吉雷耶斯
模仿熟悉的事物：在 LLM 工具学习系统中的动态命令生成用于信息窃取攻击
江子游，李明阳，杨国伟，王 junjie，黄越凯，张志远，王青
上下文学习器的混合
洪圭 won, Emile van 克里科恩, Edoardo Ponti, Nikolay Malkin, Pasquale Minervini
模式识别还是医学知识？医学中多项选择题的问题
马克斯米利安·格里奥特, 贾南·范德登克特, 德梅特·YÜKSEL, 科拉莉·汉普廷恩
PlanGenLLMs：现代 LLM 规划能力综述
胡薇, 张子豪, 何胜华, 夏天, 范诗嘉, 刘飞
ProcessBench：数学推理中的过程错误识别
郑楚杰, 张振儒, 张贝晨, 林润吉, 陆柯铭, 于 Bowen, 刘 Dayiheng, 周景仁, 林 Junyang
动态分词改造大型语言模型
达里乌斯·费赫尔, 西万· Vulić, 本杰明·明希霍弗
通过代码引导合成多模态数据生成扩展富文本图像理解
岳阳, Ajay Patel, Matt Deitke, Tanmay Gupta, Luca Weihs, Andrew Head, Mark Yatskar, Chris Callison-Burch, Ranjay Krishna, Aniruddha Kembhavi, Christopher Clark
压制赋能，放任偏见：审计 Twitch 上仇恨言论的审核
Prarabdh Shukla, Wei Yin Chong, Yash Patel, Brennan Schaffner, Danish Pruthi, Arjun Bhagoji
SkillVerse: 通过树评估评估和提升 LLMs
杨飞天, 孙娇, 彭南云, 张子钊
SPECTRA: 通过优化内部和外部推测加速大型语言模型推理
阮克 hang, 丁栋, 阮明
偏离航线：引导语言模型的可靠性挑战
Patrick Queiroz Da Silva, Hari Sethuraman, Dheeraj Rajagopal, Hannaneh Hajishirzi, Sachin Kumar
训练视觉语言模型提问：解决视觉问题中的歧义
蒲健, 于东雷, 杨文, 任硕, 张嘉俊
跨语言中的有生命与无生命在语法结构中的作用
Nina Gregorio, Matteo Gay, Sharon Goldwater, Edoardo Ponti
词法分析是 NP 完全问题
Philip Whittington, Gregor Bachmann, Tiago Pimentel
面向大型语言模型对齐的更好价值原则：系统评估与增强
徐冰冰，姚 Jing，易晓远，马阿山，谢星， Meng 小峰
利用信息论刻画语调类型学：声调、音高重音和音节重音的案例
伊森·威尔科克斯，丁崔，乔瓦尼·阿坎帕，提亚戈·皮梅特尔，亚历山大·瓦尔斯塔德，塔玛尔·I·雷格夫
刻板印象归因于什么？一个基于理论、专家标注的访谈语料库，用于揭开心理健康刻板印象的面纱
韩孟, 严 can 陈, 云南李, 一田杨, 李钟雨, 张仁文, 李一奇

产业赛道奖

最佳论文

无需牺牲的速度：利用 Medusa 和知识蒸馏在旅行应用中 fine-tune 语言模型
丹尼尔·扎格瓦，埃马努伊尔·斯特吉亚迪斯，劳伦斯·范德马斯，亚历山德拉·多基奇，埃兰·费南曼，伊利亚·古塞夫，摩兰·贝拉德夫

优秀提名

以成本效益方式利用推测性奖励模型增强语言模型的决策能力
顾嘉伟, 梁尚松

NeKo: 任务引导的专家混合语言模型跨模态后识别错误修正
林延庭, 陈哲怀, 贝托尔特·泽拉斯科, 贽振, 杨学松, 陈智诚, 克里希纳·C·普瓦瓦达, 胡凯, 傅子威, 裘俊伟, 卡贾迪什·巴拉姆, 沃尔基·金斯伯格, 王玉江·弗兰克, 杨超翰·胡

Awards

Best Paper

A Theory of Response Sampling in LLMs: Part Descriptive and Part Prescriptive
Sarath Sivaprasad, Pramod Kaushik, Sahar Abdelnabi, Mario Fritz
Fairness through Difference Awareness: Measuring Desired Group Discrimination in LLMs
Angelina Wang, Michelle Phan, Daniel E. Ho, Sanmi Koyejo
Language Models Resist Alignment: Evidence From Data Compression
Jiaming Ji, Kaile Wang, Tianyi Qiu, Boyuan Chen, Jiayi Zhou, Changye Li, Hantao Lou, Juntao Dai, Yunhuai Liu, Yaodong Yang
Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention
Jingyang Yuan, Huazuo Gao, Damai Dai, Junyu Luo, Liang Zhao, Zhengyan Zhang, Zhenda Xie, Y. X. Wei, Lean Wang, Zhiping Xiao, Yuqing Wang, Chong Ruan, Ming Zhang, Wenfeng Liang, Wangding Zeng

AfriMed-QA: A Pan-African, Multi-Specialty, Medical Question-Answering Benchmark Dataset
Charles Nimo, Tobi Olatunji, Abraham Toluwase Owodunni, Tassallah Abdullahi, Emmanuel Ayodele, Mardhiyah Sanni, Ezinwanne C. Aka, Folafunmi Omofoye, Foutse Yuehgoh, Timothy Faniran, Bonaventure F. P. Dossou, Moshood O. Yekini, Jonas Kemp, Katherine A Heller, Jude Chidubem Omeke, Chidi Asuzu MD, Naome A Etori, Aïmérou Ndiaye, Ifeoma Okoh, Evans Doe Ocansey, Wendy Kinara, Michael Best, Irfan Essa, Stephen Edward Moore, Chris Fourie, Mercy Nyamewaa Asiedu
The AI Gap: How Socioeconomic Status Affects Language Technology Interactions
Elisa Bassignana, Amanda Cercas Curry, Dirk Hovy

Best Resource Paper

Are Rules Meant to be Broken? Understanding Multilingual Moral Reasoning as a Computational Pipeline with UniMoral
Shivani Kumar, David Jurgens
BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages
Shamsuddeen Hassan Muhammad, Nedjma Ousidhoum, Idris Abdulmumin, Jan Philip Wahle, Terry Ruas, Meriem Beloucif, Christine de Kock, Nirmal Surange, Daniela Teodorescu, Ibrahim Said Ahmad, David Ifeoluwa Adelani, Alham Fikri Aji, Felermino D. M. A. Ali, Ilseyar Alimova, Vladimir Araujo, Nikolay Babakov, Naomi Baes, Ana-Maria Bucur, Andiswa Bukula, Guanqun Cao, Rodrigo Tufiño, Rendi Chevi, Chiamaka Ijeoma Chukwuneke, Alexandra Ciobotaru, Daryna Dementieva, Murja Sani Gadanya, Robert Geislinger, Bela Gipp, Oumaima Hourrane, Oana Ignat, Falalu Ibrahim Lawan, Rooweither Mabuya, Rahmad Mahendra, Vukosi Marivate, Alexander Panchenko, Andrew Piper, Charles Henrique Porto Ferreira, Vitaly Protasov, Samuel Rutunda, Manish Shrivastava, Aura Cristina Udrea, Lilian Diana Awuor Wanzare, Sophie Wu, Florian Valentin Wunderlich, Hanif Muhammad Zhafran, Tianhui Zhang, Yi Zhou, Saif M. Mohammad
Palm: A Culturally Inclusive and Linguistically Diverse Dataset for Arabic LLMs
Fakhraddin Alwajih, Abdellah EL MEKKI, Samar Mohamed Magdy, AbdelRahim A. Elmadany, OMER NACAR, El Moatez Billah Nagoudi, Reem Abdel-Salam, Hanin atwany, Youssef Nafea, Abdulfattah Mohammed Yahya, Rahaf Alhamouri, Hamzah A. Alsayadi, Hiba Zayed, Sara Shatnawi, Serry Sibaee, Yasir ECH-CHAMMAKHY, Walid Al-Dhabyani, Marwa Mohamed Ali, Imen JARRAYA, Ahmed Oumar El-Shangiti, Aisha Alraeesi, Mohammed Anwar AL-Ghrawi, Abdulrahman S. Al-Batati, Elgizouli Mohamed, Noha Taha Elgindi, Muhammed Saeed, Houdaifa Atou, Issam AIT YAHIA, Abdelhak Bouayad, Mohammed Machrouh, AMAL MAKOUAR, Dania Alkawi, Mukhtar Mohamed, Safaa Taher Abdelfadil, Amine Ziad Ounnoughene, Anfel ROUABHIA, Rwaa Assi, Ahmed Sorkatti, Mohamedou cheikh tourad, Anis Koubaa, Ismail Berrada, Mustafa Jarrar, Shady Shehata, Muhammad Abdul-Mageed

Best Theme Paper

MaCP: Minimal yet Mighty Adaptation via Hierarchical Cosine Projection
Yixian Shen, Qi Bi, JIA-HONG HUANG, Hongyi Zhu, Andy D. Pimentel, Anuj Pathania
Meta-rater: A Multi-dimensional Data Selection Method for Pre-training Language Models
Xinlin Zhuang, Jiahui Peng, Ren Ma, Yinfan Wang, Tianyi Bai, Xingjian Wei, Qiu Jiantao, Chi Zhang, Ying Qian, Conghui He
SubLIME: Subset Selection via Rank Correlation Prediction for Data-Efficient LLM Evaluation
Gayathri Saranathan, Cong Xu, Mahammad Parwez Alam, Tarun Kumar, Martin Foltin, Soon Yee Wong, Suparna Bhattacharya

Outstanding Papers

A New Formulation of Zipf’s Meaning-Frequency Law through Contextual Diversity
Ryo Nagata, Kumiko Tanaka-Ishii
All That Glitters is Not Novel: Plagiarism in AI Generated Research
Tarun Gupta, Danish Pruthi
Between Circuits and Chomsky: Pre-pretraining on Formal Languages Imparts Linguistic Biases
Michael Y. Hu, Jackson Petty, Chuan Shi, William Merrill, Tal Linzen
Beyond N-Grams: Rethinking Evaluation Metrics and Strategies for Multilingual Abstractive Summarization
Itai Mondshine, Tzuf Paz-Argaman, Reut Tsarfaty
Bridging the Language Gaps in Large Language Models with Inference-Time Cross-Lingual Intervention
Weixuan Wang, Minghao Wu, Barry Haddow, Alexandra Birch
Byte Latent Transformer: Patches Scale Better Than Tokens
Artidoro Pagnoni, Ramakanth Pasunuru, Pedro Rodriguez, John Nguyen, Benjamin Muller, Margaret Li, Chunting Zhou, LILI YU, Jason E Weston, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Ari Holtzman, Srini Iyer
Capability Salience Vector: Fine-grained Alignment of Loss and Capabilities for Downstream Task Scaling Law
Qiming Ge, Shuhao Xing, Songyang Gao, Yunhua Zhou, Yicheng Zou, Songyang Zhang, Zhi Chen, Hang Yan, Qi Zhang, Qipeng Guo, Kai Chen
From Real to Synthetic: Synthesizing Millions of Diversified and Complicated User Instructions with Attributed Grounding
Chiwei Zhu, Benfeng Xu, Xiaorui Wang, Zhendong Mao
HALOGEN: Fantastic LLM Hallucinations and Where to Find Them
Abhilasha Ravichander, Shrusti Ghela, David Wadden, Yejin Choi
HateDay: Insights from a Global Hate Speech Dataset Representative of a Day on Twitter
Manuel Tonneau, Diyi Liu, Niyati Malhotra, Scott A. Hale, Samuel Fraiberger, Victor Orozco-Olvera, Paul Röttger
IOT: Embedding Standardization Method Towards Zero Modality Gap
Na Min An, Eunki Kim, James Thorne, Hyunjung Shim
IndicSynth: A Large-Scale Multilingual Synthetic Speech Dataset for Low-Resource Indian Languages
Divya V Sharma, Vijval Ekbote, Anubha Gupta
LaTIM: Measuring Latent Token-to-Token Interactions in Mamba Models
Hugo Pitorro, Marcos Vinicius Treviso
Llama See, Llama Do: A Mechanistic Perspective on Contextual Entrainment and Distraction in LLMs
Jingcheng Niu, Xingdi Yuan, Tong Wang, Hamidreza Saghir, Amir H. Abdi
LLMs know their vulnerabilities: Uncover Safety Gaps through Natural Distribution Shifts
Qibing Ren, Hao Li, Dongrui Liu, Zhanxu Xie, Xiaoya Lu, Yu Qiao, Lei Sha, Junchi Yan, Lizhuang Ma, Jing Shao
Mapping 1,000+ Language Models via the Log-Likelihood Vector
Momose Oyama, Hiroaki Yamagiwa, Yusuke Takase, Hidetoshi Shimodaira
MiniLongBench: The Low-cost Long Context Understanding Benchmark for Large Language Models
Zhongzhan Huang, Guoming Ling, Shanshan Zhong, Hefeng Wu, Liang Lin
PARME: Parallel Corpora for Low-Resourced Middle Eastern Languages
Sina Ahmadi, Rico Sennrich, Erfan Karami, Ako Marani, Parviz Fekrazad, Gholamreza Akbarzadeh Baghban, Hanah Hadi, Semko Heidari, Mahîr Dogan, Pedram Asadi, Dashne Bashir, Mohammad Amin Ghodrati, Kourosh Amini, Zeynab Ashourinezhad, Mana Baladi, Farshid Ezzati, Alireza Ghasemifar, Daryoush Hosseinpour, Behrooz Abbaszadeh, Amin Hassanpour, Bahaddin jalal hamaamin, Saya Kamal Hama, Ardeshir Mousavi, Sarko Nazir Hussein, Isar Nejadgholi, Mehmet Ölmez, Horam Osmanpour, Rashid Roshan Ramezani, Aryan Sediq Aziz, Ali Salehi, Mohammadreza Yadegari, Kewyar Yadegari, Sedighe Zamani Roodsari
Past Meets Present: Creating Historical Analogy with Large Language Models
Nianqi Li, Siyu Yuan, Jiangjie Chen, Jiaqing Liang, Feng Wei, Zujie Liang, Deqing Yang, Yanghua Xiao
Pre³: Enabling Deterministic Pushdown Automata for Faster Structured LLM Generation
Junyi Chen, Shihao Bai, Zaijun Wang, Siyu Wu, Chuheng Du, Hailong Yang, Ruihao Gong, Shengzhong Liu, Fan Wu, Guihai Chen
Rethinking the Role of Prompting Strategies in LLM Test-Time Scaling: A Perspective of Probability Theory
Yexiang Liu, Zekun Li, Zhi Fang, Nan Xu, Ran He, Tieniu Tan
Revisiting Compositional Generalization Capability of Large Language Models Considering Instruction Following Ability
Yusuke Sakai, Hidetaka Kamigaito, Taro Watanabe
Toward Automatic Discovery of a Canine Phonetic Alphabet
Theron S. Wang, Xingyuan Li, Hridayesh Lekhak, Tuan Minh Dang, Mengyue Wu, Kenny Q. Zhu
Towards the Law of Capacity Gap in Distilling Language Models
Chen Zhang, Qiuchi Li, Dawei Song, Zheyu Ye, Yan Gao, Yao Hu
Turning Trash into Treasure: Accelerating Inference of Large Language Models with Token Recycling
Xianzhen Luo, Yixuan Wang, Qingfu Zhu, Zhiming Zhang, Xuanyu Zhang, Qing Yang, Dongliang Xu
Typology-Guided Adaptation for African NLP
Ndapa Nakashole

TACL Best Paper

The Test of Time Award (TACL in 2013 or 2014)
Weakly Supervised Learning of Semantic Parsers for Mapping Instructions to Actions
Yoav Artzi, Luke Zettlemoyer
The Best Paper Award (TACL in 2024)
Reading Subtext: Evaluating Large Language Models on Short Story Summarization with Writers
Melanie Subbiah, Sean Zhang, Lydia B. Chilton, Kathleen McKeown

Best Demo

OLMoTrace: Tracing Language Model Outputs Back to Trillions of Training Tokens
Jiacheng Liu, Taylor Blanton, Yanai Elazar, Sewon Min, Yen-Sung Chen, Arnavi Chheda-Kothary, Huy Tran, Byron Bischoff, Eric Marsh, Michael Schmitz, Cassidy Trier, Aaron Sarnat, Jenna James, Jon Borchardt, Bailey Kuehl, Evie Yu-Yen Cheng, Karen Farley, Taira Anderson, David Albright, Carissa Schoenick, Luca Soldaini, Dirk Groeneveld, Rock Yuren Pang, Pang Wei Koh, Noah A. Smith, Sophie Lebrecht, Yejin Choi, Hannaneh Hajishirzi, Ali Farhadi, Jesse Dodge

Best Student Research Workshop Paper

Towards Multi-Perspective NLP Systems: A Thesis Proposal
Benedetta Muscato

SAC Highlights

A Text is Worth Several Tokens: Text Embedding from LLMs Secretly Aligns Well with The Key Tokens
Zhijie Nie, Richong Zhang, Zhanyu Wu
A Troublemaker with Contagious Jailbreak Makes Chaos in Honest Towns
Tianyi Men, Pengfei Cao, Zhuoran Jin, Yubo Chen, Kang Liu, Jun Zhao
Adapt Once, Thrive with Updates: Transferable Parameter-Efficient Fine-Tuning on Evolving Base Models
Naibin Gu, Peng Fu, Xiyu Liu, Ke Ma, Zheng Lin, Weiping Wang
AntiLeakBench: Preventing Data Contamination by Automatically Constructing Benchmarks with Updated Real-World Knowledge
Xiaobao Wu, Liangming Pan, Yuxi Xie, Ruiwen Zhou, Shuai Zhao, Yubo Ma, Mingzhe Du, Rui Mao, Anh Tuan Luu, William Yang Wang
Balancing the Budget: Understanding Trade-offs Between Supervised and Preference-Based Finetuning
Mohit Raghavendra, Junmo Kang, Alan Ritter
Beyond Position: the emergence of wavelet-like properties in Transformers
Valeria Ruscio, Umberto Nanni, Fabrizio Silvestri
BOOKCOREF: Coreference Resolution at Book Scale
Giuliano Martinelli, Tommaso Bonomo, Pere-Lluís Huguet Cabot, Roberto Navigli
Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model
Gregor Geigle, Florian Schneider, Carolin Holtermann, Chris Biemann, Radu Timofte, Anne Lauscher, Goran Glavaš
CoMet: Metaphor-Driven Covert Communication for Multi-Agent Language Games
Shuhang Xu, Fangwei Zhong
Completing A Systematic Review in Hours instead of Months with Interactive AI Agents
Rui Qiu, Shijie Chen, Yu Su, Po-Yin Yen, Han Wei Shen
Dehumanizing Machines: Mitigating Anthropomorphic Behaviors in Text Generation Systems
Myra Cheng, Su Lin Blodgett, Alicia DeVrio, Lisa Egede, Alexandra Olteanu
Diversity-oriented Data Augmentation with Large Language Models
Zaitian Wang, Jinghan Zhang, Xinhao Zhang, Kunpeng Liu, pengfei wang, Yuanchun Zhou
Do LLMs Understand Dialogues? A Case Study on Dialogue Acts
Ayesha Qamar, Jonathan Tong, Ruihong Huang
Efficient Knowledge Editing via Minimal Precomputation
Akshat Gupta, Maochuan Lu, Thomas Hartvigsen, Gopala Anumanchipalli
Evaluating Multimodal Language Models as Visual Assistants for Visually Impaired Users
Antonia Karamolegkou, Malvina Nikandrou, Georgios Pantazopoulos, Danae Sanchez Villegas, Phillip Rust, Ruchira Dhar, Daniel Hershcovich, Anders Søgaard
Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models
Fan Zhang, Shulin Tian, Ziqi Huang, Yu Qiao, Ziwei Liu
FaithfulRAG: Fact-Level Conflict Modeling for Context-Faithful Retrieval-Augmented Generation
Qinggang Zhang, Zhishang Xiang, Yilin Xiao, Le Wang, Junhui Li, Xinrun Wang, Jinsong Su
Finding Needles in Images: Can Multi-modal LLMs Locate Fine Details?
Parth Thakkar, Ankush Agarwal, Prasad Kasu, Pulkit Bansal, Chaitanya Devaguptapu
FlashAudio: Rectified Flow for Fast and High-Fidelity Text-to-Audio Generation
Huadai Liu, Jialei Wang, Rongjie Huang, Yang Liu, Heng Lu, Zhou Zhao, Wei Xue
FloorPlan-LLaMa: Aligning Architects’ Feedback and Domain Knowledge in Architectural Floor Plan Generation
Jun Yin, Pengyu Zeng, Haoyuan Sun, Yuqin Dai, Han Zheng, Miao Zhang, Yachao Zhang, Shuai Lu
Geometric Signatures of Compositionality Across a Language Model’s Lifetime
Jin Hwa Lee, Thomas Jiralerspong, Lei Yu, Yoshua Bengio, Emily Cheng
Graphically Speaking: Unmasking Abuse in Social Media with Conversation Insights
Célia Nouri, Chloé Clavel, Jean-Philippe Cointet
Has Machine Translation Evaluation Achieved Human Parity? The Human Reference and the Limits of Progress
Lorenzo Proietti, Stefano Perrella, Roberto Navigli
HoPE: A Novel Positional Encoding Without Long-Term Decay for Enhanced Context Awareness and Extrapolation
Yuhan Chen, Ang Lv, Jian Luan, Bin Wang, Wei Liu
Improving Contextual Faithfulness of Large Language Models via Retrieval Heads-Induced Optimization
Lei Huang, Xiaocheng Feng, Weitao Ma, Yuchun Fan, Xiachong Feng, Yangfan Ye, Weihong Zhong, Yuxuan Gu, Baoxin Wang, Dayong Wu, Guoping Hu, Bing Qin
Incorporating Domain Knowledge into Materials Tokenization
Yerim Oh, Jun-Hyung Park, Junho Kim, SungHo Kim, SangKeun Lee
Influences on LLM Calibration: A Study of Response Agreement, Loss Functions, and Prompt Styles
Yuxi Xia, Pedro Henrique Luz de Araujo, Klim Zaporojets, Benjamin Roth
Integrating Audio, Visual, and Semantic Information for Enhanced Multimodal Speaker Diarization on Multi-party Conversation
Luyao Cheng, Hui Wang, Chong Deng, Siqi Zheng, Yafeng Chen, Rongjie Huang, Qinglin Zhang, Qian Chen, Xihao Li, Wen Wang
Lost in Multilinguality: Dissecting Cross-lingual Factual Inconsistency in Transformer Language Models
Mingyang Wang, Heike Adel, Lukas Lange, Yihong Liu, Ercong Nie, Jannik Strötgen, Hinrich Schuetze
Mamba Knockout for Unraveling Factual Information Flow
Nir Endy, Idan Daniel Grosbard, Yuval Ran-Milo, Yonatan Slutzky, Itay Tshuva, Raja Giryes
Mimicking the Familiar: Dynamic Command Generation for Information Theft Attacks in LLM Tool-Learning System
Ziyou Jiang, Mingyang Li, Guowei Yang, Junjie Wang, Yuekai Huang, Zhiyuan Chang, Qing Wang
Mixtures of In-Context Learners
Giwon Hong, Emile van Krieken, Edoardo Ponti, Nikolay Malkin, Pasquale Minervini
Pattern Recognition or Medical Knowledge? The Problem with Multiple-Choice Questions in Medicine
Maxime Griot, Jean Vanderdonckt, Demet YUKSEL, Coralie Hemptinne
PlanGenLLMs: A Modern Survey of LLM Planning Capabilities
Hui Wei, Zihao Zhang, Shenghua He, Tian Xia, Shijia Pan, Fei Liu
ProcessBench: Identifying Process Errors in Mathematical Reasoning
Chujie Zheng, Zhenru Zhang, Beichen Zhang, Runji Lin, Keming Lu, Bowen Yu, Dayiheng Liu, Jingren Zhou, Junyang Lin
Retrofitting Large Language Models with Dynamic Tokenization
Darius Feher, Ivan Vulić, Benjamin Minixhofer
Scaling Text-Rich Image Understanding via Code-Guided Synthetic Multimodal Data Generation
Yue Yang, Ajay Patel, Matt Deitke, Tanmay Gupta, Luca Weihs, Andrew Head, Mark Yatskar, Chris Callison-Burch, Ranjay Krishna, Aniruddha Kembhavi, Christopher Clark
Silencing Empowerment, Allowing Bigotry: Auditing the Moderation of Hate Speech on Twitch
Prarabdh Shukla, Wei Yin Chong, Yash Patel, Brennan Schaffner, Danish Pruthi, Arjun Bhagoji
SkillVerse: Assessing and Enhancing LLMs with Tree Evaluation
Yufei Tian, Jiao Sun, Nanyun Peng, Zizhao Zhang
SPECTRA: Faster Large Language Model Inference with Optimized Internal and External Speculation
Nguyen-Khang Le, Truong Dinh Do, Le-Minh Nguyen
Steering off Course: Reliability Challenges in Steering Language Models
Patrick Queiroz Da Silva, Hari Sethuraman, Dheeraj Rajagopal, Hannaneh Hajishirzi, Sachin Kumar
Teaching Vision-Language Models to Ask: Resolving Ambiguity in Visual Questions
Pu Jian, Donglei Yu, Wen Yang, Shuo Ren, Jiajun Zhang
The Cross-linguistic Role of Animacy in Grammar Structures
Nina Gregorio, Matteo Gay, Sharon Goldwater, Edoardo Ponti
Tokenisation is NP-Complete
Philip Whittington, Gregor Bachmann, Tiago Pimentel
Towards Better Value Principles for Large Language Model Alignment: A Systematic Evaluation and Enhancement
Bingbing Xu, Jing Yao, Xiaoyuan Yi, Aishan Maoliniyazi, Xing Xie, Xiaofeng Meng
Using Information Theory to Characterize Prosodic Typology: The Case of Tone, Pitch-Accent and Stress-Accent
Ethan Wilcox, Cui Ding, Giovanni Acampa, Tiago Pimentel, Alex Warstadt, Tamar I Regev
What is Stigma Attributed to? A Theory-Grounded, Expert-Annotated Interview Corpus for Demystifying Mental-Health Stigma
Han Meng, Yancan Chen, Yunan Li, YITIAN YANG, Jungup Lee, Renwen Zhang, Yi-Chieh Lee

Industry Track Awards

Best Paper

Speed Without Sacrifice: Fine-Tuning Language Models with Medusa and Knowledge Distillation in Travel Applications
Daniel Zagyva, Emmanouil Stergiadis, Laurens van der Maas, Aleksandra Dokic, Eran Fainman, Ilya Gusev, Moran Beladev

Honourable Mentions

Boosting Decision-Making Ability of LLMs with Speculative Reward Model Cost-Effectively
Jiawei Gu, Shangsong Liang

NeKo: Cross-Modality Post-Recognition Error Correction with Tasks-Guided Mixture-of-Experts Language Model
Yen-Ting Lin, Zhehuai Chen, Piotr Zelasko, Zhen Wan, Xuesong Yang, Zih-Ching Chen, Krishna C Puvvada, Ke Hu, Szu-Wei Fu, Jun Wei Chiu, Jagadeesh Balam, Boris Ginsburg, Yu-Chiang Frank Wang, Chao-Han Huck Yang