AI视野·今日CS.NLP 自然语言处理论文速览
Wed, 17 Jan 2024 (showing first 100 of 163 entries)
Totally 100 papers
👉上期速览✈更多精彩请移步主页
Daily Computation and Language Papers
Deductive Closure Training of Language Models for Coherence, Accuracy, and Updatability Authors Afra Feyza Aky rek, Ekin Aky rek, Leshem Choshen, Derry Wijaya, Jacob Andreas 虽然语言模型 LM 有时可以生成事实上正确的文本并估计单个主张的真值,但这些通常不能反映全球一致的、可操纵的世界模型。因此,当前的 LM 也会生成不正确或无意义的内容,并且难以编辑和更新。我们提出了一种称为演绎闭包训练 DCT 的方法,该方法使用 LM 本身来识别它们生成的文本中的含义和矛盾,从而产生一种有效的自我监督程序来提高 LM 的真实性。给定一组种子文档,DCT 会提示 LM 生成这些文档隐含的附加文本,对生成的文本的正确性进行全局推理,最后对推断为正确的文本进行微调。给定来自可信来源的种子文档,DCT 提供了一种用于监督模型更新的工具,如果种子文档是从 LM 本身采样的,DCT 可以实现完全无监督的微调,以提高一致性和准确性。在 CREAK、MQUaKE 和 Reversal Curse 数据集中,有监督的 DCT 将 LM 事实验证和文本生成的准确性提高了 3 26,而完全无监督的 DCT 将 CREAK 的验证准确性提高了 12 。 |
Tuning Language Models by Proxy Authors Alisa Liu, Xiaochuang Han, Yizhong Wang, Yulia Tsvetkov, Yejin Choi, Noah A. Smith 尽管大型预训练语言模型具有一般功能,但它们始终受益于进一步的适应,以更好地实现所需的行为。然而,调整这些模型已经变得越来越资源密集,或者当模型权重是私有的时候是不可能的。我们引入了代理调优,这是一种轻量级解码时间算法,它在黑盒 LM 之上运行,以实现直接调优模型的结果,但仅访问其对输出词汇表的预测。相反,我们的方法调整较小的 LM,然后应用小调整和未调整 LM 的预测之间的差异,将基础模型的原始预测向调整方向移动,同时保留更大规模预训练的优势。在实验中,当我们使用仅 7B 大小的代理对 Llama2 70B 进行代理调整时,在跨知识、推理和安全基准进行评估时,我们可以缩小 Llama2 70B 与其真正调整的聊天版本之间的 88 差距。有趣的是,当在 TruthfulQA 上进行测试时,代理调整模型实际上比直接调整模型更真实,可能是因为解码时间指导更好地保留了模型的事实知识。然后,我们通过将代理调优应用于代码的域适应以及问答和数学问题的任务特定微调来展示代理调优的通用性。 |
Spatial Entity Resolution between Restaurant Locations and Transportation Destinations in Southeast Asia Authors Emily Gao, Dominic Widdows 作为一家科技公司,Grab 已从交通扩展到食品配送,旨在通过超本地化的应用程序为东南亚提供服务。只要能够解决这些数据集之间的空间实体解析问题,有关作为交通目的地的地点的信息就可以帮助提高我们对作为餐馆的地点的认识。 |
The Gaps between Pre-train and Downstream Settings in Bias Evaluation and Debiasing Authors Masahiro Kaneko, Danushka Bollegala, Timothy Baldwin 由于模型参数的更新,预训练语言模型 PLM 在 Fine Tuning FT 前后的输出趋势存在明显变化。这些产出倾向的差异导致 PLM 的社会偏见存在差距。例如,在基于 FT 的去偏差方法下,PLM 的内在偏差分数与其外在偏差分数之间存在较低的相关性。此外,将基于 FT 的去偏方法应用于 PLM 会导致下游任务的性能下降。另一方面,在大型数据集上训练的 PLM 可以通过使用提示的上下文学习 ICL 进行学习,而无需进行参数更新。与基于 FT 的去偏方法相比,ICL 对 PLM 造成的变化更小。因此,我们假设在预训练模型和 FT 模型中观察到的差距对于使用 ICL 的去偏方法并不成立。在这项研究中,我们证明,与基于 FT 的方法相比,基于 ICL 的去偏方法显示出内在和外在偏差分数之间更高的相关性。 |
EmoLLMs: A Series of Emotional Large Language Models and Annotation Tools for Comprehensive Affective Analysis Authors Zhiwei Liu, Kailai Yang, Tianlin Zhang, Qianqian Xie, Zeping Yu, Sophia Ananiadou 情感分析和情感检测是自然语言处理 NLP 中的重要研究课题,并使许多下游任务受益。随着LLM的广泛应用,研究人员开始探索基于指令调优的LLM在情感分析领域的应用。然而,这些模型仅关注情感分类任务的单个方面,例如情感极性或分类情感,并忽略回归任务,例如情绪强度或情绪强度,导致下游任务表现不佳。主要原因是缺乏全面的情感指令调优数据集和评估基准,涵盖各种情感分类和回归任务。此外,尽管情感信息对于下游任务有用,但现有的下游数据集缺乏高质量和全面的情感注释。在本文中,我们提出了EmoLLM,这是继LLM之后的第一个开源指令系列,用于基于指令数据微调各种LLM的全面情感分析,第一个基于各种分类和回归的具有234K数据样本的多任务情感分析指令数据集AAID支持LLM指令调优的任务,以及综合情感评估基准AEB,其中包含来自不同来源和领域的14个任务,以测试LLM的泛化能力。我们通过使用AAID微调LLM来提出一系列EmoLLM来解决各种情感指导任务。我们将我们的模型与 AEB 上的各种 LLM 进行比较,我们的模型优于所有其他开源 LLM,并且在大多数任务中超过 ChatGPT 和 GPT 4,这表明该系列 EmoLLM 在 AEB 上达到了 ChatGPT 级别和 GPT 4 级别的泛化能力 |
The Effect of Group Status on the Variability of Group Representations in LLM-generated Text Authors Messi H.J. Lee, Jacob M. Montgomery, Calvin K. Lai 大型语言模型法学硕士已经在日常生活中变得普遍,但其内部运作仍然不透明。虽然学术努力已经证明法学硕士倾向于在其培训数据中重现偏见,但他们主要关注社会群体与刻板属性的关联。在本文中,我们扩展了这一调查路线,以调查类似于社会心理现象的偏见,即社会主导群体被认为不如社会从属群体同质,因为它是由法学硕士重现的。我们拥有 ChatGPT,一种最先进的法学硕士,生成有关交叉群体身份的多样性文本并比较文本同质性。我们一致发现,法学硕士将非洲裔、亚洲裔和西班牙裔美国人描绘得比美国白人更加同质。他们还认为女性比男性更加同质,但这些差异很小。最后,我们发现性别的影响因种族群体而异,因此性别的影响在非洲裔和西班牙裔美国人中是一致的,但在亚裔和白人美国人中却不一致。 |
Contrastive Perplexity for Controlled Generation: An Application in Detoxifying Large Language Models Authors Tassilo Klein, Moin Nabi 大型语言模型生成不良且事实上不正确的内容构成了重大挑战,并且在很大程度上仍然是一个未解决的问题。本文研究了对比学习目标的集成,用于微调法学硕士,以实现隐式知识编辑和受控文本生成。优化训练目标需要以对比方式调整文本困惑。为了促进以自我监督的方式训练模型,我们利用现成的法学硕士来生成训练数据。我们展示了在排毒领域的适用性。在此,所提出的方法可显着减少有毒内容的产生,同时保留常识推理和阅读理解等下游任务的一般实用性。 |
CogGPT: Unleashing the Power of Cognitive Dynamics on Large Language Models Authors Yaojia Lv, Haojie Pan, Ruiji Fu, Ming Liu, Zhongyuan Wang, Bing Qin 认知动力学对于促进人类对世界的理解至关重要。大型语言模型法学硕士的最新进展揭示了它们在认知模拟方面的潜力。然而,这些基于法学硕士的认知研究主要关注静态建模,忽视了认知的动态本质。为了弥合这一差距,我们提出了法学硕士认知动态的概念,并在纵向研究的启发下提出了相应的任务。为了完成这项任务,我们开发了 CogBench,这是一种新颖的基准,用于评估法学硕士的认知动态并通过参与者调查对其进行验证。我们还为CogBench设计了两个评估指标,包括真实性和合理性。认识到法学硕士固有的静态性质,我们为该任务引入了 CogGPT,其特点是创新的迭代认知机制,旨在增强终身认知动态。 |
Machine Translation with Large Language Models: Prompt Engineering for Persian, English, and Russian Directions Authors Nooshin Pourkamali, Shler Ebrahim Sharifi |
Ask the experts: sourcing high-quality datasets for nutritional counselling through Human-AI collaboration Authors Simone Balloccu, Ehud Reiter, Vivek Kumar, Diego Reforgiato Recupero, Daniele Riboni 大型语言模型法学硕士凭借其灵活的生成能力,可以成为可用语料库很少或没有的领域中强大的数据源。然而,幻觉和偏见等问题限制了此类应用。在本案例研究中,我们选择了营养咨询这一缺乏公共资源的领域,并表明可以通过法学硕士、众包工作者和营养专家的结合来收集高质量的数据集。我们首先众包并聚类饮食相关问题的新颖数据集,然后与专家合作促使 ChatGPT 生成相关的支持文本。最后,我们让专家评估生成文本的安全性。我们发布了 HAI coaching,这是第一个专家注释的营养咨询数据集,其中包含来自人群工作者的 2.4K 饮食挣扎,以及 ChatGPT 生成的 97K 相关支持文本。 |
Contrastive Preference Optimization: Pushing the Boundaries of LLM Performance in Machine Translation Authors Haoran Xu, Amr Sharaf, Yunmo Chen, Weiting Tan, Lingfeng Shen, Benjamin Van Durme, Kenton Murray, Young Jin Kim 具有 7B 或 13B 参数的中等规模大型语言模型 LLM 表现出有前途的机器翻译 MT 性能。然而,即使是性能最佳的基于 13B LLM 的翻译模型(如 ALMA),也无法与最先进的传统编码器解码器翻译模型或更大规模的 LLM(如 GPT 4)的性能相匹配。在本研究中,我们弥补了这一性能差距。我们首先评估了 MT 任务中法学硕士的监督微调的缺点,强调参考数据中存在的质量问题,尽管是人类生成的。然后,与模仿参考翻译的 SFT 相比,我们引入了对比偏好优化 CPO,这是一种训练模型以避免生成足够但不完美翻译的新颖方法。将 CPO 应用于仅具有 22K 并行句子和 12M 参数的 ALMA 模型会产生显着的改进。 |
RAG vs Fine-tuning: Pipelines, Tradeoffs, and a Case Study on Agriculture Authors Aman Gupta, Anup Shirgaonkar, Angels de Luis Balaguer, Bruno Silva, Daniel Holstein, Dawei Li, Jennifer Marsman, Leonardo O. Nunes, Mahsa Rouzbahman, Morris Sharp, Nick Mecklenburg, Rafael Padilha, Ranveer Chandra, Renato Luiz de Freitas Cunha, Roberto de M. Estev o Filho, Ryan Tsang, Sara Malvar, Swati Sharma, Todd Hendry, Vijay Aski, Vijetha Vijayendran, Vinamra Benara 在构建大型语言模型 LLM 检索增强生成 RAG 和微调应用程序时,开发人员可以通过两种常见方式合并专有数据和特定领域数据。 RAG 使用外部数据增强提示,而微调则将额外的知识合并到模型本身中。然而,这两种方法的优缺点尚不清楚。在本文中,我们提出了一个用于微调和 RAG 的管道,并针对多种流行的 LLM 提出了两者的权衡,包括 Llama2 13B、GPT 3.5 和 GPT 4。我们的管道由多个阶段组成,包括从 PDF 中提取信息、生成问题和答案,使用它们进行微调,并利用 GPT 4 评估结果。我们提出了评估 RAG 和微调管道不同阶段性能的指标。我们对农业数据集进行了深入研究。农业作为一个行业,人工智能的渗透率还没有太大,我们研究了一个潜在的颠覆性应用,如果我们能够为农民提供特定位置的见解,我们的结果表明,我们的数据集生成管道在捕获地理特定知识以及定量和分析方面的有效性。 RAG 和微调的质量优势。我们发现准确率提高了 6 个百分点以上。当微调模型时,这是通过 RAG 累积的,这将精度提高了 5 个百分点。更远。在一项特定实验中,我们还证明了微调模型利用来自不同地理位置的信息来回答特定问题,将答案相似度从 47 增加到 72 。 |
Cross-lingual neural fuzzy matching for exploiting target-language monolingual corpora in computer-aided translation Authors Miquel Espl Gomis, V ctor M. S nchez Cartagena, Juan Antonio P rez Ortiz, Felipe S nchez Mart nez 基于翻译记忆库MT的计算机辅助翻译CAT工具在专业翻译人员的翻译工作流程中发挥着重要作用。然而,与领域内单语语料库相比,领域内翻译记忆库的可用性较低,限制了其在许多翻译任务中的采用。在本文中,我们介绍了一种新颖的神经方法,旨在克服这一限制,不仅利用 TM,而且利用领域目标语言 TL 单语语料库,并且仍然实现与传统基于 TM 的 CAT 工具提供的功能类似的功能。我们的方法依靠跨语言句子嵌入从 TL 单语语料库中检索翻译建议,并依靠神经模型来估计他们的后期编辑工作。本文对四种语言对上的这些技术进行了自动评估,表明我们的方法可以在基于 TM 的 CAT 环境中成功地利用单语文本,增加有用的翻译建议的数量,并且我们用于估计后期编辑工作的神经模型使得以通常方式从单语语料库和 TM 获得的翻译建议的组合。 |
Morphology and Syntax of the Tamil Language Authors Kengatharaiyer Sarveswaran 本文概述了泰米尔语的形态和句法,重点关注其当代用法。本文还强调了泰米尔语在形态和句法特征方面的复杂性和丰富性,这将有助于语言学家分析语言和进行比较研究。此外,本文对于那些开发泰米尔语计算资源的人也很有用。它被证明是一个基于规则的形态分析器和生成器,并且已经基于本文开发了泰米尔语计算语法。 |
Hallucination Detection and Hallucination Mitigation: An Investigation Authors Junliang Luo, Tianyu Li, Di Wu, Michael Jenkin, Steve Liu, Gregory Dudek 大型语言模型 LLM,包括 ChatGPT、Bard 和 Llama,在过去两年中在一系列不同的应用中取得了显着的成功。尽管取得了这些成功,但仍存在限制法学硕士广泛应用的问题。一个关键问题是幻觉问题。幻觉是指除了正确的反应之外,法学硕士还可以产生看似正确但实际上不正确的反应。本报告旨在对当前有关幻觉检测和幻觉缓解的文献进行全面回顾。 |
Salute the Classic: Revisiting Challenges of Machine Translation in the Age of Large Language Models Authors Jianhui Pang, Fanghua Ye, Longyue Wang, Dian Yu, Derek F. Wong, Shuming Shi, Zhaopeng Tu 神经机器翻译 NMT 的发展受到 Koehn 和 Knowles 2017 年提出的六大核心挑战的显着影响,这些挑战已成为该领域进展的基准。这项研究重新审视了这些挑战,深入探讨了它们在高级大语言模型法学硕士领域不匹配、并行数据量、稀有词预测、长句子翻译、注意力模型作为单词对齐和次优波束搜索的背景下的持续相关性。我们的实证研究结果表明,法学硕士有效地减少了预训练阶段对主要语言并行数据的依赖。此外,基于法学硕士的翻译系统显着增强了包含约 80 个单词的长句子的翻译,并显示出翻译最多 512 个单词的文档的能力。然而,尽管有这些重大改进,域不匹配和稀有词预测的挑战仍然存在。虽然与 NMT 相关的词对齐和束搜索的挑战可能不适用于法学硕士,但我们确定了法学硕士在翻译任务推理效率、预训练阶段低资源语言的翻译以及人工对齐评估方面面临的三个新挑战。 |
RoTBench: A Multi-Level Benchmark for Evaluating the Robustness of Large Language Models in Tool Learning Authors Junjie Ye, Yilong Wu, Songyang Gao, Sixian Li, Guanyu Li, Xiaoran Fan, Qi Zhang, Tao Gui, Xuanjing Huang 工具学习作为大型语言模型法学硕士与物理世界之间互动的重要手段,引起了广泛的兴趣。目前的研究主要强调法学硕士在结构良好的环境中使用工具的能力,而忽视了它们在面对现实世界不可避免的噪音时的稳定性。为了弥补这一差距,我们引入了 RoTBench,这是一个用于评估法学硕士在工具学习中稳健性的多级基准。具体来说,我们建立了五个外部环境,每个环境都具有不同的噪声级别,即 Clean、Slight、Medium、Heavy 和 Union,从而对模型在工具选择、参数识别和内容填充三个关键阶段的弹性进行深入分析。涉及六个广泛使用的模型的实验强调了增强法学硕士在工具学习方面的稳健性的迫切必要性。例如,在手动精度没有实质性变化的情况下,GPT 4 的性能甚至从 80.00 大幅下降到 58.10。更令人惊讶的是,GPT 系列固有的噪声校正能力反而阻碍了其面对轻微噪声的适应性。根据这些发现,我们提出了 RoTTuning,这是一种丰富培训环境多样性的策略,以增强法学硕士在工具学习方面的稳健性。 |
Application of LLM Agents in Recruitment: A Novel Framework for Resume Screening Authors Chengguang Gan, Qinghao Zhang, Tatsunori Mori 简历筛选的自动化是组织招聘流程的一个重要方面。自动简历筛选系统通常包含一系列自然语言处理 NLP 任务。大型语言模型法学硕士的出现显着增强了这些系统的效率,展示了它们在不同语言相关任务中强大的泛化能力。伴随这些发展的是基于法学硕士的各种代理,这有助于它们在实际场景中的应用。本文介绍了一种基于法学硕士的新型简历筛选代理框架,旨在提高招聘过程中的效率和时间管理。我们的框架的独特之处在于它能够从大型数据集中有效地总结和评分每份简历。此外,它还利用法学硕士代理人进行决策,确定哪些候选人获得工作机会,或者邀请哪些候选人参加面试。为了评估我们的框架,我们根据实际简历构建了一个数据集,并进行了模拟简历筛选过程。随后,对模拟实验的结果进行了比较和详细分析。结果表明,我们的自动化简历筛选框架比传统手动方法快 11 倍。此外,通过微调 LLM,我们观察到在简历句子分类阶段 F1 分数显着提高,达到 87.73。在简历总结和评分阶段,我们的微调模型超越了 GPT 3.5 模型的基线性能。 |
Anchor function: a type of benchmark functions for studying language models Authors Zhongwang Zhang, Zhiwei Wang, Ju |