樱花的浪漫
梦想还是要有的,更要成为一名不懈追求梦想的人
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Uncovering Bias in Large Vision-Language Models at Scale with Counterfactuals
最近,大型视觉-语言模型(LVLMs)因其能够将语言模型(LLMs)的对话能力扩展到多模态领域而受到欢迎。具体来说,LVLMs可以根据文本提示和图像进行条件生成,使用户能够就视觉输入提出问题并进行对话。这些能力在最近引入的模型中得到了普及,例如GPT-4 Vision和LLAVA。虽然这些LVLMs展示了令人印象深刻的能力,但一个关键问题仍然存在,即它们在多大程度上可能具有有害的社会偏见。先前的研究已经广泛调查了语言模型中的社会偏见。原创 2025-07-25 09:48:11 · 65 阅读 · 0 评论 -
A Practical Examination of AI-Generated Text Detectors for LargeLanguage Models
我们使用了 MTG 摘要数据集(Chen 等,2022)进行此任务。完整的多语言数据集包含大约 200k 个摘要。我们使用了英语、西班牙语、法语和中文子集。原创 2025-07-23 10:47:51 · 21 阅读 · 0 评论 -
Mitigating Biases of Large Language Models in Stance Detection withCounterfactual Augmented Calibra
立场检测旨在自动识别作者在特定目标、主题或命题上表达的观点或态度(例如,支持、反对或中立)(Somasundaran 和 Wiebe,2010;Mohammad 等,2016)。随着社交媒体平台的发展,立场检测在分析社交媒体话题上的公众舆论中发挥着关键作用(Jang 和 Allan,2018;Ghosh 等,2019;Stefanov 等,2020;Sun 等,2018;Chen 等,2021)。原创 2025-07-22 16:20:44 · 20 阅读 · 0 评论 -
REASONING ELICITATION IN LANGUAGE MODELSVIA COUNTERFACTUAL FEEDBACK
大型语言模型(LLMs)已被证明能够在各个领域执行众多任务并表现出色。示例包括写作助手(Gan 等人,2023)、社交媒体情感分析(Simmering 和 Huovila,2023),甚至在医疗保健中的应用(González 等人,2023;Wong 等人,2023)。尽管这些系统的准确性不断提高,但目前仍不清楚这种准确性在多大程度上是由于其训练数据的有效回忆,还是由于其通过提取、理解和适应训练数据中的基本概念而真正具备推理能力(Huang 和 Chang,2023;Li 等人,2023)。原创 2025-07-22 11:34:22 · 48 阅读 · 0 评论 -
RECALL :Library-Like Behavior In Language Models is Enhancedby Self-Referencing Causal Cycles
通过类比,可以将大型语言模型(LLM)视为一个物理知识库的参数等价物(Lederman 和 Mahowald,2024)。图书馆让人联想到结构化的书籍或文档集合,每个都编目以便于高效检索。类似地,通过数十亿个标记对LLM进行预训练,将它们转化为编码知识的存储库(Petroni 等,2019;Heinzerling 和 Inui,2020;Wang 等,2024)。因此,提示词充当交叉引用,指导检索特定信息,就像图书馆索引有助于在书架上找到书籍一样。在图书馆中,我们期望可靠地检索信息。原创 2025-07-20 10:58:11 · 23 阅读 · 0 评论 -
Com2: A Causal-Guided Benchmark for Exploring Complex CommonsenseReasoning in Large Language Model
基于Com²,我们首先评估了广泛的现有LLMs,然后进行深入分析。原创 2025-07-17 21:09:30 · 28 阅读 · 0 评论 -
Tuning Language Models by Proxy
尽管大型预训练语言模型的通用能力越来越强,但它们仍然可以从额外的微调中受益,以更好地实现所需的行为。例如,它们通常被微调以遵循指令(Ouyang等人,2022年)、特定的兴趣领域(Gururangan等人,2020年)或特定任务(Raffel等人,2020年)。然而,微调这些模型变得越来越资源密集,或者在模型权重是私有的情况下变得不可能(例如,GPT-4;OpenAI,2023年)。因此,如何有效地为不同用户和应用定制越来越大的语言模型仍然是一个挑战。原创 2025-07-06 16:25:12 · 88 阅读 · 0 评论 -
BPO: Towards Balanced Preference Optimization between KnowledgeBreadth and Depth in Alignment
带人类反馈的强化学习(Reinforcement Learning with Human Feedback,简称 RLHF)(Christiano 等,2017)在近年来大型语言模型(LLMs)的成功中发挥了关键作用。其目标是在大型语言模型的后训练阶段,通过利用大量人类标注者的成对反馈,使其与人类的价值观和偏好相一致。另一研究方向则从数据角度出发,旨在提升一致性过程。原创 2025-07-04 11:55:54 · 32 阅读 · 0 评论 -
EPO: Hierarchical LLM Agents with Environment PreferenceOptimization
长期决策和规划任务依然是基于大型语言模型(LLM)的智能体面临的一大挑战(Valmeekam 等,2023;Liu 等,2023;Silver 等,2024)。这些任务需要智能体进行多步骤的规划,同时保持行为的一致性和目标导向,这对于通常被设计用于即时和局部预测的大型语言模型来说颇为困难。此外,针对具身智能体的大型语言模型微调面临的一个关键难题是大规模标注数据的需求(Reed 等,2022)。原创 2025-07-04 11:06:58 · 44 阅读 · 0 评论 -
Plan-Grounded Large Language Models forDual Goal Conversational Settings
引导用户完成诸如烹饪或 DIY 之类的手动任务(Choi 等,2022),对于当前的大型语言模型(LLMs)来说是一个新颖且具有挑战性的领域。该问题之所以棘手,是因为现有的大型语言模型仅接受过遵循用户指令的训练,而在这一新场景下,指令会在对话的双方之间流动。(i)遵循一系列步骤计划,以及(ii)回答用户提出的各种指令。为应对这些联合目标,大型语言模型需要在程序性计划的背景下,同时与计划对齐并遵循用户指令,如图 1 所示。原创 2025-07-04 10:14:30 · 413 阅读 · 0 评论 -
A Deep Dive into the Trade-Offs of Parameter-EfficientPreference Alignment Techniques
大型语言模型(LLMs)在诸如总结、常识推理和开放式生成等各项任务上取得了类似人类的性能表现(Zhao et al., 2023)。这些LLMs拥有数十亿参数,并且是在从网络抓取的数万亿token上进行预训练的。LLMs的有利用途之一是以自主代理的形式出现,让它们遵循用户指令并符合特定的偏好要求(Wang et al., 2023a)。然而,预训练模型往往无法遵循指令,需要使用特别编排的偏好对齐数据集和方法来进行对齐,以实现泛化(Mishra et al., 2021)。原创 2025-07-03 10:16:45 · 23 阅读 · 0 评论 -
Instantly Learning Preference Alignment via In-context DPO
在大型语言模型(LLM)行业中,人类偏好对齐(HPA)至关重要,因为它可以防止LLM生成与人类价值观相悖的内容。目前,HPA的主流方法主要依赖于微调,例如RLHF(Stiennon等人,2020;Ouyang等人,2022;Zhu等人,2023)、RAFT(Dong等人,2023a)、RRHF(Yuan等人,2023)或DPO(Rafailov等人,2023)。然而,微调的巨大计算和标注成本不容忽视。因此,采用外部监督解码的无调参方法越来越受欢迎。原创 2025-07-02 10:12:46 · 26 阅读 · 0 评论 -
TTRL:Test-Time Reinforcement Learning
因此,策略模型自身估计的奖励信号可能为学习提供了更合适的指导。图 9:“幸运命中”的一个案例。我们展示了一个基本的数值预测场景,以比较在两种条件下奖励计算:当估计的标签不正确时与使用真实标签时。如图 9 所示,尽管估计的标签不正确,但一些错误预测仍然与错误标签不同,因此收到了正确的奖励(表示为 0)。原创 2025-06-30 11:32:33 · 244 阅读 · 0 评论 -
Critique-GRPO: Advancing LLM Reasoning withNatural Language and Numerical Feedback
强化学习(RL)一直是提升大型语言模型(LLMs)推理能力近期发展的关键驱动力。特别是具有数值反馈(通常是标量奖励形式)的强化学习,即R1-Zero训练范式,使基础大型语言模型能够通过反复试错从自身的生成结果中学习。高质量的生成结果会得到正面奖励,而低质量的生成结果则会被惩罚。这种范式革新了大型语言模型的后训练流程,从模仿专家示范的模仿学习转变为从模型自身的生成结果(即经验)中学习,从而显著提升了性能。(i)性能停滞:将训练样本数量扩大8倍(从4k增加到32k)无法提升峰值性能。原创 2025-06-29 10:37:38 · 37 阅读 · 0 评论 -
Test-Time Preference Optimization:On-the-Fly Alignment via Iterative Textual Feedback
大型语言模型(OpenAI,2023;Dubey 等,2024;Jiang 等,2024;Zhu 等,2024;Qwen 等,2025)在一系列下游任务中展现出令人印象深刻的性能。然而,由于这些模型是基于大量未标注文本进行训练的,如果不进行适当的对齐,它们可能会偶尔生成意外或不安全的回应。因此,许多方法旨在将大型语言模型与人类偏好对齐,以确保其输出既有助又有用。原创 2025-06-28 15:57:27 · 42 阅读 · 0 评论 -
走进因果推断
简单来说,就是试图确定一个事件(因)是否导致了另一个事件(果)的发生,以及这种影响的程度有多大。它不同于简单的相关性分析,后者只是指出两个事件同时发生的频率,但并不能说明其中一个事件是另一个事件的原因。在日常生活中,你可能经常听到有人说:“我喝了咖啡后,工作效率就提高了。”这句话背后,其实就隐藏着一个因果推断——喝咖啡(因)可能导致了工作效率提高(果)。它更像是侦探工作,要找出哪些事情是真正有因果关系的,哪些只是碰巧一起发生。比如,夏天冰棍卖得多,电费也高,但这并不意味着冰棍卖得多导致了电费高。原创 2025-06-27 11:31:54 · 39 阅读 · 0 评论 -
Aligning as Debiasing: Causality-Aware Alignment via ReinforcementLearning with Interventional Feed
大型语言模型(LLMs)(Brown et al., 2020;Touvron et al., 2023)在生成流畅文本方面表现出非凡的能力,但同时也反映了偏见(Gallegos et al., 2023)。最近关于减少LLMs偏见输出的研究,例如减少攻击性、有毒和刻板印象的文本生成(Kadan et al., 2022;Xu et al., 2022),采用了将人类反馈纳入微调过程的方法,以使LLMs与人类价值观保持一致(Stiennon et al., 2020;原创 2025-06-27 10:14:48 · 26 阅读 · 0 评论 -
Treatment Learning Causal Transformer for Noisy Image Classification
尽管深度神经网络(DNN)在许多图像识别任务[22、27、70、88]中的“准确性”已经超过人类水平,但目前的DNN仍然隐含地依赖于这样一个假设[59],为了应对机器感知在噪声图像方面的挑战,我们从人类如何进行视觉识别中获得启发。人类的学习过程通常与逻辑推理(例如,从书籍中获取的符号定义)和表示学习(例如,查看视觉模式的经验)相结合。当前DNN与人类识别系统的一个显著差异在于因果推理的能力。原创 2025-06-25 16:22:18 · 47 阅读 · 0 评论 -
Large Language Models and Causal Inference in Collaboration: A Survey
在本节中,我们介绍因果推断的背景知识,包括任务描述、基本概念和符号以及通用解决方案。更多详细信息可在附录 A 中找到。因果推断旨在估计变量间的因果关系。感兴趣的变量被称为干预措施(treatment),而干预措施的效果则被称为干预效应理想情况下,可通过以下方式测量干预效应:对同一群体施加不同的干预措施,然后效果差异即为干预效应。然而,在许多情况下,完全受控的实验是不切实际的,需要从观察数据中估计干预效应。在识别和量化观察数据中的因果效应方面,最有影响力的框架之一是潜在结果框架潜在结果方法将因果性与对单元。原创 2025-06-24 14:55:54 · 38 阅读 · 0 评论 -
大模型强化微调GRPO——DeepSeekMath: Pushing the Limits of MathematicalReasoning in Open Language Models
英语和中文数学推理:我们对模型在英语和中文基准测试上进行了全面评估,涵盖从小学水平到大学水平的数学问题。英语基准测试包括 GSM8K(Cobbe 等,2021 年)、MATH(Hendrycks 等,2021 年)、SAT(Azerbayev 等,2023 年)、OCW 课程(Lewkowycz 等,2022 年)、MMLU-STEM(Hendrycks 等,2020 年)。原创 2025-06-24 14:54:54 · 217 阅读 · 0 评论 -
Causal-aware Large Language Models: Enhancing Decision-Making ThroughLearning, Adapting and Acting
随着像生成预训练变换模型(GPT)[Brown 等,2020] 和大型语言模型Meta AI(LLAMA)[Touvron 等,2023] 这样的大型语言模型(LLMs)的进步,这些模型在决策领域展现出了巨大的潜力 [Sun 等,2023;Yao 等,2023]。然而,这些预训练模型的主要任务是基于现有数据预测下一个词,这限制了它们在结构化推理和适应新环境方面的能力。这些限制阻碍了它们在现实世界中复杂决策任务中的有效性。因此,如何有效利用大型语言模型的能力来解决复杂任务仍然是一个持续的研究问题。原创 2025-06-17 10:56:05 · 41 阅读 · 0 评论 -
Counterfactual-Consistency Prompting for Relative TemporalUnderstanding in Large Language Models
尽管大型语言模型(LLMs)具有令人印象深刻的能力,但一系列研究(Jain 等,2023;Chu 等,2023)指出,这些模型常常缺乏时间推理能力,尤其在相对事件理解方面表现明显,即在不依赖绝对时间指示符(如具体日期)的情况下,推断事件或段落中事件的时间关系。主要挑战在于大型语言模型在响应时缺乏时间一致性(Qiu 等,2023;Chen 等,2024)。时间一致性被定义为模型确保冲突时间线不共存的能力。原创 2025-06-16 09:57:39 · 59 阅读 · 0 评论 -
Reasoning over Uncertain Text by Generative Large Language Models
文本中的不确定性在许多语境中传达,从日常对话到特定领域的文档(例如医学文档)(Heritage 2013;Landmark、Gulbrandsen 和 Sveneveig 2015)。处理这种不确定的信息至关重要。例如,文本中的不确定性已被证明显著影响生物医学领域的决策(Poggi 等,2019)。在不确定文本中进行推理也与理性推理密切相关,例如,如果事件 A 和 B 的概率较低,则这两者同时发生的概率应该也较低。因此,语言模型必须能够处理具有不确定性的文本,并基于此执行推理。原创 2025-06-08 10:24:56 · 230 阅读 · 0 评论 -
Mitigating Social Bias in Large Language Models: A Multi-Objective ApproachWithin a Multi-Agent Fra
自然语言处理(NLP)随着大规模语言模型(LLMs)的发展而迅速进步,展示了生成类人文本的增强能力。然而,即便是先进的模型,也常常遇到生成公平且无偏见响应的困难(Shragvi et al., 2024;随着 LLMs 的规模不断扩大,社会偏见不仅浮现,而且有增加的趋势,这突显了需要有效去偏见方法的紧迫性(Ganguli et al., 2023)。原创 2025-06-07 16:25:56 · 50 阅读 · 0 评论 -
Text-Guided Fine-grained Counterfactual Inference for Short Video Fake NewsDetection
检测假新闻对于防止虚假信息传播和维护公众信任至关重要(DiFonzo 和 Bordia 2007;Jin 等人 2017;Jankowski 等人 2020)。如今,短视频平台成为传播假新闻的关键渠道。这些平台融合了图像、视频、音频、社交内容和评论等多种模态,各模态具有不同的格式和特征,使得新闻真实性评估愈发复杂。当前短视频假新闻检测研究主要集中在如何有效整合多模态信息,常用方法包括主题建模(Choi 和 Ko 2021)和协同注意力机制(Qi 等人 2023a)。原创 2025-06-07 15:30:27 · 49 阅读 · 0 评论 -
Fighting Spurious Correlations in Text Classificationvia a Causal Learning Perspective
尽管神经网络在标准基准测试中表现出色,但在泛化到分布外(OOD)数据时常常遇到困难。一个主要原因是它们倾向于依赖与任务没有因果关系但与标签存在虚假关联的特征,这在数据分布变化时会降低模型的鲁棒性。例如,在自然语言推理(NLI)任务中,如果数据集中的矛盾句子经常包含否定词,那么在此数据集上训练的模型可能会仅根据否定词的存在来预测矛盾,而不是依赖于真实的底层特征。当遇到这种虚假关联不成立的数据时,模型很可能会做出错误的预测。先前的工作将数据划分为基于类别标签和虚假特征组合的不同组别。原创 2025-06-02 22:04:34 · 40 阅读 · 0 评论 -
Counterfactual Debiasing for Fact Verification
随着信息的急剧增加,在线未验证的声明变得普遍,这在各个领域(如公共卫生(Naeem and Bhatti, 2020)、政治(Allcott and Gentzkow, 2017)和经济(Kogan et al., 2019))对公共安全构成威胁。因此,事实核查,即基于收集到的几个证据自动预测声明真实性,引起了大量研究兴趣(Liu et al., 2020;原创 2025-05-27 15:36:00 · 62 阅读 · 0 评论 -
Enhancing Relation Extractionvia Supervised Rationale Verifcation and Feedback
关系抽取(RE)任务旨在抽取文本中实体之间的语义关系,这是信息抽取中的一个重要任务。与基于小型语言模型的微调策略不同(Wu 和 He,2019),最近的研究(Wan 等,2023;Ma 等,2023)利用大型语言模型(LLMs)的强指令理解和丰富的内在知识(Ouyang 等,2022;Touvron 等,2023;Bai 等,2022)来提升 RE 的性能。尽管取得了显著进展,基于 LLM 的方法在执行关系抽取时可能会受到关系偏差的影响。原创 2025-05-22 21:29:01 · 335 阅读 · 0 评论 -
Deconfound Semantic Shift and Incompleteness in Incremental Few-shot SemanticSegmentation
像素级标注在语义分割中的兴起推动了逐步扩展模型容量以学习新类别的方法需求,而无需重新训练整个模型。增量少样本语义分割(IFSS)能够在保留分割先前学习类别能力的同时,持续分割只有少量增量数据的新类别。语义偏移和语义不完整性。如图 1 (a) 所示,语义偏移是从增量语义分割(ISS)继承而来,其中先前学习步骤中的背景类可能在当前步骤转变为对象类,反之亦然。新信息的稀缺性和旧信息的不可访问性加剧了 IFSS 中的偏移,导致模型在旧知识和新知识上的认知混淆,并加剧了灾难性遗忘。原创 2025-05-19 11:20:46 · 53 阅读 · 0 评论 -
Where and How to Attack? A Causality-Inspired Recipe for GeneratingCounterfactual Adversarial Examp
深度神经网络 (DNNs) 在各种任务中取得了巨大成功,并被广泛应用于面部识别、医疗诊断和自动驾驶等关键领域。尽管取得了前所未有的成就,但 DNNs 仍然容易受到精心设计的对抗性样本的攻击。原创 2025-05-17 16:38:18 · 61 阅读 · 0 评论 -
Debiased Multimodal Understanding for Human Language Sequences
人类多模态语言理解(MLU)结合了语言和非语言行为(例如,视觉和听觉模态),近年来引起了计算机视觉、自然语言处理和语音识别领域的极大关注。随着多模态语言基准测试的不断发展,众多研究展示了在包含不同主题、多样化话题和多种模态的训练数据上的印象深刻的多模态模型。尽管之前的方法在利用表示学习架构和融合策略方面取得了成就,但在应用于新主题的测试样本时,它们不可避免地受到预测偏差的影响。有害的预测偏差主要由主题表达风格和行为的差异引起。原创 2025-05-16 14:54:44 · 80 阅读 · 0 评论 -
De-biased Attention Supervision for Text Classifcation with Causality
文本分类是自然语言处理(NLP)中的一项基本任务(Kowsari 等,2019)。当给定一个文本时,分类模型的目标是预测相应的标签。由于深度学习的蓬勃发展,文本分类的性能得到了显著提升(Gasparetto 等,2022)。在基于深度学习的文本分类模型中,注意力机制因其显著的有效性而广受欢迎(Du 和 Huang,2018;Sun 和 Lu,2020)。注意力机制旨在模仿人类做出决策的方式,当聚合输入信息时,给予重要信息更高的权重。然而,原创 2025-05-14 20:46:53 · 70 阅读 · 0 评论 -
CrAM: Credibility-Aware Attention Modifcation in LLMs forCombating Misinformation in RAG
检索增强生成(Retrieval-Augmented Generation,RAG)(Gao et al. 2024;Zhu et al. 2021)是一种典型的降低大语言模型(Large Language Models,LLMs)(Zhang et al. 2023)幻觉问题的方法,通过从外部语料库中检索和参考相关文件来实现。然而,尽管其效果显著,但大多数 RAG 研究忽视了一个关键问题:外部语料库中的虚假信息污染(Pan et al. 2023b;原创 2025-05-10 14:48:22 · 64 阅读 · 0 评论 -
Causality-Inspired Invariant Representation Learning for Text-BasedPerson Retrieval
文本型人物检索(TPR)(Li 等 2017)旨在从图像库中检索与给定语言描述在语义上高度相关的特定人物的图像。近年来,TPR 的研究兴趣不断增长(Ding 等 2021;Suo 等 2022;Jiang 和 Ye 2023),因为文本查询可以提供在实际应用(如犯罪调查和失踪人员搜索)中更自然和全面的行人描述。这一任务重要但具有挑战性,因为它需要准确地建模视觉-语言对齐。为了实现这一目标,许多 TPR 模型应运而生(Zhu 等 2021;Suo 等 2022;Chen 等 2022;原创 2025-05-10 09:14:23 · 45 阅读 · 0 评论 -
Contradicted in Reliable, Replicated in Unreliable:Dual-Source Reference for Fake News Early Detect
虚假新闻是指完全虚假的新闻报道(Rastogi 和 Bansal 2023)。这些报道会影响个人对社会(Wu 等 2023)、健康(Silva 等 2021)等问题的看法。随着虚假新闻的传播,它甚至可能削弱社会稳定和国家安全(Yin 等 2024)。早期检测涉及在新闻传播初期识别其真实性(Liu 和 Wu 2020)。因此,自动化虚假新闻的早期检测具有重要的实际意义。原创 2025-05-09 15:20:55 · 48 阅读 · 0 评论 -
From Coarse to Fine: A Distillation Method for Fine-Grained Emotion-CausalSpan Pair Extraction in C
对话中的情感-因果跨度对提取(ECSPE)任务旨在识别对话中表达的情感,并为非中性话语识别情感原因(即情感原因)。如图 1(I) 所示,在对话中,说话者在 H2 中表现出一种情感(标记为happy),其原因在 H1 中被突出显示。ECSPE 任务对许多下游任务至关重要,例如共情生成(Kim 和 Kim 2021)和情感支持(Liu 等 2021b)。现有的工作提出了各种情感识别框架(Shen 等 2021;Ghosal 等 2019;原创 2025-05-07 16:13:00 · 155 阅读 · 0 评论 -
Causal Representation Learning via Counterfactual Intervention——通过反事实干预的因果表征学习
可分解表示学习(Disentangled Representation Learning,简称DRL)(Bengio, Courville 和 Vincent 2013)旨在从观察到的数据中识别并分离潜在的独立语义因素。尽管 DRL 已取得许多进展(Gilpin et al. 2018;Montero et al. 2020),但这些方法普遍假设潜在的语义因素是相互独立的,而这种假设在现实中往往并不成立。因为感兴趣的潜在语义因素往往是因果相关的,而不是互相独立的(Bengio et al. 2019)。原创 2025-04-25 11:30:16 · 99 阅读 · 0 评论 -
Eliciting Causal Abilities in Large Language Models for Reasoning Tasks
大型语言模型(Large Language Models, LLMs)面临的一个主要挑战是其推理能力不足(Dziri 等,2024;Cao 等,2024)。当前的LLMs在系统1(System-1)任务上表现良好,但在处理系统2(System-2)问题时存在局限性(Bengio 等,2019)。基于提示(prompting)的方法(Lester, Al-Rfou, 和 Constant 2021;Liu 等,2023)旨在使LLMs理解输入提示并通过设计和构建提示适应下游任务,这几年来成为研究的焦点。原创 2025-04-23 20:41:17 · 183 阅读 · 0 评论 -
Causal Prompting: Debiasing Large Language Model Prompting Based onFront-Door Adjustment
大型语言模型(LLMs)展示了显著的涌现能力,包括上下文学习(In-Context Learning,ICL)(Brown 等,2020;Peng 等,2024;Yang 等,2024)和链式思维(Chain-of-Thought,CoT)提示(Wei 等,2022;Wang 等,2022),这些方法允许LLMs基于极少数示例,无需权重更新即可执行自然语言任务。这些提示方法在许多传统自然语言处理任务中取得了显著成果,包括情感分析、自然语言推理和机器阅读理解(Kojima 等,2022;原创 2025-04-21 10:14:05 · 63 阅读 · 0 评论 -
Causal Walk: Debiasing Multi-Hop Fact Verifcation with Front-Door Adjustment
事实验证旨在基于检索到的证据验证给定的陈述,这是一项具有挑战性的任务。之前的工作将事实验证形式化为一种自然语言推理任务,其中多个证据片段被连接在一起,并执行单跳推理(Hanselowski等,2018;Nie, Chen, 和 Bansal,2019)。然而,在许多情况下,验证一个陈述的过程需要整合并推理多个证据片段(Ostrowski等,2021)。因此,多跳事实验证,即执行多跳推理过程来验证陈述,最近成为一个有吸引力的研究课题(Zhou 等,2019;Zhao 等,2020a;原创 2025-04-20 16:40:22 · 89 阅读 · 0 评论