
LLM for code
文章平均质量分 75
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Efficient Code LLM Training via Distribution-Consistent and Diversity-Aware Data Selection
本文聚焦于代码大语言模型(Code LLM)的高效训练,针对现有方法过度依赖数据量、忽视数据质量导致训练效率低下的问题,提出了一种基于参数模型的代码数据选择方法。该方法通过优化参数模型,确保所选数据子集与原始数据集的分布一致性,同时最大化子集内部的多样性,从而筛选出高质量数据。原创 2025-07-28 09:30:00 · 122 阅读 · 0 评论 -
APR MCTS: Improving LLM-based Automated Program Repair with Iterative Tree Search
自动程序修复(APR)旨在无需人工干预即可修复软件漏洞,在软件开发和维护中发挥着关键作用。近年来,随着大语言模型(LLMs)的发展,大量基于LLM的APR技术被提出,并取得了显著性能。然而,现有基于LLM的APR技术通常采用试错策略,存在两大缺陷:(1)由于局部探索,补丁有效性存在固有局限;(2)由于冗余探索,搜索效率低下。本文提出了APRMCTS,该方法通过迭代树搜索改进基于LLM的APR。原创 2025-07-27 09:30:00 · 109 阅读 · 0 评论 -
Precisely Detecting Python Type Errors via LLM-based Unit Test Generation
本文针对Python中类型错误导致的运行时故障问题,提出了一种名为RTED(Reflective Type Error Detection with LLMs)的新型类型感知单元测试生成技术。现有静态分析工具存在高假阳性率,而现有单元测试生成技术(如基于搜索或LLM的方法)因缺乏针对性指导,难以生成能揭示类型错误的测试用例。约束分析阶段:通过调用链分析捕获上下文感知的类型约束,借助“错误寻找代理”反向传播约束,识别可能触发类型错误的输入类型,并评估调用链的风险等级;测试生成阶段。原创 2025-07-24 09:30:00 · 132 阅读 · 0 评论 -
CORE: Benchmarking LLMs’ Code Reasoning Capabilities through Static Analysis Tasks
本文介绍了一个名为CORE的高质量、人工验证的基准测试集,旨在评估大型语言模型(LLMs)在基础静态分析任务中的代码语义推理能力。该基准涵盖数据依赖、控制依赖和信息流三大核心静态分析任务,包含12,553个任务实例,涉及C/C++、Java、Python三种编程语言,均来自180个经过语义感知多样化采样的程序。推理型模型在多数任务上显著优于非推理型模型,性能差距为5.2%-31.5%,其中Gemini 2.5 Pro整体表现最佳;原创 2025-07-23 09:30:00 · 410 阅读 · 0 评论 -
Are AI-Generated Fixes Secure? Analyzing LLM and Agent Patches on SWE-bench
该研究聚焦于大型语言模型(LLMs)和智能体框架生成的代码补丁的安全性,通过分析SWE-bench数据集中20,000+真实世界GitHub问题的修复补丁,对比了独立LLM(Llama 3.3)、三种智能体框架(OpenHands、AutoCodeRover、HoneyComb)与开发者编写的补丁在安全性上的差异,并探究了导致漏洞的关键因素。原创 2025-07-16 13:30:00 · 111 阅读 · 0 评论 -
Context-Aware Code Wiring Recommendation with LLM-based Agent
本文针对软件开发中“复制-粘贴-修改”实践中的代码适配问题,提出了一种基于大语言模型(LLM)的智能代理工具WIRL,用于实现上下文感知的代码连接(code wiring)。代码连接指将粘贴代码中未解析的变量(或元素)替换为本地上下文里的合适元素,是代码复用中最常见的适配需求。现有方法多依赖启发式规则或历史模板,无法有效利用上下文信息,而超过56%的代码适配场景依赖上下文。核心组成。原创 2025-07-16 09:30:00 · 17 阅读 · 0 评论 -
Reuse or Generate? Accelerating Code Editing via Edit-Oriented Speculative Decoding
本文针对大语言模型(LLMs)在代码编辑任务中存在的自回归生成效率低的问题,提出了一种名为的新方法,通过面向编辑的推测解码(speculative decoding)机制提升效率。核心背景是:代码编辑任务中,修改通常是局部的,大量原始代码片段可重用,但现有方法依赖自回归生成,速度慢;传统推测解码技术未考虑代码编辑的这一特性,加速效果有限。代码重用与编辑位置识别:将原始代码作为高质量草稿,通过目标模型的单次前向传播验证并重用未修改的代码片段,同时利用模型对代码片段的“拒绝”信号定位潜在编辑位置。原创 2025-07-02 10:19:19 · 27 阅读 · 0 评论 -
code_transformed: The Influence of Large Language Models on Code
研究背景与目标大语言模型(LLMs)如Copilot、Cursor等已广泛应用于编程,但缺乏对其实际影响代码风格的系统性研究。研究聚焦LLMs对代码命名约定、复杂性、可维护性及相似性的影响,分析GitHub上1.9万+仓库的代码数据(2020-2025年)。核心发现命名模式:LLMs偏好更长、更具描述性的变量名(如snake_case),Python中snake_case变量名占比从2023年Q1的47%升至2025年Q1的51%,且GitHub中该趋势与LLM生成代码风格一致。原创 2025-06-29 08:30:00 · 80 阅读 · 0 评论 -
HARDTESTS: Synthesizing High-Quality Test Cases for LLM Coding
摘要验证器在大型语言模型(LLM)推理中至关重要,强化学习等后期训练技术均需依赖验证器。然而,对于复杂编程问题,可靠验证器难以获取,因为伪装良好的错误解决方案通常只能通过精心设计的边缘测试用例检测,而这类测试用例难以合成。为此,我们提出HARDTESTGEN,一种基于LLM的高质量测试合成流水线。通过该流水线,我们构建了包含47k问题和合成高质量测试用例的竞赛编程数据集HARDTESTS。原创 2025-06-08 08:30:00 · 151 阅读 · 0 评论 -
On Explaining (Large) Language Models For Code Using Global Code-Based Explanations
本文提出了一种名为CodeQ的可解释性方法,旨在通过全局代码解释来分析大型语言模型(LM4Code)的代码生成决策过程。:提取影响代码预测的关键输入token子集(rationale),通过贪心算法逐步选择对目标令牌概率贡献最大的token。Mapping:将token映射到更高层次的代码概念(如语法结构、自然语言元素等),构建可解释性矩阵。Reduction:通过统计聚合(如平均值、中位数)生成全局可解释性张量,揭示模型在代码生成中的系统性趋势。原创 2025-04-07 10:00:11 · 190 阅读 · 0 评论 -
SolEval: Benchmarking Large Language Models for Repository-level Solidity Code Generation
大语言模型(LLMs)已经改变了代码生成的方式。然而,大多数现有方法主要集中在Python和Java等主流语言上,忽视了Solidity语言,它是以太坊智能合约的主要编程语言。由于缺乏足够的Solidity基准测试,大语言模型生成安全且成本效益高的智能合约的能力仍未得到充分探索。为了填补这一空白,我们构建了SolEval,这是首个专为Solidity智能合约生成设计的存储库级基准测试,用于评估大语言模型在Solidity方面的性能。原创 2025-03-23 08:30:00 · 137 阅读 · 0 评论 -
CODEI/O: Condensing Reasoning Patterns via Code Input-Output Prediction
推理是大型语言模型的基本能力。虽然之前的研究主要集中在提高数学或代码生成等狭义技能上,但由于训练数据稀疏和碎片化,提高许多其他推理任务的性能仍然具有挑战性。为了解决这个问题,我们提出了CODEI/O,这是一种新颖的方法,通过将原始代码转换为代码输入输出预测格式,系统地压缩了嵌入在基于上下文的代码中的各种推理模式。原创 2025-02-27 10:00:00 · 177 阅读 · 0 评论 -
EpiCoder: Encompassing Diversity and Complexity in Code Generation
有效的指令调优对于优化代码LLM、使模型行为与用户期望保持一致以及提高现实世界应用程序中的模型性能是必不可少的。然而,大多数现有方法都集中在代码片段上,这些代码片段仅限于特定的功能和刚性结构,限制了合成数据的复杂性和多样性。为了解决这些局限性,我们引入了一种受抽象语法树(AST)启发的基于特征树的合成框架。与捕获代码句法结构的AST不同,我们的框架对代码元素之间的语义关系进行建模,从而生成更细微和多样化的数据。特征树由原始数据构建,并迭代细化,以增加提取特征的数量和多样性。原创 2025-02-13 09:00:00 · 174 阅读 · 0 评论 -
FullStack Bench: Evaluating LLMs as Full Stack Coders
随着代码大型语言模型(LLM)的能力不断扩展,它们在不同代码智能领域的应用正在迅速增加。然而,大多数现有的数据集只评估有限的应用领域。为了解决这一差距,我们开发了一个全面的代码评估数据集FullStack Bench,专注于全栈编程,涵盖了广泛的应用领域(例如,基础编程、数据分析、软件工程、数学和机器学习)。此外,为了评估多语言编程能力,在FullStack Bench中,我们从16种广泛使用的编程语言中设计了真实世界的指令和相应的单元测试用例,以反映真实世界的使用场景,而不是简单的翻译。原创 2025-02-07 09:00:00 · 153 阅读 · 0 评论 -
Seed-CTS: Unleashing the Power of Tree Search for Superior Performance in Competitive Coding Tasks
本文是LLM系列文章,针对《Seed-CTS: Unleashing the Power of Tree Search for Superior Performance in Competitive Coding Tasks》的翻译。竞争级别的代码生成任务对当前最先进的大型语言模型(LLM)构成了重大挑战。例如,在LiveCodeBench Hard数据集上,O1 Mini和O1 Preview等模型实现了pass@1分别仅为0.366和0.143。虽然树搜索技术在数学和通用编码等领域已被证明是有效的,但原创 2025-01-29 09:00:00 · 197 阅读 · 0 评论 -
Distilling Desired Comments for Enhanced Code Review with Large Language Models
本文是LLM系列文章,针对《Distilling Desired Comments for Enhanced Code Review with Large Language Models》的翻译。由于大型语言模型(LLMs)在代码理解方面的熟练程度,人们对使用LLMs进行代码审查的兴趣日益浓厚。大多数审查场景的主要目标是生成所需的审查意见(DRC),明确指出问题以触发代码修复。然而,由于幻觉等各种原因,现有的基于LLM的解决方案在生成DRC方面并不那么有效。为了提高他们的代码审查能力,他们需要使用一个定原创 2025-01-27 10:15:00 · 197 阅读 · 0 评论 -
MCEVAL: Massively Multilingual Code Evaluation
代码大语言模型(LLM)在代码理解、完成和生成任务方面取得了显著进展。编程基准测试由一系列代码挑战和相应的测试用例组成,是评估不同LLM在此类任务中的能力的标准。然而,大多数现有的基准测试主要集中在Python上,并且仍然局限于有限数量的语言,其中其他语言是从Python示例翻译而来的(例如MultiPL-e),这降低了数据的多样性。为了进一步促进代码LLM的研究,我们提出了一个大规模的多语言代码基准测试,涵盖40种编程语言(MCEVAL)和16K测试样本,大大突破了多语言场景中代码LLMs的极限。原创 2024-12-16 09:30:00 · 226 阅读 · 0 评论 -
CODEIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code
随着大型语言模型 (LLM) 越来越多地用于自动化代码生成,人们通常希望知道代码是否是人工智能生成的以及由哪个模型生成的,特别是出于保护工业知识产权 (IP) 和防止教育中的学术不端行为等目的。将水印合并到机器生成的内容中是提供代码来源的一种方法,但现有的解决方案仅限于单个位或缺乏灵活性。我们提出了 CODEIP,这是一种用于基于 LLM 的代码生成的新水印技术。CODEIP 能够插入多位信息,同时保留生成代码的语义,从而提高插入水印的强度和多样性。原创 2024-11-27 09:30:00 · 225 阅读 · 0 评论 -
CodeGeeX: A Pre-Trained Model for Code Generation with Multilingual Benchmarking on HumanEval-X
大型预训练的代码生成模型,如OpenAI Codex,可以生成语法和功能正确的代码,使程序员的编码更加高效,我们对通用人工智能的追求更加紧密。本文介绍了CodeGeeX,这是一个具有130亿个参数的多语言模型,用于代码生成。截至2022年6月,CodeGeeX已对23种编程语言的8500亿个代币进行了预训练。我们广泛的实验表明,CodeGeeX在HumanEval-X上的代码生成和翻译任务上都优于类似规模的多语言代码模型。原创 2024-11-28 09:00:00 · 104 阅读 · 0 评论 -
Qwen2.5-Coder Technical Report
在本报告中,我们介绍了 Qwen2.5-Coder 系列,这是其前身 CodeQwen1.5 的重大升级。该系列包括六款模型:Qwen2.5-Coder-(0.5B/1.5B/3B/7B/14B/32B)。作为特定于代码的模型,Qwen2.5-Coder 基于 Qwen2.5 架构构建,并在超过 5.5 万亿个token的庞大语料库上继续进行预训练。通过细致的数据清理、可扩展的合成数据生成和平衡的数据混合,Qwen2.5-Coder 展示了令人印象深刻的代码生成能力,同时保留了一般和数学技能。原创 2024-11-15 17:12:46 · 395 阅读 · 0 评论 -
OPENCODER: THE OPEN COOKBOOK FOR TOP-TIER CODE LARGE LANGUAGE MODELS
用于代码的大型语言模型 (LLM) 在各个领域(包括代码生成、推理任务和代理系统)中已变得不可或缺。虽然开放获取代码 LLM 越来越接近专有模型的性能水平,但适用于严格科学调查的高质量代码 LLM,尤其是那些具有可重复数据处理管道和透明训练协议的 LLM,仍然有限。稀缺性是由于各种挑战,包括资源限制、道德考虑以及保持模型先进的竞争优势。为了解决这一差距,我们引入了 OpenCoder,这是一种顶级代码 LLM,它不仅实现了与领先模型相当的性能,而且还可以作为研究社区的“开放式食说明书。原创 2024-11-14 15:11:53 · 226 阅读 · 0 评论 -
mHumanEval - A Multilingual Benchmark to Evaluate Large Language Models for Code Generation
大型语言模型 (LLM) 的最新进展显著增强了从自然语言提示生成代码的能力。由 OpenAI 开发的 HumanEval 基准测试仍然是使用最广泛的代码生成基准测试。然而,这个和其他 Code LLM 基准测试面临着严重的限制,特别是在任务多样性、测试覆盖率和语言范围方面。当前的评估主要集中在测试用例有限的英语到 Python 转换任务上,可能会高估模型性能。虽然最近的工作解决了测试覆盖率和编程语言 (PL) 多样性,但从低资源语言提示生成代码在很大程度上仍未得到探索。原创 2024-11-13 09:30:00 · 361 阅读 · 0 评论 -
CODEJUDGE : Evaluating Code Generation with Large Language Models
大型语言模型(LLM)在代码生成方面表现出了良好的性能。然而,如何可靠地评估LLM生成的代码仍然是一个未解决的问题。本文介绍了CODEJUDGE,这是一个代码评估框架,它利用LLM来评估生成代码的语义正确性,而不需要测试用例。我们研究了不同的方法来指导LLM进行“慢思维”,以获得深入可靠的评估。我们在四个代码生成数据集和五种编程语言上用四个LLM作为评估器进行了实验。结果表明,在大多数情况下,CODEJUDGE的表现明显优于现有方法。原创 2024-11-09 10:15:00 · 246 阅读 · 0 评论 -
Unlock the Correlation between Supervised Fine-Tuning and Reinforcement Learning in Training Code
自动代码生成一直是一个由来已久的研究课题。随着通用大型语言模型 (LLM) 的进步,编码能力成为衡量模型推理性能的重要指标之一。通常,为了获得 Code LLM,会实施两个阶段的训练范式,即预训练和微调。在微调中,监督微调 (SFT) 和强化学习 (RL) 通常用于提高模型的零样本能力。已经进行了大量工作,通过修改算法或优化数据集来提高模型在代码相关基准上的性能。然而,我们仍然缺乏对 SFT 和 RL 之间相关性的深刻见解。原创 2024-11-08 09:45:54 · 195 阅读 · 0 评论 -
Analysis of Code and Test-Code generated by Large Language Models
ChatGPT 和 Copilot 等大型语言模型 (LLM) 正在通过自动生成代码来改变软件开发,并且可以说可以实现快速原型设计、支持教育并提高生产力。因此,生成的代码的正确性和质量应该与手动编写的代码相当。为了评估法学硕士在生成高质量正确代码方面的现状,我们使用 ChatGPT 和 Copilot 进行了对照实验:我们让法学硕士用 Java 和 Python 生成简单的算法以及相应的单元测试,并评估正确性和质量(覆盖率) )生成的(测试)代码。原创 2024-09-19 10:44:36 · 224 阅读 · 0 评论 -
Planning In Natural Language Improves LLM Search For Code Generation
虽然扩展训练计算已经导致大型语言模型 (LLM) 的显着改进,但扩展推理计算尚未产生类似的收益。我们假设核心缺失部分是缺乏多样化的 LLM 输出,由于模型重复采样高度相似但不正确的生成,导致搜索效率低下。我们凭经验证明,可以通过搜索用自然语言解决问题的候选计划来缓解这种多样性的缺乏。基于这一见解,我们提出了 PLANSEARCH,这是一种新颖的搜索算法,它在 HumanEval+、MBPP+ 和 LiveCodeBench(竞争性编码的无污染基准)上显示出强大的结果。原创 2024-09-18 14:52:11 · 214 阅读 · 0 评论 -
NExT: Teaching Large Language Models to Reason about Code Execution
人类开发人员的一项基本技能是理解和推理程序执行的能力。例如,程序员可以在脑海中模拟自然语言的代码执行,以调试和修复代码(又名橡皮鸭调试)。但是,代码的大型语言模型 (LLM) 通常在程序的表面文本形式上进行训练,因此可能缺乏对程序在运行时执行方式的语义理解。为了解决这个问题,我们提出了 NExT,这是一种教 LLM 检查程序的执行跟踪(已执行行的可变状态)并通过思维链 (CoT) 基本原理推理其运行时行为的方法。原创 2024-09-11 16:24:40 · 122 阅读 · 0 评论 -
A Survey on Large Language Models for Code Generation
大型语言模型 (LLM) 在各种与代码相关的任务(称为代码 LLM)中取得了显著的进步,尤其是在使用 LLM 从自然语言描述生成源代码的代码生成方面。由于其在软件开发(例如 GitHub Copilot)中的实际意义,这个新兴领域引起了学术研究人员和行业专业人士的极大兴趣。尽管从自然语言处理 (NLP) 或软件工程 (SE) 或两者兼而有之的角度来看,人们积极探索 LLM 用于各种代码任务,但明显缺乏专门针对 LLM 用于代码生成的全面和最新的文献综述。原创 2024-09-09 19:39:15 · 358 阅读 · 0 评论 -
Exploring and Unleashing the Power of Large Language Models in Automated Code Translation
代码翻译工具,即转译器,是为自动源到源翻译而开发的。最新的基于学习的转译器在翻译准确性和可读性方面都比基于规则的转译者有了显著的提高,这是由于它们在广泛的单语语料库上进行了针对特定任务的预训练。然而,他们目前的表现对于实际部署来说仍然不能令人满意,相关的训练资源也过于昂贵。大型语言模型(LLM)在大量人类编写的代码/文本上进行了预训练,由于其强大的通用性,即使没有针对特定任务的重新训练/微调,也在许多代码智能任务中表现出了卓越的性能。因此,LLM可以潜在地规避上述限制,但它们还没有被彻底探索。原创 2024-08-04 11:26:57 · 191 阅读 · 0 评论 -
A Multi-Expert Large Language Model Architecture for Verilog Code Generation
最近,人们对使用大型语言模型(LLM)生成Verilog代码的兴趣激增。然而,现有的方法在生成的Verilog代码的质量方面是有限的。为了解决这些局限性,本文介绍了一种用于Verilog代码生成的创新的多专家LLM架构(MEV-LLM)。我们的架构独特地集成了多个LLM,每个LLM都使用一个数据集进行了专门的微调,该数据集根据不同的设计复杂性级别进行了分类。它允许更有针对性的学习,直接解决为每个类别生成Verilog代码的细微差别。原创 2024-08-04 11:15:23 · 239 阅读 · 0 评论 -
CODEEDITORBENCH: EVALUATING CODE EDITING CAPABILITY OF LARGE LANGUAGE MODELS
代码的大型语言模型(LLM)正在迅速发展,代码编辑成为一项关键能力。我们介绍CodeEditorBench,这是一个评估框架,旨在严格评估LLM在代码编辑任务中的性能,包括调试、翻译、打磨和需求切换。与仅专注于代码生成的现有基准不同,CodeEditorBench强调软件开发的真实场景和实际方面。我们从五个来源策划了各种编码挑战和场景,涵盖了各种编程语言、复杂性级别和编辑任务。原创 2024-07-24 09:21:07 · 264 阅读 · 0 评论 -
Do Neutral Prompts Produce Insecure Code?
本研究对最先进的大型语言模型(LLM)进行了比较分析,分析了它们在使用中性零样本提示编写简单C程序时产生漏洞的可能性。我们解决了文献中关于这些模型在没有特定指令的情况下生成的代码的安全属性的一个重大空白。N.Tihanyi等人在PROMISE’23上介绍了FormAI数据集,其中包含112000个GPT-3.5生成的C程序,超过51.24%被确定为易受攻击。原创 2024-07-11 16:21:03 · 82 阅读 · 0 评论 -
Bugs in Large Language Models Generated Code: An Empirical Study
用于代码的大型语言模型(LLM)最近得到了极大的关注。他们可以根据提供的提示用不同的编程语言生成代码,实现软件工程(SE)中一个长期的梦想,即自动生成代码。与人工编写的代码类似,LLM生成的代码很容易出现错误,而且这些错误尚未得到社区的彻底检查。鉴于SE活动中越来越多地采用基于LLM的代码生成工具(例如GitHub Copilot),了解LLM生成的代码中包含的错误的特征至关重要。原创 2024-07-08 19:45:31 · 129 阅读 · 0 评论 -
LLM4Decompile: Decompiling Binary Code with Large Language Models
反编译旨在将二进制代码转换为高级源代码,但像Ghidra这样的传统工具往往会产生难以读取和执行的结果。受大型语言模型(LLM)进步的启发,我们提出了LLM4Decompile,这是第一个也是最大的开源LLM系列(1.3B到33B),用于反编译二进制代码。我们优化了LLM训练过程,并引入LLM4Decompile-End模型来直接反编译二进制文件。由此产生的模型在HumanEval和ExeBeach基准测试中显著优于GPT-4o和Ghidra超过100%。原创 2024-06-25 14:25:06 · 275 阅读 · 0 评论 -
LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code
应用于代码相关应用程序的大型语言模型(LLM)已成为一个突出的领域,吸引了学术界和工业界的极大兴趣。然而,随着新的和改进的LLM的开发,现有的评估基准(如HumanEval、MBPP)不再足以评估其能力。在这项工作中,我们提出了LiveCodeBench,这是一种对代码LLM的全面且无污染的评估,它从三个竞争平台(即LeetCode、AtCoder和CodeForces)的比赛中收集新问题。值得注意的是,我们的基准测试还关注更广泛的代码相关功能,如自修复、代码执行和测试输出预测,而不仅仅是代码生成。原创 2024-06-24 15:34:06 · 839 阅读 · 0 评论 -
Code Comparison Tuning for Code Large Language Models
我们提出了代码比较调整(CCT),这是一种简单有效的代码大型语言模型(Code-LLM)调整方法,可以更好地处理细微的代码错误。具体来说,我们将比较的概念集成到指令调优中,无论是在token级别还是在序列级别,使模型能够识别代码中哪怕是最微小的偏差。为了将原始代码与包含手动添加的代码错误的错误版本进行比较,我们使用token级别偏好丢失进行详细的token级别比较。此外,我们将代码段组合在一起,创建了一个新的指令调优示例,用于序列级比较,增强了模型的错误修复能力。原创 2024-06-24 11:05:03 · 83 阅读 · 0 评论 -
SEED: Customize Large Language Models with Sample-Efficient Adaptation for Code Generation
摘要1 引言2 动机示例3 方法4 评估5 相关工作6 对有效性的威胁7 结论尽管大型语言模型(LLM)在代码生成方面取得了重大进展,但它们在特定场景中仍难以完成代码生成任务。这些场景通常需要对LLM进行调整以满足特定需求,但实践中可用的有限训练样本导致代码生成性能较差。因此,如何在很少的训练样本的情况下有效地将LLM适应新的场景是当前代码生成的一个主要挑战。在本文中,我们提出了一种新的自适应方法SEED,它代表了用于代码生成的带有错误驱动学习的样本有效自适应。原创 2024-06-21 15:36:19 · 142 阅读 · 0 评论 -
LLaMoCo: Instruction Tuning of Large Language Models for Optimization Code Generation
最近的研究探索了使用大型语言模型(LLM)的优化,方法是迭代地从LLM中寻找下一步解决方案,或者直接提示LLM使用优化器。然而,这些方法表现出固有的局限性,包括操作效率低、对提示设计的敏感性高以及缺乏特定领域的知识。我们介绍了LLaMoCo,这是第一个指令调优框架,旨在调整LLM,以代码对代码的方式解决优化问题。具体来说,我们建立了一个全面的指令集,其中包含描述良好的问题提示和有效的优化代码。原创 2024-06-21 10:20:29 · 197 阅读 · 0 评论 -
Exploring the Impact of the Output Format on the Evaluation of Large Language Models
编程语言之间的代码翻译是软件工程中一项长期存在的关键任务,有助于传统系统的现代化,确保跨平台兼容性,并提高软件性能。随着大型语言模型(LLM)及其在代码翻译中的应用的最新进展,人们越来越需要对这些模型进行全面评估。在这项研究中,我们在五种语言(包括C、C++、Go、Java和Python)的3820个翻译对上实证分析了11个流行的指令调整LLM的生成输出,参数范围从1B到46.7B。原创 2024-06-21 10:03:09 · 208 阅读 · 0 评论 -
A systematic evaluation of large language models for generating programming code
我们系统地评估了七个大型语言模型在使用各种提示策略、编程语言和任务困难生成编程代码方面的性能。GPT-4大大优于其他大型语言模型,包括Gemini Ultra和Claude 2。GPT-4的编码性能因不同的提示策略而有很大差异。在本研究评估的大多数LeetCode和GeeksforGeeks编码比赛中,采用最佳提示策略的GPT-4优于85%的人类参与者。此外,GPT-4在不同编程语言之间转换代码以及从过去的错误中学习方面表现出强大的能力。GPT-4生成的代码的计算效率与人类程序员的计算效率相当。原创 2024-06-19 10:47:43 · 179 阅读 · 0 评论