- 博客(675)
- 收藏
- 关注
原创 Stack Overflow 流量下降了50%的真正原因
大家都说,是 ChatGPT 杀死了 Stack Overflow。表面上看,确实如此——你刚打出一半问题,AI 已经把答案端上来了。大家都说,是 ChatGPT 杀死了 Stack Overflow。表面上看,确实如此——你刚打出一半问题,AI 已经把答案端上来了。可真相没那么简单。
2025-08-11 13:44:40
381
原创 多协议协同的艺术:深度解析AgentMaster的A2A-MCP架构与工程实践
AgentMaster通过创新性地整合A2A与MCP协议,有效解决了多智能体系统在通信、协调和工具集成方面的核心挑战:1.技术创新点:作为首个同时集成A2A与MCP协议的MAS框架,AgentMaster实现了动态协调和灵活通信,为多智能体系统提供了系统性解决方案。2.性能突破:96.3%的BERTScore F1和87.1%的G-Eval得分表明系统在语义一致性和专业性方面达到了高水平,超越了传统单LLM系统的能力边界。3.应用价值。
2025-08-11 13:43:33
297
原创 揭秘大模型的魔法:实现带有可训练权重的多头自注意力机制
今天我想把这块魔术板拆开来给你看个究竟:如何把单头注意力改成多头注意力,让每个头能学会自己的注意力分布。大家好,我是写代码的中年人!自注意力(Self-Attention)是大模型里最常让人“眼花”的魔术道具:看起来只是一堆矩阵乘法和 softmax,可是组合起来就能学到“句子里谁重要、谁次要”的规则,甚至能学到某些头只盯标点、某些头专盯主谓关系。今天我想把这块魔术板拆开来给你看个究竟:如何把单头注意力改成多头注意力,让每个头能学会自己的注意力分布。
2025-08-11 13:42:11
348
原创 企业 GenAI 的最大风险以及早期使用者的经验教训
生成式人工智能已列入企业的路线图,但我们不应发布任何设计不安全的产品。LLM 改变了威胁模型:不受信任的自然语言会成为攻击面,输出可以被武器化,代理可以代表我们采取行动。我将模型视为在沙盒化、受监控且严格授权的环境中运行的不受信任的代码。主要风险显而易见。即时注入(包括隐藏在文件和网页中的间接攻击)可以覆盖策略并窃取数据。拥有过多权限的代理可能会滥用工具并执行不可逆的操作。RAG 可能会在提取或检索时中毒。隐私和 IP 可能会通过训练回溯或日志泄露。不安全的输出处理会将模型文本转换为 XSS 或代码执行。
2025-08-11 13:41:19
415
原创 GasAgent:多智能体协同打破智能合约Gas优化的“不可能三角”
GasAgent代表了一种范式转变——从单一工具到多智能体协作系统的转变。它既是一个Gas优化工具,也是一种基于多智能体的自动化软件工程范式,展示了如何通过精心设计的模块化架构和智能体间的闭环协作,解决传统方法无法兼顾的"模式兼容性"、"新颖性探索"与"自动化验证"三大难题。实验数据在一定程度上,证明了其有效性:在100个真实世界合约上,GasAgent成功优化了82个合约,平均部署Gas节省9.97%;在500个LLM生成的合约上,它优化了79.8%的合约,部署Gas节省在4.79%到13.93%之间。
2025-08-11 13:37:13
449
原创 LLM 推理新境界:多语言思考的力量
不同的语言训练数据的不同,势必造成各语言的知识偏好的不同,而模型在跨语言推理时知识迁移并没有那么丝滑。所以,这篇论文的研究在工程落地上,是具备现实参考价值的。
2025-08-11 13:35:37
432
原创 解锁大模型推理新潜能:重复采样的魔力
重复采样为大型语言模型的研究和应用带来了一系列新的启示。在模型设计方面,它让我们重新审视模型的大小和性能之间的关系。过去,人们往往认为模型越大,性能就一定越好。然而,重复采样的研究表明,一个中等规模的模型通过巧妙的采样策略和优化的验证方法,能够在某些任务上取得比大型模型更好的效果。这就像是在建筑设计中,有时候一个小而精巧的建筑反而比庞大而笨重的建筑更具实用性。在推理策略上,重复采样提供了一种全新的思路。我们不再局限于单次尝试,而是可以通过多次采样和优化,让模型在推理过程中拥有更多的灵活性和适应性。
2025-08-11 13:34:49
359
原创 面向大众的Agentic DevOps:智能SDLC的新时代
Agentic DevOps是传统DevOps的进阶形态。开发智能体:审查拉取请求,重构遗留代码,生成测试用例,根据规范实现功能并确保安全最佳实践。质量保证(QA)智能体:运行自动化测试,建议改进测试覆盖率,发现不稳定的测试,并根据上下文对错误(Bug)进行分类。代码优化/清理智能体:清除技术债务,并优化现有代码。SRE/生产智能体:监控系统、响应事件、运行诊断、提出修复方案,并自动记录后续问题。
2025-08-11 13:34:15
479
原创 开发MCP服务,何时使用工具?何时使用资源?
虽然 AI 模型本身并不将 tool:// 或 resource:// 解析为协议,但是采用这样的命名约定可以增强可读性和结构。一致的 URI 模式 (如 tool://crm/add-client 或 resource://clients/{ id}) 使生态系统可预测,并且在一些工具框架中能够得到支持。当我们朝着构建能够推理、计划和自主行动的智能系统前进时,模型上下文协议 (MCP) 在构建 AI 模型如何与外部工具和数据交互方面扮演着关键角色。
2025-08-11 13:33:33
351
原创 红队轻松越狱GPT-5,警告其“几乎无法用于企业”
Grok-4在两天内被越狱,GPT-5 在 24 小时内也落入了同一批研究人员的手中。几乎同时,SPLX(前身为 SplxAI)的红队成员宣称:“GPT-5 的原始模型几乎无法开箱即用。Grok-4在两天内被越狱,GPT-5 在 24 小时内也落入了同一批研究人员的手中。几乎同时,SPLX(前身为 SplxAI)的红队成员宣称:“GPT-5 的原始模型几乎无法开箱即用。即使是 OpenAI 的内部提示层也存在重大缺陷,尤其是在业务一致性方面。
2025-08-11 13:32:36
378
原创 LLM 记忆系统深度解析:从上下文窗口到多层架构的突破与演进
LLM的记忆系统并非单一的机制,而是由上下文窗口作为工作记忆,结合RAG实现长期记忆,通过提示压缩优化工作记忆,并借助多层记忆系统整合短期和长期记忆的复杂架构。在与大型语言模型(LLMs)交互时,我们常常会产生一种它们具备智能和记忆能力的错觉。然而,这种直觉掩盖了一个基本的工程现实:从核心来看,LLMs是无状态的,每个输入都是被独立处理的。如果想要构建一个能够进行连贯对话或调用公司知识库的LLM应用程序,就必须围绕模型设计一个复杂的记忆系统。
2025-08-11 13:31:19
275
原创 ICCV 2025 | 新型后门攻击直指Scaffold联邦学习,NTU联手0G Labs揭示中心化训练安全漏洞
本文提出了 BadSFL,这是一种专为使用 Scaffold 聚合算法的非 IID 联邦学习环境设计的新型后门攻击。通过采用基于 GAN 的数据增强技术并利用 Scaffold 的控制变元,BadSFL 在攻击有效性、隐蔽性和持久性方面均优于现有方法。我们在多个基准数据集上的实验结果表明,该攻击具有显著的有效性,且后门功能的持续时间远超已有方法。未来,我们希望研究人员能够设计出更稳健的防御机制,包括使用在去中心化环境中的可验证训练方法,以保护联邦学习系统免受此类攻击的威胁。
2025-08-11 13:30:32
613
原创 无需外部数据!AI自问自答实现推理能力进化
Lili Chen,本科毕业于加州大学伯克利分校,现博士就读于卡内基梅隆大学。,卡内基梅隆大学机器学习系计算机科学副教授,博士毕业于宾夕法尼亚大,曾在加州大学伯克利分校担任博士后研究员,并于谷歌研究院工作。Hao Liu,博士毕业于加州大学伯克利分校,曾任谷歌DeepMind研究员,即将出任卡内基梅隆大学机器学习系的助理教授。,Skild AI创始人,本科就读于印度理工学院坎普尔分校,博士毕业于加州大学伯克利分校,曾在Meta担任了一年的研究员,现任卡内基梅隆大学计算机科学学院的助理教授。
2025-08-11 13:29:55
385
原创 “还我GPT-4o”!奥特曼强推GPT-5惹怒网友,紧急公关来了
对话生硬、长文本理解不足、写作创意不够……现在的GPT-5更像是AI助手,而不是类似GPT-4o一样给予情感链接的朋友。千呼万唤始出来的特别是OpenAI一刀切替换所有模型后,反而被网友们纷纷招魂。原因无他,。对话生硬、长文本理解不足、写作创意不够……现在的GPT-5更像是AI助手,而不是类似GPT-4o一样给予情感链接的朋友。而且这也太像一声不吭就断崖式“分手”的前任了吧?一声招呼就不打,OpenAI直接关闭既往所有型号,连缓冲的时间都不给网友TT无奈之下,奥特曼只好屈服于群众的呼声,宣布。
2025-08-11 13:29:21
349
原创 代季峰陈天桥联手AGI首秀炸场!最强开源深度研究模型,GAIA测试82.4分超OpenA
MiroMind ODR(Open Deep Research),来自代季峰加盟陈天桥的技术首秀。最强开源深度研究模型来了。MiroMind ODR(Open Deep Research),来自代季峰加盟陈天桥的技术首秀。首先,它做到了性能最强,GAIA测试结果更是达到了82.4分,超过了一众开源闭源模型,其中包括Manus、OpenAI的DeepResearch。其次,它是真·全开源可复现,它的核心模型、数据、训练流程、AI Infra、DR Agent框架统统开源。
2025-08-11 13:28:46
414
原创 炸裂!Apipost离线可用+AI全栈覆盖,2s开启速度无敌了!
API开发正在被AI重写规则。过去写文档、编测试、对字段要花掉团队大量的时间,如今一句自然语言指令就能利用Apipost AI在几分钟内完成80%的重复工作:自动补全文档、生成边界测试、同步字段命名……效率不止是翻倍——更是把开发者和测试人员从繁琐中解放出来,去做真正创造业务价值的事情。
2025-08-08 13:59:45
566
原创 AI应用开发的三个挑战
无论挑战多么地难以克服,我们也不能因噎废食,放弃对AI技术的追求和拥抱。一贯以来,一个先进的IT企业或部门,都必须适当地保持IT技术的先进性甚至是领先性。虽然AI技术已经广泛应用到许多业务场景,但真正成熟且有价值的AI应用还是凤毛麟角,常见的应用主要集中在AI助手和知识库之类,虽然企业管理者也希望将AI真正嵌入到管理流程和业务流程中,但效果还有待验证。之所以如此,一方面,LLM与AI技术还有待进一步完善和提高,另一方面,大多数企业缺乏合格的AI开发人员。
2025-08-08 13:53:54
1164
原创 构建 AI 护城河的六大常见误区分析
许多团队高估了自身 AI 护城河的强度,因为他们衡量的是投入成本或某个组件的是否存在,而非实际产生的商业杠杆效应或防御能力。这篇文章是反面教材:介绍六种最常见的误区 —— 它们看似是护城河,实则因未能夯实金字塔的核心能力层,而在悄然削弱你的竞争优势。
2025-08-08 13:52:35
534
原创 AI 智能体记忆机制详解
本文所诉内容并非理论空谈,而是当前正在加速推进的现实。诸如 LangChain、LangGraph、LlamaIndex 及 CrewAI 等现代框架均已内置支持这类记忆系统 —— 从简易的缓存(buffers)到复杂的长期检索器(long-term retrievers),相关技术正以闪电般的速度迭代演进。是否总感觉你在和 AI 助手重复着同样的对话?你告诉它一些重要的事情,五分钟后,它就忘了。很长一段时间以来,这就是和大多数 AI 进行对话的现实情况。它们非常聪明,却只有金鱼般的记忆。
2025-08-08 13:51:35
935
原创 一篇120页AI4Research(科学研究AI)最新系统性综述
研究路线图绘制:对大量文献进行清理、整合,描绘研究主题的发展轨迹。例如,CHIME通过迭代人类-AI协作细化LLM生成的结构;HiReview使用多层树结构进行系统知识组织;SurveyEval提供层次化标题树,用于评估综述生成的分布和引用准确性。章节级相关工作生成:生成相关工作章节,与实际论文结构对齐。文档级调查生成:自动生成系统性文献综述。例如,AutoSurvey通过提示词引导LLM完成阶段性生成过程;
2025-08-08 13:50:55
770
原创 一篇120页AI4Research(科学研究AI)最新系统性综述
研究路线图绘制:对大量文献进行清理、整合,描绘研究主题的发展轨迹。例如,CHIME通过迭代人类-AI协作细化LLM生成的结构;HiReview使用多层树结构进行系统知识组织;SurveyEval提供层次化标题树,用于评估综述生成的分布和引用准确性。章节级相关工作生成:生成相关工作章节,与实际论文结构对齐。文档级调查生成:自动生成系统性文献综述。例如,AutoSurvey通过提示词引导LLM完成阶段性生成过程;
2025-08-08 13:47:55
674
原创 Self-Play Critic:以“对抗博弈”创新大语言模型推理评估
SPC(Self-Play Critic)是一种新颖的方法,它的核心思想是让两个模型:“误导生成器”(sneaky generator)和“评判器”(critic),相互对抗、共同进化。我们可以把这想象成一场智力游戏。误导生成器就像是一个捣蛋鬼,它的任务是故意制造错误,而且这些错误还要尽量隐蔽,能够骗过评判器。评判器则像是一个侦探,它的任务是仔细分析推理步骤,判断这些步骤是否正确,找出其中的错误。这两个模型可以分别由两个相同的基模型微调而来。
2025-08-08 13:46:44
490
原创 CIO衡量AI价值时需要知道的要点
由于AI正迅速成为CIO的首要任务,那么,对于CIO来说,了解AI的价值所在、如何衡量这一价值,以及哪些指标对公司有意义,就显得至关重要。一方面,有大量信息表明AI项目的失败率很高,另一方面,同样有大量调查显示,即便不是大多数,也有许多企业已经从AI投资中获得了正向商业效益和投资回报。
2025-08-08 13:46:11
868
原创 从GPT-OSS谈谈大模型算法和Infra演进
总体来看, 这次CloseAI再次Open带来了不少变化, 这些变化似乎又给Infra赏了一口饭吃. 模型-系统-硬件的协同又有好多活干了~ 还有一些gpt-oss-mcp-server和tools的API挺有趣的, 后面再花时间学习吧!
2025-08-08 13:45:40
1013
原创 IT职业趋势:五大升温领域与五大遇冷方向
尽管自动化将接管那些曾被视为IT基石的任务,但领导者表示,这一转变将为那些愿意融合AI、云平台、数据分析和安全技术来解决问题和创新的人创造机会。技术发展日新月异,这虽是老生常谈,但专家表示,IT领域的AI集成让人联想到互联网早期——那时,适应者脱颖而出,不适应者则被甩在后面。普华永道近期对CIO和CTO的调查显示:“技术领导者正面临着真正的不确定性——他们不确定团队是否具备未来技术所需的技能,甚至不确定自己是否知道如何运用这些技术,要想取得长期成功,人类和技术必须共同进化。
2025-08-08 13:44:57
797
原创 刚刚!GPT-5正式发布,更快、更强、更智能,人人都能免费用!
GPT‑5,不只是更强了,而是更“像个会思考的人”。如果说 GPT‑4o 是那个反应敏捷、表达清晰的聪明助手,GPT‑5 更像是你值得信赖的搭档。你问一句「这事能搞定吗?它会默默点头,然后开始分析、分步骤推进,直到把事情办妥。
2025-08-08 13:43:44
710
原创 使用 Apache DolphinScheduler 构建和部署大数据平台,将任务提交至 AWS 的实践经验
刚才说了很多,但实际对于用户来说操作其实比较简单,整个申请的流程那些都其实都是一次性的工作,为了进一步提高 Apache DolphinScheduler 在 AWS 环境中的用户体验,我们采取了一系列措施来简化操作流程和增强资源同步功能。针对这种情况,我们给任务设置了定期重启,同时设置了对应的监控,如果 AWS 的账号在未到过期时间之内出现了问题,那么就需要通知到我们相应的开发人员,去做一些处理。随着业务的扩展和数据政策的需求,我们面临必须在不同地区运行数据任务的挑战。
2025-08-07 13:50:13
281
原创 MCP不止工具调用!MCP联合创建者:绝大多数人用法都太初级!曝MCP五大原语、高阶玩法:丰富人机交互体验;MCP的未来在Web
Prompt(用户主动)Resource(应用主动)Tool(模型主动)Sampling(客户端协助补全)Roots(客户端环境交互)如何将它们组合,是构建强大 AI 服务体验的关键。图片。
2025-08-07 13:48:21
324
原创 谷歌发起的 AI 象棋赛首日战况:Grok 统治全场,Kimi 违规四连败,Claude 迷失残局!
合法走子频频出错。不仅仅是“不会”,而是“记不得”。Kimi k2在每盘中失败的方式几乎完全一样:连续四次下出非法走子。在Google旗下Kaggle平台主办的“棋局竞技场”中,一场AI国际象棋比赛正在展开。参与者不是Stockfish或AlphaZero这样的专业引擎,而是:Grok 4、Gemini 2.5 Pro、o4-mini、o3、Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash和Kimi k2。比赛规则简单直接——单败淘汰制。
2025-08-07 13:47:37
229
原创 AI Agent原生企业有哪些发展趋势与机遇
AI技术驱动的大模型与Agent生态正处于“创造性破坏”的关键期,产业格局的动荡既是技术跃迁的必然结果,也是新势力崛起的战略窗口。随着技术成熟与应用场景拓展,以智能Agent为核心构建业务流程、组织架构与产品服务的原生企业将会迎来一个高速增长期——这些企业将崛起于各行各业,并展现出高度的敏捷性、自适应性与创新能力,成为引领产业变革的新兴主体。未来,Agent原生企业将会有哪些发展趋势与机遇呢?AI Agent原生企业的趋势和机遇。
2025-08-07 13:46:50
487
原创 LLM 语境压缩中的整合、总结与提炼:差异、应用与实践策略
在 LLM 语境压缩的语境中,整合、总结与提炼各自有着清晰的边界和目标。这些定义不仅反映了它们在操作方式上的差异,更揭示了其背后对“信息价值”的不同理解。整合的核心是“融合与重组”。它指将多个分散的信息元素组合成一个连贯、统一的整体。在 LLM 应用中,整合需要从对话历史中聚合零散的信息片段,转化为结构化、全面的表述。这一过程通常保留大部分原始细节,但会通过重新组织使其更具逻辑性。
2025-08-07 13:46:18
794
原创 小红书 hi lab 开源多模态大模型 dots.vlm1,效果接近闭源 SoTA 模型
我们很高兴地介绍dots.vlm1,这是 dots 模型家族中的首个视觉语言模型。dots.vlm1 构建于一个 12 亿参数的视觉编码器和 DeepSeek V3 大语言模型(LLM)之上,具备强大的多模态理解与推理能力。模型亮点NaViT 视觉编码器:没有基于成熟视觉编码器进行微调,完全从零开始训练,原生支持动态分辨率。同时在文本监督上增加纯视觉监督,提升感知能力上限。
2025-08-07 13:44:38
867
原创 GPT-5 的可读性革命,从博弈到智能体的跃迁
PVG 的实验结果令人振奋,但也存在一定的异构性与敏感性。研究者在不同任务、不同模型规模、不同训练数据上进行测试,发现效果并不完全一致。GPT-5 发布在即,根据奥特曼在内部演示中首次披露的 GPT-5 实测数据,这一代模型不仅具备高达 256K 的上下文窗口,还展现出惊人的数学与编程能力。更令人瞩目的是其“智能模式切换”能力——在深度推理与快速响应之间自由切换,仿佛具备了某种“元认知”能力。
2025-08-07 13:43:37
863
原创 AI倦怠:CIO们面临的新挑战
随着AI融入职场,其对员工心理健康的影响日益凸显,这不仅是人力资源领域的问题,IT部门的领导也必须采取积极措施,预防因AI应用而导致的职业倦怠。在现实应用与炒作之间,AI已成为科技趋势讨论的焦点。世界经济论坛《未来就业报告》指出,AI是未来五年影响企业转型的主要技术趋势。在讨论使用这些工具时,特别是随着GenAI的快速扩张,人们经常提到其优势:消除重复性工作、提高员工生产力、助力制定战略。
2025-08-07 13:42:49
949
原创 MCP为何重要?又该如何保障其安全?
作为一种通用协议,MCP能够将智能体应用与现实世界的数据和工具连通,成功解决上述局限。但既然我们已经拥有一众安全且高性能的API,那为什么还要引入新的协议?译者 | 核子可乐审校 | 重楼每种新协议都会带来相应的复杂性,因此若无必要、勿增新协议。但模型上下文协议(MCP)无疑很有必要。作为一种通用协议,MCP能够将智能体应用与现实世界的数据和工具连通,成功解决上述局限。但既然我们已经拥有一众安全且高性能的API,那为什么还要引入新的协议?
2025-08-07 13:41:23
742
原创 Git工作面试必知必会操作-命令行篇
一种记录一个或若干文件内容变化,以便将来查阅特定版本修订情况的系统。开发中,我们仅对保存着软件源代码的文本文件作版本控制管理,但实际可对任何类型的文件进行版本控制。采用版本控制系统,可将某个文件回溯到之前状态,甚至将整个项目都回退到过去某个时间点的状态。可比较文件的变化细节,查出最后谁修改了啥地方,找出导致怪异问题出现的原因,又是谁在何时报告某功能缺陷等。使用版本控制系统通常还意味着,就算你乱来一气把整个项目中的文件改的改删的删,你也照样可恢复如初,额外增加的工作量微乎其微!
2025-08-07 13:40:20
511
原创 CodeGeeX体验GLM4.5模型与实践
背景各模型概要性能评估看那些右箭头,就是动态注释,没有真实写入文件代码BUG修复总体一般,没有智能体的特色,只有CodeGeeX问答模式。增加注释速度快,但不生成方法头部的注释解释代码文字解释后,生成了流程图实战代码扩展性修改PK提示词@workspace #codebase 此处,我们使用类强制转换为RedisVectorStore类,如何避免直接依赖实现类RedisVectorStore, 修改为优雅代码实现IDEA+GLM4.5 符合OOP思想,面向接口编程思想。
2025-08-06 14:05:35
1027
原创 GLM4.5在线版快速开发实践
背景GLM(General Language Model,通用语言模型)是大语言模型(LLM)的一种技术路线,以支持多模态、长文本理解和复杂推理为特点。GLM4.5的代码生成能力基于对海量代码语料(如GitHub开源项目、技术文档、问答社区)的学习,支持(Python、Java、C++、JavaScript、Go、SQL等)及(Web开发、算法实现、数据处理、脚本编写等)。Lovable项目服务是一个集成了多种开发工具和部署选项的Web开发平台,旨在简化项目的编辑和部署流程。
2025-08-06 14:03:56
554
原创 关于生成式AI对软件工程相关职业影响
软件工程师的高于生成式AI对软件工程师的影响呈现最可能的发展路径是形成"人-AI协作"的新型软件开发模式,其中工程师专注于高阶设计、业务理解和复杂问题解决,而AI处理重复性编码任务和技术文档工作。
2025-08-06 14:02:50
898
原创 百度Comate的AI编程工具小试
背景Zulu智能体提示词依然重要自动修改代码需要发出patch_file指令/调优建议选择上下文件,输入 “/调优建议”大型工程OOP分析提示词来自《》,发现5000个JAVA文件,但实际上只分析了120个代码索引需要手动构建对于超长上下会自动切割与停止我们命令其生成markdown文档突然重启了生成zip文件,文件是损坏的前端js文件统计结论百度Comate工具看上去不太稳定,百度内置大模型一直以后都是鸡肋,只能做其他模型与工具不可用时辅助。
2025-08-06 14:02:12
705
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人