- 博客(947)
- 收藏
- 关注
原创 【模型架构】从GPT-2到gpt-oss:大语言模型架构的十年演进
简单而有效的改进胜过颠覆性创新:大多数进步来自对现有组件的优化,而非全新架构实用主义驱动设计:gpt-oss的MXFP4量化等创新解决了实际部署问题灵活性成为新标准:可配置推理级别代表了LLM架构的新范式正如原文所言:“这些实验室之间存在显著的员工流动。我们仍未找到比Transformer架构更好的替代方案。大多数收益可能来自数据和算法调整,而非主要架构变更。gpt-oss不仅是技术进步的产物,更是架构演进哲学的体现——在保持核心稳定的同时,持续优化细节以适应实际需求。
2025-08-13 06:24:20
46
原创 【模型讲解】理解与编码LLM中的自注意力、多头注意力、因果注意力和交叉注意力
自注意力机制不仅是技术细节,更代表了AI理解世界的一种新范式——通过分析元素间的关系来获取意义。当我们与大模型对话时,背后是无数"注意力头"在默默工作,分析词语间的千丝万缕,试图捕捉人类语言的精髓。下一次,当你惊叹于AI的"聪明"时,不妨想想这个精妙的机制——它让机器第一次真正"理解"了我们的语言,尽管这种理解仍与人类的意识相去甚远。正如一位研究者所言:“自注意力不是魔法,但它是通往智能的重要一步。思考题:如果AI能通过自注意力理解语言关系,它是否也能理解人与人之间的情感联系?
2025-08-09 09:43:01
26
原创 【模型架构】从DeepSeek-V3到Kimi K2,八种大型语言模型架构对比
本文系统性梳理了2025年主流开源LLM的架构创新,涵盖从DeepSeek-V3到Kimi K2的代表性设计。稀疏化与专家系统混合专家系统(MoE):DeepSeek-V3(671B)、Llama 4 Maverick(400B)、Qwen3(235B)均采用MoE架构,通过激活部分专家(如DeepSeek的9专家/2048隐藏层,Llama 4的2专家/8192隐藏层)平衡计算效率与模型容量。动态路由。
2025-08-09 06:22:09
217
原创 【Qwen2.5-VL实战】Qwen2.5-VL识别万物,以及物体的相关属性、大小、形状等,并对识别结果做可视化
我用Qwen2.5-VL多模态模型做了一个识别万物的认为,并将结果解析,画在图片上。
2025-07-23 07:27:30
223
原创 【Qwen2.5-VL环境搭建】Qwen2.5-VL环境搭建中的坑
Qwen刚出来的时候,没有发现环境搭建有坑,随着各个模型的更新,发现官方给的安装教程出现了问题。
2025-07-23 06:37:43
208
原创 【Kimi K2技术报告翻译】KIMI K2:开放式的智能体(Agentic)人工智能
我们推出Kimi K2,这是一款包含320亿激活参数和总计1万亿参数的专家混合(Mixture-of-Experts,MoE)大型语言模型。我们提出了MuonClip优化器,该优化器在Muon的基础上采用了一种新颖的QKQKQK-clip技术,以解决训练不稳定问题,同时保持Muon先进的令牌效率。基于MuonClip,K2在15.5万亿个令牌上进行了预训练,且未出现任何损失峰值。
2025-07-23 06:08:34
127
原创 YoloV8改进策略:Loss改进|GWD Loss|旋转目标改进|基于高斯瓦瑟斯坦距离损失函数重新思考旋转目标检测
论文精辟地总结了旋转目标检测面临的三大挑战:📏 指标与损失不一致性🌀 边界不连续性⬜ 类矩形问题https://arxiv.org/pdf/2101.11952边界不连续性及其与最终检测指标的不一致性,一直是旋转检测回归损失设计的瓶颈。在本文中,我们提出了一种基于高斯 Wasserstein 距离的新型回归损失,作为解决该问题的基本方法。具体而言,将旋转边界框转换为二维高斯分布,这样就能够利用可通过梯度反向传播高效学习的高斯 Wasserstein 距离(GWD)来近似不可微分的旋转交并比(IoU)诱
2025-06-29 21:10:15
112
原创 YoloV11改进策略:Loss改进|GWD Loss|旋转目标改进|基于高斯瓦瑟斯坦距离损失函数重新思考旋转目标检测
边界不连续性及其与最终检测指标的不一致性,一直是旋转检测回归损失设计的瓶颈。在本文中,我们提出了一种基于高斯 Wasserstein 距离的新型回归损失,作为解决该问题的基本方法。具体而言,将旋转边界框转换为二维高斯分布,这样就能够利用可通过梯度反向传播高效学习的高斯 Wasserstein 距离(GWD)来近似不可微分的旋转交并比(IoU)诱导损失。即使两个旋转边界框之间没有重叠(这在小目标检测中很常见),GWD 仍能为学习提供有效信息。
2025-06-29 12:55:37
260
原创 YoloV12改进策略:Loss改进|GWD Loss|旋转目标改进|基于高斯瓦瑟斯坦距离损失函数重新思考旋转目标检测
论文精辟地总结了旋转目标检测面临的三大挑战:📏 指标与损失不一致性🌀 边界不连续性⬜ 类矩形问题https://arxiv.org/pdf/2101.11952边界不连续性及其与最终检测指标的不一致性,一直是旋转检测回归损失设计的瓶颈。在本文中,我们提出了一种基于高斯 Wasserstein 距离的新型回归损失,作为解决该问题的基本方法。具体而言,将旋转边界框转换为二维高斯分布,这样就能够利用可通过梯度反向传播高效学习的高斯 Wasserstein 距离(GWD)来近似不可微分的旋转交并比(IoU)诱
2025-06-29 11:47:34
320
原创 YoloV12改进策略:Loss改进|GWD Loss|基于高斯瓦瑟斯坦距离损失函数重新思考旋转目标检测
边界不连续性及其与最终检测指标的不一致性,一直是旋转检测回归损失设计的瓶颈。在本文中,我们提出了一种基于高斯 Wasserstein 距离的新型回归损失,作为解决该问题的基本方法。具体而言,将旋转边界框转换为二维高斯分布,这样就能够利用可通过梯度反向传播高效学习的高斯 Wasserstein 距离(GWD)来近似不可微分的旋转交并比(IoU)诱导损失。即使两个旋转边界框之间没有重叠(这在小目标检测中很常见),GWD 仍能为学习提供有效信息。
2025-06-29 09:24:22
75
原创 【大模型实战】微调Qwen2.5 VL模型,增强目标检测任务。
图像处理:将图像调整为固定尺寸坐标转换:同步调整边界框坐标格式转换:生成Qwen2.5-VL兼容的JSONL格式错误处理:记录处理失败的文件。
2025-06-25 13:28:49
788
原创 【大模型实战】基于Qwen2.5-VL模型的出租车自动标注解决方案
本文将介绍一种利用Qwen2.5-VL多模态大模型实现出租车自动标注的创新方法。该方案通过自然语言指令引导模型识别图像中的出租车,并生成标准化的Labelme格式标注文件。
2025-06-24 13:19:28
235
原创 YoloV11改进策略:Loss改进|GWD Loss|基于高斯瓦瑟斯坦距离损失函数重新思考旋转目标检测
边界不连续性及其与最终检测指标的不一致性,一直是旋转检测回归损失设计的瓶颈。在本文中,我们提出了一种基于高斯 Wasserstein 距离的新型回归损失,作为解决该问题的基本方法。具体而言,将旋转边界框转换为二维高斯分布,这样就能够利用可通过梯度反向传播高效学习的高斯 Wasserstein 距离(GWD)来近似不可微分的旋转交并比(IoU)诱导损失。即使两个旋转边界框之间没有重叠(这在小目标检测中很常见),GWD 仍能为学习提供有效信息。
2025-06-22 05:51:52
179
3
原创 YoloV8改进策略:Loss改进|GWD Loss|基于高斯瓦瑟斯坦距离损失函数重新思考旋转目标检测
论文精辟地总结了旋转目标检测面临的三大挑战:📏 指标与损失不一致性🌀 边界不连续性⬜ 类矩形问题https://arxiv.org/pdf/2101.11952边界不连续性及其与最终检测指标的不一致性,一直是旋转检测回归损失设计的瓶颈。在本文中,我们提出了一种基于高斯 Wasserstein 距离的新型回归损失,作为解决该问题的基本方法。具体而言,将旋转边界框转换为二维高斯分布,这样就能够利用可通过梯度反向传播高效学习的高斯 Wasserstein 距离(GWD)来近似不可微分的旋转交并比(IoU)诱
2025-06-21 17:58:23
564
原创 YoloV12改进策略:卷积篇|风车卷积|即插即用
近年来,基于卷积神经网络(CNN)的红外小目标检测方法取得了卓越的性能。然而,这些方法通常采用标准卷积,忽略了红外小目标像素分布的空间特性。因此,我们提出了一种新型的风车形卷积(PConv)来替代骨干网络下层的标准卷积。PConv 更好地契合了微弱小目标像素的高斯空间分布,增强了特征提取能力,显著增大了感受野,并且参数增加量极少。此外,虽然最近的损失函数结合了尺度损失和位置损失,但它们没有充分考虑这些损失在不同目标尺度下的敏感性差异,这限制了在微弱小目标上的检测性能。
2025-06-18 17:43:50
145
原创 YoloV12改进策略:Block改进|EBlock,快速傅里叶变换(FFT)增强输入图像的幅度|即插即用|CVPR2025
标题: DarkIR: Robust Low-Light Image Restoration作者: Daniel Feijoo, Juan C. Benito, Alvaro Garcia, Marcos Conde论文链接:https://arxiv.org/pdf/2412.13443GitHub链接:https://github.com/cidautai/DarkIR。
2025-06-16 09:38:23
664
原创 YoloV11改进策略:Block改进|EBlock,快速傅里叶变换(FFT)增强输入图像的幅度|即插即用|CVPR2025
标题: DarkIR: Robust Low-Light Image Restoration作者: Daniel Feijoo, Juan C. Benito, Alvaro Garcia, Marcos Conde论文链接:https://arxiv.org/pdf/2412.13443GitHub链接:https://github.com/cidautai/DarkIR。
2025-06-16 09:37:53
555
原创 YoloV8改进策略:Block改进|EBlock,快速傅里叶变换(FFT)增强输入图像的幅度|即插即用|CVPR2025
标题: DarkIR: Robust Low-Light Image Restoration作者: Daniel Feijoo, Juan C. Benito, Alvaro Garcia, Marcos Conde论文链接:https://arxiv.org/pdf/2412.13443GitHub链接:https://github.com/cidautai/DarkIR。
2025-06-16 09:37:14
967
原创 YoloV12改进策略:激活函数改进:B-SiLU,最新激活函数|即插即用|涨点神器|独家复现
B-SiLUxxα⋅σx−α2α1.67B-SiLUxxα⋅σx−2αα1.67其中 (\sigma(x)) 为 Sigmoid 函数。B-SiLU 的核心价值作为 SUGAR 框架的最优替代梯度函数,平衡了梯度平滑性与激活有界性。在保留 ReLU 稀疏前向的同时,彻底解决了梯度消失与神经元死亡问题。SUGAR 的普适性在 VGG/ResNet 等传统模型中显著提升性能(最高 +15.74%
2025-06-15 17:31:37
384
原创 Yolo11改进策略:激活函数改进:B-SiLU,最新激活函数|即插即用|涨点神器|独家复现
B-SiLUxxα⋅σx−α2α1.67B-SiLUxxα⋅σx−2αα1.67其中 (\sigma(x)) 为 Sigmoid 函数。B-SiLU 的核心价值作为 SUGAR 框架的最优替代梯度函数,平衡了梯度平滑性与激活有界性。在保留 ReLU 稀疏前向的同时,彻底解决了梯度消失与神经元死亡问题。SUGAR 的普适性在 VGG/ResNet 等传统模型中显著提升性能(最高 +15.74%
2025-06-15 17:31:06
364
原创 YoloV8改进策略:激活函数改进|B-SiLU,最新激活函数|即插即用|涨点神器|独家复现
B-SiLUxxα⋅σx−α2α1.67B-SiLUxxα⋅σx−2αα1.67其中 (\sigma(x)) 为 Sigmoid 函数。B-SiLU 的核心价值作为 SUGAR 框架的最优替代梯度函数,平衡了梯度平滑性与激活有界性。在保留 ReLU 稀疏前向的同时,彻底解决了梯度消失与神经元死亡问题。SUGAR 的普适性在 VGG/ResNet 等传统模型中显著提升性能(最高 +15.74%
2025-06-15 17:30:44
302
原创 YoloV12改进策略:Block改进|MKP,多尺度卷积核级联结构,增强感受野适应性|即插即用|AAAI 2025
FBRT-YOLO通过特征互补映射模块(FCM)与多内核感知单元(MKP)的创新设计,解决了航拍图像检测中小目标信息丢失和多尺度适应性不足的核心问题。理论层面:提出空间-语义信息互补映射机制,缓解深层网络位置信息衰减问题;工程层面:轻量化设计(参数量最高降74%)满足嵌入式设备实时需求;应用层面:在Visdrone等数据集上AP提升1.1-2.3%,为无人机安防、灾害监测提供高效解决方案。
2025-06-15 15:48:14
484
原创 Yolo11改进策略:Block改进|MKP,多尺度卷积核级联结构,增强感受野适应性|即插即用|AAAI 2025
FBRT-YOLO通过特征互补映射模块(FCM)与多内核感知单元(MKP)的创新设计,解决了航拍图像检测中小目标信息丢失和多尺度适应性不足的核心问题。理论层面:提出空间-语义信息互补映射机制,缓解深层网络位置信息衰减问题;工程层面:轻量化设计(参数量最高降74%)满足嵌入式设备实时需求;应用层面:在Visdrone等数据集上AP提升1.1-2.3%,为无人机安防、灾害监测提供高效解决方案。
2025-06-15 07:15:33
283
原创 YoloV8改进策略:Block改进|MKP,多尺度卷积核级联结构,增强感受野适应性|即插即用|AAAI 2025
FBRT-YOLO通过特征互补映射模块(FCM)与多内核感知单元(MKP)的创新设计,解决了航拍图像检测中小目标信息丢失和多尺度适应性不足的核心问题。理论层面:提出空间-语义信息互补映射机制,缓解深层网络位置信息衰减问题;工程层面:轻量化设计(参数量最高降74%)满足嵌入式设备实时需求;应用层面:在Visdrone等数据集上AP提升1.1-2.3%,为无人机安防、灾害监测提供高效解决方案。
2025-06-15 07:14:38
534
原创 YoloV12实战:手把手教你实现YoloV12的训练、测试
YOLOv12 首次在 YOLO 框架中成功集成注意力机制,通过和技术,在保持实时推理速度(如 YOLOv12-N 仅需 1.64ms)的同时显著提升精度(40.6% mAP)。其创新设计解决了传统注意力机制的二次计算复杂度和内存访问效率问题,使注意力模型在实时检测中首次超越 CNN 架构(如 YOLOv10-N 精度提升 2.1%)。通过优化梯度流与特征聚合,结合等精简设计,大幅降低计算开销(如 YOLOv12-S 的 FLOPs 仅为 RT-DETR-R18 的 36%)。
2025-06-15 07:11:36
151
原创 python实战:多线程队列系统设计:生产者-消费者模型
高效任务分发:通过队列系统解耦生产消费资源隔离:专属队列避免任务干扰弹性伸缩:动态调整生产者/消费者数量线程安全:Queue内置锁机制保障。
2025-06-14 07:48:10
56
原创 python实战:使用Python合并PDF文件
本文介绍的核心代码虽然只有不到10行,却解决了PDF处理中最常见的需求。简单易用:基础功能无需复杂学习曲线深度可控:支持从基础合并到高级操作的平滑过渡生态丰富:可与PyMuPDF等库配合实现OCR等高级功能。
2025-06-14 07:37:51
147
原创 Yolo11改进策略:Block改进|FCM,特征互补映射模块|AAAI 2025|即插即用
FBRT-YOLO通过特征互补映射模块(FCM)与多内核感知单元(MKP)的创新设计,解决了航拍图像检测中小目标信息丢失和多尺度适应性不足的核心问题。理论层面:提出空间-语义信息互补映射机制,缓解深层网络位置信息衰减问题;工程层面:轻量化设计(参数量最高降74%)满足嵌入式设备实时需求;应用层面:在Visdrone等数据集上AP提升1.1-2.3%,为无人机安防、灾害监测提供高效解决方案。
2025-06-09 19:10:16
1301
3
原创 YoloV8改进策略:Block改进|FCM,特征互补映射模块|AAAI 2025|即插即用
FBRT-YOLO通过特征互补映射模块(FCM)与多内核感知单元(MKP)的创新设计,解决了航拍图像检测中小目标信息丢失和多尺度适应性不足的核心问题。理论层面:提出空间-语义信息互补映射机制,缓解深层网络位置信息衰减问题;工程层面:轻量化设计(参数量最高降74%)满足嵌入式设备实时需求;应用层面:在Visdrone等数据集上AP提升1.1-2.3%,为无人机安防、灾害监测提供高效解决方案。
2025-06-09 19:09:13
1009
原创 YOLOv12:以注意力为中心的实时目标检测器
长期以来,改进YOLO框架的网络架构一直是研究重点,但主要集中在基于CNN的改进上,尽管注意力机制已被证明在建模能力上具有显著优势。这是因为基于注意力的模型在速度上无法与基于CNN的模型相媲美。本文提出了一种以注意力为核心的YOLO框架——,它在保持与先前基于CNN模型相当速度的同时,充分利用了注意力机制的性能优势。YOLOv12在精度上超越了所有流行的实时目标检测器,同时保持了具有竞争力的速度。例如,YOLOv12-N在T4 GPU上以1.64毫秒的推理延迟实现了40.6%mAP。
2025-06-09 06:17:35
85
原创 YoloV12改进策略:Block改进|TAB,融合组内自注意力(IASA)和组间交叉注意力(IRCA)|即插即用
本文提出了一种新颖的轻量级图像超分辨率网络,称为内容感知令牌聚合网络(CATANet)。该网络旨在解决基于Transformer的方法在高空间分辨率下的计算复杂度问题。CATANet通过高效的内容感知令牌聚合模块(CATA)来捕捉长距离依赖关系,同时保持高推理速度。CATANet的整体架构包括三个主要模块:组内自注意力(IASA)组间交叉注意力(IRCA)令牌聚合块(Token-Aggregation Block, TAB)令牌聚合块(Token-Aggregation Block, TAB)是其核心组件,
2025-06-07 06:43:00
813
原创 YoloV10改进策略:Block改进|TAB,融合组内自注意力(IASA)和组间交叉注意力(IRCA)|即插即用
本文提出了一种新颖的轻量级图像超分辨率网络,称为内容感知令牌聚合网络(CATANet)。该网络旨在解决基于Transformer的方法在高空间分辨率下的计算复杂度问题。CATANet通过高效的内容感知令牌聚合模块(CATA)来捕捉长距离依赖关系,同时保持高推理速度。CATANet的整体架构包括三个主要模块:组内自注意力(IASA)组间交叉注意力(IRCA)令牌聚合块(Token-Aggregation Block, TAB)令牌聚合块(Token-Aggregation Block, TAB)是其核心组件,
2025-06-07 06:42:29
394
原创 YoloV9改进策略:Block改进|TAB,融合组内自注意力(IASA)和组间交叉注意力(IRCA)|即插即用
本文提出了一种新颖的轻量级图像超分辨率网络,称为内容感知令牌聚合网络(CATANet)。该网络旨在解决基于Transformer的方法在高空间分辨率下的计算复杂度问题。CATANet通过高效的内容感知令牌聚合模块(CATA)来捕捉长距离依赖关系,同时保持高推理速度。CATANet的整体架构包括三个主要模块:组内自注意力(IASA)组间交叉注意力(IRCA)令牌聚合块(Token-Aggregation Block, TAB)令牌聚合块(Token-Aggregation Block, TAB)是其核心组件,
2025-06-06 07:05:58
626
原创 YoloV8改进策略:Block改进|TAB,融合组内自注意力(IASA)和组间交叉注意力(IRCA)|即插即用
本文提出了一种新颖的轻量级图像超分辨率网络,称为内容感知令牌聚合网络(CATANet)。该网络旨在解决基于Transformer的方法在高空间分辨率下的计算复杂度问题。CATANet通过高效的内容感知令牌聚合模块(CATA)来捕捉长距离依赖关系,同时保持高推理速度。CATANet的整体架构包括三个主要模块:组内自注意力(IASA)组间交叉注意力(IRCA)令牌聚合块(Token-Aggregation Block, TAB)令牌聚合块(Token-Aggregation Block, TAB)是其核心组件,
2025-06-06 07:05:08
573
原创 Yolo11改进策略:Block改进|LRSA,局部区域自注意力|即插即用|代码详解|全网首发|完整代码
本文提出了一种新颖的轻量级图像超分辨率网络,称为内容感知令牌聚合网络(CATANet)。该网络旨在解决基于Transformer的方法在高空间分辨率下的计算复杂度问题。CATANet通过高效的内容感知令牌聚合模块(CATA)来捕捉长距离依赖关系,同时保持高推理速度。论文提出LRSA模块,是一种局部区域自注意力模块,我使用它来改进Yolo11,取得了不错的效果。CATANet的整体架构包括三个主要模块:在CATANet模型中,**局部区域自注意力(Local-Region Self-Attention, LR
2025-06-05 07:14:29
775
原创 YoloV10改进策略:Block改进|LRSA,局部区域自注意力|即插即用|代码详解|全网首发|完整代码
通过网盘分享的文件:YoloV8改进策略:Block改进-LRSA,局部区域自注意力-即插即用-代码详解-全网首发-完整代码链接: https://pan.baidu.com/s/1wEOU1-yAEhkfNHhxHKcMeg?pwd=2shr 提取码: 2shr--来自百度网盘超级会员v3的分享。
2025-06-05 06:56:59
114
原创 YoloV9改进策略:Block改进|LRSA,局部区域自注意力|即插即用|代码详解|全网首发|完整代码
通过网盘分享的文件:YoloV8改进策略:Block改进-LRSA,局部区域自注意力-即插即用-代码详解-全网首发-完整代码链接: https://pan.baidu.com/s/1wEOU1-yAEhkfNHhxHKcMeg?pwd=2shr 提取码: 2shr--来自百度网盘超级会员v3的分享。
2025-06-05 06:31:46
82
原创 YoloV8改进策略:Block改进|LRSA,局部区域自注意力|即插即用|代码详解|全网首发|完整代码
本文提出了一种新颖的轻量级图像超分辨率网络,称为内容感知令牌聚合网络(CATANet)。该网络旨在解决基于Transformer的方法在高空间分辨率下的计算复杂度问题。CATANet通过高效的内容感知令牌聚合模块(CATA)来捕捉长距离依赖关系,同时保持高推理速度。论文提出LRSA模块,是一种局部区域自注意力模块,我使用它来改进YoloV8,取得了不错的效果。CATANet的整体架构包括三个主要模块:在CATANet模型中,**局部区域自注意力(Local-Region Self-Attention, LR
2025-06-04 06:38:58
366
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人