
AI相关
文章平均质量分 59
静谧之心
专业摩的佬
业余吉他手
退役喷子
拍照小法师
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
PD分离与EP分离技术
在拥有Mixture of Experts (MoE) 架构的大型语言模型中,模型包含多个“专家”子网络。Expert Parallelism 是一种将这些不同的专家子网络分布到多个计算设备(例如GPU)上的并行计算技术。每个计算设备负责存储和运行模型中一部分的专家。当输入数据进入模型时,一个“门控网络”(gating network)会决定将哪些输入路由到哪些专家进行处理。只有被选中的专家会对特定的输入进行计算,最终它们的输出会被合并以产生最终结果。原创 2025-03-31 11:53:29 · 2486 阅读 · 0 评论 -
关于 DeepSeek 架构 混合专家模型MoE
在人工智能领域,大模型发展势头正猛,但也遇到了不少难题,像计算成本高、处理复杂任务能力有限等。混合专家模型(MoE)的诞生,为这些困境提供了新的解决思路。原创 2025-02-06 15:32:18 · 355 阅读 · 0 评论 -
每期一个小窍门: Goland 配置跳板机登陆并使用dlv 远程调试
本地 访问 localhost:6000 --> 转发到跳板机:22 --> 再转发到指定内网地址。好了 第一件事完毕 本地已经可以直接登陆到远程被跳机了。本机公钥 copy 到跳板机 和内网被跳机。本机 .ssh/config。原创 2024-08-15 20:52:45 · 405 阅读 · 0 评论 -
Qwen-14B-Chat 非量化微调
我选择的方案是最普遍的 lora + deepspeed +zero3 + bf16 + 单机多卡 这套通用方案。训练数据自己去弄吧 符合qwen需要的格式就行。然后找到输出目录 直接进行合并 生成新的模型。显存四卡 每张卡大概使用20g左右这样子。原创 2024-05-17 17:22:10 · 829 阅读 · 0 评论