绕过CUDA框架?DeepSeek或准备适配中国产GPU

送交者: gonewithsmoke [★★★★声望勋衔17★★★★] 于 2025-02-04 9:43 已读 2123 次 大字阅读 繁体阅读

深度求索(DeepSeek)开发大语言模型时,据传「绕过」了辉达的技术护城河CUDA框架,能让训练模型速度加快。 (路透数据照)

近期引发各界关注的中国AI新创公司深度求索(DeepSeek),外媒指出,其研发大语言模型时,或绕过了美国人工智能巨头辉达的CUDA框架,为DeepSeek在未来适配中国国产芯片做好准备。

新加坡《联合早报》3日报导,由辉达开发的软硬件集成技术「统一运算架构」(Compute Unified Device Architecture,CUDA)是一种通用程序框架,允许开发者利用辉达的图形处理器(GPU)进行运算。

报导指,由于CUDA大幅降低了研发大模型的难度,因此全球大模型开发商,都倾向于选择使用辉达的CUDA技术,助力辉达占据全球人工智能领域的垄断地位。

不过,美国科技网站Tom's Hardware报导,指模型建构的效率比Meta等巨头高出10倍以上,引述南韩未来资产证券一位分析师谈DeepSeek技术的文章形容,「他们从头开始重建了一切」。

该分析指出,DeepSeek在使用辉达的H800芯片进行训练时,使用了辉达的底层硬件指令PTX(Parallel Thread Execution)语言,而不是高端编程语言CUDA。

由于CUDA是通用型程序框架,会导致训练模型时损失一些弹性。中国网媒「快科技」分析,DeepSeek的做法相当于绕过了硬件对训练速度的限制,意味着其他模型需要训练10天,而DeepSeek只需要5天。然而,这种编程非常复杂、难以维护,业界通用的做法是使用CUDA这类高端编程语言。

快科技与腾讯网引述的消息人士指出,DeepSeek内部拥有一些擅长写PTX语言的内部开发者,假如DeepSeek未来有意改适配中国中国国产的GPU,在硬件适配方面将会更得心应手。

喜欢gonewithsmoke朋友的这个帖子的话,👍 请点这里投票,"赞" 助支持!

[举报反馈] [ gonewithsmoke的个人频道 ] [-->>参与评论回复] [用户前期主贴] [手机扫描浏览分享] [返回电脑前线首页]

帖子内容是网友自行贴上分享,如果您认为其中内容违规或者侵犯了您的权益,请与我们联系,我们核实后会第一时间删除。

所有跟帖: (主贴被主有权删除不文明回复,拉黑不受欢迎的用户)

打开微信,扫一扫[Scan QR Code]

进入内容页点击屏幕右上分享按钮

楼主本月热帖推荐:

    >>>查看更多帖主社区动态...