深度求索(DeepSeek)开发大语言模型时,据传「绕过」了辉达的技术护城河CUDA框架,能让训练模型速度加快。 (路透数据照) 近期引发各界关注的中国AI新创公司深度求索(DeepSeek),外媒指出,其研发大语言模型时,或绕过了美国人工智能巨头辉达的CUDA框架,为DeepSeek在未来适配中国国产芯片做好准备。
新加坡《联合早报》3日报导,由辉达开发的软硬件集成技术「统一运算架构」(Compute Unified Device Architecture,CUDA)是一种通用程序框架,允许开发者利用辉达的图形处理器(GPU)进行运算。
报导指,由于CUDA大幅降低了研发大模型的难度,因此全球大模型开发商,都倾向于选择使用辉达的CUDA技术,助力辉达占据全球人工智能领域的垄断地位。
不过,美国科技网站Tom's Hardware报导,指模型建构的效率比Meta等巨头高出10倍以上,引述南韩未来资产证券一位分析师谈DeepSeek技术的文章形容,「他们从头开始重建了一切」。
该分析指出,DeepSeek在使用辉达的H800芯片进行训练时,使用了辉达的底层硬件指令PTX(Parallel Thread Execution)语言,而不是高端编程语言CUDA。
由于CUDA是通用型程序框架,会导致训练模型时损失一些弹性。中国网媒「快科技」分析,DeepSeek的做法相当于绕过了硬件对训练速度的限制,意味着其他模型需要训练10天,而DeepSeek只需要5天。然而,这种编程非常复杂、难以维护,业界通用的做法是使用CUDA这类高端编程语言。
快科技与腾讯网引述的消息人士指出,DeepSeek内部拥有一些擅长写PTX语言的内部开发者,假如DeepSeek未来有意改适配中国中国国产的GPU,在硬件适配方面将会更得心应手。
喜欢gonewithsmoke朋友的这个帖子的话,👍 请点这里投票,"赞" 助支持!
帖子内容是网友自行贴上分享,如果您认为其中内容违规或者侵犯了您的权益,请与我们联系,我们核实后会第一时间删除。
打开微信,扫一扫[Scan QR Code]
进入内容页点击屏幕右上分享按钮
楼主本月热帖推荐:
>>>查看更多帖主社区动态...