[返回军事纵横首页]·[所有跟帖]·[ 回复本帖 ] ·[热门原创] ·[繁體閱讀]·[版主管理]
🚨👉 AI硬件算力十年加速一千倍的详细分析:
送交者: liuyuanfangke1[☆★★声望品衔12★★☆] 于 2025-01-27 22:24 已读 782 次  

liuyuanfangke1的个人频道

要我说,Altman说7万亿重塑芯片业就是个噱头,或者说可能只是利用一个心理上的锚定效应为自己融资降低阻碍罢了 6park.com

为何?只需要从最根本出发,看芯片过去和未来十年加速的主要瓶颈就很清楚了 6park.com

就像去年讨论过的,未来十年,AI芯片在硬件(包括compiler层)领域,单片(single chip)也许还能加速一千倍。 6park.com

看未来十年的芯片加速来自哪里,可以先看看过去十年GPU/AI芯片一千倍的加速来自哪里(图一Bill Dally's keynote from Hotchips 2023) 6park.com

其实我们可以细细分解一下 6park.com

1. 半导体工艺的提升(2013年28nm到2023年的4nm)大概有3倍提升 6park.com

2. 复杂指令加速了大概10倍,类似Dot Product 4 (DP4), Half-precision Matrix Multiply-Accumulate (HMMA), and Integer Matrix Multiply-Accumulate (IMMA) 6park.com

3. 从数据精度类型方面的优化是8~16倍(FP32, FP16, TF32 -> BF16, Int8, Int4, MX6/MX4) 6park.com

4. Sparsity的利用方面大概加速了2倍
------------------------------------- 6park.com

未来十年的芯片加速方面其实大部分是类似的 6park.com

1. 半导体工艺密度提升5~6倍,相同设计和功耗下,性能加速~3倍,摩尔定律继续生效(图二) 6park.com

最近5年,工艺密度提升2.5倍,推算10年大概是6倍,工艺对速度的提升大概是60%,推算10年加速三倍 6park.com

2. 芯片架构改进在相同功耗下加速10倍(保守估计)
架构的改进比如说用更复杂的独特指令(DSA)在硬件层面提供更高的抽象层,sparsity方面深挖,针对特定模型特点的ASIC,但可能不像过去十年那么容易了 6park.com

3. 单片存储吞吐带宽提高最少10倍(HBM4/5/6),这方面的加速估计会比过去十年要大,虽然过去十年已经加速很快了(图三) 6park.com

4. 通过chiplet,interconnect以及Advanced Packaging加大单片的规模十倍(功耗相应增大) 6park.com

这方面得靠台积电的CoWos先进封装,以及各个设计厂设计更大的互联带宽,这几年的roadmap来看还是很激进的,H100放了6个HBM stacks,AMD的MI300放了8个HBM stacks,再多的话,瓶颈就是散热能力的发展了(比如Diamond wafer散热会快10倍) 6park.com

5. 也许用更小的数据方式实现不差的精度,比如MX4,甚至log数字类型
------------------------------------- 6park.com

即便是芯片的架构发展,很多时候是基于其他条件的改变比如模型特点,特殊指令,带宽,功耗,散热密度等等进行更好的匹配和优化,并不是某一个方面独自发展就可以取得大跃进效果的 6park.com

比如说Transfomer每两年的训练算力增长是750倍,这很明显是S曲线增长最快的阶段,其他方面的资源很显然是不可能持续scale up的,毕竟摩尔定律仅仅是每两年2倍(图四),大力出奇迹的思路在撞墙之后,必须要让位给组合出奇迹 6park.com

比如说GPT4开始使用的MoE(混合专家模型)可以看作是一种组合,GPT5很可能使用了Q star,则更是一种组合,本质上是强化学习里Q learning和A star算法,和LLM组合起来
-------------------------------------
回到正题,把硬件加速的瓶颈仔细列出来,就能发现,Altman想从半导体制造方面入手加速AI芯片的发展搞大跃进,能起到的效果非常有限,仅仅能在十年加速三个数量级里的某一个环节(大概一个数量级)起部分作用,而且仅仅只能做到短期冲刺加速 6park.com

文明技术的进步本质上靠的是各个领域互相借鉴和利用寻找更多组合空间的迭代正循环,需要很多领域同时进步才能在某个领域找到更多的组合空间。换句话说,需要其他很多个领域的S型发展曲线去组合成新的S型发展曲线,或者是提供新S曲线的创造条件/环境。 6park.com

攻坚跨越式的进步无法持久,顶多是在当前有限的组合空间里挖掘的多一些,不如等组合空间更大的时候,创新的成本更低。就像Deep learning这十年的高速发展离不开GPU硬件的兴起,比上一轮90年代深度学期的时候硬件速度条件快了5~6个数量级。 6park.com

他唯一能做到的是把资源组合起来,这是及其重要的能力。但仅仅只是把资源给到位,那和现在各家看到AI需求潜力从而有很强动力去发展芯片有什么区别呢,不如去创造更多需求,各个半导体厂商自然会尽最大努力跟进。 6park.com

如果说Altman就是想拿着7万亿在全领域做跨越式加速进步,那就不是一个人或者几个人能管得过来的事情了,这是远远超出人类生理极限的事情(人脑直接接触/管理150~200人是极限,两级汇报链以上就很难掌控了),得等人类生物科学发展起来提升人类大脑生理极限之后,有了这个组合条件才能做到。 6park.com

所以说,Altman的7万亿更像是讨价还价的战术,心理战上的锚定效应,先把期待值和vision拉满到一个不可思议的程度,然后跟沙特土豪坐地讨价:这样的AGI愿景,先融个两三千亿美元不多吧?这可是改变世界的机会呢,错过了就没有下一趟啦 6park.com

6park.com


6park.com

6park.com

6park.com

6park.com

6park.com

6park.com

6park.com

6park.com

6park.com

6park.com

6park.com

喜欢liuyuanfangke1朋友的这个贴子的话, 请点这里投票,“赞”助支持!
[举报反馈]·[ liuyuanfangke1的个人频道 ]·[-->>参与评论回复]·[用户前期主贴]·[手机扫描浏览分享]·[返回军事纵横首页]
帖子内容是网友自行贴上分享,如果您认为其中内容违规或者侵犯了您的权益,请与我们联系,我们核实后会第一时间删除。

所有跟帖:        ( 主贴楼主有权删除不文明回复,拉黑不受欢迎的用户 )


用户名:密码:[--注册ID--]

标 题:

粗体 斜体 下划线 居中 插入图片插入图片 插入Flash插入Flash动画


     图片上传  Youtube代码器  预览辅助

打开微信,扫一扫[Scan QR Code]
进入内容页点击屏幕右上分享按钮

楼主本栏目热帖推荐:

>>>>查看更多楼主社区动态...






[ 留园条例 ] [ 广告服务 ] [ 联系我们 ] [ 个人帐户 ] [ 版主申请 ] [ Contact us ]