【深度】说个秘密,中美这场决定国运的大战,我们在两千年前就赢了
6park.com说出来你可能不信,这场AI世纪大战,我们早在2240年前就赢了。 6park.com公元前2210年,秦始皇扫灭六合,一统八荒后,以秦国小篆为标准,对全国文字进行统一规范,消除了各地文字异形的混乱局面,使汉字有了统一、标准的书写形式。 6park.com而我们的AI之所以能在极短的时间内,超越拥有先发优势和技术优势的老美,很大程度上就是因为汉字承载的信息量,远远胜于英文。 6park.com我们都知道,AI模型的搭建和训练,需要投喂海量的数据,那你们有想过,数据的本质是什么吗?是文字信息,而单个汉字平均承载的信息密度,是英文单词的3.7倍,可能很多人对这种差距没什么概念。 6park.com我举个简单的例子,铁路的英文单词是Railway,后来高铁作为一个新的技术出现了,但英文原有的词典里并没有专门用来释义高铁的单词,于是他们就根据汉语的意思翻译成High-Speed Train,这就涉及到了两个问题。 6park.com首先是造词,随着新技术和新事物的不断涌现,英文要不断的造词,才能适应当代社会的信息发展,根据斯坦福大学统计的数据,英语每年新增的专业词汇量,是汉语的7.6倍,而AI训练需要根据实时的数据信息不断去投喂,去训练,这样才能快速的迭代升级,但你每年新增的专业词汇量是汉语的7倍之多,是不是就给AI训练背上了沉重的负担? 6park.com比如在人工智能领域,“Transformer architecture”,也就是Transformer 架构出现后,与之相关的 “self-attention mechanism”自注意力机制等新术语也不断涌现,AI 需要将这些新词汇与已有的知识体系建立联系,学习它们的原理、应用场景等,这么庞大的工程量,相当于重构了该领域的整个信息逻辑。 6park.com所以,如果英语每年大量新增类似的专业词汇,AI 需要处理和学习的内容就会呈指数级暴涨,这既增加了其训练难度和成本,也会延长训练时间,更重要的是,可能还会影响AI对知识理解的准确性和全面性。 6park.com这还不算完,另一方面,汉字得益于二进制的底层逻辑,超过98%的词汇都能在3500个常用的汉字里,通不断的排列组合创造出新的词汇,就像搭乐高积木一样,电视机就是需要用电的视觉机器,肺炎就等于肺部发炎,因此,即使汉语每年也在创造新的词汇,但它的字符远少于英文。 6park.com比如前文提到的高铁,就两个字符,但英语的High-Speed Train,你数数有多少个字符?不算空格区分单词有14个,算上空格有17个。 6park.com这又是汉语比英语先进的地方,空格键也算一个字符,英语单词与单词之间,需要靠空格键来区分逻辑关系,而我们的汉字不需要空格键就能理解。 6park.com当我们文本信息输入电脑转化成代码时,字符越多,代码就越多,代码越多,AI训练的成本和难度自然也越大。反之,在 AI 训练中,汉字的简洁性可以减少数据量,降低训练的复杂度,尤其在处理长文本时,汉语文本相对英语文本包含更少的分隔字符,从而减轻了 AI 处理数据的负担。 6park.com再给你们说个更绝的,大漠孤烟直这句诗都听说过吧,汉字的气象AI可以直接转化成沙尘暴预测模型,而英文模型首先要先经历一遍翻译,再单个拆解每个字背后的意思,然后研究中文古诗里的意境表达,最后通过深度学习才能输出模型,整个过程,比我们足足多出300万行代码。 6park.com为什么老美训练AI的逻辑是不断的用芯片堆算力?为什么DeepSeek 只用了OpenAI不到百分之一甚至千分之一的算力,就搞出了远超他们的AI模型?答案就在这里,老美的AI算力大部分都浪费在了对新增英语词汇的拆解和学习上了,属于典型的无效能耗,这可不是我信口开河,而是他们自己说的。 6park.com斯坦福计算机教授在报告中明确指出,如果英语继续当前的增速,到2050年时,我们可能需要1.7个地球的算力才能维持AI运转。无独有偶,麻省理工AI实验室主任也在吐槽,我们不是在训练机器,而是在26个字母的排列组合收尸。 6park.com而另一边呢,美西方最新论文已经证实,汉字模型在处理复杂逻辑时,神经网络的能耗比英文模型低42%,训练周期比英文模型缩短70%,自然语言处理任务甚至仅用十分之一的参数就能达到同等的效果,这就是文明降维打击的威力。 6park.com谁都不曾想到,当硅谷巨头们忙着拆卸26个字母搭建的巴别塔时,东大工程师们已经在那些镌(juan一声)刻于竹简上的横竖撇捺里,找到了通向高级文明的密码。 6park.com千秋史笔溯龙门!站在西安斑驳的城墙下回望历史长河,我愈发的坚信,这场AI世纪对决早已在2240年前,始皇帝车同轨,书同文时就埋下了胜利的伏笔。 6park.comAI时代,英文已死,汉字当立。
|