1、什么是大模型?
大模型,英文名为 Large Model,即大型模型,早期也被称为 Foundation Model(基础模型)。它是一个简称,完整表述是“人工智能预训练大模型”,其中“预训练”是一项关键技术,后续再做详细阐释。
日常交流中提及的大模型,通常特指语言大模型(Large Language Model,简称 LLM,也叫大语言模型),这是目前应用最为广泛的一类。除此之外,还有视觉大模型、多模态大模型等。将所有类别的大模型统称为广义大模型,而语言大模型则被称为狭义大模型。
从本质上看,大模型是包含超大规模参数(通常达十亿个以上)的神经网络模型。在之前科普人工智能时介绍过,神经网络是人工智能领域目前最基础的计算模型。它通过模拟大脑中神经元的连接方式,从输入数据中学习并生成有用的输出。全连接神经网络是其中一种,其每层神经元与下一层的所有神经元都有连接,包含 1 个输入层、N 个隐藏层和 1 个输出层。而广为人知的卷积神经网络(CNN)、循环神经网络(RNN)、长短时记忆网络(LSTM)以及 transformer 架构,都属于神经网络模型。目前,业界大部分大模型都采用了 transformer 架构。
大模型的“大”,不仅体现在参数规模上。首先,架构规模大。以 OpenAI 公司的 GPT - 4 为例,其隐藏层多达 120 层,每层神经元数量达到 14336 个,整个架构规模庞大,神经元节点数量众多。大模型的参数数量与神经元节点数密切相关,一般来说,神经元节点数越多,参数也就越多,GPT - 4 的参数数量大约为 1.76 万亿。
其次,训练数据规模大。还是以 GPT - 4 为例,其训练数据总量高达 13 万亿 tokens,数据规模相当于 4500 万本英文书籍(按单本书 1MB 计算),堪称海量。如此庞大的训练数据,为大模型的学习和泛化能力提供了坚实的基础。
最后,算力需求大。训练大模型需要大量的 GPU 算卡资源,且每次训练耗时极长。公开数据显示,GPT - 4 使用 1 万至 2 万张 A100 GPU 集群进行训练,训练周期约 90 - 100 天,总能耗成本约 6300 万美元。由此可见,训练大模型不仅需要强大的硬件支持,还需要耗费巨大的资金和能源。
综上所述,大模型堪称一个虚拟的庞然大物,具有架构复杂、参数庞大、依赖海量数据以及高算力需求等特点,其研发和训练成本极高。
与之相对的是小模型。小模型参数较少(百万级以下)、层数较浅,具有轻量级、高效率、易于部署等优点。它适用于数据量较小、计算资源有限的垂直领域场景,能够快速响应需求。
大模型是如何训练出来的?
接下来,让我们一同了解大模型的训练过程。大模型具备强大的学习能力,它能从海量数据中汲取“知识”,并运用这些知识完成回答问题、内容创作等任务。其中,汲取知识的过程叫训练,运用知识的过程叫推理。而训练又包含两个关键环节,即预训练(Pre-trained)和微调(Fine tuning)。
● 预训练
预训练大模型时,需先选定框架,如常用的 transformer。接着,向模型“投喂”海量数据,助其习得通用特征表示。那大模型为何学习能力如此强大,且参数越多学习力越强呢?这可通过麻省理工公开课里的一张图(下图)来理解,这张图是深度学习模型中单个神经元的结构。
神经元的处理本质上是函数计算,在相关算式里,x 代表输入,y 代表输出,而预训练的关键在于通过给定的 x 和 y 来求解算式中的“权重(weights)”W。权重在模型中起着决定性作用,它掌控着输入特征对模型输出的影响程度。模型通过反复训练来不断调整和确定权重,这便是训练的核心意义所在。
权重是模型参数的主要类别之一,除此之外,偏置(biases)也至关重要。权重决定了输入信号对神经元的影响力度,偏置则可看作神经元的“容忍度”,体现着神经元对输入信号的敏感程度。简单来讲,预训练过程就是依据数据的输入和输出,反复“推算”出最为合理的权重和偏置,也就是模型的参数。训练完成后,这些参数会被妥善保存,以备模型后续使用或部署。
通常情况下,参数数量越多,模型就越有能力学习到更为复杂的模式和特征,进而在各类任务中展现出更卓越的性能。我们常说大模型具备两种显著的特征能力,即涌现能力和泛化能力。
当模型的训练数据和参数规模不断扩大,直至达到特定的临界规模后,便会展现出一些事先难以预测的、更为复杂的能力和特性。此时,模型能够从原始训练数据中自动学习并挖掘出新的、更高层次的特征和模式,这种能力被称作“涌现能力”。拥有涌现能力的大模型,仿佛脑子突然“开窍”,不再局限于复述知识,而是能够深入理解知识,并具备发散思维的能力。
泛化能力则是指大模型通过“投喂”海量数据,学习到复杂的模式和特征后,能够对从未见过的数据做出准确预测。打个比方,就像董宇辉读书众多,即便有些书未曾读过,他也能凭借深厚的积累和灵活的思维,侃侃而谈。
然而,参数规模的不断增大,在提升大模型能力的同时,也会带来一系列问题。一方面,会导致资源消耗大幅增加;另一方面,还可能提高“过拟合”的风险。过拟合是指模型对训练数据的学习过于精细,以至于捕捉到了训练数据中的噪声和细微的无关信息,而未能把握数据的总体趋势和规律。这就好比大模型变成了“书呆子”,只知道死记硬背,却无法融会贯通、灵活运用。
接下来,我们再谈谈预训练所使用的数据。预训练采用的是海量的未标注数据,规模可达几十 TB。之所以选择未标注数据,是因为互联网上此类数据极为丰富,获取相对容易。而标注数据基本依赖人工标注,需要耗费大量的时间和金钱,成本高昂。
预训练模型能够借助无监督学习方法,如自编码器、生成对抗网络、掩码语言建模、对比学习等(这些方法大家可另行深入了解),从未标注数据中学习到数据的通用特征和表示。不过,这些数据并非随意从网上下载而来,而是需要经过严格的收集、清洗、脱敏和分类等处理流程。通过这些处理,可以去除异常数据和错误数据,删除隐私信息,使数据更加标准化,从而为后续的训练过程奠定良好基础。
至于获取数据的方式,则多种多样。对于个人和学术研究而言,可以通过官方论坛、开源数据库或者研究机构等渠道获取数据;对于企业来说,既可以自行收集和处理数据,也可以直接从外部渠道购买,市场上有专门的数据提供商可满足企业的数据需求。
● 微调
经过预训练学习,我们获得了一个通用大模型。不过,这种模型通常不能直接投入使用,在处理特定任务时,其表现往往不尽如人意。
此时,就需要对模型进行微调。微调是给大模型提供特定领域的标注数据集,对预训练的模型参数进行细微调整,使模型能更好地完成特定任务。经过微调的大模型可称为行业大模型,比如基于金融证券数据集微调,就能得到金融证券大模型。若再基于更细分的专业领域微调,便是专业大模型,也叫垂直大模型。我们不妨把通用大模型想象成中小学生,行业大模型如同大学本科生,专业大模型则似研究生。
在微调阶段,由于所需数据量远小于预训练阶段,对算力的需求也就大幅降低。值得注意的是,对于多数大模型厂商而言,一般只专注于预训练,而不进行微调;而行业客户通常只做微调,不开展预训练。这种“预训练 + 微调”的分阶段训练方式,能有效避免重复投入,节省大量计算资源,显著提升大模型的训练效率和效果。
预训练和微调都完成后,还需对大模型进行评估。通过采用实际数据或模拟场景进行评估验证,确认大模型的性能、稳定性和准确性等是否达到设计要求。
当评估和验证顺利通过,大模型基本就打造完成了。接下来,便可以部署这个大模型,让它投身于推理任务。此时的大模型已然“定型”,参数不再改变,真正具备了“干活”的能力。
大模型的推理过程,就是我们使用它的过程。我们可以通过提问、提供提示词(Prompt)等方式,让大模型回答我们的问题,或者按照要求生成相应的内容。
再来一张完整的流程图:
2、大模型究竟有什么作用?
依据训练的数据类型和应用方向,大模型通常可划分为语言大模型、音频大模型、视觉大模型以及多模态大模型。
语言大模型以文本数据为训练基础,在自然语言处理(NLP)领域表现出色。它具备理解、生成和处理人类语言的能力,广泛应用于诸多场景。在文本内容创作方面,能生成文章、诗歌、代码等;在文献分析中,可深入剖析资料;还能进行摘要汇总,提炼关键信息;在机器翻译领域,也能实现不同语言间的准确转换。大家熟知的 ChatGPT 就属于语言大模型。
音频大模型以音频数据训练,可识别和生产语音内容。在语音助手、语音客服场景中,它能与用户流畅交流;在智能家居语音控制方面,让用户通过语音指令轻松操控设备。
视觉大模型以图像数据训练,擅长计算机视觉(CV)领域。它能够识别图像中的物体、场景等信息,还能生成逼真的图像,甚至对受损图像进行修复。在安防监控中,可实时监测异常情况;自动驾驶领域,助力车辆识别路况;医学和天文图像分析方面,也能发挥重要作用。
多模态大模型融合了 NLP 和 CV 的能力,能整合并处理文本、图像、音频和视频等不同模态的信息,处理跨领域任务,如文生图、文生视频、跨媒体搜索等。今年以来,多模态大模型发展迅猛,成为行业焦点。
若按应用场景分类,大模型类别更为丰富,涵盖金融、医疗、法律、教育、代码、能源、政务、通信等众多领域。以金融大模型为例,它可用于风险管理、信用评估、交易监控、市场预测、合同审查以及客户服务等,在金融行业发挥着多方面的作用。
3、大模型的发展趋势?
当下,中国10亿参数规模以上的大模型数量已突破100个,呈现“百模大战”的热闹景象。这些大模型在应用领域和参数规模上各有千秋,但无一例外,背后都需要巨额资金投入。
据行业估测,训练一个大模型,成本可能从几百万美元到上亿美元不等。如此高昂的成本下,众多企业纷纷推出大模型,其中不乏资源浪费之嫌。而且,大模型有开源和闭源之分。有能力打造闭源大模型的企业在行业内并不多见,大部分大模型其实是基于开源框架和技术构建的,这在一定程度上是为了迎合资本市场,或是跟风蹭热度。
即便如此,行业内仍有部分头部企业执着于追求参数规模更大的超大模型,这类模型参数可达数万亿甚至数千万亿个。比如OpenAI、xAI等企业,马斯克就曾在X平台宣布,xAI团队成功启动了全球最强大的AI训练集群,该集群由10万块H100组成,主要用于Grok 2和Grok 3的训练与开发。不过,对于大多数企业而言,拥有万卡规模和万亿参数的大模型已接近发展天花板,继续加大投入的意愿不强,资金实力也不允许。
随着行业逐渐回归理性,企业的关注焦点正从“打造大模型”转向“使用大模型”。如何将大模型应用于实际场景、吸引更多用户、创造商业价值,成为各大厂商的核心任务。
大模型要落地应用,就需实现能力“入”端,即下沉到终端设备。因此,AI手机、AI PC、具身智能等概念愈发火热,成为新的发展热点。以AI手机为例,高通、联发科等芯片厂商纷纷推出具备更强AI算力的手机芯片;OPPO、vivo等手机厂商也在手机中内置大模型,并推出众多原生AI应用。第三方AI应用更是如雨后春笋般涌现,截至目前,行业数据显示具有AI功能的APP数量已超300万款。2024年6月,AIGC类APP的月活跃用户规模达6170万,同比增长653%。
大模型入端还催生了轻量化趋势。由于终端设备资源有限,大模型需通过剪枝、量化、蒸馏等技术进行优化,在保持性能的同时降低对计算资源的需求,从而更好地适配终端设备,为用户带来更流畅、便捷的AI体验。
4、大模型会带来哪些挑战?
大模型无疑是科技领域的一项重大突破,它能帮我们处理诸多事务,节省时间、提升效率,在生活与工作中发挥着积极作用。然而,大模型也是一把双刃剑,在带来便利的同时,也引发了一系列新挑战。
其一,冲击就业市场。AI浪潮下,大模型凭借强大的能力,会取代部分人类工作岗位,导致失业率上升。一些重复性、规律性强的工作,很可能首当其冲,让不少从业者面临失业风险。
其二,引发版权纠纷。大模型依赖已有数据进行学习,在文本、图像、音乐和视频创作等领域,其生成内容的版权和知识产权归属难以界定。它虽助力创作,但“引用”人类创作者作品的行为界限模糊,长此以往,可能挫伤人类原生创作的积极性。
其三,造成算法偏见与不公平。训练数据中的偏差会被大模型学习吸收,进而在预测和生成内容时表现出不公平。比如,可能无意中强化性别、种族和宗教等方面的刻板印象和偏见,甚至被别有用心者用于政治宣传和操纵,影响选举和公共舆论走向。
其四,存在被用于犯罪的风险。大模型能生成逼真的各类内容,这为诈骗、诽谤、虚假信息传播等恶意行为提供了便利,给社会安全带来严重威胁。
其五,带来能耗难题。大模型的训练和推理需要海量计算资源,这不仅增加了企业成本,还产生了巨大的碳排放。部分企业为迎合市场或盲目跟风,无节制地进行大模型训练,造成资源浪费和不必要的碳排放。
总之,大模型在伦理、法律、社会和经济层面带来的威胁和挑战不容小觑,我们需要投入更多时间和精力去探索应对之策,以实现科技与社会的和谐发展。
5、如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。