
前沿技术--大模型
文章平均质量分 80
大模型前沿的模型,相关论文的技术解读,文章持续更新中
阿牛牛阿
人生只有一种英雄主义:在看透世间的冷暖辛酸,对生活依然激情澎湃
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大语言模型(3)--GPT-2
GPT-2(《Language Models are Unsupervised Multitask Learners》)是继GPT-1之后的第二个开源版本(考虑到技术滥用的担心只发布了mini版本),它的训练语料与参数比GPT-1多了一个数量级。正如题目,它是一个无监督、无领域知识调优的模型,然而在阅读理解、摘要生成、翻译、问答等方面可以超过多个领域下调优的已知模型。原创 2024-12-07 21:54:31 · 486 阅读 · 0 评论 -
大语言模型(2)--GPT-1
GPT-1是由OpenAI在2018年推出的第一代生成式预训练模型(《Improving Language Understanding by Generative Pre-Training》),它采用了无监督预训练和有监督微调相结合的方法,以增强模型的通用任务求解能力。在此之前,NLP领域的深度模型主要采用监督学习,从大量手动标记的数据中进行学习。这种对监督学习的依赖限制了它们对未充分注释的数据集的使用,训练超大模型的成本过高且耗时。原创 2024-12-06 23:15:28 · 1110 阅读 · 0 评论 -
大语言模型(1)--LLaMA
LLaMA(Large Language Model Meta AI)是由Meta AI于2023年2月发布的大语言系列模型,它应该是近两年来影响力最大的自然语言处理大模型。在它的带动下,雨后春笋般地涌现出来不同语言、不同领域下的各种大模型。值得注意的是,最早Meta在非商业许可的情况下发布了LLaMA的模型权重,仅供研究人员参考和使用。直到2023年7月,Meta推出LLaMA2,它是可用于商业应用的开源AI模型。原创 2024-11-30 23:01:43 · 1413 阅读 · 0 评论 -
Transformer大模型加速简介(3)-InFormer
通过上述这些方法,Informer模型不仅提高了长序列时间序列预测的效率,还保持了模型的预测能力,使其在实际应用中,因其在处理长序列时间序列预测问题中的高效性能,被应用于很有众多的领域:(1)金融方面:预测股票价格和市场趋势。Informer模型提出了一个生成式解码器,与概念上简单的逐步解码(step-by-step)不同,生成式解码器可以在一个前向操作中预测长序列输出,而不是逐步预测。因而,通过这种方式,Informer模型能够有效地处理长序列时间序列数据,同时保持较高的预测性能和较低的计算复杂度。原创 2024-11-04 23:04:19 · 955 阅读 · 0 评论 -
Transformer大模型加速简介(2)-Linformer
Transformer模型,即《Attention is All your Need》这一大作自从被提出以来,已经成为自然语言处理(NLP)和计算机视觉等领域的核心架构(详见 https://blog.csdn.net/burstone/article/details/143135395)。然而,由于其对计算和存储的高要求,对于长序列的处理存在很大的性能开销。原创 2024-10-24 23:03:23 · 1334 阅读 · 0 评论 -
Transformer大模型加速简介(1)-稀疏注意力机制
Transformer模型,即《Attention is All your Need》这一大作自从被提出以来,已经成为自然语言处理(NLP)和计算机视觉等领域的核心架构(详见 https://blog.csdn.net/burstone/article/details/143135395)。然而,由于其对计算和存储的高要求,比如计算attention,其时间复杂度是N^2(其中N为序列的长度);原创 2024-10-23 21:39:40 · 1789 阅读 · 0 评论 -
大模型的表征学习方法简介
比如,针对文本中的词、图像中的不同颜色、纹理或者卷积等,以及视频、声音等流式数据中的不同切片或者使用滤波器等处理后的各种特征进行学习,这样所有模态就可以向量化,进而feed到一个模型进行训练学习了。通过这些表征学习方法从不同维度(有无监督、自监督、基于图与掩码等)进行学习,大模型从而能够学习到更丰富、更鲁棒的特征表示,提高模型的性能和泛化能力。一般地,在大模型的训练过程中,都会加入对不同模态的表征学习,这样可以针对不同训练任务、不同模态进行向量化。原创 2024-10-28 23:10:06 · 1472 阅读 · 0 评论 -
大模型中的归一化方法简介
目前的大模型逐步在往多模态方向发展,底层处理了不同类型的数据(文本、图像、视频),因而,对模型的鲁棒性、性能等要求越来越高。在Transformer等各种不同的大模型中,归一化(Normalization)是提高模型训练稳定性和性能的关键技术,它在深度学习中对于提高模型的泛化能力起着至关重要的作用。本文简单介绍了归一化方法的作用,以及一些常见的归一化方法。值得一提的是,一些归一化方法(像RMSNorm),不仅使得模型有更好的效果,而且可以节省计算量因而,经常用于transformer等模型的加速。原创 2024-10-26 21:18:15 · 1243 阅读 · 0 评论 -
encoder-decoder大模型简介
大模型”这个术语出现在公众面前时,其实学术界最火的有transfromer模型,就是那篇Google的8位科学家发表在NIPS会议上的论文《Attention is All your Need》,它打开了序列建模的新世界,自然语言领域、序列建模等多个技术方向基于这个架构出现了大量的创新工作。这个transformer是基于encoder-decoder架构,这个领域有非常多的工作,下面针对一些基础知识点进行介绍。原创 2024-10-21 22:45:41 · 947 阅读 · 0 评论 -
Encoder-only大模型简介
例如,BERT(Bidirectional Encoder Representations from Transformers)是一个著名的Encoder-Only模型,它通过预训练来理解双向上下文,适用于各种需要文本理解的任务,如问答、命名实体识别等。情感分析是一种自然语言处理任务,目的是判断一段文本所表达的情绪倾向,比如是积极的、消极的还是中性的。Encoder-Only架构的模型,如BERT,非常适合这类任务,因为它能够捕捉到文本中的细微语义差异。步骤 1: 输入处理。原创 2024-10-19 21:53:38 · 805 阅读 · 0 评论 -
decoder-only大模型简介
模型的输入只有一个单词,所以只有这个单词的路径是活跃的。近年来异常火爆的OpenAI-GPT系列模型是基于Decoder-Only架构的,OpenAI的GPT系列模型就是基于Decoder-Only架构,通过大规模的无监督预训练,具备了强大的语言生成和理解能力。这种架构的模型在预训练阶段,可以利用大规模的无监督文本数据进行训练,提高模型的泛化能力和性能。Decoder-Only架构以其强大的生成能力和高效的预训练方式,在自然语言处理领域,尤其是文本生成任务中,展现出了显著的优越性。原创 2024-10-18 21:15:52 · 983 阅读 · 0 评论 -
多模态大模型(1)--CLIP
CLIP的创新之处在于,它能够将图像和文本映射到一个共享的向量空间中,从而使得模型能够理解图像和文本之间的语义关系。这种共享的向量空间使得CLIP在图像和文本之间实现了无监督的联合学习,从而可以用于各种视觉和语言任务。原创 2024-11-13 23:04:38 · 1134 阅读 · 0 评论 -
多模态大模型(5)--LLaVA
人类通过如视觉、语言、听觉等多种渠道与世界互动,每个单独的渠道在表示和传达某些概念时都有其独特的优势,人工智能(AI)的一个核心愿景是开发一个能够有效遵循多模态视觉和语言指令的通用助手,与人类意图一致,可以完成各种现实世界任务。本文介绍另外一篇基于BLIP的多模态大模型LLaVA(Large Language and Vision Assistant),这是一个端到端训练的大型多模态模型,同时,首次引入仅使用语言训练的GPT-4,生成多模态语言-图像,通过指令调优构建通用视觉-语言模型。下面详细解读。原创 2024-11-23 21:06:26 · 1163 阅读 · 0 评论 -
多模态大模型(2)--BLIP
大模型如火如荼,研究者们已经不再满足于基本文本的大语言模型(LLM, Large Language Model),AI领域的热点正逐步向多模态转移,具备多模态能力的多模态大型语言模型(MM(Multi-Modal)-LLM)就成了一个备受关注的研究主题。BLIP(Bootstrapping Language-Image Pretraining)是由Salesforce在2022年提出的多模态预训练模型,它旨在统一视觉语言任务的理解与生成能力,并通过对噪声数据的处理来提高模型性能。原创 2024-11-14 22:40:34 · 1025 阅读 · 0 评论 -
多模态大模型(4)--InstructBLIP
最新的大模型、AIGC、自动对话等系列技术介绍,持续更新中。原创 2024-11-21 23:16:21 · 1378 阅读 · 0 评论 -
多模态大模型(3)--BLIP-2
大模型如火如荼,研究者们已经不再满足于基本文本的大语言模型(LLM, Large Language Model),AI领域的热点正逐步向多模态转移,具备多模态能力的多模态大型语言模型(MM(Multi-Modal)-LLM)就成了一个备受关注的研究主题。原创 2024-11-19 23:11:11 · 1488 阅读 · 0 评论