- 博客(162)
- 收藏
- 关注
原创 【生成式AI導論 2024】第16講:可以加速所有語言模型生成速度的神奇外掛 — Speculative Decoding 学习记录
在大型语言模型(LLM)推理过程中,Speculative Decoding 推测式解码是一种能显著加速生成速度的技术。它通过在一次前向传播中“大胆猜测”未来的多个 token,同时引入验证机制,确保最终生成结果与标准(vanilla)解码完全一致。✅2x 推理加速✅3x 加速(Granite 20B code 模型)Deepmind论文。
2025-08-06 10:59:13
550
原创 【生成式AI導論 2024】第15講:為什麼語言模型用文字接龍,圖片生成不用像素接龍呢?
生成式人工智能(Generative AI)是一种能够自动生成复杂且具有结构化内容的技术,涵盖文字、图像、声音等多种形式。这类模型擅长从有限的基本单元出发,构建出几乎无法穷举的内容组合,展现出强大的创造力和泛化能力。
2025-08-04 15:40:24
770
原创 【生成式AI導論 2024】第13講:淺談大型語言模型相關的安全性議題
在语言模型的输出中加上浮水印(watermark)是一种追踪、识别、验证生成文本来源的方法,主要用于防止滥用和提升内容可信度。让语言模型说出他想说的话。结果一起的话可能会错。
2025-07-24 11:19:21
775
原创 【生成式AI導論 2024】第12講:淺談檢定大型語言模型能力的各種方式 学习记录
阅读长文的能力 grep kamradt。还有其他任务的对比,也有特别刁钻的问题。MT-bench 使用语言模型来评分。跟标准答案做对比看是否正确。
2025-07-23 12:35:07
169
原创 【生成式AI導論 2024】第11講:大型語言模型在「想」什麼呢?学习笔记
上下文学习(ICL)作为大型语言模型(LLMs)的一项有前景的能力,通过为其提供示例来执行多样化任务。研究发现,示例中的标签词扮演锚点角色:(1)在浅层计算过程中,语义信息聚合到标签词表征中;(2)标签词中整合的信息成为 LLMs 最终预测的参考依据。基于这些洞察,我们提出了一种锚点重新权重方法以提升 ICL 性能,一种演示压缩技术以加速推理,以及一个用于诊断 GPT2-XL 中 ICL 错误的分析框架。我们的研究成果在实际应用中的良好表现再次验证了所揭示的 ICL 工作机制,并为未来研究奠定了基础。
2025-07-23 10:31:25
756
原创 【生成式AI導論 2024】第6講:大型語言模型修練史 — 第3个 階段 学习记录
instruction Fine-tuning:只问过程,不问结果。语言模型根据网络资料学了很多东西,却不知道使用方法。就好像有上乘内功,却不知道使用的方法。回馈模型(reward model)fine-tuning 是画龙点睛。RLHF: 只问结果,不问过程。Adapter 和 LoRA。如何更有效利用人类的回馈?对chatgpt做逆向工程。
2025-07-22 16:05:32
410
原创 【生成式AI導論 2024】第5講:訓練不了人工智慧?你可以訓練你自己 (下) 学习记录
模型合作: 让合适的模型做合适的事请。专业问题,专业模型,并非全能模型。模型合作:让模型彼此讨论。
2025-07-22 14:26:11
157
原创 【生成式AI導論 2024】第4講:訓練不了人工智慧?你可以訓練你自己 (中) — 拆解問題與使用工具 学习记录
但是因为没有经历模型学习,所以再次提问的时候,也会出错。调用ChatGPT处理。
2025-07-22 13:46:49
656
原创 【生成式AI導論 2024】第2講:今日的生成式人工智慧厲害在哪裡?從「工具」變為「工具人」的随笔
prompt engineering(巧妙和设计)(只要你下对指示,chatgpt久可能帮助你)(你认为GPT是工具,只有固定功能)要问你想要chatgpt帮你做什么。不要chatgpt 能为你做什么。我改变不了模型,那我改变我自己。工具人:没有特定功能。
2025-07-21 14:52:09
227
原创 从零开始的语言模型构建 CS336 第一课(一)
👉 它的核心思想就是:不断找出出现频率最高的字符对,把它们合并成一个新“词”,反复迭代,直到达到设定的词表大小。BPE 已经成为现在大部分主流大模型(比如 GPT 系列)的标配分词方案。这些方法很有潜力,省去了复杂的分词步骤,但目前还没能像 BPE 一样被大规模用于最前沿的大模型。提到的 tokenizer-free 方法,直接基于字节(bytes)做处理。✅ 缩放规律 (Scaling laws)✅ 对齐 (Alignment)✅ 系统 (Systems)✅ 基础 (Basics)✅ 数据 (Data)
2025-07-10 14:24:35
1003
原创 大语言模型原理与书生大模型提示词工程实践-学习笔记
输入给模型的指令/内容,引导其生成期望输出。通过设计和优化 Prompt,提高模型响应质量与稳定性。
2025-06-10 12:05:07
945
原创 如何在 Mac 上使用 Xcode 将 Chrome 插件转换为 Safari 插件 (一些插件)
将一些常用插件转到Safari里面,chrome实在太重了
2025-02-26 16:13:36
1680
原创 【论文阅读】Far3D: Expanding the Horizon for Surround-view 3D Object Detection
论文: https://arxiv.org/pdf/2308.09616代码: https://github.com/megvii-research/Far3DA: 这篇论文提出了一个名为Far3D的新型3D对象检测框架,旨在解决从环视图像中进行长距离3D对象检测的挑战。尽管现有的基于环视图像的3D对象检测方法在成本低廉和应用广泛方面取得了显著进展,但它们主要集中在近程感知范围,而对远程检测的探索较少。直接将现有方法扩展到长距离检测面临如下挑战:计算成本高:随着检测范围的扩大,需要处理的数据量和计算量显著
2024-08-13 11:58:58
1259
1
原创 【论文阅读】Exploring Object-Centric Temporal Modeling for Efficient Multi-View 3D Object Detection
query 级别的时许融合
2024-08-06 13:33:28
725
1
原创 【论文阅读】PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images
引入任务特定的查询(task-specific queries),例如车道检测的3D锚定车道和BEV分割的seg查询,这些查询在不同的空间中初始化,并与transformer解码器中的多视图图像特征进行交互。通过3D坐标对齐(3D Coordinates Alignment)实现不同帧之间的时间对齐,将上一帧的3D坐标转换到当前帧的坐标系中,以增强目标定位和速度估计。改进原有的3D位置嵌入(3D PE),通过FPE使3D PE依赖于输入图像数据,利用2D图像特征提供的信息(如深度)来指导查询学习。
2024-08-03 16:41:09
1279
1
原创 PCA和Kmean在人脸重建olivetti人脸数据集上的比较
KNN(K近邻)算法是最简单且常用的分类算法之一。它属于有监督学习算法,尽管看起来与无监督学习算法K-means相似,但两者本质上不同。那么,什么是KNN算法呢?接下来我们进行介绍。KNN的全称是K Nearest Neighbors,即K个最近的邻居。其核心思想是:在预测新样本x时,根据其在特征空间中距离最近的K个邻居的类别来判断x的类别。PCA(Principal Component Analysis),即主成分分析法,是特征降维最常用的手段之一,也是最基础的无监督降维算法。
2024-07-23 09:34:42
1083
原创 基于词级ngram的词袋模型对twitter数据进行情感分析
N 格是指给定文本或语音样本中 n 个项目的连续序列。这些项目可以是音素、音节、字母、单词或碱基对,具体取决于应用。N-grams 广泛应用于计算语言学和文本分析中的各种任务,如文本预测、拼写校正、语言建模和文本分类。它们为文本挖掘和自然语言处理(NLP)提供了一种简单而有效的方法。###了解 N 符n-gram 的概念很简单:它是由 ‘n’ 个连续项组成的序列。Unigram(n=1): 单个项目或单词。Bigram(n=2): 一对连续的项目或单词。Trigram(n=3): 连续的三联项或词。
2024-07-19 19:07:20
1351
原创 llama 2 改进之 RMSNorm
通过激活函数后,其中,随着前一层的更新,层的输入分布会发生变化。论文假设LayerNorm中的重新居中不变性是可有可无的,并提出了均方根层归一化(RMSNorm)。RMSNorm根据均方根(RMS)将一层神经元的总和输入正则化,得到模型重新缩放不变性特性和隐式学习率适应能力。在本文中,假设重新缩放不变性是LayerNorm成功的原因,而不是重新定中心不变性。是增益参数,用于重新调整标准化求和输入的大小,一开始设置为 1。分别是根据原始求和输入估计的均值和方差统计量。的归一化替代值用于层激活。
2024-07-18 16:07:31
1368
原创 LLaMA 数据集
多样化数据来源:涵盖从网络抓取数据到书籍、科学论文和问答网站的数据。高效预处理:通过多种预处理技术确保数据的高质量和相关性,包括语言识别、质量过滤和重复数据删除。覆盖多语言:重点涵盖使用拉丁字母和西里尔字母的多种语言,提高模型的多语言处理能力。LLaMA 2在训练设置和模型架构上大部分继承了LLaMA 1的配置,但也进行了几项重要的改进和调整。LLaMA 2在保持LLaMA 1基础架构的同时,通过增加上下文长度和引入分组查询注意力机制,进一步提升了模型的能力。
2024-07-18 16:06:40
1420
原创 LLaMA 背景
模型介绍:LLaMA是Meta开发的语言模型,旨在推动开放科学和人工智能的实践。参数范围:这些模型的参数数量从7B到65B不等,覆盖了不同规模的需求。训练数据:LLaMA模型是在数万亿个公开数据集的tokens上训练的,这使得它们具有广泛的语言理解和生成能力。LLaMA通过在大量训练数据上的优化,实现了高效的语言理解和生成能力,且在计算资源、存储和传输等方面具有显著优势,使其在实际应用中更具竞争力。
2024-07-18 13:56:16
599
原创 LLM 的储备知识
n Softmax层权值矩阵与目标语言词向量矩阵共享参数。Transformer Decoder 结构。• 掩码多头自注意神经网络。• 多头自注意神经网络。
2024-07-18 12:22:42
216
原创 【论文阅读】PETR: Position Embedding Transformation for Multi-View 3D Object Detection + 代码
在本文中,我们开发了用于多视图 3D 对象检测的位置嵌入变换(PETR)。PETR 将 3D 坐标的位置信息编码为图像特征,产生 3D 位置感知特征。对象查询可以感知 3D 位置感知特征并执行端到端对象检测。PETR 在标准 nuScenes 数据集上实现了最先进的性能(50.4% NDS 和44.1% mAP),并在基准测试中排名第一。它可以作为未来研究的简单而强大的基线。
2024-07-03 21:19:58
1443
1
原创 【论文阅读】COTR: Compact Occupancy TRansformer for Vision-based 3D Occupancy Prediction
为了解决这些问题,论文提出了一种名为Compact Occupancy TRansformer(COTR)的方法,它包括一个几何感知的占用编码器和一个语义感知的组解码器,以重建一个紧凑的3D OCC表示。总结来说,COTR通过提出紧凑的3D占用表示和语义感知的组解码器,有效地解决了3D占用预测中的几何信息丢失、计算成本高和语义可区分性差的问题。现有的3D占用表示缺乏语义可区分性,这限制了网络成功识别稀有物体的能力,这部分是由于数据集中的类别不平衡问题导致的。
2024-06-21 11:31:47
1187
1
原创 【论文阅读】Co-Occ: Coupling Explicit Feature Fusion With Volume Rendering Regularization for Multi-Modal
论文:https://arxiv.org/pdf/2404.04561v1代码:https://github.com/Rorisis/Co-Occ?
2024-06-20 12:05:25
1212
1
原创 【论文阅读】Occupancy-MAE: Self-supervised Pre-training Large-scale LiDAR Point Clouds
占位-MAE 的整体架构。我们首先将大尺度不规则激光雷达点云转换为体积表示,根据其与激光雷达传感器的距离随机屏蔽体素(即范围感知屏蔽策略),然后利用非对称自动编码器网络重建一般三维世界的几何占位结构。我们采用三维空间稀疏卷积 [6],以位置编码作为编码骨干。我们将二元占位分类作为前置任务,以区分体素是否包含点。预训练完成后,轻量级解码器将被丢弃,编码器将用于下游任务的骨干预热。数据流结构图GitHub里面的结构图。
2024-06-19 14:11:54
874
1
原创 BEV 中 multi-frame fusion 多侦融合(一)
dataroot: 数据集的根路径,类型为字符串,默认值为 ‘./project/data/nuscenes/’。是根据现有数组的形状和数据类型来创建新数组,而numpy.full()则需要手动指定形状和数据类型。获取边界框的速度信息,并将其转换为所需的格式。
2024-06-18 17:44:20
1199
原创 【论文阅读】Multi-Camera Unified Pre-Training via 3D Scene Reconstruction
问题定义:论文针对自动驾驶领域中多摄像头3D感知的问题,提出了现有算法主要依赖单目2D预训练,忽略了多摄像头系统中的空间和时间相关性。UniScene框架:提出了首个多摄像头统一预训练框架UniScene,该框架通过3D场景重建作为预训练的基础阶段,然后在下游任务上对模型进行微调。占用表示:采用占用(Occupancy)作为3D场景的通用表示,使模型能够在预训练过程中掌握周围世界的几何先验。无标签预训练:UniScene能够利用大量的未标记的图像-LiDAR对进行预训练,减少了对昂贵3D标注的依赖。
2024-06-18 13:17:55
1348
1
原创 LSSViewTransformer 中每个类别的意思
LSSViewTransformer 中每个类别的意思详细解释:类 定义:测试类 定义:运行测试:代码详解:create_frustum 方法生成深度轴、输入图像大小和下采样因子的网格信息。方法参数包括深度轴配置(depth_cfg),输入图像大小(input_size),和下采样比例因子(downsample)。visualize_frustum 函数定义:使用 Matplotlib 创建三维图形。从 frustum 张量中提取 x, y, d 坐标,并在三维空间中绘制这些点。设置坐标轴标
2024-06-05 11:58:31
846
原创 【mmdet问题】error: unrecognized arguments: --local-rank=0
如果直接使用github里面的给的命令进行的话,回报错。所以我们要加多一行让他认识到 local-rank。
2024-05-29 17:48:07
1463
原创 LiftSplatShoot中用于处理多视角图像数据并生成鸟瞰图(调试)
根据LSS代码中explore.py 中来显示出来图像。对于 nuscenes dataset 的数据设定。图像坐标系向ego坐标系进行坐标转化。
2024-05-22 11:45:44
346
基于vgg16进行迁移学习服装分类
2024-03-06
使用GRU进行天气变化的时间序列预测和天气时间序列数据集
2024-03-04
基于pytorch使用LSTM实现文本匹配任务代码和训练文件
2024-03-04
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人