自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(162)
  • 收藏
  • 关注

原创 第17講:有關影像的生成式AI (上) — AI 如何產生圖片和影片 (Sora 背後可能用的原理) 学习记录

Sora 的demo。

2025-08-06 15:54:55 480

原创 【生成式AI導論 2024】第16講:可以加速所有語言模型生成速度的神奇外掛 — Speculative Decoding 学习记录

在大型语言模型(LLM)推理过程中,Speculative Decoding 推测式解码是一种能显著加速生成速度的技术。它通过在一次前向传播中“大胆猜测”未来的多个 token,同时引入验证机制,确保最终生成结果与标准(vanilla)解码完全一致。✅2x 推理加速✅3x 加速(Granite 20B code 模型)Deepmind论文。

2025-08-06 10:59:13 550

原创 【生成式AI導論 2024】第15講:為什麼語言模型用文字接龍,圖片生成不用像素接龍呢?

生成式人工智能(Generative AI)是一种能够自动生成复杂且具有结构化内容的技术,涵盖文字、图像、声音等多种形式。这类模型擅长从有限的基本单元出发,构建出几乎无法穷举的内容组合,展现出强大的创造力和泛化能力。

2025-08-04 15:40:24 770

原创 【生成式AI導論 2024】第13講:淺談大型語言模型相關的安全性議題

在语言模型的输出中加上浮水印(watermark)是一种追踪、识别、验证生成文本来源的方法,主要用于防止滥用和提升内容可信度。让语言模型说出他想说的话。结果一起的话可能会错。

2025-07-24 11:19:21 775

原创 【生成式AI導論 2024】第12講:淺談檢定大型語言模型能力的各種方式 学习记录

阅读长文的能力 grep kamradt。还有其他任务的对比,也有特别刁钻的问题。MT-bench 使用语言模型来评分。跟标准答案做对比看是否正确。

2025-07-23 12:35:07 169

原创 【生成式AI導論 2024】第11講:大型語言模型在「想」什麼呢?学习笔记

上下文学习(ICL)作为大型语言模型(LLMs)的一项有前景的能力,通过为其提供示例来执行多样化任务。研究发现,示例中的标签词扮演锚点角色:(1)在浅层计算过程中,语义信息聚合到标签词表征中;(2)标签词中整合的信息成为 LLMs 最终预测的参考依据。基于这些洞察,我们提出了一种锚点重新权重方法以提升 ICL 性能,一种演示压缩技术以加速推理,以及一个用于诊断 GPT2-XL 中 ICL 错误的分析框架。我们的研究成果在实际应用中的良好表现再次验证了所揭示的 ICL 工作机制,并为未来研究奠定了基础。

2025-07-23 10:31:25 756

原创 生成式AI導論 2024】第9講:以大型語言模型打造的AI Agent 学习记录

AI Agentmemgtp。

2025-07-22 21:41:06 301

原创 【生成式AI導論 2024】第6講:大型語言模型修練史 — 第3个 階段 学习记录

instruction Fine-tuning:只问过程,不问结果。语言模型根据网络资料学了很多东西,却不知道使用方法。就好像有上乘内功,却不知道使用的方法。回馈模型(reward model)fine-tuning 是画龙点睛。RLHF: 只问结果,不问过程。Adapter 和 LoRA。如何更有效利用人类的回馈?对chatgpt做逆向工程。

2025-07-22 16:05:32 410

原创 【生成式AI導論 2024】第5講:訓練不了人工智慧?你可以訓練你自己 (下) 学习记录

模型合作: 让合适的模型做合适的事请。专业问题,专业模型,并非全能模型。模型合作:让模型彼此讨论。

2025-07-22 14:26:11 157

原创 【生成式AI導論 2024】第4講:訓練不了人工智慧?你可以訓練你自己 (中) — 拆解問題與使用工具 学习记录

但是因为没有经历模型学习,所以再次提问的时候,也会出错。调用ChatGPT处理。

2025-07-22 13:46:49 656

原创 【生成式AI導論 2024】第3講:訓練不了人工智慧?你可以訓練你自己

一些思考

2025-07-21 16:08:52 341

原创 【生成式AI導論 2024】第2講:今日的生成式人工智慧厲害在哪裡?從「工具」變為「工具人」的随笔

prompt engineering(巧妙和设计)(只要你下对指示,chatgpt久可能帮助你)(你认为GPT是工具,只有固定功能)要问你想要chatgpt帮你做什么。不要chatgpt 能为你做什么。我改变不了模型,那我改变我自己。工具人:没有特定功能。

2025-07-21 14:52:09 227

原创 从零开始的语言模型构建 CS336 第一课(一)

👉 它的核心思想就是:不断找出出现频率最高的字符对,把它们合并成一个新“词”,反复迭代,直到达到设定的词表大小。BPE 已经成为现在大部分主流大模型(比如 GPT 系列)的标配分词方案。这些方法很有潜力,省去了复杂的分词步骤,但目前还没能像 BPE 一样被大规模用于最前沿的大模型。提到的 tokenizer-free 方法,直接基于字节(bytes)做处理。✅ 缩放规律 (Scaling laws)✅ 对齐 (Alignment)✅ 系统 (Systems)✅ 基础 (Basics)✅ 数据 (Data)

2025-07-10 14:24:35 1003

原创 大语言模型原理与书生大模型提示词工程实践-学习笔记

输入给模型的指令/内容,引导其生成期望输出。通过设计和优化 Prompt,提高模型响应质量与稳定性。

2025-06-10 12:05:07 945

原创 如何在 Mac 上使用 Xcode 将 Chrome 插件转换为 Safari 插件 (一些插件)

将一些常用插件转到Safari里面,chrome实在太重了

2025-02-26 16:13:36 1680

原创 【论文阅读】Far3D: Expanding the Horizon for Surround-view 3D Object Detection

论文: https://arxiv.org/pdf/2308.09616代码: https://github.com/megvii-research/Far3DA: 这篇论文提出了一个名为Far3D的新型3D对象检测框架,旨在解决从环视图像中进行长距离3D对象检测的挑战。尽管现有的基于环视图像的3D对象检测方法在成本低廉和应用广泛方面取得了显著进展,但它们主要集中在近程感知范围,而对远程检测的探索较少。直接将现有方法扩展到长距离检测面临如下挑战:计算成本高:随着检测范围的扩大,需要处理的数据量和计算量显著

2024-08-13 11:58:58 1259 1

原创 【论文阅读】Exploring Object-Centric Temporal Modeling for Efficient Multi-View 3D Object Detection

query 级别的时许融合

2024-08-06 13:33:28 725 1

原创 【论文阅读】PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images

引入任务特定的查询(task-specific queries),例如车道检测的3D锚定车道和BEV分割的seg查询,这些查询在不同的空间中初始化,并与transformer解码器中的多视图图像特征进行交互。通过3D坐标对齐(3D Coordinates Alignment)实现不同帧之间的时间对齐,将上一帧的3D坐标转换到当前帧的坐标系中,以增强目标定位和速度估计。改进原有的3D位置嵌入(3D PE),通过FPE使3D PE依赖于输入图像数据,利用2D图像特征提供的信息(如深度)来指导查询学习。

2024-08-03 16:41:09 1279 1

原创 self-attention(自注意力) 和 cross-attetion(交叉注意力) 中的差异

自注意力和交叉注意力的差异

2024-08-01 15:17:03 1658

原创 PCA和Kmean在人脸重建olivetti人脸数据集上的比较

KNN(K近邻)算法是最简单且常用的分类算法之一。它属于有监督学习算法,尽管看起来与无监督学习算法K-means相似,但两者本质上不同。那么,什么是KNN算法呢?接下来我们进行介绍。KNN的全称是K Nearest Neighbors,即K个最近的邻居。其核心思想是:在预测新样本x时,根据其在特征空间中距离最近的K个邻居的类别来判断x的类别。PCA(Principal Component Analysis),即主成分分析法,是特征降维最常用的手段之一,也是最基础的无监督降维算法。

2024-07-23 09:34:42 1083

原创 基于词级ngram的词袋模型对twitter数据进行情感分析

N 格是指给定文本或语音样本中 n 个项目的连续序列。这些项目可以是音素、音节、字母、单词或碱基对,具体取决于应用。N-grams 广泛应用于计算语言学和文本分析中的各种任务,如文本预测、拼写校正、语言建模和文本分类。它们为文本挖掘和自然语言处理(NLP)提供了一种简单而有效的方法。###了解 N 符n-gram 的概念很简单:它是由 ‘n’ 个连续项组成的序列。Unigram(n=1): 单个项目或单词。Bigram(n=2): 一对连续的项目或单词。Trigram(n=3): 连续的三联项或词。

2024-07-19 19:07:20 1351

原创 llama 2 改进之 RMSNorm

通过激活函数后,其中,随着前一层的更新,层的输入分布会发生变化。论文假设LayerNorm中的重新居中不变性是可有可无的,并提出了均方根层归一化(RMSNorm)。RMSNorm根据均方根(RMS)将一层神经元的总和输入正则化,得到模型重新缩放不变性特性和隐式学习率适应能力。在本文中,假设重新缩放不变性是LayerNorm成功的原因,而不是重新定中心不变性。是增益参数,用于重新调整标准化求和输入的大小,一开始设置为 1。分别是根据原始求和输入估计的均值和方差统计量。的归一化替代值用于层激活。

2024-07-18 16:07:31 1368

原创 LLaMA 数据集

多样化数据来源:涵盖从网络抓取数据到书籍、科学论文和问答网站的数据。高效预处理:通过多种预处理技术确保数据的高质量和相关性,包括语言识别、质量过滤和重复数据删除。覆盖多语言:重点涵盖使用拉丁字母和西里尔字母的多种语言,提高模型的多语言处理能力。LLaMA 2在训练设置和模型架构上大部分继承了LLaMA 1的配置,但也进行了几项重要的改进和调整。LLaMA 2在保持LLaMA 1基础架构的同时,通过增加上下文长度和引入分组查询注意力机制,进一步提升了模型的能力。

2024-07-18 16:06:40 1420

原创 LLaMA 背景

模型介绍:LLaMA是Meta开发的语言模型,旨在推动开放科学和人工智能的实践。参数范围:这些模型的参数数量从7B到65B不等,覆盖了不同规模的需求。训练数据:LLaMA模型是在数万亿个公开数据集的tokens上训练的,这使得它们具有广泛的语言理解和生成能力。LLaMA通过在大量训练数据上的优化,实现了高效的语言理解和生成能力,且在计算资源、存储和传输等方面具有显著优势,使其在实际应用中更具竞争力。

2024-07-18 13:56:16 599

原创 LLM 的储备知识

n Softmax层权值矩阵与目标语言词向量矩阵共享参数。Transformer Decoder 结构。• 掩码多头自注意神经网络。• 多头自注意神经网络。

2024-07-18 12:22:42 216

原创 【论文阅读】PETR: Position Embedding Transformation for Multi-View 3D Object Detection + 代码

在本文中,我们开发了用于多视图 3D 对象检测的位置嵌入变换(PETR)。PETR 将 3D 坐标的位置信息编码为图像特征,产生 3D 位置感知特征。对象查询可以感知 3D 位置感知特征并执行端到端对象检测。PETR 在标准 nuScenes 数据集上实现了最先进的性能(50.4% NDS 和44.1% mAP),并在基准测试中排名第一。它可以作为未来研究的简单而强大的基线。

2024-07-03 21:19:58 1443 1

原创 【论文阅读】COTR: Compact Occupancy TRansformer for Vision-based 3D Occupancy Prediction

为了解决这些问题,论文提出了一种名为Compact Occupancy TRansformer(COTR)的方法,它包括一个几何感知的占用编码器和一个语义感知的组解码器,以重建一个紧凑的3D OCC表示。总结来说,COTR通过提出紧凑的3D占用表示和语义感知的组解码器,有效地解决了3D占用预测中的几何信息丢失、计算成本高和语义可区分性差的问题。现有的3D占用表示缺乏语义可区分性,这限制了网络成功识别稀有物体的能力,这部分是由于数据集中的类别不平衡问题导致的。

2024-06-21 11:31:47 1187 1

原创 【论文阅读】Co-Occ: Coupling Explicit Feature Fusion With Volume Rendering Regularization for Multi-Modal

论文:https://arxiv.org/pdf/2404.04561v1代码:https://github.com/Rorisis/Co-Occ?

2024-06-20 12:05:25 1212 1

原创 【论文阅读】Occupancy-MAE: Self-supervised Pre-training Large-scale LiDAR Point Clouds

占位-MAE 的整体架构。我们首先将大尺度不规则激光雷达点云转换为体积表示,根据其与激光雷达传感器的距离随机屏蔽体素(即范围感知屏蔽策略),然后利用非对称自动编码器网络重建一般三维世界的几何占位结构。我们采用三维空间稀疏卷积 [6],以位置编码作为编码骨干。我们将二元占位分类作为前置任务,以区分体素是否包含点。预训练完成后,轻量级解码器将被丢弃,编码器将用于下游任务的骨干预热。数据流结构图GitHub里面的结构图。

2024-06-19 14:11:54 874 1

原创 BEV(二)多frames融合

当前帧的LIDAR数据**

2024-06-18 17:50:11 927

原创 BEV 中 multi-frame fusion 多侦融合(一)

dataroot: 数据集的根路径,类型为字符串,默认值为 ‘./project/data/nuscenes/’。是根据现有数组的形状和数据类型来创建新数组,而numpy.full()则需要手动指定形状和数据类型。获取边界框的速度信息,并将其转换为所需的格式。

2024-06-18 17:44:20 1199

原创 【论文阅读】Multi-Camera Unified Pre-Training via 3D Scene Reconstruction

问题定义:论文针对自动驾驶领域中多摄像头3D感知的问题,提出了现有算法主要依赖单目2D预训练,忽略了多摄像头系统中的空间和时间相关性。UniScene框架:提出了首个多摄像头统一预训练框架UniScene,该框架通过3D场景重建作为预训练的基础阶段,然后在下游任务上对模型进行微调。占用表示:采用占用(Occupancy)作为3D场景的通用表示,使模型能够在预训练过程中掌握周围世界的几何先验。无标签预训练:UniScene能够利用大量的未标记的图像-LiDAR对进行预训练,减少了对昂贵3D标注的依赖。

2024-06-18 13:17:55 1348 1

原创 Springer参考文献按照出现顺序排序

参考链接。

2024-06-14 10:51:32 1029 1

原创 4090显卡 安装cuda 11.3 版本

4090 安装其他版本的cuda

2024-06-13 20:05:17 3227 1

原创 LSSViewTransformer 中每个类别的意思

LSSViewTransformer 中每个类别的意思详细解释:类 定义:测试类 定义:运行测试:代码详解:create_frustum 方法生成深度轴、输入图像大小和下采样因子的网格信息。方法参数包括深度轴配置(depth_cfg),输入图像大小(input_size),和下采样比例因子(downsample)。visualize_frustum 函数定义:使用 Matplotlib 创建三维图形。从 frustum 张量中提取 x, y, d 坐标,并在三维空间中绘制这些点。设置坐标轴标

2024-06-05 11:58:31 846

原创 mmdet3D中文注释

【代码】mmdet3D中文注释。

2024-06-03 13:05:04 601

原创 vscode 如何debug(二)

在 Python 项目中配置 VS Code 进行远程调试是一个常见的需求。

2024-06-03 11:47:51 604

原创 使用ipdb来在终端上面进行debug

终端debug

2024-06-03 11:26:38 530

原创 【mmdet问题】error: unrecognized arguments: --local-rank=0

如果直接使用github里面的给的命令进行的话,回报错。所以我们要加多一行让他认识到 local-rank。

2024-05-29 17:48:07 1463

原创 LiftSplatShoot中用于处理多视角图像数据并生成鸟瞰图(调试)

根据LSS代码中explore.py 中来显示出来图像。对于 nuscenes dataset 的数据设定。图像坐标系向ego坐标系进行坐标转化。

2024-05-22 11:45:44 346

PCA 和kmean算法比较.zip

在Olivetti人脸数据集上进行人脸重建的任务中,PCA和K-Means两种方法表现出不同的效果,在对kNN算法的影响

2024-07-23

基于词级ngram的词袋模型对twitter数据进行情感分析

基于词级n-gram的词袋模型对Twitter数据进行情感分析是一个有效的方法,可以捕捉文本中的细微情感特征。

2024-07-19

基于vgg16进行迁移学习服装分类

基于VGG16进行迁移学习的服装分类项目,是一个非常有趣且具有实际应用价值的任务。首先,VGG16是一个在ImageNet数据集上预训练的深度卷积神经网络,它因其简单而有效的架构而广受欢迎。通过迁移学习,我们可以利用VGG16网络已经学到的知识,即它的权重和特征提取能力,来解决我们特定的服装分类问题,而无需从头开始训练一个完整的模型。这样不仅可以节省大量的训练时间,还可以提高模型的准确率。 在开始编写代码之前,我们首先需要在Google Colab上设置我们的工作环境。Colab提供了免费的GPU,这对于加快深度学习模型的训练速度非常有帮助。接着,我们需要导入必要的Python库,如pytorch。这些库为我们提供了构建和训练深度学习模型所需的工具和接口。

2024-03-06

使用GRU进行天气变化的时间序列预测和天气时间序列数据集

在Google Colab平台上,利用pytorch来编写的,使用门控循环单元(GRU)进行天气变化的时间序列预测。GRU是一种特殊的循环神经网络(RNN),被设计来处理序列数据,如时间序列数据,通过捕捉序列中的时间动态特征来进行预测或分类。数据文档是一个天气时间序列数据集,它由德国耶拿的马克思 • 普朗克生物地球化学研究所的气象站记录。在这个数据集中,每 10 分钟记录 14 个不同的量(比如气温、气压、湿度、风向等),其中包含2009-2016多年的记录。

2024-03-04

基于pytorch使用LSTM实现文本匹配任务代码和训练文件

使用基于PyTorch框架的LSTM(长短期记忆)网络在Google Colab 上面来实现文本匹配任务,包括完整的代码实现和必要的训练数据文件。这个过程涉及构建一个深度学习模型,该模型能够理解并比较两段文本的含义,判断它们在语义上是否匹配或相关。实现这一功能需要详细的步骤,包括数据预处理、模型设计、训练过程以及最终的评估

2024-03-04

基于pytorch使用LSTM实现新闻本文分类任务

在colab环境下实现,如果想使用cpu的话 自己换一下device的代码就可以了

2023-09-10

lenet 的 tensorflow版本,同时里面对卷积层的可视化

lenet 的 tensorflow版本,同时里面对卷积层的可视化

2023-09-11

Pytorch实现基于LSTM的情感分析的代码和数据集

Pytorch实现基于LSTM的情感分析的代码和数据集

2023-08-31

基于pytorch LSTM 的股票预测

基于pytroch LSTM的股票预测,用于参考

2023-08-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除