骆驼穿针眼-CSDN博客

原创第17講：有關影像的生成式AI (上) — AI 如何產生圖片和影片 (Sora 背後可能用的原理) 学习记录

Sora 的demo。

2025-08-06 15:54:55 480

原创【生成式AI導論 2024】第16講：可以加速所有語言模型生成速度的神奇外掛 — Speculative Decoding 学习记录

在大型语言模型（LLM）推理过程中，Speculative Decoding 推测式解码是一种能显著加速生成速度的技术。它通过在一次前向传播中“大胆猜测”未来的多个 token，同时引入验证机制，确保最终生成结果与标准（vanilla）解码完全一致。✅2x 推理加速✅3x 加速（Granite 20B code 模型）Deepmind论文。

2025-08-06 10:59:13 550

原创【生成式AI導論 2024】第15講：為什麼語言模型用文字接龍，圖片生成不用像素接龍呢？

生成式人工智能（Generative AI）是一种能够自动生成复杂且具有结构化内容的技术，涵盖文字、图像、声音等多种形式。这类模型擅长从有限的基本单元出发，构建出几乎无法穷举的内容组合，展现出强大的创造力和泛化能力。

2025-08-04 15:40:24 770

原创【生成式AI導論 2024】第13講：淺談大型語言模型相關的安全性議題

在语言模型的输出中加上浮水印（watermark）是一种追踪、识别、验证生成文本来源的方法，主要用于防止滥用和提升内容可信度。让语言模型说出他想说的话。结果一起的话可能会错。

2025-07-24 11:19:21 775

原创【生成式AI導論 2024】第12講：淺談檢定大型語言模型能力的各種方式学习记录

阅读长文的能力 grep kamradt。还有其他任务的对比,也有特别刁钻的问题。MT-bench 使用语言模型来评分。跟标准答案做对比看是否正确。

2025-07-23 12:35:07 169

原创【生成式AI導論 2024】第11講：大型語言模型在「想」什麼呢？学习笔记

上下文学习（ICL）作为大型语言模型（LLMs）的一项有前景的能力，通过为其提供示例来执行多样化任务。研究发现，示例中的标签词扮演锚点角色：（1）在浅层计算过程中，语义信息聚合到标签词表征中；（2）标签词中整合的信息成为 LLMs 最终预测的参考依据。基于这些洞察，我们提出了一种锚点重新权重方法以提升 ICL 性能，一种演示压缩技术以加速推理，以及一个用于诊断 GPT2-XL 中 ICL 错误的分析框架。我们的研究成果在实际应用中的良好表现再次验证了所揭示的 ICL 工作机制，并为未来研究奠定了基础。

2025-07-23 10:31:25 756

原创生成式AI導論 2024】第9講：以大型語言模型打造的AI Agent 学习记录

AI Agentmemgtp。

2025-07-22 21:41:06 301

原创【生成式AI導論 2024】第6講：大型語言模型修練史 — 第3个階段学习记录

instruction Fine-tuning：只问过程，不问结果。语言模型根据网络资料学了很多东西，却不知道使用方法。就好像有上乘内功，却不知道使用的方法。回馈模型（reward model）fine-tuning 是画龙点睛。RLHF: 只问结果，不问过程。Adapter 和 LoRA。如何更有效利用人类的回馈？对chatgpt做逆向工程。

2025-07-22 16:05:32 410

原创【生成式AI導論 2024】第5講：訓練不了人工智慧？你可以訓練你自己 (下) 学习记录

模型合作：　让合适的模型做合适的事请。专业问题，专业模型，并非全能模型。模型合作：让模型彼此讨论。

2025-07-22 14:26:11 157

原创【生成式AI導論 2024】第4講：訓練不了人工智慧？你可以訓練你自己 (中) — 拆解問題與使用工具学习记录

但是因为没有经历模型学习，所以再次提问的时候，也会出错。调用ChatGPT处理。

2025-07-22 13:46:49 656

原创【生成式AI導論 2024】第3講：訓練不了人工智慧？你可以訓練你自己

一些思考

2025-07-21 16:08:52 341

原创【生成式AI導論 2024】第2講：今日的生成式人工智慧厲害在哪裡？從「工具」變為「工具人」的随笔

prompt engineering(巧妙和设计)（只要你下对指示，chatgpt久可能帮助你）（你认为GPT是工具，只有固定功能）要问你想要chatgpt帮你做什么。不要chatgpt 能为你做什么。我改变不了模型,那我改变我自己。工具人:没有特定功能。

2025-07-21 14:52:09 227

原创从零开始的语言模型构建 CS336 第一课（一）

👉 它的核心思想就是：不断找出出现频率最高的字符对，把它们合并成一个新“词”，反复迭代，直到达到设定的词表大小。BPE 已经成为现在大部分主流大模型（比如 GPT 系列）的标配分词方案。这些方法很有潜力，省去了复杂的分词步骤，但目前还没能像 BPE 一样被大规模用于最前沿的大模型。提到的 tokenizer-free 方法，直接基于字节（bytes）做处理。✅ 缩放规律 (Scaling laws)✅ 对齐 (Alignment)✅ 系统 (Systems)✅ 基础 (Basics)✅ 数据 (Data)

2025-07-10 14:24:35 1003

原创大语言模型原理与书生大模型提示词工程实践-学习笔记

输入给模型的指令/内容，引导其生成期望输出。通过设计和优化 Prompt，提高模型响应质量与稳定性。

2025-06-10 12:05:07 945

原创如何在 Mac 上使用 Xcode 将 Chrome 插件转换为 Safari 插件（一些插件）

将一些常用插件转到Safari里面，chrome实在太重了

2025-02-26 16:13:36 1680

原创【论文阅读】Far3D: Expanding the Horizon for Surround-view 3D Object Detection

论文： https://arxiv.org/pdf/2308.09616代码： https://github.com/megvii-research/Far3DA: 这篇论文提出了一个名为Far3D的新型3D对象检测框架，旨在解决从环视图像中进行长距离3D对象检测的挑战。尽管现有的基于环视图像的3D对象检测方法在成本低廉和应用广泛方面取得了显著进展，但它们主要集中在近程感知范围，而对远程检测的探索较少。直接将现有方法扩展到长距离检测面临如下挑战：计算成本高：随着检测范围的扩大，需要处理的数据量和计算量显著

2024-08-13 11:58:58 1259 1

原创【论文阅读】Exploring Object-Centric Temporal Modeling for Efficient Multi-View 3D Object Detection

query 级别的时许融合

2024-08-06 13:33:28 725 1

原创【论文阅读】PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images

引入任务特定的查询（task-specific queries），例如车道检测的3D锚定车道和BEV分割的seg查询，这些查询在不同的空间中初始化，并与transformer解码器中的多视图图像特征进行交互。通过3D坐标对齐（3D Coordinates Alignment）实现不同帧之间的时间对齐，将上一帧的3D坐标转换到当前帧的坐标系中，以增强目标定位和速度估计。改进原有的3D位置嵌入（3D PE），通过FPE使3D PE依赖于输入图像数据，利用2D图像特征提供的信息（如深度）来指导查询学习。

2024-08-03 16:41:09 1279 1

原创 self-attention(自注意力) 和 cross-attetion（交叉注意力）中的差异

自注意力和交叉注意力的差异

2024-08-01 15:17:03 1658

原创 PCA和Kmean在人脸重建olivetti人脸数据集上的比较

KNN（K近邻）算法是最简单且常用的分类算法之一。它属于有监督学习算法，尽管看起来与无监督学习算法K-means相似，但两者本质上不同。那么，什么是KNN算法呢？接下来我们进行介绍。KNN的全称是K Nearest Neighbors，即K个最近的邻居。其核心思想是：在预测新样本x时，根据其在特征空间中距离最近的K个邻居的类别来判断x的类别。PCA（Principal Component Analysis），即主成分分析法，是特征降维最常用的手段之一，也是最基础的无监督降维算法。

2024-07-23 09:34:42 1083

原创基于词级ngram的词袋模型对twitter数据进行情感分析

N 格是指给定文本或语音样本中 n 个项目的连续序列。这些项目可以是音素、音节、字母、单词或碱基对，具体取决于应用。N-grams 广泛应用于计算语言学和文本分析中的各种任务，如文本预测、拼写校正、语言建模和文本分类。它们为文本挖掘和自然语言处理（NLP）提供了一种简单而有效的方法。###了解 N 符n-gram 的概念很简单：它是由 ‘n’ 个连续项组成的序列。Unigram(n=1)：单个项目或单词。Bigram(n=2)：一对连续的项目或单词。Trigram（n=3）：连续的三联项或词。

2024-07-19 19:07:20 1351

原创 llama 2 改进之 RMSNorm

通过激活函数后，其中，随着前一层的更新，层的输入分布会发生变化。论文假设LayerNorm中的重新居中不变性是可有可无的，并提出了均方根层归一化(RMSNorm)。RMSNorm根据均方根(RMS)将一层神经元的总和输入正则化，得到模型重新缩放不变性特性和隐式学习率适应能力。在本文中，假设重新缩放不变性是LayerNorm成功的原因，而不是重新定中心不变性。是增益参数，用于重新调整标准化求和输入的大小，一开始设置为 1。分别是根据原始求和输入估计的均值和方差统计量。的归一化替代值用于层激活。

2024-07-18 16:07:31 1368

原创 LLaMA 数据集

多样化数据来源：涵盖从网络抓取数据到书籍、科学论文和问答网站的数据。高效预处理：通过多种预处理技术确保数据的高质量和相关性，包括语言识别、质量过滤和重复数据删除。覆盖多语言：重点涵盖使用拉丁字母和西里尔字母的多种语言，提高模型的多语言处理能力。LLaMA 2在训练设置和模型架构上大部分继承了LLaMA 1的配置，但也进行了几项重要的改进和调整。LLaMA 2在保持LLaMA 1基础架构的同时，通过增加上下文长度和引入分组查询注意力机制，进一步提升了模型的能力。

2024-07-18 16:06:40 1420

原创 LLaMA 背景

模型介绍：LLaMA是Meta开发的语言模型，旨在推动开放科学和人工智能的实践。参数范围：这些模型的参数数量从7B到65B不等，覆盖了不同规模的需求。训练数据：LLaMA模型是在数万亿个公开数据集的tokens上训练的，这使得它们具有广泛的语言理解和生成能力。LLaMA通过在大量训练数据上的优化，实现了高效的语言理解和生成能力，且在计算资源、存储和传输等方面具有显著优势，使其在实际应用中更具竞争力。

2024-07-18 13:56:16 599

原创 LLM 的储备知识

n Softmax层权值矩阵与目标语言词向量矩阵共享参数。Transformer Decoder 结构。• 掩码多头自注意神经网络。• 多头自注意神经网络。

2024-07-18 12:22:42 216

原创【论文阅读】PETR: Position Embedding Transformation for Multi-View 3D Object Detection + 代码

在本文中，我们开发了用于多视图 3D 对象检测的位置嵌入变换(PETR)。PETR 将 3D 坐标的位置信息编码为图像特征，产生 3D 位置感知特征。对象查询可以感知 3D 位置感知特征并执行端到端对象检测。PETR 在标准 nuScenes 数据集上实现了最先进的性能（50.4% NDS 和44.1% mAP），并在基准测试中排名第一。它可以作为未来研究的简单而强大的基线。

2024-07-03 21:19:58 1443 1

原创【论文阅读】COTR: Compact Occupancy TRansformer for Vision-based 3D Occupancy Prediction

为了解决这些问题，论文提出了一种名为Compact Occupancy TRansformer（COTR）的方法，它包括一个几何感知的占用编码器和一个语义感知的组解码器，以重建一个紧凑的3D OCC表示。总结来说，COTR通过提出紧凑的3D占用表示和语义感知的组解码器，有效地解决了3D占用预测中的几何信息丢失、计算成本高和语义可区分性差的问题。现有的3D占用表示缺乏语义可区分性，这限制了网络成功识别稀有物体的能力，这部分是由于数据集中的类别不平衡问题导致的。

2024-06-21 11:31:47 1187 1

原创【论文阅读】Co-Occ: Coupling Explicit Feature Fusion With Volume Rendering Regularization for Multi-Modal

论文：https://arxiv.org/pdf/2404.04561v1代码：https://github.com/Rorisis/Co-Occ?

2024-06-20 12:05:25 1212 1

原创【论文阅读】Occupancy-MAE: Self-supervised Pre-training Large-scale LiDAR Point Clouds

占位-MAE 的整体架构。我们首先将大尺度不规则激光雷达点云转换为体积表示，根据其与激光雷达传感器的距离随机屏蔽体素（即范围感知屏蔽策略），然后利用非对称自动编码器网络重建一般三维世界的几何占位结构。我们采用三维空间稀疏卷积 [6]，以位置编码作为编码骨干。我们将二元占位分类作为前置任务，以区分体素是否包含点。预训练完成后，轻量级解码器将被丢弃，编码器将用于下游任务的骨干预热。数据流结构图GitHub里面的结构图。

2024-06-19 14:11:54 874 1

原创 BEV（二）多frames融合

当前帧的LIDAR数据**

2024-06-18 17:50:11 927

原创 BEV 中 multi-frame fusion 多侦融合(一)

dataroot: 数据集的根路径，类型为字符串，默认值为 ‘./project/data/nuscenes/’。是根据现有数组的形状和数据类型来创建新数组，而numpy.full()则需要手动指定形状和数据类型。获取边界框的速度信息，并将其转换为所需的格式。

2024-06-18 17:44:20 1199

原创【论文阅读】Multi-Camera Unified Pre-Training via 3D Scene Reconstruction

问题定义：论文针对自动驾驶领域中多摄像头3D感知的问题，提出了现有算法主要依赖单目2D预训练，忽略了多摄像头系统中的空间和时间相关性。UniScene框架：提出了首个多摄像头统一预训练框架UniScene，该框架通过3D场景重建作为预训练的基础阶段，然后在下游任务上对模型进行微调。占用表示：采用占用（Occupancy）作为3D场景的通用表示，使模型能够在预训练过程中掌握周围世界的几何先验。无标签预训练：UniScene能够利用大量的未标记的图像-LiDAR对进行预训练，减少了对昂贵3D标注的依赖。

2024-06-18 13:17:55 1348 1

原创 Springer参考文献按照出现顺序排序

参考链接。

2024-06-14 10:51:32 1029 1

原创 4090显卡安装cuda 11.3 版本

4090 安装其他版本的cuda

2024-06-13 20:05:17 3227 1

原创 LSSViewTransformer 中每个类别的意思

LSSViewTransformer 中每个类别的意思详细解释：类定义：测试类定义：运行测试：代码详解：create_frustum 方法生成深度轴、输入图像大小和下采样因子的网格信息。方法参数包括深度轴配置（depth_cfg），输入图像大小（input_size），和下采样比例因子（downsample）。visualize_frustum 函数定义：使用 Matplotlib 创建三维图形。从 frustum 张量中提取 x, y, d 坐标，并在三维空间中绘制这些点。设置坐标轴标

2024-06-05 11:58:31 846

原创 mmdet3D中文注释

【代码】mmdet3D中文注释。

2024-06-03 13:05:04 601

原创 vscode 如何debug（二）

在 Python 项目中配置 VS Code 进行远程调试是一个常见的需求。

2024-06-03 11:47:51 604

原创使用ipdb来在终端上面进行debug

终端debug

2024-06-03 11:26:38 530

原创【mmdet问题】error: unrecognized arguments: --local-rank=0

如果直接使用github里面的给的命令进行的话，回报错。所以我们要加多一行让他认识到 local-rank。

2024-05-29 17:48:07 1463

原创 LiftSplatShoot中用于处理多视角图像数据并生成鸟瞰图（调试）

根据LSS代码中explore.py 中来显示出来图像。对于 nuscenes dataset 的数据设定。图像坐标系向ego坐标系进行坐标转化。

2024-05-22 11:45:44 346

PCA 和kmean算法比较.zip

在Olivetti人脸数据集上进行人脸重建的任务中，PCA和K-Means两种方法表现出不同的效果，在对kNN算法的影响

2024-07-23

基于词级ngram的词袋模型对twitter数据进行情感分析

基于词级n-gram的词袋模型对Twitter数据进行情感分析是一个有效的方法，可以捕捉文本中的细微情感特征。

2024-07-19

基于vgg16进行迁移学习服装分类

基于VGG16进行迁移学习的服装分类项目，是一个非常有趣且具有实际应用价值的任务。首先，VGG16是一个在ImageNet数据集上预训练的深度卷积神经网络，它因其简单而有效的架构而广受欢迎。通过迁移学习，我们可以利用VGG16网络已经学到的知识，即它的权重和特征提取能力，来解决我们特定的服装分类问题，而无需从头开始训练一个完整的模型。这样不仅可以节省大量的训练时间，还可以提高模型的准确率。在开始编写代码之前，我们首先需要在Google Colab上设置我们的工作环境。Colab提供了免费的GPU，这对于加快深度学习模型的训练速度非常有帮助。接着，我们需要导入必要的Python库，如pytorch。这些库为我们提供了构建和训练深度学习模型所需的工具和接口。

2024-03-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

PCA 和kmean算法比较.zip

基于词级ngram的词袋模型对twitter数据进行情感分析

基于vgg16进行迁移学习服装分类

使用GRU进行天气变化的时间序列预测和天气时间序列数据集

基于pytorch使用LSTM实现文本匹配任务代码和训练文件

基于pytorch使用LSTM实现新闻本文分类任务

lenet 的 tensorflow版本，同时里面对卷积层的可视化

Pytorch实现基于LSTM的情感分析的代码和数据集

基于pytorch LSTM 的股票预测

空空如也