- 博客(666)
- 资源 (22)
- 收藏
- 关注
原创 linux内核 - I/O 端口和I/O内存
计算机系统中,RAM作为核心外设由内核管理,通过共享总线与其他内存映射设备通信(内存映射I/O)。32位系统中,CPU地址空间部分保留给外设(I/O内存),造成RAM访问空洞。解决方案包括内存映射I/O(统一寻址但地址受限)和端口I/O(专用指令访问,x86架构采用)。内核提供request_region()等函数管理I/O端口,支持in/out指令操作。两种方式各有优劣:内存映射简化编程但限制地址空间,端口I/O保留完整RAM访问但需专用指令。
2025-08-24 07:31:27
264
原创 linux内核 - 内存映射介绍
内核内存有时需要进行 重映射(remap),可能是从内核空间映射到用户空间,也可能是从高端内存映射到低端内存(内核空间内部的映射)。在一个 4 GB 的系统上,内核剩下的 128 MB 地址空间 用于映射剩余的 3.2 GB 高端内存(high memory)。而对于高端内存(超过低端 896 MB 的部分),内核需要将请求的高端内存区域 临时映射到内核地址空间,前面提到的 128 MB 地址空间就是专门为此保留的。内核会将对该映射内存区域的访问,通过常规的指针解引用,转换为对应的文件操作。
2025-08-24 07:30:58
202
原创 linux内核 - vmalloc 介绍
本文介绍了Linux内核中的vmalloc()分配器,它分配虚拟地址连续但物理内存不连续的页帧,适用于分配大块内存(如网络缓冲区)。相比kmalloc(),vmalloc()更慢但能处理更大的内存请求。文章还提供了vmalloc()的基本用法示例模块代码,展示如何分配、初始化和释放vmalloc内存,并输出调试信息。该分配器返回的地址仅适用于内核软件使用,不能用于DMA操作。
2025-08-23 20:59:33
179
原创 linux内核 - slab 分配器
Slab分配器是Linux内核中用于管理小块内存分配的核心机制,主要解决伙伴系统分配小内存时产生的碎片问题。它通过将内存划分为特定大小的Slab(由连续页框组成)来管理对象,每个Slab分为相同大小的块。Cache则是由多个Slab组成的链表,专门存放同一类型的内核对象。Slab有三种状态:空(所有块空闲)、部分使用(含空闲和已使用块)和已满(所有块被占用)。这种设计显著提升了内存分配效率,同时减少了内存碎片。
2025-08-23 20:18:01
166
原创 linux内核 - 内存分配机制介绍
Linux内核采用分层内存分配机制:页分配器以页为单位提供基础内存;其上的slab分配器将内存页分割为更小单元,支持kmalloc API;此外内核还提供直接分配虚拟内存的vmalloc接口。不同分配方式满足各类内存需求,开发者可根据用途选择最合适的机制。
2025-08-21 23:35:54
138
原创 linux内核 - 内存管理单元(MMU)与地址翻译(二)
在 Linux 内核中,struct task_struct 表示一个进程的描述,其中有一个成员 mm,类型为 struct mm_struct,用于描述和表示进程的内存空间。在这样的系统上(32 位),每个进程拥有独立的 3 GB 用户地址空间,我们需要 786,432 个页表项来覆盖并描述一个进程的整个地址空间。当一个进程需要读取或写入某个内存位置时(这里指的是虚拟内存),MMU 会通过该进程的页表进行地址转换,找到对应的页表项(PTE)。直到找到最终的页表项(PTE),获得对应的物理页。
2025-08-20 23:35:52
601
原创 linux 内核 - 内存管理单元(MMU)与地址翻译(一)
它们使用页表作为翻译表,每个页表项的索引就是虚拟页号,而该索引对应的值就是 PFN(页帧号)。当需要通过虚拟内存访问物理内存时,操作系统首先会提取偏移量和虚拟页号,然后遍历该进程的页表,将虚拟页号与物理页匹配。对于一个进程而言,它所需访问的任何页面都必须存在于该进程的某个 VMA 中,因此也必须记录在该进程的页表里(每个进程都有自己的页表)。在一个以 4 KB 为页大小的系统中,字节地址 0 到 4095 属于第 0 页,字节地址 4096 到 8191 属于第 1 页,以此类推。
2025-08-20 23:15:57
278
原创 驱动开发系列66 - GLSL编译器实现 - 如何添加内置函数
本文介绍了在GLSL语言中实现textureSamples内置函数的方法。以ARB_shader_texture_image_samples扩展为例,该扩展允许着色器查询多重采样纹理的样本数。文章详细说明了内置函数的定义过程,包括创建基类Builtin和处理参数、返回值等。通过TextureSamplesBuiltin派生类展示了具体实现,包括LLVM IR生成和GPU硬件指令映射。最后阐述了从GLSL到LLVM IR再到GPU驱动的完整流程,包括参数解析、硬件状态索引获取和最终GPU指令发出的过程,为开发
2025-08-19 22:57:21
297
原创 驱动开发系列65 - NVIDIA 开源GPU驱动open-gpu-kernel-modules 目录结构
NVIDIA显卡驱动架构分析:该驱动分为OS相关和OS无关两部分。OS相关部分包括多个内核模块,分别负责GPU初始化/显存管理(nvidia.ko)、图形接口支持(nvidia-drm.ko)、显示管理(nvidia-modeset.ko)、虚拟内存管理(nvidia-uvm.ko)以及多GPU通信(nvidia-peermem.ko)。OS无关部分包含核心功能代码和与开源驱动Nouveau集成的工具。这种分层设计既保证了与不同操作系统的兼容性,又提供了完整的GPU功能支持。
2025-08-19 21:57:22
485
原创 驱动开发系列64 - GLSL编译器实现 - 添加精度优化pass
glCompileShader将GLSL源码编译为GPU可执行代码的过程包括五个阶段:源码解析、语义检查、生成中间代码、优化(如精度优化、常量折叠等)和最终编译。其中精度优化pass会优化如normalize()函数的精度,通过LLVM pass提升执行效率。这一过程将抽象语法树逐步转换为优化的GPU机器码。
2025-08-18 23:42:23
779
原创 linux 内核 - 进程地址空间的数据结构
本文介绍了Linux内核中进程内存管理的两个关键数据结构:task_struct和mm_struct。task_struct表示进程实例,其中包含指向mm_struct的指针。mm_struct详细描述了进程的内存映射情况,包括页表(pgd)、用户栈(start_stack)、堆区(start_brk/brk)、数据段(start_data/end_data)、代码段(end_code)等关键内存区域的地址信息,以及映射区域基址(mmap_base)等。这些数据结构共同构成了Linux内核的进程地址空间管理
2025-08-18 20:34:36
313
原创 驱动开发系列63 - NVIDIA 开源GPU驱动open-gpu-kernel-modules编译调试
在Ubuntu系统上安装NVIDIA闭源驱动的步骤包括:1)更新系统包;2)添加NVIDIA官方PPA源;3)通过ubuntu-drivers检查可用驱动版本;4)安装指定版本驱动(推荐最新闭源版);5)重启后使用nvidia-smi验证;6)使用prime-select命令切换显卡模式(独显/集显/混合模式)。安装完成后需重启系统使驱动生效。
2025-08-16 09:03:43
158
原创 linux内核 - Linux 文件系统简介
Linux内核通过VFS层实现文件系统模块化设计,核心结构体super_block、inode、dentry和file协同工作:super_block代表文件系统实例,inode描述文件元数据,dentry缓存目录项提升性能,file表示进程打开的文件。VFS抽象统一接口,解耦用户空间与具体文件系统实现,支持多种文件系统共存。
2025-08-14 23:04:29
784
原创 linux 内核 - 内存管理的层次化结构
Linux内核内存管理采用层次化结构:最高层为内存节点(pglist_data),NUMA系统中每个节点对应一个pglist_data,UMA系统则只有一个;每个节点划分为多个内存域,用于处理不同硬件设备的访问限制;最底层是页帧(struct page),作为内存管理的最小单位。这种多级结构实现了对不同架构内存的统一管理。
2025-08-14 23:02:39
313
原创 linux 内核 - 内存管理概念
本文概述Linux内存管理的核心知识,包括主要数据结构和实现逻辑。Linux采用分页式内存管理,通过页表实现虚拟地址到物理地址的转换。关键数据结构包括内存描述符mm_struct、页描述符page、区域描述符zone等。实现逻辑涉及伙伴系统管理物理内存,slab分配器处理小对象分配,以及页面置换算法等机制。文章对这些核心概念进行了简要分析,帮助理解Linux内存管理的基本原理。
2025-08-13 22:54:54
612
原创 驱动开发系列62 - glBufferDataARB实现分析
本文分析了Mesa中glBufferDataARB的实现过程。该函数主要用于OpenGL缓冲区对象的存储分配和初始化,其调用链为:glBufferData → _mesa_BufferData → _mesa_buffer_data → buffer_data → _mesa_bufferobj_data → bufferobj_data → u_transfer_helper_resource_create → iris_resource_create → iris_resource_create_for
2025-08-13 22:50:45
496
原创 CUDA编程9 - 卷积实践
本文介绍了CUDA API中用于图像处理和纹理内存操作的关键组件。主要包括:1)cudaArray和cudaTextureObject_t用于纹理内存管理;2)cudaChannelFormatDesc描述数据格式;3)cudaMallocArray和cudaMalloc分配GPU内存;4)cudaResourceDesc和cudaTextureDesc定义纹理资源;5)cudaCreateTextureObject创建纹理对象;6)cudaMemcpyToSymbol用于主机到设备的数据传输;7)cuda
2025-07-30 23:13:51
118
原创 OpenGL进阶系列22 - OpenGL SuperBible - bumpmapping 例子学习
法线贴图是一种通过改变表面光照效果来模拟细节的技术,它不会增加模型的多边形数量。通过在贴图中存储表面法线信息,它能制造凹凸、划痕等视觉细节,使简单模型看起来更精细。这种"视觉欺骗"技术既能保持性能,又能提升画面真实感,广泛应用于游戏和图形渲染中,是效果与效率兼顾的优化方案。
2025-07-28 22:06:20
98
原创 linux 内核: 遍历当前所有进程
本文介绍了在Linux内核中安全遍历进程链表的方法。由于传统的tasklist_lock机制已被废弃,建议使用RCU(Read-Copy-Update)机制来实现并发安全的进程遍历。核心实现包括:1)使用rcu_read_lock()/rcu_read_unlock()保护进程链表;2)通过for_each_process宏遍历所有进程;3)使用get_task_struct()/put_task_struct()确保进程结构安全;4)打印进程信息(名称、TGID、PID、UID、EUID)。文章提供了完整
2025-07-15 23:31:38
237
原创 驱动开发系列61- Vulkan 驱动实现-SPIRV到HW指令的实现过程(2)
本文介绍了SPIR-V到LLVMIR转换的核心机制,重点分析了关键转换步骤。主要内容包括:1)创建llvm::Module模块,初始化LLVM上下文;2)定义目标架构,详细说明了LLVMTargetMachine、TargetSubtargetInfo和TargetLibraryInfoImpl三个辅助类的作用,分别用于表示目标架构配置、子架构特征描述和内置函数支持。这些步骤为后续SPIR-V到LLVMIR的语义转换奠定了基础。
2025-07-15 21:47:58
227
原创 linux 内核: 访问当前进程的 task_struct
文章摘要:本文介绍了在Linux内核模块中如何通过current宏获取当前进程信息。Linux采用单内核架构,所有模块运行在内核态,current宏指向task_struct结构体,可获取进程上下文信息。示例代码展示了如何显示进程名称、PID、TGID、UID、EUID、状态等关键信息,并区分进程上下文和中断上下文。模块初始化时打印进程信息,退出时再次显示。该技术可用于内核开发中的进程状态监控和调试。
2025-07-14 23:52:31
222
原创 驱动开发系列60- Vulkan 驱动实现-SPIRV到HW指令的实现过程(1)
1. vkCreateShaderModule 作用: 将已编译好的SPIR-V着色器代码加载到Vulkan中供GPU使用/*参数:device Vulkan 逻辑设备句柄(VkDevice)pCreateInfo 指向 VkShaderModuleCreateInfo 结构体,描述 SPIR-V 数据和大小pAllocator 自定义内存分配器(通常传 nullptr 使用默认分配器)pShaderModule 返回创建好的 VkShaderModule 句柄*/
2025-07-14 22:30:56
261
原创 C++ dijkstra 最短路径算法
Dijkstra算法是荷兰科学家Edsger W. Dijkstra于1956年提出的单源最短路径算法。该算法采用贪心策略,通过优先队列选择当前距离起点最近的节点,更新其邻居的最短路径。文章详细介绍了算法步骤:初始化距离、使用最小堆、松弛操作等,并提供了C++实现代码,包括邻接表构建、Dijkstra核心算法和测试用例。代码展示了如何计算两点间最短路径,处理不可达情况,并通过三个测试案例验证了算法的正确性(可达路径计算、更优路径选择及不可达情况处理)。
2025-07-08 21:59:39
356
翻译 AI论文阅读-注意力就是你所需的一切(Attention Is All You Need)
《Attention Is All You Need》 翻译 + 自己的理解
2025-07-07 20:37:47
68
1
原创 C++ 基于广度优先搜索(BFS)的拓扑排序算法
Kahn拓扑排序算法通过广度优先搜索处理有向无环图,时间复杂度O(V+E)。该算法不断选择入度为0的节点加入结果序列,若最终节点数不足则检测到环。摘要代码实现了一个Graph类,包含添加边和拓扑排序方法,并通过多个测试用例验证功能:包括多路径合并、复杂DAG、独立链合并及环检测。测试结果显示算法正确实现了拓扑排序,并能有效识别环结构。
2025-07-06 21:49:24
213
原创 C++ 语言特性31 - 协程介绍(2)
摘要:协程是一种可挂起与恢复执行的"高级函数",用于处理异步操作和数据生成等复杂场景。C++20引入协程支持,通过co_await和co_yield关键字实现非阻塞等待和生成器功能。协程概念早在1963年提出,现已被Python、JavaScript等现代语言广泛采用。C++函数的演进从基础函数到模板、lambda,最终在C++20迎来协程,实现了惰性求值和更灵活的流程控制能力。协程为C++带来了资源友好的异步编程方式,特别适合系统级开发需求。
2025-07-05 21:00:08
905
原创 C++ 基于深度优先搜索(DFS)的拓扑排序算法
本文介绍了基于深度优先搜索(DFS)的拓扑排序算法实现。算法通过递归遍历有向图的节点,在回溯时将节点压入栈中,最终获得拓扑排序的逆序。同时使用onstack数组检测图中是否存在环(回边)。文章提供了C++实现代码,包括Graph类、DFS函数和拓扑排序函数,并通过三个测试案例验证了算法的正确性:前两个测试展示了正常有向无环图的拓扑排序结果,第三个测试验证了环检测功能。当检测到环时,算法会抛出"cycle detected in graph"异常。
2025-07-05 11:25:57
182
原创 C++26 下一代C++标准
摘要:C++26作为下一代C++标准,将延续C++20的革新步伐,带来三大核心特性:反射(Reflection)增强元编程能力,契约(Contracts)规范接口设计,以及std::execution框架统一异步编程。从C++98的模板基础到C++11的现代特性,再到C++20的四大革新(范围库/协程/概念/模块),C++26有望成为继C++11和C++20之后又一里程碑式版本。该标准计划2025年完成,将显著提升C++在编译时编程、系统设计和并发处理方面的表现。
2025-07-04 23:38:58
1018
原创 驱动开发系列59- 再述如何处理硬件中断
本文探讨了设备驱动开发中硬件中断的处理方法。硬件中断是外设请求操作系统响应的电信号,会迫使处理器执行相应的中断处理程序。文章介绍了Linux操作系统处理中断的基本流程,重点讲解了驱动开发者需掌握的关键技术:如何分配IRQ中断号、编写中断处理函数(包括注意事项)、线程化中断模型的使用、IRQ中断的启用/禁用方法,以及通过/proc查看中断信息。此外还解释了中断上半部与下半部机制,并解答了相关常见问题。这些知识对于开发高效稳定的设备驱动程序至关重要。
2025-07-04 22:37:41
318
原创 驱动开发系列58 - 揭开内核IRQ框架的神秘面纱
本文介绍了Linux系统中的中断管理机制。硬件设备通过中断请求(IRQ)线路向CPU发送处理请求,CPU会暂停当前任务处理中断,完成后恢复原任务执行。文章重点阐述了内核提供的IRQ管理API、中断复用方法以及中断控制器驱动的实现原理。其中,中断控制器作为关键设备,负责管理CPU与中断线路间的交互。通过分析各组件间的协作过程,展现了Linux系统高效处理硬件中断的机制。
2025-06-29 22:01:44
98
原创 驱动开发系列57 - Linux Graphics QXL显卡驱动代码分析(四)显示区域更新
前面在介绍了显示模式设置(分辨率,刷新率)之后,本文继续分析下,显示区域的绘制,详细看看虚拟机的画面是如何由QXL显卡绘制出来的。// 当前启用的显示器数量(head 数量)// 驱动允许的最大显示器数量,如果为 0,表示没有固定限制,由驱动动态决定// 每个显示器的配置数组(实际大小为 count)// 显示头(显示器)ID// 绑定的 QXLSurface ID// 显示区域的宽度(像素)// 显示区域的高度(像素)uint32_t x;
2025-05-06 23:52:25
604
原创 驱动开发系列56 - Linux Graphics QXL显卡驱动代码分析(三)显示模式设置
如之前介绍,在qxl_pci_probe 中会调用 qxl_modeset_init 来初始化屏幕分辨率和刷新率,本文详细看下 qxl_modeset_init 的实现过程。即QXL设备的显示模式设置,是如何配置CRTC,Encoder,Connector 的以及创建和更新帧缓冲区的。
2025-05-02 14:31:12
798
原创 驱动开发系列55 - Linux Graphics QXL显卡驱动代码分析(二)显存管理
前面介绍了当内核检测到匹配的PCI设备后,会调用 qxl_pci_probe 初始化设备,其中会调用qxl_device_init 来初始化设备,为QXL设备进行内存映射,资源分配,环形缓冲区初始化,IRQ注册等操作,本文展开说说这些细节,并介绍下QXL的显存管理。
2025-05-01 09:40:33
389
原创 驱动开发系列54 - Linux Graphics QXL显卡驱动代码分析(一)设备初始化
QXL 是QEMU支持的一种虚拟显卡,用于虚拟化环境中的图形加速,旨在提高虚拟机的图形显示和远程桌面的用户体验;QEMU 也称 Quick Emulator,快速仿真器,是一个开源通用的仿真和虚拟化工具,可以模拟不同架构的计算机以及运行虚拟机。本文介绍下QXL 虚拟显卡驱动,即Linux 内核代码中QXL显卡驱动部分。看看它是如何支持QEMU虚拟显卡的。QXL代码分析基于v6.15-rc2内核版本。
2025-04-30 20:31:05
969
原创 linux 内核 debugfs 使用介绍
debugfs是 Linux 内核提供的一个特殊的虚拟文件系统,用于 暴露内核模块(如驱动)内部的调试信息或控制接口,供开发者、调试人员实时查看和排查问题。即debugfs就是一个“调试专用的 /proc 或 /sys”,方便你在不重启或不修改代码的情况下,查看内核模块的运行状态、统计信息,甚至直接向内核模块传递调试指令。
2025-04-29 21:46:13
491
原创 C++编程指南40 - 避免不经意间写出不通用的代码
在编写代码时,应尽量使用更通用、更抽象的方式,而不是绑定到具体实现细节,以提高代码的可重用性和适用性。以下规则有助于提升代码的通用性、可维护性与可扩展性:迭代器比较:用!替代,因为!更广泛适用于非有序容器。类型使用:如果函数只使用基类接口,就应接受基类引用,而不是派生类,避免对具体类型的无必要依赖。空判断方式:使用empty()而不是,因为某些容器没有size(),但支持判断是否为空。强制执行建议:编译器或代码分析工具应能发现并提示这些不通用的用法,避免影响泛型和复用能力。
2025-04-29 21:35:04
224
原创 OpenGL进阶系列21 - OpenGL SuperBible - blendmatrix 例子学习
颜色输出阶段是 OpenGL 渲染管线中最后一个阶段。它决定了片段在离开发片段着色器之后,最终显示在用户屏幕上的颜色值。颜色输出阶段最重要的一个操作就是混合。本例子重点介绍下OpenGL中的混合操作。对于每个通过片段测试(per-fragment tests)的片段,会执行混合操作。混合允许你将传入的源颜色与颜色缓冲区中已有的颜色进行组合;
2025-04-28 22:13:29
360
OpenGL Programming Guide (Red Book) 9th Edition Source Code
2024-10-07
Learn LLVM 17 A beginners guide to learnin - Kai Nacke.pdf
2024-07-08
Power and Performance Software Analysis and Optimization pdf
2024-04-09
计算机图形学经典书籍资料-建模部分
2014-11-06
计算机图形学经典书籍资料-渲染部分
2014-11-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人