- 博客(326)
- 收藏
- 关注
原创 一文读懂:什么是CLIP
CLIP是OpenAI推出的革命性人工智能模型,通过对比学习4亿个图像-文本配对数据,实现了图像与语言的深度融合。其核心创新在于双编码器架构(图像编码器和文本编码器),将视觉和文本信息映射到共享嵌入空间。CLIP的最大突破是零样本学习能力,无需特定任务训练即可完成图像分类等任务。该技术已应用于DALL-E图像生成、智能搜索、内容审核等领域,但存在细节识别不足、计数困难等局限性。CLIP代表了AI多模态理解的重大进步,为机器感知世界提供了新范式。
2025-08-06 23:41:43
648
原创 SPI、UART、I2C通信的区别与应用
本文对比了SPI、UART和I2C三种常见的串行通信协议。SPI采用四线制同步通信,支持全双工连续数据传输,速度快但线数多;UART仅需两线异步通信,结构简单但速率受限;I2C结合两者优点,支持多主机多从机架构,通过地址寻址实现灵活组网。三种协议各有特点:SPI适合高速传输,UART适合简单设备间通信,I2C适合多设备系统。文章详细阐述了各协议的工作原理、传输流程及优缺点,为开发者根据项目需求选择合适通信方案提供了参考依据。
2025-08-03 21:11:31
685
原创 四款可视化工具,解决99%的可视化大屏需求
本文对比了四款主流数据可视化工具:阿里云DataV(7天试用期,功能强大但费用高)、积木报表(永久免费开源,灵活设计)、百度Sugar(30天试用期)和帆软(老牌工具,需下载软件)。各工具在费用、试用期、操作难度等方面存在差异,其中积木报表以完全免费和开源特性脱颖而出,其他工具则存在试用期短或功能限制等问题。用户可根据预算和需求选择适合的可视化解决方案。
2025-07-22 16:14:13
286
原创 Python中__init__.py作用
__init__.py是Python用来标识一个目录应当被视为包(Package)的特殊文件。这个文件可以完全为空,但它的存在本身就是一个明确的信号。
2025-07-21 23:43:06
476
原创 语音识别模型:从统计建模到端到端架构的范式跃迁
语音识别技术经历了从模板匹配到深度学习的演进过程。早期系统依赖特定人的孤立词模板匹配(1950s-1980s),后进入GMM-HMM统计建模时代(1980s-2010s),通过概率统计方法解决语音时序问题。深度学习革命(2010s至今)先以DNN-HMM混合模型提升精度,后发展为端到端模型(如CTC、Attention、RNN-T),整合声学和语言模型,实现输入到输出的直接映射。这一发展历程展现了技术从传统统计方法向神经网络模型的范式转变,不断优化语音识别的准确性和泛化能力。
2025-07-07 11:46:48
473
原创 (Audio)音素
音素是语音的最小功能单位,分为元音和辅音两大类。元音发音时气流不受阻(如汉语"啊"、英语/iː/),辅音则气流受阻(如汉语"b"、英语/p/)。音素具有区别语义(如汉语"妈"与"爸")和构成音节(如英语"cat"含3个音素)的作用。在语音处理中,音素是语音识别(分解为音素)和语音合成(组合音素)的基础分析单位。
2025-07-07 11:05:58
355
原创 (Note)光波和声波都是波,它们的区别是什么?
光波与声波都属于波动现象,但在传播方式上有本质区别。光波是电磁波,无需介质即可在真空中以约30万公里/秒高速传播;而声波是机械波,必须依赖空气、水等介质传播,速度仅约343米/秒(空气中)。此外,光波是横波,声波是纵波。这些差异决定了它们在通讯、医疗等领域的独特应用,如光纤利用光波特性,超声波检查则依赖声波特性。两者虽同为波,但物理性质和应用场景截然不同。
2025-07-06 22:07:00
835
原创 (Note)Similarity Metric 相似性度量
向量数据库常用的相似性度量方法包括:欧氏距离(L2)、曼哈顿距离(L1)、切比雪夫距离(L∞)、余弦相似度、内积、汉明距离和杰卡德相似度等。这些方法各有特点:欧氏距离反映空间直线距离,余弦相似度适合衡量方向相似性,内积适用于特定模型优化场景,汉明距离针对二进制向量,杰卡德相似度则适合集合特征比较。实际应用中,需要根据数据类型和业务需求选择合适的度量方法,不同数据库对这些方法的支持程度也有所差异。合理选择相似度指标对检索效果至关重要。
2025-06-30 00:47:14
771
原创 (Note)音频向量化表示
语音特征提取经历了从传统方法到自监督学习的演进。传统MFCC等特征基于听觉模型但表达能力有限。2019年Wav2Vec首次实现音频自监督学习,2020年Wav2Vec2.0引入Transformer和向量量化,通过掩码预测任务显著提升性能,推动了无监督语音表征的发展,在LibriSpeech等基准上取得突破。这些方法突破了对文本标注的依赖,实现了更强大的语音特征学习能力。
2025-06-30 00:42:58
324
原创 卷积神经网络结构组成与解释
卷积神经网络(CNN)主要由卷积层、激活层、BN层、池化层、全连接层等组成。卷积层包括标准卷积、分组卷积、空洞卷积等多种操作,通过激活层提升非线性表达能力,BN层规范化输入分布加速训练。池化层用于下采样,全连接层进行特征加权。网络优化涉及损失函数、Dropout、优化器和学习率调整。典型结构包括ResNet的跳连、Inception的并行、MobileNet的轻量化等,用于不同场景如分类、检测等。关键目标是平衡计算效率与特征提取能力。
2025-06-27 20:24:36
745
原创 (Note)Hadoop是什么,架构是怎么样的?
Hadoop是一套处理大数据的技术框架,核心解决存储(HDFS)和计算(MapReduce)问题。HDFS通过切分数据块并分布式存储解决海量数据存储;MapReduce将计算任务拆分为map和reduce阶段,由Yarn进行资源调度。为提升易用性,Hive将SQL转化为MapReduce任务,Spark通过内存计算加速处理,Flink实现实时流处理,HBase支持毫秒级查询。整套方案通过分层设计(存储-计算-调度-接口)实现对TB/PB级数据的高效处理,解决了MySQL等传统数据库无法应对的大数据场景问题。
2025-06-20 15:02:11
1007
原创 (Network)OSI 网络七层模型(OSI:Open System Interconnection, 开放系统互联)
OSI 网络七层模型(OSI:Open System Interconnection, 开放系统互联)
2025-06-17 11:31:42
246
原创 (Note)VIT中的cls token
在 Vision Transformer (ViT) 中,CLS token(分类 token)是一个特殊的标记,主要用于在模型的分类任务中提取全局图像的特征表示。• Transformer 的核心是自注意力机制,CLS token 在所有注意力头中与其他 patches 交互,能够有效地聚合整个输入的上下文信息。• 在非分类任务中,CLS token 的概念也可以扩展为其他全局任务,例如图像生成或回归任务中的全局控制标记。• 在 ViT 中,CLS token 的目的是为图像输入提供一个全局的代表符号。
2025-02-20 16:43:40
912
原创 (通信)海洋波导(Ocean Acoustic Waveguide)
海洋波导(Ocean Acoustic Waveguide)是一种特殊的水声传播环境,它利用海洋的物理特性(如声速梯度、海底地形等)来引导声波的传播,类似于光波在光纤中的传播。3.声道轴传播:当声波到达声道轴(1000米深度)时,由于声速最低,声波会被限制在这个深度附近传播。1.水声通信:利用海洋波导的特性,可以在海洋中实现长距离的水声通信,适用于潜艇通信、海洋数据传输等。3.声道轴:声速最低的深度,声波在这个深度附近传播时,由于折射效应,声波会被限制在一定范围内传播。4.深海层:声速较高的深海区域。
2024-12-22 22:03:58
603
原创 (Ubuntu)添加用户并授予sudo权限
可以通过按下 Ctrl + Alt + T 来打开终端,或者在应用程序菜单中搜索并打开“终端”。执行上述命令后,系统会提示输入新用户的密码和其他相关信息,如全名、电话号码等。在 Ubuntu 中,可以使用 adduser 命令来新建用户。如果希望该用户具有管理员权限,可以将其添加到 sudo 用户组。如果成功切换到新用户,并且位于新用户的home目录中(例如。可以通过切换到新用户并检查其主目录来验证用户是否已成功创建。默认情况下,新创建的用户是普通用户,没有管理员权限。可以退出当前用户并返回到原始用户。
2024-11-18 14:54:23
3609
原创 (PyTorch) PyTorch预训练模型参数在Linux系统中的默认下载位置
home/用户名/.cache/torch/hub/checkpoints。在可视化界面下,使用ctrl+h 快捷键,即可查看隐藏文件夹 .cache。
2024-11-11 10:07:49
235
原创 (Note)朗伯比尔定律
朗伯比尔定律(Lambert-Beer law)是分光光度法的基本定律,是描述物质对某一波长光吸收的强弱与吸光物质的浓度及其液层厚度间的关系,适用于所有的电磁辐射和所有的吸光物质,包括气体、固体、液体、分子、原子和离子。其数学表达式为A=lg(1/T)=Kbc,其中A为吸光度,T为透射比(透光度),是出射光强度(I)比入射光强度(I0),K为摩尔吸光系数,与吸收物质的性质及入射光的波长λ有关,c为吸光物质的浓度,b为吸收层厚度。
2024-06-04 01:24:11
1317
原创 (通信)驻波
驻波是一种物理现象,它发生在频率相同、传输方向相反的两种波(不一定是电波)沿传输线形成的一种分布状态。驻波在自然界中十分常见,例如水波、树梢震颤、各种乐器的发声原理等都与驻波有关。驻波的能量并不随时间变化而改变,它只在介质中原地“震荡”,因此得名“驻波”。比如常见的弦乐器和管乐器分别是利用了弦上的驻波和管中的驻波进行发声。在驻波中,波节和波腹的位置始终保持不变,给人一种“驻立不动”的印象。波节是振幅为零的点,而波腹是振幅最大的点,位于两节点之间。在这种状态下,一个波通常是另一个波的反射波。
2024-02-15 23:34:06
1354
原创 (Note)子供向 Children‘s Oriented
这个概念强调作品的受众群体主要是儿童,但也并不排除其他年龄层的观众。在动画领域,子供向通常指的是面向儿童的动画作品,这些作品的内容设计得既适合儿童欣赏,也能吸引成年人的兴趣。
2024-02-07 00:07:31
2799
原创 (通信)频带带宽和基带带宽
例如,对于常见的调制技术如调幅(AM)和调频(FM),频带带宽通常是基带带宽的两倍或更多。这是因为调制过程涉及将基带信号移动到较高的频率范围,并且需要在中心频率附近的一定范围内传输调制信号。调制信号是基带信号经过调制处理后的信号,用于传输和接收数据的信号。但需要注意的是,基带带宽和频带带宽的具体关系也会受到其他因素的影响,例如所使用的调制方案、信号传输的特性以及信道的限制等等。因此,要准确确定基带带宽和频带带宽之间的关系,需要详细了解所使用的调制技术和相关参数。是指在基带信号上的频率范围。
2024-02-07 00:01:52
1064
原创 (Python)计算两个经纬度之间的距离
因此要实现真正的精准计算,必须考虑地球为椭球体,否则在上百公里或上千公里后,依然会有几百米以内的误差。普通算法会选取地球模型为球模型,以赤道半径为基准,因此在计算时纬度越高误差会越大,但胜在计算速度较快。建议采用椭球体算法,比较著名的算法有Vincenty方案算法。
2023-12-18 15:36:44
799
原创 (Note)The significance of the AIS Shiptype number (VesselType)
Cargo= Tanker= OtherReserved20-282930FishingFishingTrawler31TugTugTug/TenderTug32TugTug33DredgerDredgerDrill Ship3435Troopship3637Yacht38。
2023-12-15 00:33:39
1183
原创 (Note)Zlibrary
以上网站界面都很相似,因为它们大多都基于 https://github.com/book-searcher-org/book-searcher 开源项目。1. 首先到 http://pilimi.org/ 这个网站上下载 zlib 所有图书的种子文件。2. 其次部署 book-searcher 这个项目。条件:有公共 ip 地址的服务器。
2023-12-04 13:52:30
1428
原创 (CV)论文列表
https://blog.csdn.net/qq_41917697/article/details/122791002【精选】【CVPR2022 oral】MixFormer: Mixing Features across Windows and Dimensions-CSDN博客
2023-11-01 23:07:02
330
原创 (PyTorch)PyTorch中的常见运算(*、@、Mul、Matmul)
这个是让一个数,限制在你自己设置的一个范围内[min,max],小于min的话就被设置为min,大于max的话就被设置为max。我们可以发现的torch.div()其实就是/, 类似的:torch.add就是+,torch.sub()就是-,不过符号的运算更简单常用。上面的是对二维矩阵而言的,假如参与运算的是一个多维张量,那么只有torch.matmul()可以使用。pytorch中log是以e自然数为底数的,然后log2和log10才是以2和10为底数的运算。矩阵(张量)每一个元素与标量进行操作。
2023-10-24 15:45:08
3273
1
原创 (Python)在Matplotlib中对图像坐标轴进行log转换
3. nonpositive, 对非负值的处理,因为只有正数可以取log, 如果原始值为负值,此时有两种处理方式,第一种是丢掉这个点,也是默认的处理方式,对应该参数的值为mask, 在图中不显示这个点,第二种是将这个值调整为最接近的正数,对应该参数的取值为clip。对于跨度很大其分布离散的数据,常用log转换来缩写其差距,呈现在图上的效果也更好,比如在绘制转录组的表达量数据时,常用log转换之后的值进行绘制。semilogx函数只对x轴的值进行log转换,先来看下不转换时的效果,代码如下。
2023-10-18 16:54:54
4008
原创 (Python) 在Python中对WAV音频文件进行分割与拼接
使用wave.open()函数打开多个.wav文件,我们可以将它们读入内存中,然后使用numpy中的concatenate函数来进行拼接。在Python中,我们同样可以使用wave模块来进行wav文件的读取,并使用numpy中的concatenate函数来进行拼接。在Python中,我们可以使用wave模块来读取.wav文件,并使用SciPy中的signal模块来进行分割。使用wave.open()函数打开.wav文件,我们可以得到文件的基本信息,如声道数、采样率等。1.2. 分割WAV文件。
2023-10-18 00:48:17
3130
3
原创 (Python) Python中三种时间格式的转换方法
时间元组不能加减,要用datetime格式的时间才能加减.下面是字符串转为datetime后,进行时间加减运算.字符串与时间戳不能直接转化,要通过时间元组来完成,时间元组是中介.1.1. 时间元组和时间戳的互相转化。1.2. 时间元组和字符串的互相转化。2. 字符串与时间戳。3. 时间的加减用法。
2023-10-18 00:41:28
5389
1
原创 (Python) Python语音处理工具包AudioSegment的基本使用
5. AudioSegment中mp3转wav文件并转换采样频率fs。1. AudioSegment库的使用。2. 获取音频文件信息。
2023-10-18 00:26:07
2721
原创 (Python)MATLAB mat矩阵和Python npy矩阵转换
Python np.ndarray矩阵转换为MATLAB mat文件。Python读取MATLAB mat文件。
2023-10-18 00:11:59
1063
原创 (C++)引用的用法总结
关于指针和引用的区别,有人认为引用其实就是指针的简单封装,而且引用是占有内存的,但是无法获取地址,不是简单的一份数据两个名字。在引用变量前边添加const关键字,就是告诉编译器,我不会去修改你的临时变量,编译器就会为临时变量分配内存,于是引用就可以用了(指针不行)。从上边代码可以看到,不能引用临时变量,临时变量一般是表达式形式的,一般会储存在寄存器上且无法修改,寄存器是无法寻址的,所以也无法引用(指针也一样),同样,临时变量也不能作为实参传给引用形参。③指针可以有多级,引用不可以。3. 引用与指针的区别。
2023-10-09 16:19:18
699
原创 (Note)硬件领域SCI期刊
IEEE Microwave and Wireless Technology Letters(原名IEEE Microwave and Wireless Components Letters,是MTT-S下的快报,含金量较高)IEEE Transactions on Terahertz Science and Technology(也是MTT-S办的,发的 人比较少,实验硬件门槛较高,200-300GHz以上的工作才能不out of scope)C以及以下:(芯片设计类的发在上面的还真不多)
2023-10-04 17:23:54
1029
原创 (C++)复原IP地址
所以说IP地址总共有四段,每一段可能有一位,两位或者三位,范围是[0, 255],题目明确指出输入字符串只含有数字,所以当某段是三位时,我们要判断其是否越界(>255),还有一点很重要的是,当只有一位时,0可以成某一段,如果有两位或三位时,像 00, 01, 001, 011, 000等都是不合法的,所以我们还是需要有一个判定函数来判断某个字符串是否合法。我们用k来表示当前还需要分的段数,如果k = 0,则表示三个点已经加入完成,四段已经形成,若这时字符串刚好为空,则将当前分好的结果保存。
2023-10-03 11:00:35
513
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人