自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(115)
  • 收藏
  • 关注

原创 Linux环境离线安装Ollama

可以查看ollama的官方文档进行安装。

2024-11-04 17:22:41 9860

原创 ollama如何导入本地下载的模型

在模型所在目录创建一个Modelfile。在模型所在目录进入cmd,执行。

2024-10-23 12:30:39 1437 2

原创 Windows下安装Milvus向量数据库

在大数据时代,高效处理和检索向量数据变得尤为重要。Milvus作为一款开源的向量数据库,为海量非结构化数据提供了高性能的存储与搜索解决方案。本文将手把手教你如何快速安装并配置Milvus,从环境搭建到实战应用,让你轻松掌握这一强大工具的核心技能,开启智能检索的新篇章。无论你是初学者还是有经验的开发者,都能从中获得实用的技巧和宝贵的见解。milvus的使用一共有三种方式,分别为:本文接下来主要是来接是如何用docker安装milvus向量数据库,以及如何使用。

2024-10-21 15:14:10 2638 4

原创 redis分布式锁解决重复提交问题

但此时,第一个长任务的事务尚未提交,导致后续请求的“MD5重复校验”失效,最终仍然造成了数据重复写入和容量重复扣减的严重问题。• 错误尝试: 曾考虑在服务重启时使用 @PostConstruct 批量清空锁Key,但经过分析,此举在多实例部署环境下会删除其他实例的正常锁,是极其危险的操作,故予以否决。多个线程同时“读取-修改-写入”用户的已用容量,导致部分操作被覆盖,最终记录的容量小于实际占用的容量。获取锁成功的线程继续执行,获取失败的线程则立即向前端返回“操作频繁,请稍后重试”的提示,实现请求节流。

2025-08-18 14:58:13 312

原创 Mysql事务的“原子性”陷阱

今天遇到一个mysql事务的一个坑事情是这样的 我在做一个拆分文档的功能,但是可能会出现拆分失败的情况于是为了方便后续对拆分失败文档的追踪,我想加一个日志表记录一个日志后来发现死活数据塞不进去,后来想应该是事务的原因,但是怎么解决呢?

2025-08-14 10:58:01 373

原创 aspose+poi实现文档拆分和表格图片提取

在文档处理场景中,用户常需将长文档按标题层级拆分为独立子文档,并提取其中的表格、图片作为独立资源存储(如OSS),同时替换原文为占位符以便关联。:无论文档标题是“1. 总则→1.1 背景→1.1.1 历史沿革”的三级嵌套,还是“第一章→1.1→1.1.1”的混合层级,均能准确识别拆分边界,避免“跨层级截断”或“层级断裂”问题。:本次实践验证了Aspose+POI组合在复杂文档处理中的可行性,通过标题树驱动的拆分逻辑与资源闭环管理,为长文档的智能化处理提供了可复用的技术方案。

2025-08-01 14:50:00 874

原创 POI实现文档的图片的提取和替换

在日常办公自动化开发中,常常需要对 Word 文档中的图片进行批量提取、保存,甚至将图片替换为自定义的文本或链接。Apache POI 是一款强大的 Java 开源库,支持对 Microsoft Office 文档(包括 Word、Excel、PowerPoint 等)进行读写操作。本文将介绍如何使用 POI 提取 Word 文档中的图片,并将图片在文档中替换为自定义文本。遍历文档的所有段落和 run。检查 run 是否包含图片(getEmbeddedPictures())。

2025-06-30 10:31:15 426

原创 优化python脚本中OOM问题

发现这段代码中虽然 对于并发处理同一个文件的时候减少了IO的消耗 提高了pdf解析的性能,但是如果文件缓存没有得到合理的释放的话可能就会导致oom。我们现在的python脚本执行时间过长的话有时候会出现OOM的问题。综上所述我们可以使用一个 计数器+单例模式的方式去优化这个问题。但是如果是单个调用,调用完就进行关闭的话会导致性能问题。

2025-06-13 11:24:58 189

原创 优雅代码之自定义注解和反射的使用

其次,在需要进行自动填充时,我们将利用反射机制来遍历对象的所有字段。然后,我们可以按照预定的格式,将该字段的值提取出来,并添加到提示词中。整个转换过程可以通过反射自动完成,极大地减少了手动拼接的工作量,使得代码在使用时显得更加简洁,告别了以往的累赘感。首先,我们定义一个自定义注解。通过在相应的字段上添加该注解,我们可以清晰地标记出哪些字段是需要被处理的。通过使用自定义注解和反射,我们可以将自动填充的逻辑与具体的字段分离。为了解决上述问题,我们引入了自定义注解和反射机制,旨在提升代码的优雅性和可维护性。

2025-06-13 11:23:48 271

原创 Aspose.Words转换成html格式

你也可以直接将jar包放到lib目录下并配置systemPath。

2025-06-09 15:58:07 372

原创 单例模式的运用

在这个类中,我们通过单例模式确保了整个应用只维护一个 Milvus 客户端连接,避免了资源浪费和连接泄漏的风险。在我们的向量数据库配置类 MilvusVectorDatabaseConfig 中,采用了单例模式的实现方式,这是一种非常经典且实用的设计模式。在今后的开发中,我将更加注重设计模式的合理应用,特别是在处理共享资源和全局唯一对象时,单例模式将是我的首选方案之一。对于资源密集型的单例对象,需要考虑资源的生命周期管理。单例模式虽然简单,但在实际应用中需要考虑很多细节问题。无需考虑延迟加载问题。

2025-05-22 13:43:17 763

原创 Dify MCP实战 - 邮件发送

由于Dify 目前还没有支持stdio方式连接MCP Server。Zapier配置 • 访问 https://actions.zapier.com/settings/mcp/ • 添加Gmail Send Email工具。Dify MCP sse插件配置 第一步中我们安装了Dify MCP sse插件,现在需要在这个插件中配置连接MCP Server的地址。如下图在Dify Anget中配置工具,选择上面步骤中配置的sse插件。• 复制Zapier MCP sse连接URL。安装MCP sse插件。

2025-05-09 16:54:11 708

原创 Redis中的hash数据结构设置过期时间的坑!!!

在使用 Redis Hash 结构时,发现在异步操作完成后设置过期时间不生效,但在第一次写入后立即设置过期时间却可以正常工作。

2025-04-24 10:32:27 511

原创 主服务器和子服务器之间通过NFS实现文件夹共享

背景:子服务器想做一个备份服务器 但是之前有很多文件是上传到本地的,于是服务要从本地读取文件但是在不在同一台服务器中,读取就会有问题,想 实现在两者之间创建一个共享文件夹。

2025-04-11 14:49:57 849

原创 rpm: error while loading shared libraries: libbz2.so.1: cannot open shared object file: No such file

最近有一个问题由于用了python的pymilvus但是这个需要依赖。bzip2包但是下载之后需要重新编译一下python文件,于是我选择在另一台服务器上进行实验安装是否可以解决这个问题。但是我一开始用yum安装的方式已经是可以了,但是线上内网,我选择全部卸载之后再进行rpm方式进行安装,也可能手欠没了解明白 会有影响。下载完成并编译完源码之后 还是不行 yum也用不了了于是我重启了一下服务器。开发疯狂找原因找办法去解决。于是就有了以下的问题。

2025-04-09 14:46:27 321

原创 对文件做md5缓存

在文件上传的时候发现很多的文件都是重复上传的 这个时候就可以对文件进行md5处理存储起来。之后上传直接从缓存中拿取,这样可以减少很多的重复处理。

2025-04-05 11:24:33 144

原创 RAG到底怎么分块!!

实际用下来,语义分块往往是个不错的起点,它在语义完整性和效率之间平衡得很好。不过,最靠谱的还是根据你的文档类型和目标试一试,找到最适合的那一款。真正落地业务时,分块策略的优化往往需要反复试验,甚至结合多种方法,才能达到最佳效果。需要设定一个相似度的标准(阈值),而这个标准可能因文档不同而变化,得试着调。追求语义:语义分块和递归分块能让AI更懂内容,适合需要深度理解的文档。适合场景:文档有层次结构,又需要控制大小的时候,这种方法很实用。不差钱:基于LLM的分块效果拔群,但得有足够的资源支持。

2025-03-26 17:33:15 840

原创 Mysql表中的字符编码到底怎么设置

记录一下趴~今天遇到一个问题在解析doc文件后想把拆解后的内容 存到mysql数据库表的一个字段当中,但是死活是存不进去报错这一看就猜到是编码的问题但是为啥呢?首先排查我的表的字符编码发现字符编码是utf8 utf8_general_ci的平时也没太注意过这些后来去了解了一下两者的区别。

2025-03-26 17:13:11 642

原创 使用Wheel包部署python项目

首先创建requirements.txt文件。或者在window上双击脚本。打包之后得到.whl文件。上传到服务器上执行命令。# 清理 pip 缓存。然后执行命令进行打包。# 然后重新安装依赖。# 安装 whl 包。

2025-03-10 14:47:30 279

原创 python怎么去搭建一个python后台项目并打成jar包运行项目

1.首先要创建requirements.txt文件。打包部署的方式有docker 和jar包的方式。这里为了打包的方便我想采用的是jar包的方式。三、要运行FastAPI项目,需要以下步骤。2.创建脚本文件 .start.sh。# 安装 PyInstaller。2..gitignore文件。kill -9 进程ID。二、创建运行的相关文件。# 后台运行并输出日志。

2025-03-06 10:08:10 485

原创 java中的CompletableFuture的使用过程中遇到的坑

今天遇到一个很诡异的问题,我们有一个业务实现是将一个uuid存入到redis当中的,前端会一直调用获取的接口,直到拿到数据,但是有时候发现却卡主了,一直获取不到。CompletableFuture异步去处理的,想着有没有可能是多线程阻塞了,又有很多地方都用了这个类去实现多线程。第二步找这查询不到的几个接口的共同点,发现都用了线程池 使用的。- IO密集型:使用自定义线程池,线程数可以设置较大。- CPU密集型:使用默认线程池或设置较小的线程数。- 开发测试:可以使用默认线程池。3.1 默认线程池适用场景。

2025-03-05 09:33:47 297

原创 Python 中调用 MySQL 数据库的学习文档

在现代应用程序中,数据库是存储和管理数据的核心组件。Python 提供了多种库来与 MySQL 数据库进行交互,最常用的包括 pymysql 和 MySQL Connector/Python。本文将介绍如何在 Python 中调用 MySQL 数据库,包括安装库、创建连接、执行查询和处理结果。在 Python 中,您需要创建一个与 MySQL 数据库的连接。以下是使用 pymysql 和 mysql-connector-python 创建连接的示例。在开始之前,您需要确保安装了与 MySQL 交互的库。

2025-02-21 14:52:47 306

原创 Python对MYSQL进行统一管理

在选择使用 pymysql 还是 Flask-SQLAlchemy 时,开发者应根据项目的复杂性和需求进行权衡。对于简单的数据库操作,pymysql 是一个轻量级的选择;而对于需要频繁与数据库交互的复杂 Web 应用,Flask-SQLAlchemy 提供了更强大的功能和更简洁的代码结构。通过本文的比较和示例,希望能帮助您更好地理解这两种工具的使用场景和优势。为了不要出现以下错误,大家还是统一化管理趴。

2025-02-21 14:47:46 854

原创 Windows10 将Docker虚拟磁盘文件ext4.vhdx迁移至D盘

今天打开电脑发现之前迁移到D盘的ext4.vdx居然占有80多个G不得不重新清理一下了于是先删除了d盘的ext4.vdx文件注销了原来的然后再重启的时候发现他会重新创建但是默认还是在C盘 占用太大了 之前忘记记录了迁移过程 今天还是想记录一下防止下次不时之需一、关闭Docker Desktop 打开cmd窗口输入命令。

2025-02-19 14:07:57 1231

原创 Coze工作流搭建小红书推广智能体

通过扣子开发的 AI 应用有明确的输入和输出,可以根据既定的业务逻辑和流程完成一系列简单或复杂的任务,例如 AI 搜索、翻译工具、饮食记录等。扣子是新一代 AI 应用开发平台。无论你是否有编程基础,都可以在扣子上快速搭建基于大模型的各类 AI 应用,并将 AI 应用发布到各个社交平台、通讯软件,也可以通过 API 或 SDK 将 AI 应用集成到你的业务系统中。智能体:智能体是基于对话的 AI 项目,它通过对话方式接收用户的输入,由大模型自动调用插件或工作流等方式执行用户指定的业务流程,并生成最终的回复。

2025-02-18 17:18:07 827

原创 docekr在 x86d的 环境下打包arm64架构的docker包

buildx 的实现依赖 QEMU (某开源模拟器),支持多种 CPU 架构,如 ARM、Power-PC 和 RISC-V。需要注意:buildx推送镜像时,不会走主机的hosts文件,默认使用https协议关于QEMUQEMU 可以模拟一个完整的操作系统(开销较大)。

2025-01-17 13:23:28 751

原创 利用AI大模型和Mermaid生成流程图

例如,假设我们要绘制一个用户登录的业务流程图,内容包括用户登录、检查用户权限、显示内容或权限错误以及用户注销等步骤。Mermaid提供了丰富的API方法,使得在网页中创建和展示各种类型的图表变得非常方便。通过以上步骤,你可以高效地利用大模型和Mermaid实现业务流程图的快速生成,并将其应用于各种文档和项目中。方法可以将流程图渲染到指定的元素中。方法可以初始化一个流程图,该方法接受一个可选的配置对象作为参数,用于自定义图表的样式和行为。: 将生成的Mermaid代码粘贴到支持Mermaid的在线网站(如。

2025-01-10 16:34:49 4851

原创 POI在word中插入图片

后来稍微调整了一下设置了一下段落格式 重新创建了一个新的段落去作为“容器”一开始:使用默认方法插入流程图片但是发现默认图片总是嵌入布局无法展示完整。今天遇到一个新的任务:需要在一个word文件中插入一个流程图。

2025-01-10 16:28:34 741

原创 Docker安装GPUStack详细教程

添加 Docker 仓curl -fsSL https://mirrors.aliyun.com/docker-ce/linux/ubuntu/gpg | sudo gpg --dearmor -o /usr/share/keyrings/docker-archi库。# 2. 然后在容器内使用 gpustack 命令。# 添加 Docker 的 GPG 密钥。# 4. 查看 worker 状态。# 安装 containerd。# 1. 首先进入容器。# 3. 查看模型列表。# 重新启动 WSL。

2024-12-28 12:59:16 4279

原创 Kubernetes(K8s)学习笔记

Kubernetes(简称K8s)是一个开源的容器编排和管理平台,由Google主导开发,旨在自动化容器化应用程序的部署、扩展和管理。K8s以其强大的功能、高度的可扩展性和广泛的社区支持,已成为现代云原生应用架构的核心组件。Kubernetes是一个功能强大且复杂的容器编排平台,它提供了丰富的功能和灵活的架构,能够满足各种应用场景的需求。通过不断学习和实践,你可以逐步掌握K8s的核心概念和操作技巧,为构建高效、可扩展的云原生应用打下坚实的基础。:K8s是一个快速发展的项目,不断有新的功能和改进。

2024-12-20 15:23:12 1300

原创 语义检索系统嵌入模型选型技术方案

本文针对语义检索系统嵌入模型选型问题,提出了一套技术方案。在实际应用中,应根据业务场景、数据特点和技术需求,灵活选择合适的嵌入模型。通过实验与评估,不断优化模型性能,提高语义检索系统的整体效果。

2024-12-19 17:26:05 552

原创 whisper实时语音转文字

Openai whisper模型下载链接,包括medium(中型),large-v1、large-v2、large-v3。Whisper提供了多种大小的模型,您可以根据需要下载。模型文件通常保存在~/.cache/whisper/目录下。此外你还需要安装ffmpeg。

2024-12-19 17:25:10 1807 2

原创 FFmpeg 安装教程(Windows 系统)

1. 前言FFmpeg 是一个用于处理视频、音频等多媒体文件的开源工具包。它支持几乎所有的多媒体格式转换、剪辑和编辑,是开发者和多媒体工作者必备的工具。本文详细讲解如何在 Windows 系统上安装 FFmpeg 并进行基本配置。2. 下载 FFmpeg 安装包打开 Dpwnload FFmpeg 官网,选择安装包Windows builds from gyan.dev下滑找到部分,选择下载完成后,解压缩得到 FFmpeg 文件夹。

2024-12-19 17:22:46 3074

原创 长文本向量模型分块策略

长文本向量模型能够将十页长的文本编码为单个向量,听起来很强大,但真的实用吗?很多人觉得... 未必。直接用行不行?该不该分块?怎么分才最高效?本文将带你深入探讨长文本向量模型的不同分块策略,分析利弊,帮你避坑。长文本向量化的问题首先,让我们看看将整篇文章压缩成单一向量会存在哪些问题。比如这篇关于 ICML 2024 参会报告的博客,就包含会议介绍、Jina AI 的工作展示 () 以及其他研究论文总结。如果将整篇文章向量化成单一向量,该向量将混合三个不同主题的信息:表示稀释会削弱文本向量的精度。

2024-12-18 15:40:27 905

原创 MySQL、MybatisPlus中的坑啊啊啊啊啊

如果是 root 帐号,能看到所有用户的当前连接。processlist 命令的输出结果显示了有哪些线程在运行,不仅可以查看当前所有的连接数,还可以查看当前的连接状态帮助识别出有问题的查询语句等。show full processlist 返回的结果是实时变化的,是对mysql链接执行的现场快照,所以用来处理突发事件非常有用。command #连接状态,一般是休眠(sleep),查询(query),连接(connect)看上去如此简单的一个mybatisplus的运用 但是!

2024-12-18 15:37:29 669

原创 PaddleOCR:一款高性能的OCR工具介绍

PaddleOCR是一款基于飞桨深度学习平台开发的开源OCR工具,具有以下特点:高性能:PaddleOCR采用了先进的深度学习技术,识别速度快,准确率高。轻量级:PaddleOCR支持多种部署方式,包括服务器端、移动端和嵌入式设备,满足不同场景的需求。多语言支持:PaddleOCR支持多种语言识别,包括中文、英文、日文、韩文等。简单易用:PaddleOCR提供了丰富的API接口,方便开发者快速集成到自己的项目中。持续更新:PaddleOCR团队持续优化算法,更新版本,为用户提供更好的使用体验。

2024-11-27 17:30:58 1767

原创 RAG数据拆分之PDF

本文介绍了RAG数据拆分至PDF的方法和工具,并通过代码示例展示了如何使用PyPDF2进行PDF文件拆分。在实际应用中,可根据需求选择合适的解析方法和工具。RAG(关系型属性图)是一种用于表示实体及其关系的图数据结构。在RAG中,节点表示实体,边表示实体之间的关系,属性则用于描述实体和边的特征。希望这个分享笔记大纲和代码示例能帮助你完成你的分享笔记。在实际编写过程中,可以根据具体需求进行调整和优化。本文将介绍如何将RAG数据拆分至PDF格式,并探讨PDF解析的方法和工具,最后提供代码示例。

2024-11-27 17:19:51 856

原创 将python下载的依赖包传到没网的服务器

然而,有时我们需要在没有网络连接的机器上部署我们的代码,这就涉及到如何将Python下载的依赖包传输到没有网络连接的机器上的问题。将下载的依赖包传输到没有网络连接的机器上,可以使用各种传输工具,例如USB闪存驱动器、外部硬盘驱动器、局域网共享等。在有网络连接的机器上,我们可以使用Python的包管理工具pip来下载所需的依赖包。这将会在当前目录下下载一个名为numpy-x.x.x.tar.gz的压缩文件,其中x.x.x表示依赖包的版本号。这将会使用传输过来的依赖包文件进行安装,确保依赖包文件的路径正确。

2024-11-12 10:18:15 546

原创 文本语义分块、RAG 系统的分块难题:小型语言模型如何找到最佳断点

【代码】【无标题】

2024-11-11 10:46:40 1417

原创 LINUX离线安装Milvus

离线安装Docker需要你提前下载Docker的安装包,并将其传输到目标机器上进行安装。以下是一个基于Linux系统的离线安装Docker的简要步骤和示例:从有网络的机器上下载Docker安装包。将下载的安装包拷贝到离线的服务器上。在离线的服务器上安装Docker。下载Docker安装包:要在本地进行打包镜像上传到服务器上。

2024-11-05 14:18:06 1867

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除