- 博客(244)
- 资源 (9)
- 收藏
- 关注
原创 【开源实践】基于VLLM的Qwen3-Embedding实践
模型部署与调用比较简单,主要是工程上的内容。对于具体的任务,还可以考虑在Reranker模型基础上进行再一次微调以提高在具体任务的效果。
2025-08-04 07:45:02
680
原创 Qwen3 Embedding:新一代文本表征与排序模型
Qwen3 Embedding 系列模型分别有 0.6b, 4b, 8b 的 Embedding 和 Reranker 模型。该系列模型专为文本表征、检索与排序任务设计,基于 Qwen3 基础模型进行训练,充分继承了 Qwen3 在多语言文本理解能力方面的优势。在多项基准测试中,Qwen3 Embedding 系列在文本表征和排序任务中展现了卓越的性能。主要特点如下:卓越的多功能性:该嵌入模型在广泛的下游应用评估中达到了最先进的性能。
2025-08-02 23:53:04
799
1
原创 【源码初探】文档智能 Expert VLMS 型新 SOTA:dots.ocr
dots.ocr 是一个单一的视觉-语言模型,统一了布局检测和内容识别,同时保持良好的阅读顺序。模型参数量 1.7B 参数 LLM,但它的效果达到了 SOTA。特性:性能: dots.ocr 在 OmniDocBench 上实现了文本、表格和阅读顺序的 SOTA 性能,同时在公式识别方面达到了与 Doubao-1.5 和 gemini2.5-pro 等更大模型相当的结果。
2025-08-02 14:19:47
983
原创 【开源初探】基于Qwen2.5VL的OCRFlux
现有的方法在处理具有复杂布局和复杂表格的页面时存在困难。特别是对于那些具有像跨行或跨列单元格等复杂结构的表格,解析出的输出通常不完整且错位。PDF文档通常以分页格式呈现,这常常导致表格或段落跨两页断开。然而,目前没有任何工具能够处理跨文档页面的段落和表格合并。它们都是逐页处理,在拼接各页结果时不考虑逻辑连贯性,从而导致表格和段落出现错误或碎片化。许多最先进的工具依赖于参数超过7B的模型。模型参数过多限制了它们的高效推理和简化部署。
2025-06-28 11:02:45
1369
原创 【源码拾贝】docext的使用
这部分的信息提取主要使用的是开源的大模型,主要是 qwen2.5vl 系列模型,模型参数量源码推荐从 7B 开始,例如:Qwen/Qwen2.5-VL-7B-Instruct-AWQ(默认)。自定义信息提取模块,个人感觉信息提取模块工程代码较多,效果好坏主要靠多模态大模型的能力。
2025-06-22 23:44:36
828
原创 【开源初探】基于 Qwen2.5VL的文档解析工具:docext
docext 是一个由视觉语言模型(vlm)提供支持的全面的本地文档智能工具包。vlm 使用的是基于 Qwen2.5VL-3B 的模型,应该是在此模型基础上进行的微调。它提供了三个核心功能:1.pdf/image 转 markdown:将文档转换为具有智能内容识别的结构化标记,包括 LaTeX 方程、签名、水印、表和语义标记。2.文档信息提取:从发票、护照和其他文档类型等文档中无 ocr 地提取结构化信息(字段、表等),并进行置信度评分。
2025-06-21 14:08:39
524
原创 【论文阅读】Qwen2.5-VL Technical Report
本文提出了一种名为Qwen2.5-VL的视觉语言模型系列,该模型在多模态理解和交互方面取得了显著进展。其增强的视觉识别能力、对象定位能力、文档解析能力和长视频理解能力使其在静态和动态任务中表现出色。此外,它具有原生的动态分辨率处理和绝对时间编码功能,可以高效地处理各种输入,并通过减少计算开销而不牺牲分辨率精度来降低计算负担。Qwen2.5-VL适用于从边缘AI到高性能计算的各种应用。
2025-06-14 10:33:25
1089
1
原创 【论文阅读】MonkeyOCR: Document Parsing with a Structure-Recognition-Relation Triplet Paradigm
(回顾ing)。文档解析是一种基础技术,它将各种文档格式中的非结构化、多模态内容(包括文本、表格、图像、公式等)转换为结构化、机器可读的信息。这种能力支持广泛的现实应用,如自动化业务工作流、数字归档、智能教育和医疗记录管理,加速了以信息为中心的行业的数字化和自动化。现有的主要处理范式是pipeline-based和end-to-end,两者都有各自的优缺点,一些研究人员则是根据两者的优缺点进行联合处理。简要回顾一下两种处理范式的优缺点。
2025-06-08 19:27:44
1206
1
原创 【论文阅读】Dolphin: Document Image Parsing via Heterogeneous Anchor Prompting
从文中可以看出,尽管Dolphin表现出了出色的性能,但仍有一些限制需要进一步改进。首先,Dolphin主要支持标准水平文本布局,对于垂直文本如古代手稿等的支持有限。其次,虽然Dolphin能够有效地处理中英双语文档,但其多语言能力仍需扩展。此外,虽然Dolphin通过并行元素解析实现了效率提升,但在文本行和表格单元格的并行处理方面仍有优化空间。最后,Dolphin的手写识别能力还需要进一步增强。此外,由于文档的多样性和复杂性,还需要在工业界进行考验。。GOT等专门处理文档的多模态(大)语言模型。
2025-06-03 18:50:54
1402
1
原创 【文档理解】TextMonkey:一种OCR-Free的用于文档理解的多模态大模型
TextMonkey在多个方面进行改进:通过采用零初始化的Shifted Window Attention,TextMonkey实现了更高输入分辨率下的窗口间信息交互;通过使用相似性来过滤出重要的图像特征,TextMonkey不仅能够简化输入,还可以提高模型的性能。此外,通过扩展多个文本相关任务并将位置信息纳入回答,TextMonkey增强了可解释性并减少了幻觉。与此同时,TextMonkey在微调之后还可以具备APP Agent中理解用户指令并点击相应位置的能力,展现了其下游应用的巨大潜力。
2024-05-16 08:15:00
1684
原创 《Large Language Models for Generative Information Extraction: A Survey》阅读笔录
映像中,比较早地使用“大模型“”进行信息抽取的一篇论文是2022年发表的,也是我们常说的UIE模型,其主要在T5-v1.1模型的基础上训练一个Text to structure 的UIE基座模型,然后在具体的业务上再进行Fine-tuning。T5也算是比较早期的的大语言模型了。时至今日,chatgpt问世后,各种大模型也不断涌现。大模型在理解能力和生成能力上表现出了非凡的能力。
2024-02-27 22:57:45
2443
1
原创 【NLP】《Unified Named Entity Recognition as Word-Word Relation Classification》论文阅读
该模型核心就是创造性地提出将实体抽取转换成word(中文就是字与字之间的关系)之间的关系抽取类别抽取。通过构建word与word之间关系的抽取可以解决flat、nested、discontinuous 这三种类型的NER识别任务,也就是标题所受的统一的实体抽取模型了。对于一个语句XXX,其由NNN个token(中文可以看成字,英文可以看成单词)组成,那么一个语句就是Xx1x2⋯xNXx1x2⋯xN,一个token pair就是xixj。
2023-04-01 23:44:26
555
1
原创 【NLP】一种联合关系抽取模型——TPLinker
总体来说,这个模型又是一个巧妙的结构设计。整体来说,对于overlap的实体也可以识别出来,对于SEO,EPO问题也可以解决,并且没有暴露偏差,预测效率在同级别模型中也算可以,可以尝试在实际的工业领域中进行落地实验。
2023-02-20 10:53:14
2154
原创 【NLP】一种基于联合方式的三元组抽取模型——CasRel
关系抽取是自然语言处理中一个比较基础的任务,除了关系抽取之外还有类似的任务如:属性抽取等。这些任务也都可看成三元组抽取,即(subject,predicate,object)。基于pipeline的分布抽取方式,在已知两个实体subject和object,去预测predicate。联合抽取方式,一个模型同时将subject,predicate和object抽取出来。现实的场景中还存在重叠关系情况,那么针对这种情况该如何解决呢?
2023-02-05 18:37:44
1737
1
原创 【知识图谱导论-浙大】第三、四章:知识图谱的抽取与构建
隐藏状态集合Q,对应所有可能的标签集合,大小为N;观测状态集合V,对应所有可能的词的集合,大小为M;对于一个长度为T的序列,I对应状态序列(即标签序列),O对应观测序列(即词组成的句子);状态转移概率矩阵AaijN∗NAaijN∗N:转移概率是指某一个隐藏状态(如标签“B-Per”)转移到下一个隐藏状态(如标签“I-Per” )的概率。例如,B-ORG标签的下一个标签大概率是I-ORG,但一定不可能是I-Per;发射概率矩阵BbjkN∗MBbj。
2023-01-09 10:58:12
1469
原创 【知识图谱导论-浙大】第二章:知识图谱的表示
简而言之,知识表示(Knowledge Representation, KR)就是用易于计算机处理的方式来描述人脑知识的方法。KR不是数据格式,不等同于数据结构,也不是编程语言,对于人工智能而言,数据与知识的区别在于KR支持推理。,对KR的作用是这样描述的。Role I,事务的名称Role II,事务有了名字之后,在此基础上进行一层层抽象,一群学生中,一些人是本科生,一些人是硕士生,一些人是博士生,他们哪些学校的学生,这种对事务的进行抽象,建立万事万物之间的联系,就是本体的构建(ontology)
2023-01-07 11:46:29
1265
原创 【知识图谱导论-浙大】第一章:知识图谱概论
话说回来,什么是知识呢(what is knowledge)?针对这个哲学问题,柏拉图说:Knowledge is justified true belief。其实仔细一想,人类的自然语言、创作的绘画与音乐、数学语言、物理模型、化学公式等都是人类知识的表示形式和传承方式。具有获取、表示和处理知识的能力是人类心智区别于其它物种心智的最本质特征,也是人脑智能的最本质特征。
2023-01-06 20:14:40
1748
原创 【Python】CSV,TSV语料读取的简单操作——内建包csv的使用
总的来说,使用csv内建包,无论数据写入还是数据读取都比较简洁方便,定制化也比较容易,可以根据自己实际的工程需要进行定制化开发。
2022-12-17 09:50:57
1550
原创 【深度学习】学习率预热和学习率衰减 (learning rate warmup & decay)
当然,这种使用warmup和decay的learning rate schedule大多是在bert这种预训练的大模型的微调应用中遇见的。如果是做自然语言处理相关任务的,transformers已经封装了好几个带有warmup 和 decay的lr schedule。如果不是做研究的话,这些已经封装的lr schedule直接拿来用即可。当然也可以使用pytorch中的相关模块自定义。
2022-12-10 09:54:02
6673
原创 【Pytorch】加载模型避坑坑load_state_dict中的strict使用与加载多GPU训练的模型
加载模型的小知识, 使用多GPU训练的模型并保存到ckpt中后,使用torch.load_state_dict加载模型的时候将会报错,但是如果将其中的参数设置为True的时候就可以加载,但是当使用加载后的模型去预测数据时,结果错的离谱。 相关内容可以看看这篇博文:关于Pytorch加载模型参数的避坑指南.那么对应的解决方案是,在使用多GPU训练保存模型的时候,保存的模型应该是model.module,并不是直接保存model。(假设使用的模型是model)
2022-12-04 21:49:52
1826
原创 【Python】标注库中os.path与pathlib中Path的比较
os.path主要是以方法的形式存在,而pathlib中的Path则是以对象形式的存在,如果对地址操作的比较多,需要相关的方法以及对应的属性时,使用Path来创建一个地址对应会更加方便。这里先占个坑,网上有多介绍这个两个包的内容,下载参考文献罗列下来:使用的时候再来直接查就完事了,有时间再将常用的方法汇总过来。
2022-12-03 23:19:25
635
原创 【Pytorch】模型的可复现性
在做研究的时候,通常我们希望同样的样本,同样的代码能够得到同样的实验效果,但由于代码中存在一些随机性,导致虽然是同样的样本和程序,但是得到的结果不一致。在pytorch的官方文档中为此提供了一些建议,原文档:REPRODUCIBILITY。下面我们来看看看具体的内容。pytorch在一些操作具有随机性,如:,我们可以使用设置随机数种子来使得所有的设备(CPU和GPU)的随机性一致(本质来说现有的随机函数都是伪随机,都是通过随机数种子确定)。如:python中的随机性当然有时候我们的程序中可能还会使用py
2022-12-03 22:55:51
1896
1
原创 【小想法】第1期:模型工程化,向量相似度,早停机制,BERT微调小trick
早停机制的背后原理就是监控模型训练过程中的一些参数,当符合要求后就停止训练,以减少模型训练时间等。深度学习模型工程化可以使用方式比较多,如使用Java的DJL库对模型进行封装构建java SDK,使用fastapi(python web框架,flask也是可以的)对模型保证,对外提供服务,或者书写成python SDK供他人使用,如果想保护模型服务源码,也可以进行使用pyinstaller打包,如果方便部署,也可以进一步使用docker构建镜像,除此之外还可以使用onnx进行工程化等。
2022-11-07 21:18:24
927
1
原创 【Transformers】预训练模型使用工具Transformer(2):文本分词
从结果中我们可以看出,结果的首位增加了特殊的token:[CLS]、[SEP],这两个token的起着指示句首和句尾的作用;如果将这些tokens转换成字符串时,带有前缀的token会和前面的token合并,我们可以使用tokenizer的。有了上面的数据batch数据去训练或者去预测还是不够的,我们知道pytorch中有DataLoader这个类去对dataset数据进行批次化处理,方面模型训练和预测,transformers当然也有。在实际的模型微调,数据预测时,通常使用的批次数据的处理。...
2022-08-28 23:27:23
1998
原创 【Transformers】预训练模型使用工具Transformer(1):初识Hugging Face
上面包含的自回归模型如:GPT2,Transformer-XL,XLNet,自编码类型的BERT,ALBERT,RoBERTa,ELECTRA以及seq2seq类型的BART,Pegasu,T5等模型。hugging face是一个开源社区,它提供了一个可以上传先进NLP模型、数据集的一个平台,我们可以在这个平台上下载相关的模型,以及还提供了其他便利的工具,例如我们要介绍的transformers工具。由于是第一次执行,程序会自动下载对应的模型,下载模型的速度也是蛮快的。这些模型,数据集怎么使用呢?...
2022-08-28 11:29:14
2221
原创 【NLP】AI相关比赛汇总(2022)
主要查找的是国内的一些比赛平台。以往举办的一些平台不能够访问的,或者比赛列表中近年来没有相关比赛的就没有放上去。读者可以根据自己的喜好选择合适自己的平台进行学习和演练,好运哦。当然,以上平台也是从互联网中查找的也不一定全面,欢迎补充。......
2022-08-27 15:46:24
3617
7
原创 【NLP】基于神经网络PCNN(Piece-Wise-CNN)的关系抽取模型
总得来说,在限定域的pipline形式的关系抽取中,使用分段的最大池化能够减少人为特征提取的操作,再引入远程监督的内容后,使用多实例学习的方式在一定程度上也能够减少远程监督引入的错误,使得关系抽取的整体效果达到当时的sota水平。当然也存在不足之处,多实例学习仅从某个实体对句子中挑选最可能的句子进行反向传播计算,这也必然造成信息的大量损失。
2022-08-21 14:36:32
3028
原创 【知识图谱】实践篇——基于医疗知识图谱的问答系统实践(Part5-完结):信息检索与结果组装
总得来说,这个项目把使用知识图谱进行QA的一些流程介绍的比较清楚,但是在完成问答的过程中技术相对老旧,不过效果依然还不错。https,有兴趣的可以下载运行看看哦,上面有运行介绍哦。为了能够进一步提升效果的话可以引入很多新技术。例如在问题分类环节可以引入基于深度学习的问题分类方法,在进行问题解析的时候,可以引入基于深度学习的NER实体识别方式以及进一步处进行实体对齐等,这里不作进一步展开。https。...
2022-07-24 19:52:11
1032
原创 【知识图谱】实践篇——基于医疗知识图谱的问答系统实践(Part4):结合问题分类的问题解析与检索语句生成
原程序中设计的问题也相对简单,对应问题的解析也不复杂。在问题分类中输出的结果这一环节中其实已经默认做了实体对齐操作(问句中的实体与数据库中的实体相对应),主要的工作就是根据不同实体对应关系生成对应的neo4j关系查询或者实体属性查询的语句即可。前文中已经对问题分类做了处理,下面就需要针对具体类别的问题进行进一步的解析,以生成对应的neo4j的查询语句。针对百日咳可以吃什么问题,我们通过规则生活对应的cypher查询语句。......
2022-07-24 15:37:47
820
原创 【知识图谱】实践篇——基于医疗知识图谱的问答系统实践(Part3):基于规则的问题分类
对于意图识别获问题分类来说,本质上就是对文本进行分类,可以使用传统的机器学习算法以及深度学习算法来处理该问题,但是在缺乏语料标注的情况下,使用规则可能是最好的方式。在知识图谱数据入库的模块中提供了实体数据导出功能,导出的数据即为一些实体数据,除此之外源代码中还提供了一些否定词deny.txt,我也将该文件放到dict文件夹下。问题的问题主要是接下来的对应类别的问题解析,已经问题搜索做准备。问题分类的第一步是判断问句内容中是否有图数据库中的实体内容,如果没有就无法做出相关的查询解答。效果也基本上符合预期。..
2022-07-24 11:30:32
1765
原创 【知识图谱】实践篇——基于医疗知识图谱的问答系统实践(Part2):图谱数据准备与导入
由于导入数据库时间比较长,这里就没有尝试运行导入到数据库模块程序,只将对应的实体输入到KGQAMedicine/data/dict目录下。我将原项目中的数据放到KGQAMedicine/data/medicial.json中,并将路径配置的配置文件中。从数据形式上来看,该文件中的数据应该是从mongodb中导出。我们使用原项目中已经爬取和处理完毕的数据。下面介绍图谱数据获取,数据主要从http//jib.xywy.com/爬取。按照原来的计划是将数据爬取相关的代码也过一下的,于是做了以下相关配置。.....
2022-07-23 19:26:42
1811
原创 【知识图谱】实践篇——基于医疗知识图谱的问答系统实践(Part1):项目介绍与环境准备
在我阅读这个项目时(2022-7-17),该项目的start数目大4.2k,fork达1.6k。从数据上来看,大家是比较认可该项目的。当然,原作者也是很厉害的,是中国科学院软件研究的所刘焕勇老师。该项目从无到有搭建一个以疾病为中心的一定规模医药领域知识图谱,并以该知识图谱完成自动问答与分析服务。适合一个初学人员了解该类项目的pipline过程。该项目立足医药领域,以垂直型医药网站为数据来源,以疾病为核心,构建起一个包含7类规模为4.4万的知识实体,11类规模约30万实体关系的知识图谱。......
2022-07-17 23:38:14
3861
2
原创 【NLP】一个支持低资源、长篇章、多模态的开源知识抽取工具——DeepKE
http.主要功能分为三个类别单句、篇章级、多模态。对于单句支持常用的实体抽取、属性抽取、关系抽取三个任务。如实体抽取效果篇章级、多模态则主要是关系抽取任务。https.该工具设计的框架如下DeepKE包含命名实体识别、关系抽取和属性抽取三个模块,分别是三个任务。每个模块都有自己的子模块。例如,关系抽取模块中有标准的、少样本、文档级和多模态子模块。每个子模块由三部分组成一组可用作tokenizer的工具、数据加载器、训练和预测时使用编码的一种处理模块。deepke,然后激活。......
2022-07-14 21:48:58
3729
3
原创 【知识图谱】实践篇——基于知识图谱的《红楼梦》人物关系可视化及问答系统实践:part7项目优化与打包
前序文章:本部分主要是对项目进行优化,已经打包发布到github上。在学习flask时我们知道,flask支持自定义命令行命令去实现一些功能。在实现该功能之前,我们先将neo4j数据库进行清空,在neo4j页面端执行如下命令:在KGQAHLM/serve目录下创建db.py文件,内容如下:然后就是把该内容注册到app应用中,如下:效果测试,即在终端输入:即可,如下:数据库查看:那么原来的KGQAHLM/build_graph.py就可以删除了。这一步就是配置项目在其他环境中,通过pip i
2022-07-10 21:45:33
2394
原创 【知识图谱】实践篇——基于知识图谱的《红楼梦》人物关系可视化及问答系统实践:part6基于图谱的问答实现
前序文章:本部分则是整个项目的核心内容——基于图谱的问答。需要实现的是对于“简单问题”进行解析,然后从图谱数据库中查询与该人员及其相关人员信息,返回到前端并显示该人员的基本信息。除此之外,用户可以点击返回的结果人员节点,页面能够显示该用户的个人基本信息。那么现在就开始吧。根据源码实现问答形式,其实是比较简单的。原代码中使用ltp对问题进行分词,选取具有名次词性的关键词进行处理。ltp配置稍许麻烦,我使用jieba分词工具对问题进行分词,然后再按照原文提取问句中人物及关系,然后构建cypher neo4j查
2022-07-10 19:24:17
2522
原创 【知识图谱】实践篇——基于知识图谱的《红楼梦》人物关系可视化及问答系统实践:part5人物关系全貌与问答初入
前序文章:本部分主要是实现页面中查看所有任务关系并在前端展示的功能以及进行问答模块的准备。当图谱数据量比较大的时候,就不适合将所有的数据放到前端展示,因为前端在面临大量数据时渲染可能会存在一些问题。源代码中使用加载离线的关系数据。为了便于查看,我截图如下:我将这个数据放到KGQAHLM/serve/static/data.json中。供待会页面加载使用。这时该功能的前端代码如下:KGQAHLM/templates/relation.html效果查看:那么到这里几个基本功能就实现了,下面就要开始整个
2022-07-10 11:19:07
1975
2
原创 【知识图谱】实践篇——基于知识图谱的《红楼梦》人物关系可视化及问答系统实践:part4检索人物关系实现
前序文章:这个阶段开始,我们会查询很多neo4j数据库中的内容。为了方便,下面对以往的程序进行优化。将与neo4j连接放到config中,其他地方使用时,导入即可。调整如下:KGQAHLM/utils/config.py那么对应的KGQAHLM/build_graph.py中的代码调整如下:后续查询和处理问答相关数据的功能实现,我会统一放到一个包中,KGQAHLM/KGQA。原代码中已经为各人物爬取好了对应的图片,我将该图片资源放到:KGQAHLM/serve/static 目录下,并更名为people
2022-07-10 10:02:12
2152
1
原创 【知识图谱】实践篇——基于知识图谱的《红楼梦》人物关系可视化及问答系统实践:part3前端搭建与可视化
前序文章:本部分内容主要是参见flask服务搭建可视化前端部分。程序中我也尽可能地使用前后端分类的方式去实现前后端的结合,也就是使用ajax的方式前端提交请求,后端接受请求并返回。原程序使用boot strap框架。那么就需要把很多css,js文件放到静态文件夹中。于是在对应文件夹中创建static、templates文件夹,如下:后面若有需要的调整的内容,再做说明。主要是在模板部分将静态文件中引入。页面模板暂时设置四个block供后文继承。如下(KGQAHLM/serve/templates/base
2022-07-10 07:53:05
2634
1
原创 【知识图谱】实践篇——基于知识图谱的《红楼梦》人物关系可视化及问答系统实践:part2知识获取与图谱构建、服务搭建
前序文章:其中原项目提供了关系数据如下:其中五列数据表示:人物1,人物2,人物1与人物2关系,人物1所属家族,人物2所属家族。关系说明:以第一列为例,贾演是贾代化的父亲。下面我们就将这个数据放到neo4j中。这些需要去连接,需要安装这个包:程序中,我使用去读取配置文件,其中为了保持配置全局唯一性,使用单例的写法。后面就是创建构建关系文件,构建neo4j图谱数据了,如下:后期可能会将构建图谱内容使用flask去生成命令行的方式构建,暂时在开发的过程查看构建情况,便于调试。导入关系后,我们再查看
2022-07-09 23:14:47
3461
2
原创 【Linux】 常见命令总结
PS,是Linux系统命令之一,是在Linux中是查看进程的命令。ps查看正处于Running的进程,ps aux查看所有的进程。实际名称为进程状态(process status, ps).主要参数如下:更多信息可参考:Linux ps 命令,我们通常会时使用命令去查看某个进程状态。可参考:Linux grep 命令。通常我们会在一个查询结果后面通过管道 传给去查找指定内容。例如:就是把查询自身给过滤掉,其中-v 或 --invert-match : 显示不包含匹配文本的所有行。可参考:Linux awk
2022-07-09 22:18:30
242
常用6722个繁体简体mysql数据库
2018-11-25
用java调用python
2018-03-21
latex代码显示文档.zip
2020-02-29
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人