自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(246)
  • 资源 (1)
  • 问答 (3)
  • 收藏
  • 关注

原创 医药知识图谱论文精读PharmKG、PrimeKG、DRKG

节点类型包括药物、疾病、蛋白、表型、通路、暴露因素等 10 大类,边类型 30 类,涵盖指示、禁忌、超说明书使用等罕见但临床关键的关系。经过清洗、去重、反向边补全、最大连通子图抽取后,PrimeKG 保留 99.998% 的边,文件大小 1.4 GB,普通 CPU 5 秒内可加载。随后,将 SARS-CoV-1、MERS-CoV、HCoV-229E 等冠状病毒合并为虚拟节点 “CoVs”,所有与病毒相关的基因—疾病、药物—基因边被重定向到该虚拟节点,以共享跨病毒知识。目标是学习一个打分函数。

2025-07-30 17:59:06 444

原创 SMARTS 和 SMIRKS 的区别与用法

SMARTS(SMILES Arbitrary Target Specification)是 SMILES 的拓展语言,用于描述子结构查询模式,即一类分子内是否含有满足特定模式的结构单元 (维基百科它先将 SMARTS 表达式和目标分子都转换为图结构,再进行子图同构匹配,而不是字符比较 (维基百科可以使用通配符、原子类[C,N]、逻辑操作符!;可定义芳性(a)、环系(R<n>r<n>)、键数、键类型等;支持递归 SMARTS 和手性,能够精确指定复杂模板 (用途。

2025-07-25 18:28:59 23

原创 TrialPanorama: Database and Benchmark for Systematic Review and Design of Clinical Trials论文精读

TRIALPANORAMA构建了当前最大规模的临床试验结构化数据库(含165万条记录),并评估了5个LLMs在8项临床试验任务中的表现。研究发现通用LLMs在高风险临床任务中表现不足,尤其在样本量估算(准确率<26%)和试验完成预测(平衡准确率≈50%)等需要统计推理的任务上存在明显短板。研究提出了三个关键方向:开发领域适配模型、应用检索增强生成技术、优化数据质量与覆盖。该工作为临床试验AI研究提供了标准化数据库、评估框架和明确的研究路径,推动该领域向数据驱动转型。数据库和基准已公开,支持后续扩展研究

2025-07-13 23:52:00 811

原创 Extraction of organic chemistry grammar from unsupervised learning of chemical reactions论文代码详解

这篇研究文章主要介绍了一种利用Transformer神经网络从无监督学习化学反应中提取有机化学语法的方法。研究表明,Transformer神经网络无需监督或人工标记就能学习产物和反应物之间的原子映射信息。研究人员利用Transformer的注意力权重,构建了一种与化学无关的、注意力引导的反应映射器,并从无注释的反应集中提取出连贯的化学语法。这种方法在准确性和速度方面表现出色,即使对于原子映射复杂的强不平衡和化学复杂反应也是如此。

2025-07-09 12:27:59 23

原创 Sequential Predictive Modeling of Clinical Trial Outcome with Meta-Learning解读

SPOT通过主题发现模块(Topic Discovery)将临床试验数据聚类为多个主题(topic),每个主题包含具有相似特征(如疾病类型、治疗方案、试验设计)的试验。由于同一主题的试验在时间上具有连续性(按时间戳排序),SPOT将每个主题的时序试验序列定义为一个“任务”。动机:临床试验数据存在严重的不平衡性(如某些疾病或治疗方案的试验数量少,属于“小众任务”)。元学习的核心优势是“学习如何学习”,能在少量数据上快速适应新任务,因此适合处理这类不平衡场景。

2025-07-08 17:08:05 649

原创 如和解决Embedding模型输入文本过长的问题

Trial2Vec与SECRET分别提出创新方案解决长文本处理难题。Trial2Vec通过分层编码(关键属性/上下文分离)和医学知识增强的对比学习,有效聚合长文本语义,在临床试验检索任务中Precision@1达0.881,较基线提升15%。SECRET则转化长文本为问答对(如纳入标准→Q/A),结合局部与全局对比学习,召回率提升78%。两者均规避传统平均池化的信息丢失问题,前者侧重结构化语义聚焦,后者通过Q/A对压缩文本长度,为医学长文本分析提供了可迁移框架。

2025-06-25 14:04:33 607

原创 一文读懂开源AI框架REINVENT 4

REINVENT 4的出现标志着AI从"辅助工具"向"核心设计者"的转变。这一转变不仅体现在技术层面上,还体现在理念和方法上。REINVENT 4通过迁移学习突破数据限制、以阶段学习处理多属性约束、用多样性机制规避模式崩溃,系统性解决了传统虚拟筛选的效率瓶颈。这种系统性的解决方案使得AI在药物设计中的作用从辅助工具提升到了核心设计者的地位[0REINVENT 4的设计理念和方法为未来的AI药物设计指明了方向。首先,迁移学习策略展示了如何利用有限的数据快速调整模型,使其适应特定的药物发现任务。

2025-06-04 17:28:46 98

原创 【qwen2.5vl python调用示例】

【代码】【qwen2.5vl python调用示例】

2025-04-24 17:03:47 511

原创 S-groups(Substructure Groups)介绍

缩写基团可以作为较大分子的一部分,通过其连接点与其他片段相连。使用化学官能团和分子的缩写,可以创建更紧凑的结构。或者,缩写基团可以以其完整的扩展形式显示,以更详细地描述分子的关键部分。S-groups或子结构基团是化学结构的重要组成部分,包含Generic S-groups和预定义的Abbreviated groups(Superatom S-groups)。部分编辑器提供了多个化合物家族的缩写基团(如碳水化合物、氨基酸等)。这些结构可以通过工具栏中的“缩写基团”按钮访问。

2025-03-19 00:52:48 70

原创 CXSMILES介绍

Chemaxon 扩展 SMILES/SMARTS 用于在 SMILES 字符串后存储分子的特殊特征。任何信息都可以存储在 SMILES 字符串后,只要它们由空格或制表符字符分隔,因为 SMILES 解析器会忽略这些信息,或者将它们作为注释使用。扩展特征以以下格式存储:Chemaxon 的扩展 SMILES/SMARTS 不包含非 ASCII 字符,它们通常以字符代码 n 的形式被转义为 &#n;。在 S-group 中,ASCII 字符“,”、“;”、“|”、“{”、“}”也以这种方式转义。此外,符号“$

2025-03-18 21:48:59 127

原创 如何计算模型的FLOPs以全连接层为例

全连接层的计算量公式。

2025-02-14 18:47:24 834

原创 Docker Desktop无法安装报错(求助记录中)

之前Docker Desktop无法使用,报了一个注册表的错误(忘记截图)我想着更新安装下应该就好了,结果Docker Desktop一直无法安装,花了几天都没解决。同时我的window11更新也出现下载。Docker Desktop版本安装失败4.31.1。Microsoft Windows 11 专业版。异常,启动或关闭Windows功能为空。运行修复 Windows 映像和组件存储。

2025-02-08 01:05:09 1043 5

原创 java将本地依赖批量打包

单个jar包依赖项格式输出将lib下所有jar包,手动复制到pom.xml下,在所有依赖上添加 optional 标志,这样可以防止 Maven 尝试从远程仓库解析依赖。

2024-12-05 16:09:59 469

原创 nodejs项目从头创建

npm是包管理工具命令。

2024-10-29 15:32:37 271

原创 LangChain | 快速查阅提示词模板

SystemMessagePromptTemplateSystemMessagePromptTemplate是基于系统级的提示词,用于命令AI要做什么,不要做什么。还是一样的,请他担任翻译官,将英文翻译成中文。HumanMessagePromptTemplate这是一个模板类,用于创建可以填入变量的人类消息模板允许你定义带有占位符的模板,可以动态替换变量使用 format() 方法将变量值注入模板生成最终的消息AIMessagePromptTemplate主要用于创建 AI 响应的模

2024-10-29 15:22:51 221

原创 conda激活的虚拟环境的python版本不对应

这个大坑,要看看虚拟环境下envs下有没有bin文件夹。

2024-07-13 21:18:18 373 1

原创 从drugbank提取药物对应的靶点和基因信息

DrugBank是一个综合性的在线数据库,它提供了关于药物的详细化学、药理、药代动力学和药物-药物相互作用的信息。这个数据库是一个宝贵的资源,广泛用于药物研究、药理学、毒理学、药物设计和个性化医疗等领域。先从下载XML文件然后使用python对文件进行处理。

2024-05-10 11:49:16 2196

原创 yolov5 v7.0打包exe文件,使用C++调用

cd到yolo5文件夹下。

2024-03-29 16:09:14 892

原创 使用python创建生成动态链接库dll

*python作为一种脚本语言,本身是不能直接编译生成动态库的。**为了生成动态库,我们借助cython,将python脚本变成c语言文件。具体过程,我们通过一个简单的例子来解释。

2024-03-26 17:45:09 582

原创 构建生物医学知识图谱from zero to hero (4):通过Neo4j构建知识图谱

图数据库是一种专门用于存储图形数据的 NoSQL 数据库。与传统的关系型数据库和其他 NoSQL 数据库不同,图数据库利用图形数据模型来存储和管理数据。图形数据模型由节点和边组成,节点代表实体,边代表实体之间的关系。例如,在社交网络中,用户可以表示为节点,朋友关系可以表示为边。在沙盒中启动空白项目 https://sandbox.neo4j.com/?Neo4j使用图相关的概念来描述数据模型,把数据保存为图中的节点以及节点之间的关系。

2024-02-23 19:08:39 447

原创 构建生物医学知识图谱from zero to hero (3):生物医学命名实体识别和链接

例如,我们不希望图中有单独的实体代表抗坏血酸和维生素C,因为领域专家可以告诉你这些是同一件事。第二个原因是,通过将概念映射到目标知识库,我们可以通过从目标知识库中获取有关映射概念的信息来丰富图形模型。如果我们再次使用抗坏血酸的例子,如果我们已经知道它的CHEBI id,我们可以很容易地从CHEBI数据库中获取更多信息。在这个例子中,NLP模型在文本中识别了基因、疾病、药物、物种、突变和途径。如前所述,这个过程被称为命名实体识别。例如,在生物医学领域,我们希望在文本中识别各种基因、药物、疾病和其他概念。

2024-02-23 18:18:25 178

原创 构建生物医学知识图谱from zero to hero (5):关系抽取

使用此模型,必须定义要在哪些实体对之间检测关系。将使用命名实体链接的结果作为关系提取过程的输入。首先,我找到所有提到两个或多个实体的句子,然后通过关系提取模型运行它们来提取任何连接。我还定义了一个阈值0.85,这意味着如果模型以低于0.85的概率预测实体之间的链接,将忽略该预测。现在将尝试提取医学概念之间的关系。如果不希望命名实体链接取得完美的结果,那么关系提取技术肯定会出现一些错误。使用zero-shot关系提取器,可以定义要检测的关系。我还尝试了更具体的关系类型,如治疗、原因和其他,但结果并不理想。

2024-02-23 18:10:38 223

原创 构建生物医学知识图谱from zero to hero (2):文献抽取

我们选取一篇文献,将文献PDF转换成图片,然后采用pytesseract 实现图片文字识别。接下来对文本进行处理。

2024-02-23 14:22:03 114

原创 构建生物医学知识图谱from zero to hero (1): 简介

首先,由于生物医学领域的复杂性和多样性,构建全面、准确的生物医学知识图谱需要耗费大量的时间和人力成本。最后,如何将生物医学知识图谱与其他领域的知识图谱进行融合,以实现跨领域的知识推理和应用,也是当前亟待解决的问题之一。此外,随着算法的发展和开源理念的普及,越来越多的生物医学知识图谱开始采用算法驱动的方法,通过自动或半自动的方式从大量生物医学文献中抽取信息,进而构建知识图谱。随着技术的不断发展和应用的不断拓展,相信生物医学知识图谱将在未来的生物医学领域中发挥更加重要的作用。

2024-02-23 11:53:02 276

原创 像素、分辨率、公差的概念

像素是指在由一个数字序列表示的图像中的一个最小单位。像素的多少表明相机所含有的感光元件的多少。所谓 200 万像素 CCD 就是一个由 200 万个光电二极管构成的集合体。一台100万像素的相机拍摄的照片洗成5寸比洗成六寸清晰点。80万 1024×768 5” (3.5×5英寸),130万 1280×960 6” (4×6英寸)

2024-02-05 16:02:43 2260

原创 stable-diffusion | v1-5-pruned.ckpt和v1-5-pruned-emaonly.ckpt的区别

对于日常生成,我们只要了解这样一个事实就行了:如果只是生成,EMA模型和标准模型的效果是一样的。如果你要做二次训练,并且显卡够好,选择带EMA的模型可能更好,因为所有数据都在;VAE模型:用于图像在像素空间和潜在空间的映射,生成图片时将图像从潜在空间转换为像素图片,目前大部分模型都自带VAE。标准模型:生成图片的核心模块,潜空间中的前向扩散和反向扩散就是通过它做的,对应到图中左侧的 U-Net。对于 1.5 模型,其中可能包括四部分:标准模型、文本编码器、VAE模型、EMA模型。

2024-02-04 18:17:31 8953

原创 huggingface模型无法下载

【代码】huggingface模型无法下载。

2024-01-16 13:41:01 528

原创 AI&大模型 | llama2微调手册查看ing

位于[INST]之后,/[INST]之前的文本,是用户在. 这一轮次(<s></s>包含的文本)对话中所输入的query,而/[INST]之后的文本,是模型针对这一query所作出的回答。Llama 2使用与 Llama 1 相同的分词器;在对话中的第一组单元,可以提供整个对话的背景信息,并以<<SYS>>和<</SYS>>作为特殊标记,位于它们之间的,是对话的背景信息,类似instruction。<s> ,<\s>,<<SYS>>,<</SYS>>,[INST],以及[/INST]是特殊token,

2023-12-22 21:39:18 1093

原创 clinicaltables | 疾病转化为ICD-10编码

国际疾病分类(international Classification of diseases ,ICD),是依据疾病的某些特征,按照规则将疾病分门别类,并用编码的方法来表示的系统。ICD使得疾病名称标准化、格式化。这是医学信息化、医院信息管理等临床信息系统的应用基础。

2023-12-19 19:41:29 371

原创 AI | 大模型推理参数解析(进行中)

(int, optional, defaults to 1) - 批次中每个元素独立计算的返回序列的数量。

2023-12-12 16:05:27 2956

原创 onnx导出报错 | IndexError: index_select(): Index is supposed to be a vector

在torch.onnx.export钟添加do_constant_folding=False,如下。

2023-11-23 21:21:27 619 1

原创 大模型多轮对话数据集构建

history”:[[“长城h3风扇不转。保险丝好的传感器新的风扇也新的这是为什么。水温多少”], [“95”, “上下水管温差怎么样啊?“history”: [[“长城h3风扇不转。保险丝好的传感器新的风扇也新的这是为什么。“response”:“那就要检查线路了,一般风扇继电器是由电脑控制吸合的,如果电路存在断路,或者电脑坏了的话会出现继电器不吸合的情况!{“prompt”: “长城h3风扇不转。保险丝好的传感器新的风扇也新的这是为什么。就是继电器缺一个信号线”,{“prompt”: “是的。

2023-11-07 10:57:03 3463 3

原创 python&rdkit | 从相对原子质量推测元素

【代码】python&rdkit | 从相对原子质量推测元素。

2023-10-15 15:19:23 170

原创 化工&python | PID控制器优化算法

比例-积分-导数控制器(PID控制器)是一种采用反馈机制的工业控制系统,用于计算每一时间步k的误差值ek,并将其作为期望设定值(SP)与测量过程变量(PV)之间的差异。通过应用比例、积分和导数项(表示为P、I和D),进行校正调整,从而实现控制作用。传统上存在多种方法来优化这些参数,然而将问题视为黑盒优化问题是一种有效解决方法。ukKP​ekKI​i0∑ik​eiKD​Δtek−ek−1​其中KP​KI​KD​。

2023-10-15 15:08:11 350

原创 化工&python | CSTR连续搅拌反应器系统

绝热连续搅拌釜反应器 (CSTR) 是过程工业中常见的化学系统。容器中发生单个一级放热且不可逆的反应 A → B,假定容器始终完全混合。试剂 A 的入口流以恒定的体积速率进入罐。产物流B以相同的体积速率连续排出,液体密度恒定。因此,反应液体的体积是恒定的。,它们的变化可以由下面方程表示。的冷却套作为系统的输入。在反应器中发生的反应是。

2023-10-15 14:37:34 1197

原创 多模态模型文本预处理方式

将句子中的类别提取出来,结合成一个句子,并使用注意力掩码遮蔽掉不相关类别的注意力。保持每个单词特征的细粒度意思。句子级别的表征编码一整个句子到一个特征中。如果一个句子有多个短语,提取这些短语丢弃其他的单词。缺点:会在类别之间建立不必要的联系,尤其多个类别以随机顺序排列。缺点:这种方式会丢失句子中细粒度的信息。将句子中的类别提取出来,结合成一个句子。

2023-10-15 13:26:35 692

原创 论文通过更改域代码同时引用多篇参考文献

【毕业论文中如何同时引用多篇参考文献?切换域代码后在最后添加。

2023-09-26 22:23:40 670

原创 timm模型无法联网下载采用本地读取

最新的timm版本(0.9.x)默认使用huggingface hub作为权重,优先于torch hub缓存,许多权重已经为模型更改重新映射,所以最好通过HF hub下载。Kaggle真的应该支持通过HF hub,或者至少正确地缓存它,但他们似乎没有兴趣让事情变得更简单,所以手动缓存数据集中的权重的疯狂继续…要覆盖预训练的位置,您可以从HF hub手动下载权重文件并尝试以下操作。

2023-09-26 17:09:04 2309

原创 解决shutil.copyfile常见错误:PermissionError: [Errno 13] Permission denied

亲测有效。

2023-09-26 16:03:10 350 1

原创 pyd包导入报ModuleNotFoundError: No module named

在windows环境下确保运行环境python版本与pyd版本一致。

2023-09-06 15:34:23 517

半导体设备研究系列之明暗场缺陷检测设备

半导体量检测设备是第四大制程设备环节,诞生大公司 KLA。量检测设备的市场 规模小于刻蚀、薄膜沉积设备、光刻机,但大于清洗设备、CMP、离子注入、 Track、电镀等环节。2021 年,按销售额计,前道量检测设备全球市场规模 104 亿美元,占 WFE 市场的 11%,随着新能源汽车、光伏产业、工业控制等下游需 求不断扩张,半导体行业具有较大的发展空间,2021 年全球半导体设备市场增 速高达 44.10%,国内市场增速高达 58.23%。SEMI 预测,全球半导体设备市场 规模将在 2022 年达到 1175 亿美元,在 2023 年达到 1208 亿美元。前道量检测 设备是半导体设备市场的重要组成部分,按销售额计,缺陷检测设备在前道量检 测设备中占比约达 55%,更具体地,有图形晶圆检测设备占比约为 34%,缺陷 检测市场前景广阔。

2024-02-05

斯坦福大学深度生成模型cs236

斯坦福大学深度生成模型cs236 全部pdf课件

2023-02-16

化学元素周期表和对应化学性质

csv文件人工整理了包含了元素周期表的所有元素,以及每个元素对应的近30种性质

2021-01-15

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除