<font size=8>**数据处理模块**</font>
此模块主要对数据data、data2、msra、人名日报 4份数据进行处理,可直接提供给模型使用。
# 文件构成
- data2_preprocessing.py data2数据预处理文件
- msra_preprocessing.py MSRA数据预处理
- process_data.py 数据处理
- renminribao_preprocessing.py 人民日报数据处理
- vocab.py 词表
- 提供词表 和 tag 标签表格
- 词表采用 BERT 预训练文件中vocab.txt
- tag 采用 O、B-PER、I-PER、B-LOC、I-LOC、B-ORG、I-ORG
# 文件简介
## data2_preprocessing.py
data2 原文件all.txt 文件中的格式,这便是我们预处理的标准格式,所以这里只需要将文件切分成test.txt和train.txt两份数据即可。
```python
中 B-ORG
共 I-ORG
中 I-ORG
央 I-ORG
致 O
中 B-ORG
国 I-ORG
致 I-ORG
公 I-ORG
党 I-ORG
十 I-ORG
一 I-ORG
大 I-ORG
的 O
贺 O
词 O
```
## msra_preprocessing.py MSRA数据预处理
MAST是微软亚洲研究院开源数据
train1.txt 数据格式:
```python
当/o 希望工程/o 救助/o 的/o 百万/o 儿童/o 成长/o 起来/o ,/o 科教/o 兴/o 国/o 蔚然成风/o 时/o ,/o 今天/o 有/o 收藏/o 价值/o 的/o 书/o 你/o 没/o 买/o ,/o 明日/o 就/o 叫/o 你/o 悔不当初/o !/o
```
其中需要做几个映射:
```
人名:
nr -> B-PER、I-PER
地名:
ns -> B-LOC、I-LOC
机构名称:
nt -> B-ORG、I-ORG
```
我们需要处理成以下格式:
```python
当 O
希 O
望 O
工 O
程 O
救 O
助 O
的 O
百 O
万 O
```
并且切分成训练和测试数据集
## process_data.py 数据处理
数据处理直接提供给模型训练使用。
数据处理有两种一种是一般的模型输入只需要一个2维数组
- 一般模型
- inputs = ids(n_sample x max_len) 只需要一个二维输入
- labels = label(n_sample x max_len x one_hot_num) (转化为noe-hot为可选项目) 三维数据
- BERT
- inputs =[ids(n_sample x max_len) , types(n_sample x max_len) ] 只需要2个二维输入
- labels = label(n_sample x max_len x one_hot_num) (转化为noe-hot为可选项目) 三维数据
所以 一般模型的输入和bert数据输入需要进行区分
- 数据处理 (过程)
- data(texts)(一般处理)
- 获取char to index 字典
- 把文本转化为index的形式
- 截取过长的文本、填充长度不够文本
- data(texts)(bert数据处理)
- 获取char to index 字典
- ids把文本转化为index的形式 type 全部填充0 因为只有一个句子
- 截取过长的文本
- 首尾进行填充(开始填充[CLS] 结尾填充 [SEP])
- labels()
- 获取tag to index 字典
- 把label处理成Index的形式
- 截取和填充(bert需要注意填充了[CLS] [SEP])
- 转化成one-hot(如果需要)
- 最终输出(以label为one-hot为例子)
- 一般数据
- datas.shape=(n_sample, max_len)
- labels.shape=(n_sample, max_len, one_hot_len)
- bert数据
- datas = [ ids.shape=(n_sample, max_len), types.shape=(n_sample, max_len) ]
- lables.shape=(n_sample, max_len, one_hot_len)
- bert数据处理
## renminribao_preprocessing.py
人名日报标注数据预处理
原数据格式 (其实这个是别人稍稍处理过的-------------- )
```python
迈/O 向/O 充/O 满/O 希/O 望/O 的/O 新/O 世/O 纪/O —/O —/O 一/O 九/O 九/O 八/O 年/O 新/O 年/O 讲/O 话/O (/O 附/O 图/O 片/O 1/O 张/O )/O
中/B_nt 共/M_nt 中/M_nt 央/E_nt 总/O 书/O 记/O 、/O 国/O 家/O 主/O 席/O 江/B_nr 泽/M_nr 民/E_nr
(/O 一/O 九/O 九/O 七/O 年/O 十/O 二/O 月/O 三/O 十/O 一/O 日/O )/O
1/O 2/O 月/O 3/O 1/O 日/O ,/O 中/B_nt 共/M_nt 中/M_nt 央/E_nt 总/O 书/O 记/O 、/O 国/O 家/O 主/O 席/O 江/B_nr 泽/M_nr 民/E_nr 发/O 表/O 1/O 9/O 9/O 8/O 年/O 新/O 年/O 讲/O 话/O 《/O 迈/O 向/O 充/O 满/O 希/O 望/O 的/O 新/O 世/O 纪/O 》/O 。/O (/O 新/B_nt 华/M_nt 社/E_nt 记/O 者/O 兰/B_nr 红/M_nr 光/E_nr 摄/O )/O
```
需要做的标注映射:
```python
人名:
B_nr -> B-PER
M_nr -> I-PER
E_nr -> I-PER
地名:
B_ns -> B-LOC
M_ns -> I-LOC
E_ns -> I-LOC
机构名称:
B_nt -> B-ORG
M_nt -> I-ORG
E_nt -> I-ORG
```
处理成通用的格式
```python
迈 O
向 O
充 O
满 O
希 O
望 O
的 O
新 O
世 O
纪 O
— O
— O
```
## vocab.py 词表
- 提供词表 和 tag 标签表格
- 词表采用 BERT 预训练文件中vocab.txt
- tag 采用 O、B-PER、I-PER、B-LOC、I-LOC、B-ORG、I-ORG
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
<项目介绍> 中文命名实体识别包括多种模型:BILSTM+CRF、IDCNN+CRF、BERT+BILSTM+CRF进行识别python源码 NER(中文实体命名识别) 光健字: 中文命名实体识别 NER BILSTM CRF IDCNN BERT 摘要:对中文命名实体识别一直处于知道却未曾真正实践过的状态,此次主要是想了解和实践一些主流的中文命名实体识别的神 - 不懂运行,下载完可以私聊问,可远程教学 该资源内项目源码是个人的毕设,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。 --------
资源推荐
资源详情
资源评论





























收起资源包目录












































































共 58 条
- 1
资源评论

- xsx16661321162025-05-02资源有很好的参考价值,总算找到了自己需要的资源啦。
- weixin_524481762024-03-16资源很实用,对我启发很大,有很好的参考价值,内容详细。
- 普通网友2024-03-14资源质量不错,和资源描述一致,内容详细,对我很有用。
- 普通网友2024-05-04资源内容总结的很到位,内容详实,很受用,学到了~

机智的程序员zero
- 粉丝: 2578
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
- 基于搜索的软件工程:2016年国际研讨会精选
- 基于计算机视觉的智慧养老系统
- 【Java开发环境配置】IntelliJ IDEA高效开发配置指南:插件推荐、调试技巧与代码规范
- autonomous-exploration-environments 仿真器环境
- 2025 上海中考 升学 【各批次分数线+计划数】22-25年16区
- 系统编程Rust并发编程深度解析:线程、消息传递、共享状态及异步编程实战指南
- 人体转动动图gif动图资源
- DSP28335上的UCOSII移植加canopen应用
- numpy-1.24.4-cp38-cp38-win-amd64.7z
- charles-proxy-5.0.1.dmg Mac 版 Charles 抓包工具
- 基于深度学习的计算机视觉程序
- 基于DSP和CanFestival的CANopen实现
- 探索面向服务架构的核心原理与实践
- Linux用30秒部署Nginx+Tomcat+Mysql+Jdk1.8环境
- Image10拿掉卡迪LCD屏电源控制的GPIO冲突-确认通过-20250821-0925.7z使用DTS rk3588-evb7-v11-linux.dts 内核linux-5.10
- 动图科技gif资源一张
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈



安全验证
文档复制为VIP权益,开通VIP直接复制
