基于Albert+BiLSTM+CRF深度学习网络架构，中文分词，词性标注，命名实体识别，新词发现.zip资源-CSDN下载

共124个文件

py：109个

txt：4个

dict：3个

版权申诉

人工智能

深度学习

python

5星 · 超过95%的资源 48 浏览量 2024-02-19 13:08:44 上传评论 3 收藏 5.9MB ZIP 举报

在本项目实践中，我们探索了如何利用深度学习技术来解决自然语言处理（NLP）中的核心任务：中文分词、词性标注、命名实体识别和新词发现。这些任务是理解中文文本的基础，对于信息提取、情感分析、机器翻译等应用至关重要。项目采用了Albert+BiLSTM+CRF的深度学习网络架构，这是一种高效且性能优异的模型组合。 **Albert模型**（A Lite BERT）是BERT（Bidirectional Encoder Representations from Transformers）的轻量级版本，它通过参数共享和因子分解等方法大大减小了模型的大小，但保持了与BERT相当的性能。Albert模型能够学习到丰富的上下文语义表示，这对于理解和处理中文文本非常有用。 **双向LSTM（BiLSTM）**是一种长短时记忆网络的变体，它结合了前向和后向LSTM的输出，可以捕获序列数据中的上下文信息。在中文分词和词性标注任务中，BiLSTM能够有效地捕捉词语的前后依赖关系，帮助确定每个词的边界和属性。 **CRF（条件随机场）**是一种统计建模方法，常用于序列标注任务。在词性标注和命名实体识别中，CRF可以考虑整个序列的标注一致性，避免了孤立预测导致的错误。相比于单独的分类模型，CRF可以提供全局最优的标注序列。在这个项目中，我们使用Python编程语言来实现这个深度学习框架，并可能使用了TensorFlow或PyTorch等深度学习库。Python因其丰富的NLP库（如NLTK, spaCy, Hugging Face的Transformers等）和便捷的语法，成为进行此类项目开发的首选语言。 **中文分词**是将连续的汉字序列切分成具有独立语义的词语，是中文处理的第一步。项目可能使用预训练的Albert模型作为特征提取器，BiLSTM来捕捉词序信息，最后通过CRF层进行分词决策。 **词性标注**是对每个词汇附上相应的词性，如名词、动词等，有助于理解句子结构和语义。同样，Albert+BiLSTM+CRF的组合在此任务中也能发挥优势。 **命名实体识别（NER）**是识别文本中具有特定意义的实体，如人名、地名、组织名等。这一任务在新闻报道、社交媒体分析等领域有着广泛应用。深度学习模型可以学习到实体间的上下文关系，提高识别准确性。 **新词发现**是指在未登录词中识别出新出现的词汇，这对于追踪语言变化和新兴概念尤为重要。项目可能采用了基于概率模型的方法，结合深度学习模型的上下文理解能力，来识别文本中的潜在新词。这个项目展示了深度学习在NLP中的强大能力，尤其是Albert模型的高效性和BiLSTM+CRF的序列标注效果。通过实践，我们可以更好地理解和应用这些技术，为实际的自然语言处理任务提供解决方案。

资源推荐

资源详情

资源评论

收起资源包目录

基于Albert+BiLSTM+CRF深度学习网络架构，中文分词，词性标注，命名实体识别，新词发现.zip （124个子文件）

macropodus.dict 4.35MB

user.dict 4.23MB

pinyin.dict 1.9MB

train.json 77KB

dev.json 20KB

train.json 14KB

README.md 9KB

nlp_platfom_survey.md 6KB

macropodus_logo.png 37KB

zh_wiki.py 166KB

preprocess_generator.py 21KB

graph.py 18KB

embedding.py 17KB

stop_words.py 17KB

train_bilstm_crf.py 15KB

train_crf.py 14KB

train_bilstm.py 14KB

albert.py 12KB

word_discovery.py 12KB

chinese2number.py 11KB

server_prdeict.py 11KB

server_base.py 11KB

textrank_gensim.py 11KB

text_pronouns.py 11KB

text_teaser.py 10KB

seg_statistics.py 10KB

topic_nmf.py 10KB

calcultor_sihui.py 9KB

tet_nlg_yongzhuo.py 9KB

calcultor_function.py 8KB

textrank_word2vec.py 7KB

calcultor_formula.py 7KB

calcultor_number.py 7KB

topic_lda.py 7KB

server_streamer_flask.py 6KB

seg_basic.py 6KB

server_streamer.py 6KB

tet_macropodus.py 6KB

trie_tree.py 6KB

tools_ml.py 6KB

crf.py 6KB

word_significance.py 5KB

topic_lsi.py 5KB

tools_common.py 5KB

seg_dag.py 4KB

keras_radam.py 4KB

mmr.py 4KB

han2zh.py 4KB

textrank.py 3KB

bilstm_crf.py 3KB

__init__.py 3KB

keras_lookahead.py 3KB

__init_tf_keras.py 3KB

lead_3.py 3KB

path_config.py 3KB

textrank_sklearn.py 3KB

bilstm.py 3KB

setup.py 3KB

word2vec.py 2KB

seg_reverse.py 2KB

crf.py 2KB

similarity_word2vec_char.py 2KB

seg_forward.py 2KB

pinyin.py 2KB

seg_bidirectional.py 2KB

tet_summarize.py 2KB

ri.py 2KB

path_log.py 2KB

__init__.py 2KB

compare_tags.py 1KB

tet_evaluate.py 1KB

__init__.py 968B

tag_seg_BMES.py 960B

__init__.py 908B

keras_dump.py 880B

non_mask_layer.py 777B

tools_clear.py 545B

thread_manage.py 430B

__init__.py 414B

pkuseg.py 205B

version.py 148B

__init__.py 144B

__init__.py 102B

__init__.py 101B

共 124 条

# nlg, API(联合调用, 整合几种算法) ```bash from nlg_yongzhuo import * doc = """PageRank算法简介。" \ "是上世纪90年代末提出的一种计算网页权重的算法! " \ "当时，互联网技术突飞猛进，各种网页网站爆炸式增长。 " \ "业界急需一种相对比较准确的网页重要性计算方法。 " \ "是人们能够从海量互联网世界中找出自己需要的信息。 " \ "百度百科如是介绍他的思想:PageRank通过网络浩瀚的超链接关系来确定一个页面的等级。 " \ "Google把从A页面到B页面的链接解释为A页面给B页面投票。 " \ "Google根据投票来源甚至来源的来源，即链接到A页面的页面。 " \ "和投票目标的等级来决定新的等级。简单的说， " \ "一个高等级的页面可以使其他低等级页面的等级提升。 " \ "具体说来就是，PageRank有两个基本思想，也可以说是假设。 " \ "即数量假设：一个网页被越多的其他页面链接，就越重）。 " \ "质量假设：一个网页越是被高质量的网页链接，就越重要。 " \ "总的来说就是一句话，从全局角度考虑，获取重要的信。 """.replace(" ", "").replace('"', '') # 是否使用多进程, fs可以填其中一个或几个 text_pronouns, text_teaser, mmr, text_rank, lead3, lda, lsi, nmf res_score = text_summarize(doc, multi_process=True, fs=[text_pronouns, text_teaser, mmr, text_rank, lead3, lda, lsi, nmf]) for rs in res_score: print(rs) ``` # nlg, 单个方法 ``` # feature_base from nlg_yongzhuo import word_significance from nlg_yongzhuo import text_pronouns from nlg_yongzhuo import text_teaser from nlg_yongzhuo import mmr # graph_base from nlg_yongzhuo import text_rank # topic_base from nlg_yongzhuo import lda from nlg_yongzhuo import lsi from nlg_yongzhuo import nmf # nous_base from nlg_yongzhuo import lead3 docs ="和投票目标的等级来决定新的等级.简单的说。" \ "是上世纪90年代末提出的一种计算网页权重的算法! " \ "当时，互联网技术突飞猛进，各种网页网站爆炸式增长。" \ "业界急需一种相对比较准确的网页重要性计算方法。" \ "是人们能够从海量互联网世界中找出自己需要的信息。" \ "百度百科如是介绍他的思想:PageRank通过网络浩瀚的超链接关系来确定一个页面的等级。" \ "Google把从A页面到B页面的链接解释为A页面给B页面投票。" \ "Google根据投票来源甚至来源的来源，即链接到A页面的页面。" \ "一个高等级的页面可以使其他低等级页面的等级提升。" \ "具体说来就是，PageRank有两个基本思想，也可以说是假设。" \ "即数量假设：一个网页被越多的其他页面链接，就越重）。" \ "质量假设：一个网页越是被高质量的网页链接，就越重要。" \ "总的来说就是一句话，从全局角度考虑，获取重要的信。" # 1. word_significance sums_word_significance = word_significance.summarize(docs, num=6) print("word_significance:") for sum_ in sums_word_significance: print(sum_) # 2. text_pronouns sums_text_pronouns = text_pronouns.summarize(docs, num=6) print("text_pronouns:") for sum_ in sums_text_pronouns: print(sum_) # 3. text_teaser sums_text_teaser = text_teaser.summarize(docs, num=6) print("text_teaser:") for sum_ in sums_text_teaser: print(sum_) # 4. mmr sums_mmr = mmr.summarize(docs, num=6) print("mmr:") for sum_ in sums_mmr: print(sum_) # 5.text_rank sums_text_rank = text_rank.summarize(docs, num=6) print("text_rank:") for sum_ in sums_text_rank: print(sum_) # 6. lda sums_lda = lda.summarize(docs, num=6) print("lda:") for sum_ in sums_lda: print(sum_) # 7. lsi sums_lsi = lsi.summarize(docs, num=6) print("mmr:") for sum_ in sums_lsi: print(sum_) # 8. nmf sums_nmf = nmf.summarize(docs, num=6) print("nmf:") for sum_ in sums_nmf: print(sum_) # 9. lead3 sums_lead3 = lead3.summarize(docs, num=6) print("lead3:") for sum_ in sums_lead3: print(sum_) ``` # nlg, sklearn ``` docs = """AutoML机器学习自动化与NNI 原创大漠帝国最后发布于2020-02-29 19:46:21 阅读数 221 收藏编辑展开一、AutoML简介 AutoML(Automated Machine Learning)，中文可以翻译为自动机器学习，我比较喜欢叫它“机器学习自动化”，更加接近人们所津津乐道的通用人工智能吧。人们一直有个朴素的想法，可以有一个通用的AI系统，它包罗万象，能够对整个宇宙进行建模，对我们遇到的一切问题，都给出解决办法。这在幻想书籍中数见不新鲜，比如漫威电影中钢铁侠的人工智能贾维斯，又比如说芯片系统流派的网络小说。不过这些大概可以算是人工智能的高级模式了吧，人们还是很宽容的，没有期待一步到位。现在算是AI的高潮期，尤其是以深度学习DL为代表的当代人工智能技术的成功，给以人类以无限的想象空间。那么，降低要求，以DL技术为基础，去开发一个低配版通用人工智能，也是可以的吧。所以，随着人工智能的火爆，2014年以来，AutoML也越发火热起来。深度学习时代的鲜明特征是大数据量、深层次网络、特征学习与端到端学习。我们希望能够从数据一步得到模型，而不需要其他的什么人为参与过程。如果再加上语音助手什么的，或许我们就能达到浅层次通用人工智能的目标呢。在深度学习DL模型架构难以取得更大突破的时候，给它再开辟一条道路呢。一如蒸馏模型，又如MobileNet。工程化和应用级市场，更能带来意想不到的惊喜。这一点，从近年来微软开源的AutoML工具NNI大受欢迎中，可以管中窥豹。二、AutoML特性从比较出名的开源Auto平台、互联网大厂AutoML云产品，以及AI公司的AutoML软件来看，一般包括特征工程(FE，Auto feature engine)、神经网络搜索(NAS，Neural Architecture Search) 和超参数优化(HPO，Hyper-parameter optimization) 等功能，如下图所示：可能还存在其他一些小功能，如数据增强(几何,颜色), 激活函数(swish,Hybrid DNN), 归一化方法(Switchable Normalization, BN, IN, LN, GN), 优化方法(Neural Optimizer Search, sgd，rmsprop，adam, 衰减, 函数的组合), 优化目标(AM-LFS, Learning to teach with dynamic loss functions), 模型剪枝(AMC), 模型量化(HAQ), 部署上线等。 AutoML优点：可用于传统机器学习、图像等较成熟领域，自动化摒弃了人为因素的干扰、增强泛化性；缺点：消耗资源大、优化方法可能达不到经验模型甚至是严重偏向。三、 NNI NNI (Neural Network Intelligence，[翻译为神经网络智能？]) 是微软开源的自动机器学习（AutoML）的Python工具包。NNI 通过 nni_manager模块等管理 AutoML 的 Experiment (实验)，调度并运行各种调优算法生成的 Trial (尝试) 任务，来完成搜索最优神经网络架构、超参数等。同时支持本机，远程服务器，单机，多机，OpenPAI，Kubeflow，K8S和其它云服务等训练环境。对比其他开源项目，或大公司产品可以发现，NNI支持的神经网络结构搜索、超参数优化等调优算法更多，功能最强大。以我的使用体验来看，NNI更像一个黑盒，浅度用户使用可能比较舒服。使用nni的SDK可以完美嵌入自己的网络结构进行超参数优化，�

评论收藏

内容反馈

版权申诉