没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
内容概要:文章介绍了FoodGPT——首个面向食品检测的大型语言模型。考虑到食品检测领域的独特性质,即大部分专业知识以图像、扫描文档以及结构化数据形式存在而非传统的纯文本数据,研究人员并未简单地对基础模型做指令微调而是增加了增量预训练步骤。具体而言,他们运用光学字符识别(OCR)、BERT/GPT-2模型筛选以及自定义模板等方式对特殊格式的数据进行了处理,并引入随机文本生成技术以改善模型对于结构化知识的学习效果。同时,为了避免可能出现的机器幻象现象,团队额外构建了外部知识图谱支持系统,以确保食品测试相关数值预测结果的精准性。最后通过对在线社区获取的实际案例问答数据及由领域内权威人士指导产生的指令数据集合进行精细调整训练,完成了最终模型FoodGPT的构建。 适合人群:从事AI/机器学习方向的研究人员和技术从业者,尤其是关注食品安全与质量控制的专业人士;对大语言模型(Large Language Models, LLMs)有兴趣的研究学者。 使用场景及目标:FoodGPT旨在提高我国乃至全球范围内的食品安全生产水平,主要应用于快速筛查各类食品的安全隐患风险,帮助监管机构及时有效地做出决策判断,保障民众身体健康权益不受侵害。长远来看还可以辅助政府机关完善相关政策法规的制定,增强社会各界对于国家食品药品治理体系的信心。 其他说明:当前展示的技术报告为FoodGPT项目的预发行版本,在即将发布的后续工作中将提供更多关于具体实验参数设定、评估标准选择及其表现指标等方面的深入探讨资料供广大同仁共同交流讨论。
资源推荐
资源详情
资源评论






























摘要 目前,特定领域的大型语言模型的构建是通过在基础模型上进行微调来完成的。有些
模型还包含知识库,无需预先训练。这是因为基础模型在预训练过程中已经包含了特定领域
的知识。
我们构建了一个用于食品测试的大型语言模型。与上述方法不同,该域中的大量数据以域标
准文档的扫描格式存在。此外,还存在大量未经训练的结构化知识。因此,我们引入了增量
预训练步骤,将这些知识注入到大型语言模型中。在本文中,我们提出了一种在增量预训练
中处理结构化知识和扫描文档的方法。为了克服机器幻觉的问题,我们构建了一个知识图作
为外部知识库来支持大语言模型中的检索。值得一提的是,这篇论文是我们预发布版本的技
术报告,我们将在未来的版本中报告我们的具体实验数据。
1 引言 大语言模型(LLM)[1] 在自然语言处理领域获得了重要的研究意义。
ChatGPT、LLaMA [2]、GPT-4、ChatGLM [3] 和 PaLM [4] 等模型在下游任务中表现出了出
色的性能。 LLM 在理解人类指令方面的强大能力导致了各个垂直领域对 LLM 的不断研究。
ChatLaw [5]基于 Ziya-LLaMA-13B,利用法律数据进行指令微调,结合向量数据库检索来创
建合法的 LLM。 DoctorGLM [6] 基于 ChatGLM-6B 构建,并使用中文医疗对话数据集进行
微调,创建中文医疗咨询模型。 BenTsao 基于 LLaMA-7B,利用医学知识图谱和 GPT-3.5 API
构建中医教学数据集,构建中医 LLM。而 Cornucopia 则基于 LLaMA-7B,利用中国金融公
开数据和爬取的金融数据构建了指令数据集,专注于金融领域的问答。
之前的研究假设基础模型已经注入了相应的领域知识,因此没有对基础模型进行增量预训练。
然而,在某些领域,例如食品检测,大量的大量知识存在于非文本图像、扫描文档和私有结
构化数据中。为了在这些领域建立 LLM,我们认为基础模型中的知识是不够的,因此增量预
训练至关重要。因此,我们以食品检测领域为代表,从增量预训练阶段开始构建中国食品检
测 LLM。
总之,本文在以下方面做出了贡献: • 我们开发了一个名为 FoodGPT 的食品检测 LLM,
据我们所知,这是食品检测领域的第一个 LLM。
• 我们从增量预训练开始构建垂直领域 LLM,据我们所知,这是目前罕见的努力。
• 对于扫描格式域标准文档和结构化数据,我们提出了一种新的数据收集方法,在增量预训
练阶段成功地将上述知识注入 FoodGPT。
• 食品检测领域 LLM 需要精确的数字输出。因此,我们构建了一个知识图谱作为 FoodGPT
的检索库,以减少机器幻觉现象。
2 增量预训练 在食品检测领域,大量数据存在于图像或扫描文档中,而另一部分数据则存
储在私有结构化数据库中。这些数据尚未用于 LLM 的预培训。如果我们直接对基础模型进
行微调,由于缺乏领域知识,它可能很难表现良好。因此,在 FoodGPT 的训练中,我们结
合了增量预训练步骤,将领域知识注入 FoodGPT。
资源评论


三月七꧁꧂
- 粉丝: 5053
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
- (源码)基于Python Tkinter GUI库的随机选择器.zip
- (源码)基于 PHP 的宝塔服务器状态监控系统.zip
- (源码)基于Arduino的BeeBot机器人控制系统.zip
- (源码)基于Atmel8266MCU的闹钟系统.zip
- 一个flask+jQuery的项目,实现文本相似度查询.作为Python必修课和Python选修课大作业
- (源码)基于Nodered和Arduino的气象站监测系统.zip
- (源码)基于Python和Flutter的智能家居自动化管理系统.zip
- (源码)基于Python的微信聊天机器人.zip
- 北上广成沈五城市PM2.5分析 中国农业大学大数据(二学位)Python程序设计课程作业
- 北京大学暑期学校:Python语言基础及应用(Python Programming and Application)小组作业
- 大三上,编译原理大作业,函数绘图语言解释器,Function Mapping Language Interpreter,Python实现
- Confluence实战指南:提升团队协作效能
- 南开大学《数据库原理》课程大作业,基于mysql和python实现的选课系统
- 多媒体大作业,一个基于 Electron-vue + Python 的图像转动画应用
- Python大作业,KTV点歌系统,支持歌曲增删改查,歌词显示
- 数据库的大作业 因为c++太麻烦了 所以使用Python实现
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈



安全验证
文档复制为VIP权益,开通VIP直接复制
