实体关系映射是目前AI落地非常成熟的应用场景,但是如何做到多、快、好、省,仍然需要一些技巧,这里文分享一下我的方案。
什么是实体关系映射
实体匹配(entity mapping)通常是指将两个没有直接关系的对象,通过一些方式建立起映射关系。比如:故宫、故宫博物院、北京故宫 三者指的是同一景区,将三者关联起来,就属于实体关系映射。
场景
现在A库有1w景区数据,B库有100w级别景区数据。需要从B库中挑选出与A库匹配的景区。他们的数据情况如下图。
A库 | B库 | |
---|---|---|
名称 | ✅ | ✅ |
城市 | ✅ | 空 |
地址 | 可能空 | ✅ |
简述 | 可能空 | 可能空 |
方案
我认为如果能简单通过规则来确定的,尽量通过规则来处理,当需要逻辑推理时再让AI接入,同时需要多名AI交叉比对,多个角色校验结果,尽量减少AI犯错的可能性。这里我先把流程图贴出,后续我将对每个环节进行具体介绍。
不完全匹配
BM25得分最高的N个景区
景区名称&城市匹配
多个LLM判断出最相似的景区
LLM结果相同
failed
pass
结果可能有争议
B景区数据库
rule1
A数据库某景区
rule2:BM25
LLM_best_match*2
LLM_final_check