信息抽取指的是从非结构化文本中提取结构化信息的一类技术。定义为:从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,并形成结构化数据输出的文本处理技术。
信息抽取肯定离不开命名实体识别(NER)和关系抽取,这里就主要说一下关系抽取中的一种算法Snowball。
说到Snowball,我们先从Bootstrap说起,Bootstrap是一种基于半监督和无监督的算法,我们看看他的原理:
可以看到他的工作原理是根据已知的seed库创建规则库,然后拿着规则遍历文本,一旦出现符合规则的实体就生成tuple并入seed库。但是它存在一个致命的缺点,一旦错误的规则生成会发生传递且不会消失,导致准确率越来越低。
而Sonwball算法在此基础上进行了改进,我们来看看它是什么原理:
原文链接:https://blog.csdn.net/weixin_46249816/article/details/105754292