本发明涉及信息抽取领域中的命名实体识别,具体来说是面向柑橘知识图谱的半监督实体抽取方法。
背景技术:
1、柑橘是我国古老的水果品种之一,种植历史悠远。经过多年的产业发展,现代柑橘产业是技术密集型产业,如何利用数字化技术推动柑橘生产的标准化、规模化、品牌化、无害化,已成为柑橘产业的发展方向。
2、目前基于人工智能和大数据技术大力推进农业产业大脑的建设成为农业产业数字化的主要手段,其中设计数据、知识、规则、算法、模型、组件等资源和能力要素。对于柑橘产业数字化需进一步提升,建立柑橘产业全链条大数据,加快生产、加工、市场、流通监管、营销、品牌运营、资源流转、冷链物流、产业链服务等方面字数字化建设。
3、知识图谱具备强大的语义处理能力,可从海量文本和图像中抽取结构化知识,将不同来源的数据进行融合,从而形成富含语义关系的知识网络即结构化的知识系统。知识图谱作为知识管理领域中的一项新兴技术,因其可扩展性强、支持智能应用等优点而得到广泛应用,是推动农业产业数字化、构建农业产业大脑的重要技术手段。知识图谱是以“语义网络”为框架构建起来的大型知识库系统。语义网络可被视为一张巨大的图,其中节点表示实体,边则代表实体之间的语义关系。知识图谱在语义网络框架中填充了大量的知识内容。这些知识内容来自数据库、文献库、数据文件等各种数字化资源。知识图谱对分散的知识进行汇集和组织,可以有助于实现知识资源的关联与整合,为解决“知识孤岛”问题提供了理想的技术手段。
4、知识图谱在柑橘产业中农技服务方面具有广泛的应用前景。围绕柑橘产业,构建覆盖一二三产的柑橘知识图谱,涉及柑橘品种、营业价值、病虫害处理、农药化肥、生产加工、物流销售等知识,将面向人的非结构化知识转换成面向机器的结构化知识,结合智能检索、个性化推荐等技术,为橘农提供农技服务,破解当前农技推广及农业知识推广人才缺乏的问题。
5、实体词汇是构成知识图谱的重要基础,为了构建一个准确、完整的柑橘知识图谱,需要获取到准确、完整的实体词汇。因此一个准确的命名实体抽取方法尤为重要,需要从柑橘种植相关信息中识别并抽取实体词汇。实体抽取是信息抽取中最为基础和关键的部分,分为基于规则与词典、基于统计机器学习和基于深度学习的抽取方法。
6、基于规则抽取的方法是根据文本特点定制规则进行实体识别和抽取,具有较好的灵活性,操作简单。基于词典的方法最早是与基于规则的抽取方法配合使用。基于词典的实体识别方法是将语料与词典进行搜索匹配,提取出词典中拥有的词汇,从而获得先验信息。虽然基于词典和规则的实体识别方法在提取效率和准确率等评价指标远高于人工提取,但是该方法需要根据不同领域中的实体人为制定规则移植性较差。
7、基于统计机器学习的方法是在给定的、有标注训练集的基础上人工构建特征,并根据特定的模型对文本中每个词进行标签标注、实现命名实体识别,使用机器学习的方法后,不再需要人工手动构建模板或规则,减少了一定的人工成本。
8、随着计算机硬件的不断发展,计算机算力得到了逐步提升,基于深度学习的命名实体的方法逐渐兴起,并已成为命名实体识别的主流方法。该方法通过引入深层神经网络作为语义编码器进行特征提取,替代了原有复杂繁琐的特征工程,并且可以自动从文本中学习语法特征与其他提供的信息特征,从而大大提高识别度。
9、尽管基于深度学习的方法可以大大提高识别的准确率与效率,但是为了训练出具有较高准确率的命名实体模型往往需要大量的有标注数据,而柑橘知识图谱涉及的实体类型种类繁多,涉及柑橘品种、营业价值、病虫害处理、农药化肥、生产加工、物流销售等知识,所需要的标注数据更为繁杂,并且有标注的数据较少。为了在有标注数据较少的情况下提高命名实体模型的识别能力,并且减少相关的数据标注成本,本实施例采用半监督的方式进行训练,通过大语言模型与小模型相互增强的方式来提高识别准确率。
技术实现思路
1、本发明的目的是针对柑橘知识图谱中实体抽取方法现有的不足,提出一种面向柑橘知识图谱的半监督实体抽取方法。。
2、为解决上述技术问题,本发明提供如下技术方案:面向柑橘知识图谱的半监督实体抽取方法,包括以下步骤:
3、步骤(1)通过有标注数据对大模型进行提示;
4、步骤(2)使用经过步骤(1)的大模型对无标注的训练集进行伪标注,得到伪标注训练集;
5、步骤(3)将步骤(2)中得到的伪标注数据输入到小模型中进行训练;
6、步骤(4)在一轮训练结束后,使用有标注的验证集对小模型的预测能力进行验证,得到有标注验证集的预测结果;
7、步骤(5)对步骤(4)中得到的验证结果进行处理,对于预测错误的语句,通过验证提示样例模板将其输入到经过步骤(1)的大模型中进行再提示;
8、步骤(6)重复上述过程,直到达到预设定的训练轮次或验证结果准确率出现最高值。
9、优选地,所述步骤(1)具体实现过程如下:
10、利用少量有标注数据对大模型进行提示,采用gpt3.5,将有标注数据语句s通过提示模板输入到大语言模型gpt3.5中进行提示;
11、优选地,所述步骤(2)具体实现过程如下:
12、步骤(2)将无标注语料数据进行切分得到无标注训练集datatrain,然后使用经过步骤(1)的大模型对无标注的训练集datatrain进行伪标注,得到伪标注训练。
13、优选地,所述步骤(3)具体实现过程如下:
14、步骤(3)将步骤(2)中得到的伪标注数据输入到小模型中进行训练,小模型基于bert-bilstm-crf模型,并在bilstm之后添加自注意力层,利用注意力机制对不同的上下文信息给予不同的关注程度。
15、优选地,所述步骤(3)中特征向量处理方法:
16、对于步骤(2)中获得的伪标注数据datat,首先对其进行数据处理,编辑成合适的数据格式得到datat′,之后通过bert对其进行文本向量编码,对于伪标注数据datat′中的语句dt,dt中的字词序列token=(dt1...dtl)我们通过bert进行字符序列向量编码得到字符序列编码向量hbert=(h1...hl),l为字符标签序列长度,d为向量维度。之后将hbert通过bilstm得到最终带有上下文语义句子向量化表示n为语句字符数量,dh为每个字符特征维度数量;
17、对得到的带有上下文语义句子向量化表示h,本实施例将其输入到自注意力模块进行特征提取得到hend,其公式为:
18、hend=self-attention(h)
19、
20、其中dk为k向量维度数量;
21、对得到的最终特征向量hemd,本实施例将其输入到crf中进行标签分类得到最终的字符标签y;
22、y=crf(hend)。
23、在小模型中需要计算对于语句dt对应输出tag序列y的分数sc(dt,y);
24、
25、其中a为tag转移概率矩阵,其中pi,yi代表单个字符映射到标签tagyi的非归一化概率。n为字符序列长度。利用softmax函数,为每个正确的tag序列y定义一个概率值,yx代表所有tag序列;
26、
27、在训练中,需要最大化似然概率,因此使用对数似然;
28、
29、最后采用crf中的损失函数来计算损失loss定义为:
30、loss=-log(p(y|x))。
31、优选地,所述步骤(4)具体实现过程如下:
32、在一轮训练结束后,将有标注的验证集datadev输入到加入了自注意力的bert-bilstm-crf小模型中对其预测能力进行验证,得到有标注验证集的预测结果resultdev。
33、优选地,所述步骤(5)具体实现过程如下:
34、对拥有ground truth标签的验证集数据结果resultdev进行处理,如果处理后发现有实体标签预测错误,则将预测错误的语句输入到步骤(1)经过提示的大模型中对其进行再次提示,以更新、丰富和激发大模型中的知识,对于错误的预测则为“实体词1”不属于标签1。
35、优选地,所述步骤(6)具体实现过程如下:
36、重复步骤(2)-步骤(5)的流程,直到达到预设定的训练轮次或验证结果准确率出现最高值。
37、与现有技术相比,本发明的有益效果是:
38、本发明公开的模型由大模型和小模型构成,采用半监督的训练方式对模型进行训练。在一轮训练过程中,该方法使用经过提示的大语言模型对无标注训练集进行伪标注得到伪标注数据,然后将其输入到小模型中进行训练。一轮训练结束后,利用有标注的验证集对小模型进行验证,对于预测结果中有预测错误的语句,本实施例将该语句与验证提示样例模板进行组合输入到大模型中进行再提示,以此提高大模型的数据标注能力,深挖大语言模型蕴含的相关知识。通过两个模型的相互强化学习与提示,来提高整体模型在标注数据较少情况下的准确率。具体来说,在一轮训练中,首先通过少量有标注数据对大模型进行提示;其次,使用提示后的大模型对无标注数据训练集进行预测得到实体词汇及其伪标签,然后将得到的伪标注训练集输入到小模型中进行训练,在一轮训练结束后使用有标注数据构成的验证集对小模型进行验证;最后,对验证集的预测结果进行处理,对于预测错误的语句,本实施例利用验证提示样例模板将其输入到大模型中对大模型再次进行提示,以更新大模型知识。然后再次重复上述训练步骤,直到验证结果的准确率达到预期水平或达到预先设定的训练轮次。
1.一种面向柑橘知识图谱的半监督实体抽取方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种面向柑橘知识图谱的半监督实体抽取方法,其特征在于,所述步骤(1)具体实现过程如下:
3.根据权利要求2所述的一种面向柑橘知识图谱的半监督实体抽取方法,其特征在于,所述步骤(2)具体实现过程如下:
4.根据权利要求3所述的一种面向柑橘知识图谱的半监督实体抽取方法,其特征在于,所述步骤(3)具体实现过程如下:
5.根据权利要求4所述的一种面向柑橘知识图谱的半监督实体抽取方法,其特征在于,所述步骤(3)中特征向量处理方法:
6.根据权利要求5所述的一种面向柑橘知识图谱的半监督实体抽取方法,其特征在于,所述步骤(4)具体实现过程如下:
7.根据权利要求6所述的一种面向柑橘知识图谱的半监督实体抽取方法,其特征在于,所述步骤(5)具体实现过程如下:
8.根据权利要求7所述的一种面向柑橘知识图谱的半监督实体抽取方法,其特征在于,所述步骤(6)具体实现过程如下: