农业领域大语言模型训练方法、设备及介质

专利2025-04-24  21


本文件涉及大预言模型,尤其涉及一种农业领域大预言模型训练方法、设备及介质。


背景技术:

1、通用大语言模型方面,目前国际上公开发布的通用大语言模型有很多,例如chatgpt、文心一言、讯飞星火、通义千问、chatglm、bert等,其中chatgpt支持的语种有英语、中文、西班牙语、法语、德语、俄语等;文心一言主要支持的语言有:中文、英文、日文、韩文;讯飞星火主要支持中文和英文两种语言;通义千问主要支持中文和英文;chatglm主要支持汉语和英语;bert主要支持英文、中文、法文、西班牙文等。以上通用大语言模型的存在一定缺陷:①支持的语言有限,例如没有能够支持少数民族语言的轻量级大语言模型。②无法高效的实现轻量化,通用大语言模型在训练过程中需要各门各类的海量数据,训练的模型往往体积庞大,后续应用时只能通过减支技术进行轻量化和模型压缩,该方法无法从根本上解决模型轻量化的问题;③对政策类的知识学习有一定延时效应;④模型过大对硬件资源要求较高,目前无法在非gpu的个人pc上正常运行。

2、在通用大语言模型专业领域应用方面,目前国际上公开发布的专业领域模型有医疗健康、法律服务、金融等领域模型。这些模型都是基于现有通用大语言模型如chatgpt、chatglm为基座模型,预训练专业领域的知识库并进行微调获得的。这些模型存在的缺点是利用通用模型完成底层推理,即语言推理机制单一。

3、本发明提出农业领域大预言模型训练方法,支持汉语和少数民族语言的双语推理机制;提出支持汉语和少数民族语言的专业性的知识库语料收集、整理与词表构建;通过对农业分支领域进行训练得到多个基础模型,基础模型进行定制化的组合解决模型轻量化的问题。


技术实现思路

1、本发明提供了一种农业领域大预言模型训练方法、设备及介质,旨在解决上述问题。

2、本发明实施例提供了一种农业领域大预言模型训练方法,包括:

3、本发明实施例提供了一种电子设备,包括:

4、处理器;以及,

5、被安排成存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器执行上述农业领域大语言模型训练方法的步骤。

6、本发明实施例提供了一种存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被执行时实现如上述农业领域大语言模型训练方法的步骤。

7、采用本发明实施例采用支持汉语和少数民族语言的双语推理机制;提出支持汉语和少数民族语言的专业性的知识库语料收集、整理与词表构建;通过对农业分支领域进行训练得到多个基础模型,基础模型进行定制化的组合解决模型轻量化的问题。



技术特征:

1.一种农业领域大语言模型训练方法,其特征在于包括:

2.根据权利要求1所述的方法,其特征在于,所述收集农业领域数据图书信息进行预处理后获取第一汉语数据集和第一少数民族语言数据集具体包括:

3.根据权利要求1所述的方法,其特征在于,所述预设的特殊字符处理方法具体包括:

4.根据权利要求1所述的方法,其特征在于,所述构建wordpiece词片模型对所述分词表进行处理和划分具体包括:

5.根据权利要求1所述的方法,其特征在于,所述构建基于transformer架构的采用自注意力机制的编码组件和解码器组件具体包括:

6.根据权利要求1所述的方法,其特征在于,所述词向量作为输入对所述农业领域大语言模型进行训练得到训练好的农业领域大语言模型具体包括:

7.根据权利要求1所述的方法,其特征在于,所述编码器中的自注意力层进一步采用多头注意力机制,所述多头注意力机制中的每一组注意力用于将输入映射到不同的子表示空间,使得模型在不同子表示空间中关注不同的位置。

8.根据权利要求1所述的方法,其特征在于,所述农业领域大语言模型进一步采用熔断机制,通过计算模型输出段落间的余弦相似度,提高农业领域大语言模型的回复质量。

9.一种电子设备,包括:

10.一种存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被执行时实现如权利要求1-8中任一项所述农业领域大语言模型训练方法的步骤。


技术总结
本申请提供了一种农业领域大语言模型训练方法、设备及介质,农业领域大语言模型训练方法包括:收集农业领域数据图书信息进行预处理获取第一汉语数据集和第一少数民族语言数据集,将第一汉语数据集和第一少数民族语言数据集合并生成第一混合语言数据集并采用分词库进行处理后采用预设的特殊字符处理方法进行二次处理,并构建分词表,构建WordPiece词片模型对分词表进行处理和划分;采用词嵌入算法将分词表中的每个词转换为词向量;构建基于Transformer架构的采用自注意力机制的编码组件和解码器组件,生成农业领域大语言模型,以及,以词向量作为输入对农业领域大语言模型进行训练得到训练好的农业领域大语言模型。以解决支持汉语和少数民族语言的大语言模型问题。

技术研发人员:张小刚,潘坤,陈立平,阿尔孜古丽·苏力坦
受保护的技术使用者:塔里木大学
技术研发日:
技术公布日:2024/12/17
转载请注明原文地址:https://xbbs.6miu.com/read-23790.html