基于大语言模型(LargeLanguageModel)的智能问答系统的制作方法

专利2026-06-30  0


本发明属于智能问答,具体为基于大语言模型(large language model)的智能问答系统。


背景技术:

1、目前大语言模型技术日趋成熟,例如openai提出的“gpt3.5”和“gpt4”,清华智谱ai的“chatglm”,百度的“文心一言”,复旦大学的“moss”,腾讯的“hunyuan大模型”,阿里的“通义大模型”,华为的“盘古大模型”等,它们主要基于自然语言理解(nlu)和自然语言生成(nlg)等关键技术实现,而非事实问答效果依赖问答库的质量及语义检索模型的效果,且主要基于百科数据、用户在平台上生产的问答内容,非结构化数据挖掘生成常出现的问题和答案等构建faq的索引内容。

2、目前的智能问答系统会基于问题query,并根据语义召回答案title,其语义相似度的判断方法方法由word2vec和双塔模型实现;

3、但是word2vec模型无法充分考虑一个句子的语序信息,并且不同语境下相同词语的文本向量是固定的,比如“苹果”一词,根据语境信息的不同既可以指苹果手机,也可以苹果水果而在汽车之家垂直搜索领域之中,同一级别的车系出现的语句具有相似模式,比如“宝马x3”和“宝马x5”,表示不同的车系,word2vec模型也无法进行语义区分。

4、而rnn可以一定程度缓解长文依赖问题,主要使用lstm网络结构,但是lstm并没有完美解决句子语序级别的长依赖问题,在汽车领域中在无法满足长文本匹配需求,因此需要对其进行改进和优化。


技术实现思路

1、本发明的目的在于提供基于大语言模型(large language model)的智能问答系统,以解决上述背景技术中提出的问题。

2、为了实现上述目的,本发明提供如下技术方案:基于大语言模型(large languagemodel)的智能问答系统,所述智能问答系统由检索召回模块、相关性排序模块和大语言模型归纳总结模块构成:

3、所述检索召回模块包括问答query与文档段落级别的相似度模型;所述相关性排序模块包括问答query与文档段落级别的判别模型;所述大语言模型归纳总结模块基于之家大语言模型autohomechat实现。

4、优选地,所述检索召回模块中,问答query与文档段落级别的相似度模型的训练方法为:

5、a1,从汽车之家的搜索日志表获取用户曝光的点击信息,这些信息包含用户搜索的query信息,返回后的doc信息以及位置信息;

6、a2,将搜索到的信息存入表a中;

7、a3,从表a中初步筛选正样本数据和每个query,根据doc位置提取前5条doc作为正样本,将doc按段落分段存入表b中;

8、a4,将b中数据送给标注人员进行标注,标注完成的数据存入表c中待用;

9、a5,读取表c中样本,针对正样本的(query,doc+),从其他query随机取doc信息作为当前query的负样本doc-;

10、a6,构建pairwise训练样本对(query,doc+,doc-),标记为数据集dataset_1;

11、a7,构建pointwise训练对,(query,doc+,1)和(query,doc-,0),标记为数据集dataset_2;

12、a8,使用a6中数据集dataset_1,输入到问答query与文档段落级别的相似度模型中,训练问答query和文档段落相似度模型model_1;

13、a9,通过a8步骤,输出该query的语义向量,然后生成doc的语义向量。

14、优选地,所述语义向量的向量形成公式为:

15、h1=tanh(w[h0,y0,c]+b)

16、o1=softmax(vh1+c)

17、h2=tanh(w[h1,y1,c]+b)

18、o2=softmax(vh2+c)

19、…

20、ht=tanh(w[ht-1,yt-1,c]+b)

21、ot=softmax(vht+c)

22、

23、优选地,所述相关性排序模块中,问答query与文档段落级别的判别模型的训练方法为:

24、b1,使用a7中的数据集dataset_2,训练问答query和文档段落判别模型;

25、b2,将query和doc段落作为模型model_2的输入,进行判断当前query与doc段落是否相关;

26、b3,通过a1,a2和a3的信息获取步骤,获取与当前query相似的doc;

27、b4,通过设置score>单个阈值的方式,过滤不相关doc段落,得到与query相似的doc段落;

28、b5,然后将query和相似doc段落对分别作为b2的判别模型model_2的输入,输出score,在根据该score分值进行精排。

29、优选地,所述之家大语言模型autohomechat可接收相关性排序模块中上传的相似doc段落,并归纳总结出符合用户query需求的答案。

30、优选地,所述检索召回模块通过训练双塔语义模型来召回相关doc段落,且一条样本由三部分组成,分别为问答query,答案doc+,答案doc-。

31、优选地,所述相关性排序模块通过训练问答query与文档段落级别的判别模型后,对召回的相关doc段落进行精排,且一条样本由三部分组成,分别为问答query,答案doc+,答案doc-,label(0/1)。

32、优选地,所述问答query与文档段落级别的相似度模型基于bert+pairwise实现训练,所述问答query与文档段落级别的判别模型基于bert+pointwise实现训练。

33、本发明的有益效果如下:

34、1、本发明通过构建问答query与文档段落级别的相似度模型,并通过训练双塔语义模型来优化汽车领域的语义模型,能有效召回query的相关文档段落,提高了语义召回的效果,并聚合归纳出符合用户需求的答案,满足在线系统性能和效果的双要求,进而提升用户体验。

35、2、本发明通过通过训练问答query与文档段落级别的判别模型,使其对召回的文档进行相关性判断,过滤不相关文档,进而提升文档的相关性,能够对问题query和整个answer内容相关性进行判断,并且对召回的相关doc段落进行精排,使之家大语言模型autohomechat能够从若干相关文档段落中归纳总结出正确的答案,提高了答复问题的精准度,保证回答的相关性。

36、3、本发明通过对之家大语言模型autohomechat的训练,使其在内容理解和生成方面有良好的效果,能够根据用户提供的若干文档内容,归纳总结出简洁明了的摘要信息,保证了用户使用的满意度。



技术特征:

1.基于大语言模型(large language model)的智能问答系统,其特征在于:所述智能问答系统由检索召回模块、相关性排序模块和大语言模型归纳总结模块构成:

2.根据权利要求1所述的基于大语言模型(large language model)的智能问答系统,其特征在于:所述检索召回模块中,问答query与文档段落级别的相似度模型的训练方法为:

3.根据权利要求2所述的基于大语言模型(large language model)的智能问答系统,其特征在于:所述语义向量的向量形成公式为:

4.根据权利要求1所述的基于大语言模型(large language model)的智能问答系统,其特征在于:所述相关性排序模块中,问答query与文档段落级别的判别模型的训练方法为:

5.根据权利要求1所述的基于大语言模型(large language model)的智能问答系统,其特征在于:所述之家大语言模型autohomechat可接收相关性排序模块中上传的相似doc段落,并归纳总结出符合用户query需求的答案。

6.根据权利要求1所述的基于大语言模型(large language model)的智能问答系统,其特征在于:所述检索召回模块通过训练双塔语义模型来召回相关doc段落,且一条样本由三部分组成,分别为问答query,答案doc+,答案doc-。

7.根据权利要求1所述的基于大语言模型(large language model)的智能问答系统,其特征在于:所述相关性排序模块通过训练问答query与文档段落级别的判别模型后,对召回的相关doc段落进行精排,且一条样本由三部分组成,分别为问答query,答案doc+,答案doc-,label(0/1)。

8.根据权利要求1所述的基于大语言模型(large language model)的智能问答系统,其特征在于:所述问答query与文档段落级别的相似度模型基于bert+pairwise实现训练,所述问答query与文档段落级别的判别模型基于bert+pointwise实现训练。


技术总结
本发明属于智能问答技术领域,且公开了基于大语言模型(Large Language Mode l)的智能问答系统,所述智能问答系统由检索召回模块、相关性排序模块和大语言模型归纳总结模块构成:所述检索召回模块包括问答query与文档段落级别的相似度模型;所述相关性排序模块包括问答query与文档段落级别的判别模型;所述大语言模型归纳总结模块基于之家大语言模型AutohomeChat实现。本发明通过构建问答query与文档段落级别的相似度模型,能有效召回query的相关文档段落,再通过训练问答query与文档段落级别的判别模型,能有效对相关段落进行精排,最后通过将相关的段落送入之家大语言模型AutohomeChat进行聚合归纳,能有效归纳出正确的答案,为用户提供满意的体验。

技术研发人员:王朋恺
受保护的技术使用者:车智互联(北京)科技有限公司
技术研发日:
技术公布日:2024/12/17
转载请注明原文地址:https://xbbs.6miu.com/read-32078.html