基于大语言模型（LargeLanguageModel）的智能问答系统的制作方法

专利2026-06-30 0

本发明属于智能问答，具体为基于大语言模型(large language model)的智能问答系统。

背景技术：

1、目前大语言模型技术日趋成熟，例如openai提出的“gpt3.5”和“gpt4”，清华智谱ai的“chatglm”，百度的“文心一言”，复旦大学的“moss”，腾讯的“hunyuan大模型”，阿里的“通义大模型”，华为的“盘古大模型”等，它们主要基于自然语言理解(nlu)和自然语言生成(nlg)等关键技术实现，而非事实问答效果依赖问答库的质量及语义检索模型的效果，且主要基于百科数据、用户在平台上生产的问答内容，非结构化数据挖掘生成常出现的问题和答案等构建faq的索引内容。

2、目前的智能问答系统会基于问题query，并根据语义召回答案title，其语义相似度的判断方法方法由word2vec和双塔模型实现；

3、但是word2vec模型无法充分考虑一个句子的语序信息，并且不同语境下相同词语的文本向量是固定的，比如“苹果”一词，根据语境信息的不同既可以指苹果手机，也可以苹果水果而在汽车之家垂直搜索领域之中，同一级别的车系出现的语句具有相似模式，比如“宝马x3”和“宝马x5”,表示不同的车系，word2vec模型也无法进行语义区分。

4、而rnn可以一定程度缓解长文依赖问题，主要使用lstm网络结构，但是lstm并没有完美解决句子语序级别的长依赖问题，在汽车领域中在无法满足长文本匹配需求，因此需要对其进行改进和优化。

技术实现思路

1、本发明的目的在于提供基于大语言模型(large language model)的智能问答系统，以解决上述背景技术中提出的问题。

2、为了实现上述目的，本发明提供如下技术方案：基于大语言模型(large languagemodel)的智能问答系统，所述智能问答系统由检索召回模块、相关性排序模块和大语言模型归纳总结模块构成：

3、所述检索召回模块包括问答query与文档段落级别的相似度模型；所述相关性排序模块包括问答query与文档段落级别的判别模型；所述大语言模型归纳总结模块基于之家大语言模型autohomechat实现。

4、优选地，所述检索召回模块中，问答query与文档段落级别的相似度模型的训练方法为：

5、a1,从汽车之家的搜索日志表获取用户曝光的点击信息，这些信息包含用户搜索的query信息，返回后的doc信息以及位置信息；

6、a2,将搜索到的信息存入表a中；

7、a3,从表a中初步筛选正样本数据和每个query，根据doc位置提取前5条doc作为正样本，将doc按段落分段存入表b中；

8、a4,将b中数据送给标注人员进行标注，标注完成的数据存入表c中待用；

9、a5,读取表c中样本，针对正样本的(query,doc+)，从其他query随机取doc信息作为当前query的负样本doc-；

10、a6,构建pairwise训练样本对(query，doc+，doc-)，标记为数据集dataset_1；

11、a7,构建pointwise训练对，(query，doc+，1)和(query，doc-，0)，标记为数据集dataset_2；

12、a8，使用a6中数据集dataset_1，输入到问答query与文档段落级别的相似度模型中，训练问答query和文档段落相似度模型model_1；

13、a9，通过a8步骤，输出该query的语义向量，然后生成doc的语义向量。

14、优选地，所述语义向量的向量形成公式为：

15、h1＝tanh(w[h0，y0，c]+b)

16、o1＝softmax(vh1+c)

17、h2＝tanh(w[h1，y1，c]+b)

18、o2＝softmax(vh2+c)

19、…

20、ht＝tanh(w[ht-1，yt-1，c]+b)

21、ot＝softmax(vht+c)

22、

23、优选地，所述相关性排序模块中，问答query与文档段落级别的判别模型的训练方法为：

24、b1，使用a7中的数据集dataset_2，训练问答query和文档段落判别模型；

25、b2，将query和doc段落作为模型model_2的输入，进行判断当前query与doc段落是否相关；

26、b3，通过a1，a2和a3的信息获取步骤，获取与当前query相似的doc；

27、b4，通过设置score>单个阈值的方式，过滤不相关doc段落，得到与query相似的doc段落；

28、b5，然后将query和相似doc段落对分别作为b2的判别模型model_2的输入，输出score，在根据该score分值进行精排。

29、优选地，所述之家大语言模型autohomechat可接收相关性排序模块中上传的相似doc段落，并归纳总结出符合用户query需求的答案。

30、优选地，所述检索召回模块通过训练双塔语义模型来召回相关doc段落，且一条样本由三部分组成，分别为问答query，答案doc+，答案doc-。

31、优选地，所述相关性排序模块通过训练问答query与文档段落级别的判别模型后，对召回的相关doc段落进行精排，且一条样本由三部分组成，分别为问答query，答案doc+，答案doc-，label(0/1)。

32、优选地，所述问答query与文档段落级别的相似度模型基于bert+pairwise实现训练，所述问答query与文档段落级别的判别模型基于bert+pointwise实现训练。

33、本发明的有益效果如下：

34、1、本发明通过构建问答query与文档段落级别的相似度模型，并通过训练双塔语义模型来优化汽车领域的语义模型，能有效召回query的相关文档段落，提高了语义召回的效果，并聚合归纳出符合用户需求的答案，满足在线系统性能和效果的双要求，进而提升用户体验。

35、2、本发明通过通过训练问答query与文档段落级别的判别模型，使其对召回的文档进行相关性判断，过滤不相关文档，进而提升文档的相关性，能够对问题query和整个answer内容相关性进行判断，并且对召回的相关doc段落进行精排，使之家大语言模型autohomechat能够从若干相关文档段落中归纳总结出正确的答案，提高了答复问题的精准度，保证回答的相关性。

36、3、本发明通过对之家大语言模型autohomechat的训练，使其在内容理解和生成方面有良好的效果，能够根据用户提供的若干文档内容，归纳总结出简洁明了的摘要信息，保证了用户使用的满意度。

技术特征：

1.基于大语言模型(large language model)的智能问答系统，其特征在于：所述智能问答系统由检索召回模块、相关性排序模块和大语言模型归纳总结模块构成：

2.根据权利要求1所述的基于大语言模型(large language model)的智能问答系统，其特征在于：所述检索召回模块中，问答query与文档段落级别的相似度模型的训练方法为：

3.根据权利要求2所述的基于大语言模型(large language model)的智能问答系统，其特征在于：所述语义向量的向量形成公式为：

4.根据权利要求1所述的基于大语言模型(large language model)的智能问答系统，其特征在于：所述相关性排序模块中，问答query与文档段落级别的判别模型的训练方法为：

5.根据权利要求1所述的基于大语言模型(large language model)的智能问答系统，其特征在于：所述之家大语言模型autohomechat可接收相关性排序模块中上传的相似doc段落，并归纳总结出符合用户query需求的答案。

6.根据权利要求1所述的基于大语言模型(large language model)的智能问答系统，其特征在于：所述检索召回模块通过训练双塔语义模型来召回相关doc段落，且一条样本由三部分组成，分别为问答query，答案doc+，答案doc-。

7.根据权利要求1所述的基于大语言模型(large language model)的智能问答系统，其特征在于：所述相关性排序模块通过训练问答query与文档段落级别的判别模型后，对召回的相关doc段落进行精排，且一条样本由三部分组成，分别为问答query，答案doc+，答案doc-，label(0/1)。

8.根据权利要求1所述的基于大语言模型(large language model)的智能问答系统，其特征在于：所述问答query与文档段落级别的相似度模型基于bert+pairwise实现训练，所述问答query与文档段落级别的判别模型基于bert+pointwise实现训练。

技术总结
本发明属于智能问答技术领域，且公开了基于大语言模型(Large Language Mode l)的智能问答系统，所述智能问答系统由检索召回模块、相关性排序模块和大语言模型归纳总结模块构成：所述检索召回模块包括问答query与文档段落级别的相似度模型；所述相关性排序模块包括问答query与文档段落级别的判别模型；所述大语言模型归纳总结模块基于之家大语言模型AutohomeChat实现。本发明通过构建问答query与文档段落级别的相似度模型，能有效召回query的相关文档段落，再通过训练问答query与文档段落级别的判别模型，能有效对相关段落进行精排，最后通过将相关的段落送入之家大语言模型AutohomeChat进行聚合归纳，能有效归纳出正确的答案，为用户提供满意的体验。

技术研发人员：王朋恺
受保护的技术使用者：车智互联（北京）科技有限公司
技术研发日：
技术公布日：2024/12/17

转载请注明原文地址:https://xbbs.6miu.com/read-32078.html