模型训练方法、装置、电子设备及可读存储介质与流程

专利2026-05-10 8

本申请属于人工智能，具体涉及一种模型训练方法、装置、电子设备及可读存储介质。

背景技术：

1、随着人工智能技术的不断发展，基于对话式的大语言模型(large languagemodel，llm)的应用越来越广泛。但传统的llm只能输入文字并输出文字，而只通过文字描述往往是无法完整地描述清楚事物的。因此在llm的基础上又进一步发展出了多模态语言大模型(multimodal llm，mllm)，mllm支持多种模态输入，如同时输入文字、语音、图像和视频等，并将这些多模态信号转换成语言空间下的特征向量，并基于这些特征向量输出最终的文字结果。

2、然而，mllm在进行特征检索时，基于的是将输入的多模态信号转换得到的所有特征向量，从而无法实现细粒度的特征检索；且mllm的输出仍为文字。如此导致通过模型进行特征检索的效果较差。

技术实现思路

1、本申请实施例的目的是提供一种模型训练方法、装置、电子设备及可读存储介质，能够提升通过模型进行特征检索的效果。

2、第一方面，本申请实施例提供了一种模型训练方法，该方法包括：基于第一特征向量和第二特征向量，对第一模型进行训练，得到第二模型，第一特征向量为第一样本图像中的对象区域对应的特征向量，第二特征向量为第一样本集合包含的图像对应的特征向量中，与所述第一特征向量的欧式距离满足阈值要求的特征向量，第一样本集合包括第一样本图像；基于第二样本图像，确定第二模型对应的第一层特征向量和第二层特征向量，以及第三特征向量，第二样本图像包括图像和文本，第三特征向量为第二样本图像中的图像区域对应的特征向量；对第一层特征向量和第三特征向量进行向量融合处理，得到第四特征向量，并对第二层特征向量和第三特征向量进行向量融合处理，得到第五特征向量；基于第四特征向量和第五特征向量，对第二模型进行训练，得到第三模型。

3、第二方面，本申请实施例提供了一种模型训练装置，该装置包括：训练模块、确定模块和处理模块；训练模块，用于基于第一特征向量和第二特征向量，对第一模型进行训练，得到第二模型，第一特征向量为第一样本图像中的对象区域对应的特征向量，第二特征向量为第一样本集合包含的图像对应的特征向量中，与所述第一特征向量的欧式距离满足阈值要求的特征向量，第一样本集合包括第一样本图像；确定模块，用于基于第二样本图像，确定第二模型对应的第一层特征向量和第二层特征向量，以及第三特征向量，第二样本图像包括图像和文本，第三特征向量为第二样本图像中的图像区域对应的特征向量；处理模块，用于对确定模块确定的第一层特征向量和第三特征向量进行向量融合处理，得到第四特征向量，并对确定模块确定的第二层特征向量和第三特征向量进行向量融合处理，得到第五特征向量；训练模块，还用于基于处理模块处理得到的第四特征向量和第五特征向量，对第二模型进行训练，得到第三模型。

4、第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

5、第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

6、第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

7、第六方面，本申请实施例提供一种计算机程序，该程序被存储在存储介质中，该程序被至少一个处理器执行以实现如第一方面所述的方法。

8、在本申请实施例中，可以基于第一特征向量和第二特征向量，对第一模型进行训练，得到第二模型，第一特征向量为第一样本图像中的对象区域对应的特征向量，第二特征向量为第一样本集合包含的图像对应的特征向量中，与所述第一特征向量的欧式距离满足阈值要求的特征向量，第一样本集合包括第一样本图像；且基于第二样本图像，确定第二模型对应的第一层特征向量和第二层特征向量，以及第三特征向量，第二样本图像包括图像和文本，第三特征向量为第二样本图像中的图像区域对应的特征向量；且对第一层特征向量和第三特征向量进行向量融合处理，得到第四特征向量，并对第二层特征向量和第三特征向量进行向量融合处理，得到第五特征向量；并基于第四特征向量和第五特征向量，对第二模型进行训练，得到第三模型。通过该方案，一方面由于可以基于图像中对象区域的特征向量，对模型进行训练，因此可以使得训练后的模型更加关注图像中局部物体信息，在进行特征检索时可以关注细粒度的物体信息，从而实现细粒度的特征检索。另一方面由于可以再对该训练后的模型执行向量融合处理，并基于向量融合处理后得到的特征向量，继续对该训练后的模型进行模型训练，因此可以提升特征向量的表示能力，从而使得最终训练得到的模型能同时支持图文对话和特征向量检索。如此可以提升通过模型进行特征检索的效果。

技术特征：

1.一种模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于第一特征向量和第二特征向量，对第一模型进行训练，得到第二模型，包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述第一层特征向量和所述第三特征向量进行向量融合处理，得到第四特征向量，并对所述第二层特征向量和所述第三特征向量进行向量融合处理，得到第五特征向量，包括：

4.根据权利要求1所述的方法，其特征在于，所述第一层特征向量为所述第二模型的第一层的特征向量，所述第二层特征向量为所述第二模型的第二层的特征向量；

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述基于第一特征向量和第二特征向量，对第一模型进行训练，得到第二模型之前，所述方法还包括：

6.一种模型训练装置，其特征在于，所述装置包括：训练模块、确定模块和处理模块；

7.根据权利要求6所述的装置，其特征在于，所述训练模块，具体用于将所述第一特征向量转换为第一表示向量，并将所述第二特征向量转换为第二表示向量；且基于所述第一表示向量和所述第二表示向量，确定训练提示词；并基于所述训练提示词，对所述第一模型进行训练，得到所述第二模型。

8.根据权利要求6所述的装置，其特征在于，所述处理模块，具体用于通过融合函数，对所述第一层特征向量和所述第三特征向量进行向量融合处理，得到所述第四特征向量，并对所述第二层特征向量和所述第三特征向量进行向量融合处理，得到所述第五特征向量。

9.根据权利要求6所述的装置，其特征在于，所述第一层特征向量为所述第二模型的第一层的特征向量，所述第二层特征向量为所述第二模型的第二层的特征向量；

10.根据权利要求5至9中任一项所述的装置，其特征在于，所述处理模块，还用于在所述训练模块基于所述第一特征向量和所述第二特征向量，对所述第一模型进行训练，得到所述第二模型之前，获取所述第一样本图像的图像特征向量和所述对象区域的掩码信息；且基于所述对象区域的掩码信息，对所述图像特征向量执行二值操作，得到所述第一特征向量；并将所述第一样本集合包含的图像对应的特征向量中，与所述第一特征向量的欧式距离满足阈值要求的特征向量，确定为所述第二特征向量。

11.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-5中任一项所述的模型训练方法的步骤。

12.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1-5中任一项所述的模型训练方法的步骤。

技术总结
本申请公开了一种模型训练方法、装置、电子设备及可读存储介质，属于人工智能技术领域。该方法包括：基于第一特征向量和第二特征向量，对第一模型进行训练，得到第二模型，第一特征向量为第一样本图像中的对象区域对应的特征向量；基于第二样本图像，确定第二模型对应的第一层特征向量和第二层特征向量，以及第三特征向量，第二样本图像包括图像和文本，第三特征向量为第二样本图像中的图像区域对应的特征向量；对第一层特征向量和第三特征向量进行向量融合处理，得到第四特征向量，并对第二层特征向量和第三特征向量进行向量融合处理，得到第五特征向量；基于第四特征向量和第五特征向量，对第二模型进行训练，得到第三模型。

技术研发人员：陈博恒
受保护的技术使用者：维沃移动通信有限公司
技术研发日：
技术公布日：2024/12/17

转载请注明原文地址:https://xbbs.6miu.com/read-30971.html