本发明涉及数据处理的,尤其涉及一种基于大模型的合成数据综合评价方法。
背景技术:
1、近年来,随着计算机技术的快速发展,所产生的海量数据的研究也愈加受到重视。其中,对用于训练大模型的合成数据的处理也受到高度注意,合成数据是通过计算机程序人工生成的数据,采用合成数据也增加训练数据,可以节省数据采集费用,或满足隐私要求,而评估合成数据的数据质量对于提高大模型的模型精度有着重要意义。
2、目前,申请号202410681220.9的中国发明专利,公开了一种基于参考图像样本的合成数据集质量评估方法及装置,该方法综合了图像标签及内容多样性及内在特征,在无需先验知识的条件下,完成不同场景下的合成数据质量评估,通过标签分组后的并行计算,提升质量评估效率,但是仅对图像数据进行评估,没有对合成数据整体质量进行评估,并且在评估数据质量时,没有考虑到数据效用对质量评估的影响。
技术实现思路
1、本发明解决的技术问题是:现有技术但是仅对图像数据进行评估,没有对合成数据整体质量进行评估,并且在评估数据质量时,没有考虑到数据效用对质量评估的影响。
2、为解决上述技术问题,本发明提供一种基于大模型的合成数据综合评价方法,包括以下步骤:
3、步骤s1,获取大模型的目标合成数据,分别获取目标合成数据的目标图像数据和目标文本数据;
4、步骤s2,将目标图像数据输入图像机器学习模型,获取图像标准质量等级,将目标文本数据输入文本机器学习模型,获取文本标准质量等级,根据图像标准质量等级和文本标准质量等级获取第一质量等级;
5、步骤s3,利用聚类分析分别对目标图像数据和目标文本数据进行分类,获取图像簇数量和文本簇数量,并根据图像簇数量和文本簇数量获取第二质量等级;
6、步骤s4,调取大模型的历史合成数据,获取历史合成数据中与目标合成数据相似度大于预期阈值的相似历史合成数据,并根据相似历史合成数据获取目标合成数据的相似数据效用,根据相似数据效用获取第三质量等级;
7、步骤s5,根据第一质量等级、第二质量等级和第三质量等级获取目标合成数据的综合质量等级。
8、作为本发明所述的一种基于大模型的合成数据综合评价方法的一种优选方案,其中:
9、所述步骤s2具体包括以下步骤:
10、步骤s201,获取合成数据集,提取合成数据集中的图像数据集和文本数据集;
11、步骤s202,对图像数据集和文本数据集分别进行数据标注,所述数据标注包括根据图像特征对图像数据进行图像特征值标注,根据数据特征对文本数据进行文本特征值标注;
12、步骤s203,将数据标注后的图像数据集输入图像机器学习模型,将图像数据作为输入和图像特征值作为输出训练图像机器学习模型,并将图像特征值按照一定权重计算获取图像标准质量等级,将数据标注后的文本数据集输入文本机器学习模型,将文本数据作为输入和文本特征值作为输出训练文本机器学习模型,并将文本特征值按照一定权重计算获取文本标准质量等级;
13、步骤s204,将目标图像数据输入图像机器学习模型,获取图像标准质量等级,将目标文本数据输入文本机器学习模型,获取文本标准质量等级;
14、步骤s205,将图像标准质量等级和文本标准质量等级按照一定权重进行计算,获取目标合成数据的第一质量等级。
15、作为本发明所述的一种基于大模型的合成数据综合评价方法的一种优选方案,其中:
16、所述步骤s3具体包括以下步骤;
17、步骤s301,在目标合成数据中随机抽取j个图像数据和j个文本数据,将所抽取的j个图像数据定义为种子图像,将所抽取的j个文本数据定义为种子文本,其中,j为自然数;
18、步骤s302,将目标合成数据中的其他图像数据与j个种子图像分别进行距离计算,分别获取其他图像数据与j个种子图像的图像簇间距离,将目标合成数据中的其他文本数据与j个种子文本进行距离计算,分别获取其他文本数据与j个种子文本的文本簇间距离;
19、步骤s303,将其他图像数据根据图像簇间距离分别划分到图像簇间距离最近的图像文本种子类别,将其他文本数据根据文本簇间距离分别划分到文本簇间距离最近的文本种子类别;
20、步骤s304,统计图像簇数量和文本簇数量,根据图像簇数量和文本簇数据获取目标合成数据的多样性值,并根据多样性值获取目标合成数据的第二质量等级,所述多样性值和第二质量等级为一一对应关系。
21、作为本发明所述的一种基于大模型的合成数据综合评价方法的一种优选方案,其中:
22、所述步骤s4具体包括以下步骤:
23、步骤s401,调取大模型的历史合成数据;
24、步骤s402,将历史合成数据和目标合成数据进行一一对比,获取历史合成数据中与目标合成数据的相似度大于0.9的历史合成数据,将获取的历史合成数据定义为相似历史合成数据,
25、步骤s403,分别调取各个相似历史合成数据的数据效用,并根据各个历史合成数据的数据效用和相似度按照一定权重进行计算,获取目标合成数据的相似数据效用;
26、步骤s404,根据目标合成数据的相似数据效用获取目标合成数据的第三质量等级,所述相似数据效用和第三质量等级属于一一对应的数据关系;
27、所述将历史合成数据和目标合成数据进行一一对比包括:
28、提取各组历史合成数据中的历史图像数据和历史文本数据,利用图像对比方法将各个历史图像数据和各个目标图像数据进行对比,获取历史图像数据和目标图像数据的图像相似度,将各个历史文本数据的各个文本数据项和各个目标文本数据的各个文本数据项进行对比,获取各个目标文本数据和各个历史文本数据的文本相似度,根据图像相似度和文本相似度获取各个历史合成数据和目标合成数据的相似度。
29、作为本发明所述的一种基于大模型的合成数据综合评价方法的一种优选方案,其中:
30、所述获取目标合成数据的综合质量等级的表达公式如下:
31、,
32、其中,p为目标合成数据的综合质量等级,为第一质量等级,为第二质量等级,为第三质量等级,为第一质量等级权重,为第二质量等级权重,为第三质量等级权重,为模型误差率,s为目标合成数据的数据总量。
33、作为本发明所述的一种基于大模型的合成数据综合评价方法的一种优选方案,其中:所述步骤s202具体包括以下步骤:
34、步骤s2021,利用图像处理库提取图像特征,针对各个图像特征分别设置相应的图像特征质量值,并进行标注,利用词袋模型提取文本特征,针对各个文本特征分别设置相应的文本特征质量值;
35、步骤s2022,针对不同的图像特征和对应的图像特征值设置不同的图像特征权重,针对不同的文本特征和对应的文本特征值设置相应的文本特征权重;
36、步骤s2023,所述图像特征权重用于根据图像特征值计算获取图像标准质量等级,所述文本特征权重用于根据文本特征值计算获取文本标准质量等级。
37、作为本发明所述的一种基于大模型的合成数据综合评价方法的一种优选方案,其中:所述步骤s302具体包括以下步骤:
38、步骤s3021,将目标合成数据中的其他图像数据与j个种子图像分别进行对比,获取图像差值,并根据图像差值获取图像簇间距离;
39、步骤s3022,将目标合成数据中的其他文本数据和j个种子文本分别进行对比,获取文本差值,并根据文本差值获取文本簇间距离。
40、作为本发明所述的一种基于大模型的合成数据综合评价方法的一种优选方案,其中:根据图像簇数量和文本簇数量获取目标合成数据的多样性值的计算表达式为:
41、,
42、其中,n为目标合成数据的多样性值,为图像簇数量,为文本簇数量,为图像数据占目标合成数据的比值,为文本数据占目标合成数据的比值,表示目标文本数据的总数量,表示目标图像数据的总数量。
43、作为本发明所述的一种基于大模型的合成数据综合评价方法的一种优选方案,其中:所述将目标合成数据中的其他目标图像数据与j个种子图像分别进行对比,获取图像差值包括:
44、利用图像处理库分别提取各个目标图像数据的图像特征,并获取各个目标图像特征对应的图像质量特征值,将目标合成数据中的其他目标图像数据的图像质量特征值与j个种子图像的图像质量特征值进行对比,获取图像差值;
45、所述将目标合成数据中的其他目标文本数据和j个种子文本分别进行对比,获取文本差值包括:
46、将目标合成数据中的其他各个目标文本数据的各个文本数据项和j个种子文本的各个文本数据项分别进行对比,分别获取各个文本数据项的差值,将各个数文本数据项的差值按照一定权重进行计算,获取其他各个目标文本数据和j个种子文本对应的文本差值,所述权重根据各个数据项在目标文本数据中所占比值确定。
47、一种电子设备,其特征在于,包括:处理器和存储器,其中:
48、所述存储器中存储有可供处理器调用的计算机程序;
49、所述处理器通过调用所述存储器中存储的计算机程序,在后台中执行上述任意一项所述一种基于大模型的合成数据综合评价方法。
50、本发明的有益效果:本发明利用机器学习模型获取合成数据的第一质量等级,并利用聚类分析获取第二质量等级,根据相似历史合成数据的数据效用获取第三质量等级,从多个方面多个角度对合成数据进行质量评估,保障了评估结果的综合性和准确性。
51、通过聚类分析获取合成数据的多样性值,通过多样性值对合成数据进行多样性分析,根据合成数据的多样性对合成数据进行评估,保证了合成数据的多样性,防止出现大模型训练中过拟合的问题。
52、通过获取相似历史合成数据的数据效用,得到合成数据的相似数据效用,将相似数据效用加入合成数据的评价体系,保障了合成数据的数据效用。
1.一种基于大模型的合成数据综合评价方法,其特征在于,包括以下步骤:
2.如权利要求1所述的一种基于大模型的合成数据综合评价方法,其特征在于:所述步骤s2具体包括以下步骤:
3.如权利要求1所述的一种基于大模型的合成数据综合评价方法,其特征在于:所述步骤s3具体包括以下步骤;
4.如权利要求1所述的一种基于大模型的合成数据综合评价方法,其特征在于:所述步骤s4具体包括以下步骤:
5.如权利要求1所述的一种基于大模型的合成数据综合评价方法,其特征在于:所述获取目标合成数据的综合质量等级的表达公式如下:
6.如权利要求2所述的一种基于大模型的合成数据综合评价方法,其特征在于:所述步骤s202具体包括以下步骤:
7.如权利要求3所述的一种基于大模型的合成数据综合评价方法,其特征在于:所述步骤s302具体包括以下步骤:
8.如权利要求3所述的一种基于大模型的合成数据综合评价方法,其特征在于:根据图像簇数量和文本簇数量获取目标合成数据的多样性值的计算表达式为:
9.如权利要求3所述的一种基于大模型的合成数据综合评价方法,其特征在于:所述将目标合成数据中的其他目标图像数据与j个种子图像分别进行对比,获取图像差值包括:
10.一种电子设备,其特征在于,包括:处理器和存储器,其中: