基于扩散模型的自动驾驶算法训练数据合成方法与流程

专利2026-06-21 2

本发明属于自动驾驶，具体为基于扩散模型的自动驾驶算法训练数据生成系统。

背景技术：

1、对于自动驾驶相关的技术来说，训练数据的质量在很大程度上决定了模型的效果。随着自动驾驶技术的不断进步，对于难例数据的需求也日益增加。但是，常用的开源数据集，与真实道路环境相比，路况通常较为单一，且覆盖场景不够全面。导致基于这些数据训练的网络模型无法泛化到其他复杂环境，难以在实际业务中的各种数据上都达到令人满意的效果。随着人工智能技术的不断发展，生成式人工智能aigc已经对各行各业的生产工作产生了重要影响。其中，数据生成是一个蓬勃发展的领域，它旨在通过深度学习生成逼真或具有创造性的全新图片。随着数据生成算法的不断迭代，使用该技术来生成更多数据以解决已有训练数据单一，难例少的问题成为了一种可行的方案。

2、现有的与本发明最相似的方案实现了一种基于扩散模型的图像生成算法。该算法整体上是一个基于u型网络的框架，通过迭代去噪过程，将噪声从标准高斯分布转换为真实图像。该方法在分类标签图的引导下预测噪声，以实现去噪后的图像具备与输入标签分布相似的分类布局。

3、该方法包含编码器和解码器两个部分，编码器使用扩散编码残差块和注意力模块对添加噪声的数据进行编码。扩散编码残差块由卷积层、激活函数silu和组归一化层组成。并引入时间步长作为参数，以使网络能在不同的时间步长t估计噪声。注意力模块是一个带有跳跃连接的自我注意力层。在解码器部分，该方法输入分类标签图来指导去噪过程，并且设计了扩散解码残差块，与扩散编码残差块不同的是，扩散解码残差块将组归一化层替换为空间自适应归一化层，通过多层空间自适应方式将分类标签图嵌入到去噪网络中。

4、但是现有的技术方案生成过程可控性不足。现有的图像生成技术主要通过单一的引导信号，如文字提示词对图像生成过程进行控制，这导致生成过程的自由度过大，生成的结果不够逼真，难以实现物体级别的准确控制，导致生成结果无法直接作为自动驾驶训练数据使用。缺乏对生成结果的质量校验。现有的图像生成技术无法自动化地评估生成结果，由于生成过程的随机性，可能出现无法满足预期的生成结果，需要额外投入成本来对生成结果进行筛选。通用性及泛化性较差。现有的图像生成技术通常使用开源数据集训练，由于开源数据集提供了准确且多样的标签信息，对于数据生成提供了较大的便利。但是，在更多的通用数据上，由于缺乏标签，导致这些数据难以被使用。因此，此类数据生成方法通用性较差，且生成数据的泛化性不够。难以利用标签信息。现有的图像生成技术由于生成过程的随机性导致部分标签结果无法适用于生成的结果，需要额外的成本对生成的数据进行标注。

技术实现思路

1、本发明的目的在于：为了解决上述提出的问题，提供基于扩散模型的自动驾驶算法训练数据生成系统。

2、本发明采用的技术方案如下：基于扩散模型的自动驾驶算法训练数据生成系统，所述系统包括数据预处理模块，数据生成模块和数据校验模块；

3、所述数据预处理模块包含四个部分。所述数据预处理模块内部的语义分割用于提取输入图像的语义分布，它是最重要的环节，通过语义分割网络获得的语义引导信号将对生成数据的整体分布进行引导和监督，本系统选择internimage-h模型；

4、所述数据生成模块使用扩散模型进行数据生成。包含前向过程和反向过程，在前向过程中缓慢并且顺序地向样本中添加随机噪声，然后在反向过程中学习参数并拟合噪声，从噪声中恢复样本；

5、所述数据校验模块使用上述语义分割和深度估计算法对生成结果进行评估，根据原始数据的语义预标注和深度预标注结果计算语义误差和深度误差，基于这两个误差来判断当前生成结果是否满足要求。

6、在一优选的实施方式中，所述internimage-h模型是一个基于多任务学习的通用视觉大模型，多任务学习的核心思想是通过共享模型参数来学习多个相关任务。相比于传统的单任务学习中为每个任务单独训练一个模型的方法，多任务学习使用一个模型同时训练多个任务的数据，共享一部分或全部的模型参数。这样一来，不同任务之间可以通过共享的参数相互影响，这种共享和传递可以使得模型能够更好地适应不同的任务。以此提升在不同数据和任务上的泛化性能，前背景分离模块主要利用语义分割的结果，并根据设定的语义类别将前景和背景分离。将图像中的前景物体取出后，需要对这部分位置的像素值进行填充，以获得完整的背景图像，这部分功能在图像修补模块实现。

7、在一优选的实施方式中，所述数据预处理模块选用lama方法，该算法基于快速傅立叶卷积，它不仅提升了模型的修复质量，也降低了模型的参数量，并且仅使用低分辩率图片训练就可以产生高分辨率的修复结果，具有较好的通用性。在现有的数据生成方案中，仅使用语义图进行数据生成会导致相同语义区域的深度歧义问题，即无法得知物体的相对深度关系，导致生成图像深度错乱，因此本技术加入深度估计模块来解决此问题，使用midas方法进行单目深度估计，以约束前景物体的相对深度关系，该方法使用混合数据集进行训练，具有较好的泛化性。

8、在一优选的实施方式中，所述数据生成模块对于前景和背景，为了保证各自的生成质量，本技术使用两个不共享权重的扩散模型进行数据生成，在背景生成部分，采用背景提示词和语义图对生成过程进行引导，其中语义图用于确定整张图像的语义分布，背景提示词则在语义分布确定的情况下改变图像生成的风格，例如引导生成不同天气或者不同季节的图像，在原始数据中，某个时间的拍摄图像可能较少，因此通过这种方式可以补充相应环境的场景数据，通过实验发现，对于背景的生成通常语义歧义的情况较少，且生成效果较好，因此不需要深度信息引导。在前景生成部分，主要通过前景提示词生成不同外观的前景物体，比如各种颜色或各种型号的车辆。

9、在一优选的实施方式中，所述数据生成模块加入了深度图作为引导信号，用于约束语义相同区域的前景物体的相对深度关系。在使用提示词的过程中，需要使用文字编码网络，本技术使用的是clip方法，这是一个用于匹配文本和图像的模型，使用其编码器部分可以获得将文字编码成高维特征，用于与扩散模型内的特征进行融合。

10、在一优选的实施方式中，所述系统的具体实现包含以下步骤：

11、s101获取用于生成图像的数据，该数据包含图像，以及与标注任务一致的标注结果，如对于目标检测任务，则提供目标框中心坐标以及目标框长宽，或者目标框的对角点坐标。

12、s102将图像输入到语义分割网络中，获得语义分割图。

13、s103将所得语义分割图输入到前背景分割模块，在该模块中，设定前景语义包含行人、骑行者、小型车、卡车、巴士、摩托车和自行车，其余语义为背景。根据设定的前/背景语义，分别获得前景图像和背景图像

14、s104将背景图像输入到图像修补网络中，获得修补后的背景图像。

15、s105将修补后的背景图像重新送入到语义分割网络中，获得修补后背景图像的语义分割图，所述背景图像的语义分割图是数据生成模块背景生成部分的输入之一，像素值为类别标签值。

16、s106将输入图像送入深度估计网络中，获得深度预测图。深度预测图具有与输入图像相同的分辨率，其像素值为当前像素距离拍摄相机的距离预测值；

17、s107获取深度预测图的最大值，使用深度预测图所有除以该最大值，以获得归一化的深度预测图。归一化的深度预测图的像素值范围在0～1。该归一化的深度预测图是数据生成模块前景生成部分的输入之一。

18、s201分别构建数据生成模块的前景和背景扩散模型网络，读取模型权重参数。

19、s202选择提示词，将提示词送入到文字编码模块中，获得文字特征。

20、s203初始化一个高斯噪声，输入到扩散模型中，噪声首先被输入到由三层残差块和注意力模块组成的编码器中进行编码。在这个过程中，将文字特征输入到注意力模块中，进行特征引导。随后特征被送入到由三层残差块组成的解码器中，在该部分，语义分割图被直接送入到残差块中进行特征聚合。对于前景生成部分，需要先将归一化深度预测图与语义分割图在特征维度拼接后，再送入到残差块中。解码器部分最终输出去噪后的全新图像。

21、s204将前景生成图像与背景生成图像拼接后，得到完整的生成图像

22、s301将生成结果输入到语义分割网络中，获得语义分割图，与输入图像的语义分割图计算类别加权像素准确率。

23、s302将生成结果输入到深度估计网络中，获得深度预测图，与输入图像的深度预测图计算均方误差。

24、所述均方根误差的计算方式是：循环所有像素位置，依次计算输入图像深度预测图与生成图像深度预测图在该位置的深度差值，并将差值进行累积。对累积后的差值取二次方，最后除以输入图像总像素数。

25、s303分别判断语义类别像素准确率和深度均方误差是否满足设定的阈值，如果两者都满足，则将生成图像以及其输入图像对应的标注结果输入到训练数据集中，否则舍弃该生成数据。

26、在一优选的实施方式中，所述步骤s102中，所述语义分割图具有与输入图像相同的分辨率，其每一个像素位置分别存储一个类别标签值，表示该像素所属类别，相同类别标签值的像素属于同一类别。类别的标签值与真实语义映射关系如表1所示，共包含19个类别。

27、在一优选的实施方式中，所述步骤s103中，所述前景图像和背景图像与输入图像具有相同的分辨率，其中，前景图像是数据生成模块前景生成部分的输入之一，像素值为类别标签值。背景图像需要使用输入图像基于语义分割图进行采样，像素值为输入图像像素值，前景物体像素部分使用0填充。

28、在一优选的实施方式中，所述步骤s104中，所述修补后的背景图像对背景图像中使用0填充的像素部分依据其周围的像素进行了补充。

29、在一优选的实施方式中，所述步骤s301中，所述类别加权像素准确率的计算方式是：循环所有像素位置，依次比较输入图像的语义分割图和生成图像的语义分割图在该位置的类别预测是否一致，如果一致，则该类别的正确像素数量加1。待所有像素计算完成后，循环所有出现的类别，对于每一类，统计输入图像的语义分割图中该类别的总像素数，该类别的像素准确率＝该类别正确像素数/该类别总像素数。对于所有类别的像素准确率进行加权求和，所使用的权重计算方式如下，对于每一类别，其像素面积比例＝该类别像素数/输入图像总面积。对于所有类别像素面积比例，使用softmax函数计算其占比权重，所有类别的占比权重的和为1。

30、综上所述，由于采用了上述技术方案，本发明的有益效果是：

31、1.本发明中，为了提升数据生成过程的可控程度，本方案在生成过程中，将多种形式的监督信号如语义、景深、文字提示作为辅助输入，从多个维度对生成过程加以约束，在维持一定随机性的基础上，保持生成图像的语义分布、景深关系具有前后一致的关系。

32、2、本发明中，为了确保生成数据满足预期，减少对训练可能有害的数据，本方案使用了部分效果较好的方法对生成结果进行自动化评测，并筛除低质量数据。

33、3、本发明中，为了确保生成数据具有足够的泛化性，本方案不依赖于开源数据集多种形式的标签，而选择了更加通用的语义分割和景深估计进行数据预标注，再基于这些标签进行数据生成。

34、4、本发明中，为了有效利用标签，本方案基于相关方法提供的标签(如位置，类别等)进行数据生成，并且，在生成过程中始终存储这些标签，由于标签在一定程度上对于生成过程起了一定的约束作用，因此对于生成的结果，这些标签也基本适用，减少新生成数据的标注成本。

技术特征：

1.基于扩散模型的自动驾驶算法训练数据生成系统，其特征在于：所述系统包括数据预处理模块，数据生成模块和数据校验模块；

2.如权利要求1所述的基于扩散模型的自动驾驶算法训练数据生成系统，其特征在于：所述internimage-h模型是一个基于多任务学习的通用视觉大模型，多任务学习的核心思想是通过共享模型参数来学习多个相关任务；相比于传统的单任务学习中为每个任务单独训练一个模型的方法，多任务学习使用一个模型同时训练多个任务的数据，共享一部分或全部的模型参数；这样一来，不同任务之间可以通过共享的参数相互影响，这种共享和传递可以使得模型能够更好地适应不同的任务；以此提升在不同数据和任务上的泛化性能，前背景分离模块主要利用语义分割的结果，并根据设定的语义类别将前景和背景分离；将图像中的前景物体取出后，需要对这部分位置的像素值进行填充，以获得完整的背景图像，这部分功能在图像修补模块实现。

3.如权利要求1所述的基于扩散模型的自动驾驶算法训练数据生成系统，其特征在于：所述数据预处理模块选用lama方法，该算法基于快速傅立叶卷积，它不仅提升了模型的修复质量，也降低了模型的参数量，并且仅使用低分辩率图片训练就可以产生高分辨率的修复结果，具有较好的通用性；在现有的数据生成方案中，仅使用语义图进行数据生成会导致相同语义区域的深度歧义问题，即无法得知物体的相对深度关系，导致生成图像深度错乱，因此本申请加入深度估计模块来解决此问题，使用midas方法进行单目深度估计，以约束前景物体的相对深度关系，该方法使用混合数据集进行训练，具有较好的泛化性。

4.如权利要求1所述的基于扩散模型的自动驾驶算法训练数据生成系统，其特征在于：所述数据生成模块对于前景和背景，为了保证各自的生成质量，本申请使用两个不共享权重的扩散模型进行数据生成，在背景生成部分，采用背景提示词和语义图对生成过程进行引导，其中语义图用于确定整张图像的语义分布，背景提示词则在语义分布确定的情况下改变图像生成的风格，例如引导生成不同天气或者不同季节的图像，在原始数据中，某个时间的拍摄图像可能较少，因此通过这种方式可以补充相应环境的场景数据，通过实验发现，对于背景的生成通常语义歧义的情况较少，且生成效果较好，因此不需要深度信息引导；在前景生成部分，主要通过前景提示词生成不同外观的前景物体，各种颜色或各种型号的车辆。

5.如权利要求1所述的基于扩散模型的自动驾驶算法训练数据生成系统，其特征在于：所述数据生成模块加入了深度图作为引导信号，用于约束语义相同区域的前景物体的相对深度关系；在使用提示词的过程中，需要使用文字编码网络，本申请使用的是clip方法，这是一个用于匹配文本和图像的模型，使用其编码器部分可以获得将文字编码成高维特征，用于与扩散模型内的特征进行融合。

6.如权利要求1所述的基于扩散模型的自动驾驶算法训练数据生成系统，其特征在于：所述系统的具体实现包含以下步骤：

7.如权利要求6所述的基于扩散模型的自动驾驶算法训练数据生成系统，其特征在于：所述步骤s102中，所述语义分割图具有与输入图像相同的分辨率，其每一个像素位置分别存储一个类别标签值，表示该像素所属类别，相同类别标签值的像素属于同一类别；类别的标签值与真实语义映射关系如表1所示，共包含19个类别。

8.如权利要求6所述的基于扩散模型的自动驾驶算法训练数据生成系统，其特征在于：所述步骤s103中，所述前景图像和背景图像与输入图像具有相同的分辨率，其中，前景图像是数据生成模块前景生成部分的输入之一，像素值为类别标签值；背景图像需要使用输入图像基于语义分割图进行采样，像素值为输入图像像素值，前景物体像素部分使用0填充。

9.如权利要求6所述的基于扩散模型的自动驾驶算法训练数据生成系统，其特征在于：所述步骤s104中，所述修补后的背景图像对背景图像中使用0填充的像素部分依据其周围的像素进行了补充。

10.如权利要求6所述的基于扩散模型的自动驾驶算法训练数据生成系统，其特征在于：所述步骤s301中，所述类别加权像素准确率的计算方式是：循环所有像素位置，依次比较输入图像的语义分割图和生成图像的语义分割图在该位置的类别预测是否一致，如果一致，则该类别的正确像素数量加1；待所有像素计算完成后，循环所有出现的类别，对于每一类，统计输入图像的语义分割图中该类别的总像素数，该类别的像素准确率＝该类别正确像素数/该类别总像素数；对于所有类别的像素准确率进行加权求和，所使用的权重计算方式如下，对于每一类别，其像素面积比例＝该类别像素数/输入图像总面积；对于所有类别像素面积比例，使用softmax函数计算其占比权重，所有类别的占比权重的和为1。

技术总结
本发明公开了基于扩散模型的自动驾驶算法训练数据生成系统。本发明中，提出一种面向行车环境的可控数据样本生成方案，该方案以扩散模型作为基准方法论，基于采集的数据样本及先验标签来生成全新数据，扩充相关感知任务的训练样本，以解决现有训练数据样本质量不齐、难例数据少等问题，通过生成提示词，降低难例的样本获取成本及获取难度，改善模型在实际业务中的泛化效果，推动算法服务于更多业务。同时，通过结合多种形式控制条件的输入，提升数据生成过程可控制性，使生成结果更符合预期。最后，通过校验机制，筛除不满足要求的生成结果，保证所生成质量。

技术研发人员：章磊,徐铭锴,周俊杰
受保护的技术使用者：北京星尘纪元智能科技有限公司
技术研发日：
技术公布日：2024/12/17

转载请注明原文地址:https://xbbs.6miu.com/read-31856.html