一种基于大模型的国土资源监控目标检测方法及系统与流程

专利2026-05-13 7

本发明涉及目标检测，尤其是涉及一种基于大模型的国土资源监控目标检测方法及系统。

背景技术：

1、现有目标检测技术，仅能针对性的在已有的训练数据集上做目标检测的泛化，当同一个模型需要应用在不同的环境时，会产生大量的误识别的情况。因此，需要继续收集大量当前环境的数据图片，重新标注后加入原有训练数据集，对模型重新训练后，才能降低假阳性误报的情况。

2、（1）如传统的烟火识别算法，在应用到一个新的自然环境中时，会将火烧云由于具备了与火焰红色、形状不规则、流动性的特点而误识别为火焰，进而进行告警。

3、（2）传统的水面漂浮物识别算法，再应用到一个新的自然环境中时，会因为飞过水面的水鸟、飘过的水草误识别为漂浮物，进而进行告警。

4、（3）不同的自然环境下，造成误告警的情况不可预测，而要将同一个识别模型大规模应用时，传统方法需要投入大量的时间成本和人力成本来对每个环境进行针对性模型调整。

技术实现思路

1、为了解决上述提到的问题，本发明提供一种基于大模型的国土资源监控目标检测方法及系统。基于多模态大模型，通过新的目标检测对抗假阳性的方法，降低对于大量现场数据的依赖。

2、第一方面，本发明提供的一种基于大模型的国土资源监控目标检测方法，采用如下的技术方案：

3、一种基于大模型的国土资源监控目标检测方法，包括：

4、获取目标图像；

5、对获取的目标图像进行切割处理；

6、构建基于vision transformer的目标检测模型，并利用目标检测模型对切割后的目标图像进行训练，训练得到基于vit-l的目标检测模型；

7、利用adam优化器对基于vit-l的目标检测模型进行优化；

8、利用优化后的目标检测模型进行目标检测。

9、进一步地，所述对获取的目标图像进行切割处理，包括将图像切割成224x224的图像后做成补丁的格式，补丁大小为16*16,依据前面所述过程，构建位置矩阵与补丁矩阵的融合向量。

10、进一步地，所述构建基于vision transformer的目标检测模型，包括使用vit-l模型的transformer 编码器的前一层作为特征提取器，再增加一层全连接层和yolov5的检测头作为目标检测模型的输出层。

11、进一步地，所述利用目标检测模型对切割后的目标图像进行训练，包括利用特征提取器对目标图像进行特征提取，输出记为，利用全连接层对提取的特征进行非线性变换，输出记为，利用yolov5的检测头对进行多尺度预测，得到预测结果，输出记为，输出格式为 (x, y, w, h, objectness, class probabilities，其中，x，y，w，h代表矩形框的中心点位置、宽和高，objectness代表对应的类别标签，probabilities代表对应的置信度。

12、进一步地，所述利用adam优化器对基于vit-l的目标检测模型进行优化，包括利用损失函数计算真实标注框和模型预测输出的参数损失，通过定义平均交叉熵损失并利用adam优化器优化模型直至模型收敛，得到基于vit-l的目标检测模型。

13、进一步地，所述定利用损失函数计算真实标注框和模型预测输出的参数损失，包括定义边界框回归损失mse loss来衡量预测边界框与真实边界框之间的差异，其中， mseloss公式为：

14、

15、其中，n 是样本的数量，是第i个样本的真实值，是第i个样本的预测值。

16、进一步地，所述利用损失函数计算真实标注框和模型预测输出的参数损失，还包括定义分类损失cross entropy loss来衡量预测的类别概率与真实类别的差异，其中，cross entropy loss 公式为：

17、

18、其中，是样本i的真实标签在类别上的值，为一个二值变量，如果第 i 个样本的真实类别是第 c 个类别，则=1，否则=0，是模型预测的样本属于类别的概率，表示自然对数，是数据集中样本的数量。

19、第二方面，一种基于大模型的国土资源监控目标检测系统，包括：

20、数据获取模块，被配置为，获取目标图像；

21、预处理模块，被配置为，对获取的目标图像进行切割处理；

22、模型训练模块，被配置为，构建基于vision transformer的目标检测模型，并利用目标检测模型对切割后的目标图像进行训练，训练得到基于vit-l的目标检测模型；

23、模型优化模块，被配置为，利用adam优化器对基于vit-l的目标检测模型进行优化；

24、检测模块，被配置为，利用优化后的目标检测模型进行目标检测。

25、第三方面，本发明提供一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行所述的一种基于大模型的国土资源监控目标检测方法。

26、第四方面，本发明提供一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行所述的一种基于大模型的国土资源监控目标检测方法。

27、综上所述，本发明具有如下的有益技术效果：

28、本发明通过上述技术方案能够解决国土资源监控场景下的目标检测问题，利用大模型强上下文学习和推理能力，可以解决传统解决办法中的泛化能力差的问题，提供了一种零样本泛化的能力。同时利用正样本特征库和负样本特征库的方式，省去了假阳性数据的再训练过程，降低了时间成本和数据成本。

29、本发明不需要像传统深度学习方法在场景迁移时需提供大量的现场真实数据来进行模型重训练，利用大模型的强特征获取能力和上下文推理能力，仅需一张标注图片，既可解决假阳性问题，极大缩短了技术路径，显著缩短了训练模型的时间和成本。

技术特征：

1.一种基于大模型的国土资源监控目标检测方法，其特征在于，包括：

2.根据权利要求1所述的一种基于大模型的国土资源监控目标检测方法，其特征在于，所述对获取的目标图像进行切割处理，包括将图像切割成224x224的图像后做成补丁的格式，补丁大小为16*16，共划分为14*14个补丁。

3.根据权利要求2所述的一种基于大模型的国土资源监控目标检测方法，其特征在于，所述构建基于vision transformer的目标检测模型，包括使用vit-l模型的transformer编码器的前一层作为特征提取器，再增加一层全连接层和yolov5的检测头作为目标检测模型的输出层。

4.根据权利要求3所述的一种基于大模型的国土资源监控目标检测方法，其特征在于，所述利用目标检测模型对切割后的目标图像进行训练，包括利用特征提取器对目标图像进行特征提取，输出记为，利用全连接层对提取的特征进行非线性变换，输出记为，利用yolov5的检测头对进行多尺度预测，得到预测结果，输出记为，输出格式为 (x, y, w,h, objectness, class probabilities，其中，x，y，w，h代表矩形框的中心点位置、宽和高，objectness代表对应的类别标签，probabilities代表对应的置信度。

5.根据权利要求4所述的一种基于大模型的国土资源监控目标检测方法，其特征在于，所述利用adam优化器对基于vit-l的目标检测模型进行优化，包括利用损失函数计算真实标注框和模型预测输出的参数损失，通过定义平均交叉熵损失并利用adam优化器优化模型直至模型收敛，得到基于vit-l的目标检测模型。

6.根据权利要求5所述的一种基于大模型的国土资源监控目标检测方法，其特征在于，所述定利用损失函数计算真实标注框和模型预测输出的参数损失，包括定义边界框回归损失mse loss来衡量预测边界框与真实边界框之间的差异，其中， mse loss公式为：

7.根据权利要求6所述的一种基于大模型的国土资源监控目标检测方法，其特征在于，所述利用损失函数计算真实标注框和模型预测输出的参数损失，还包括定义分类损失cross entropy loss来衡量预测的类别概率与真实类别的差异，其中，cross entropyloss 公式为：

8.一种基于大模型的国土资源监控目标检测系统，其特征在于，包括：

9.一种计算机可读存储介质，其中存储有多条指令，其特征在于，所述指令适于由终端设备的处理器加载并执行如权利要求1所述的一种基于大模型的国土资源监控目标检测方法。

10.一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，其特征在于，所述指令适于由处理器加载并执行如权利要求1所述的一种基于大模型的国土资源监控目标检测方法。

技术总结
本发明涉及目标检测技术领域，尤其是涉及一种基于大模型的国土资源监控目标检测方法及系统。方法，包括利用目标检测模型对切割后的目标图像进行训练，训练得到基于ViT‑L的目标检测模型；利用Adam优化器对基于ViT‑L的目标检测模型进行优化；利用优化后的目标检测模型进行目标检测。本发明通过上述技术方案能够解决国土资源监控场景下的目标检测问题，利用大模型强上下文学习和推理能力，可以解决传统解决办法中的泛化能力差的问题，提供了一种零样本泛化的能力。同时利用正样本特征库和负样本特征库的方式，省去了假阳性数据的再训练过程，降低了时间成本和数据成本。

技术研发人员：曲荣芳,许宝祥,田文博,张文韩
受保护的技术使用者：山东未来网络研究院（紫金山实验室工业互联网创新应用基地）
技术研发日：
技术公布日：2024/12/17

转载请注明原文地址:https://xbbs.6miu.com/read-31075.html