背景技术:
1、界标检测是一项计算机视觉任务,在该任务中,在图像和视频中检测并且定位图像的关键点,例如,人体或人脸的图像的关键点(例如,特征点)或者更一般而言任何先验对象的图像的关键点。例如,能够采用关键点来检测人的头部位置和旋转。由于变化性以及诸如姿态和遮挡的许多因素的原因,界标检测会是具有挑战性的。在本文中所做出的公开正是针对这些考虑以及其他考虑而提出的。
技术实现思路
1、界标往往在图像分析中起着关键作用,但是识别项(identity)或表情的许多方面不能够通过有限数量的界标来表示。为了更准确地重构例如面部,往往使界标与额外信号(诸如深度图像)或者技术(诸如可微渲染)相结合。本公开提供了按照高效并且有成本效益的方式使用更多界标的途径。除了面部之外,可以将本公开更一般地应用于其他类型的图像。
2、在实施例中,可以使用合成训练数据来保证完美的界标标注。通过将可形变模型拟合至这些密集界标,可以利用实时响应性来实现针对单目3d面部重构的现有技术结果。密集界标是用于跨帧整合面部形状信息的理想信号,所述帧在单目和多视图情形下都能够以准确并且富有表达性的面部行为捕获来展示出来。
3、当以后的算法消费关键点时,关键点置信度或确定性是有用的。例如,当将3d模型拟合至2d关键点时,如果关键点置信度低,那么可以认为该关键点不可靠并且在模型拟合期间不考虑。例如,如果该关键点被遮挡,那么这种情况可能发生。估计不确定性也可以用于训练更好的界标估计器。
4、本公开包括用于以不确定性直接预测图像中的关键点(感兴趣的2d点)的算法。以这种方式,系统(例如,神经网络)能够揭示其关于每个关键点的置信度。参考图1,在给定单幅图像110的情况下,稳健并且准确地预测了大量界标120。为了辅助可视化,在界标之间绘制了线。所公开的3d可形变面部模型被拟合至这些界标,从而在3d中重构面部130。参考图2,与(例如,68个)面部界标的典型稀疏集合210相比,所公开的密集界标220更详细地覆盖了整个头部,包括耳朵、眼睛和牙齿。这些密集界标能够提供对面部识别项和细微表情的经改善的编码。
5、本公开使得能够在无需例如热图的情况下实现针对实时应用的直接回归。如在本文中所使用的,热图可以是一幅图像,在该图像中,在每个像素处存储的值对应于界标位于所述图像中的该像素的位置处的似然值。在实施例中,可以将所述任务从2d点估计问题形式改变为2d随机变量估计问题。每个关键点可以被预测为2d随机变量,通常以位置(x,y)和标准偏差sigma正态分布。所述网络可以被训练,以使来自每个预测的关键点的样本等于基础事实(ground truth)的对数似然值最大化。由于所述网络针对围绕关键点位置发生错误以及具有不确定性而受到惩罚,因而出现了关键点不确定性。下文提供了推导(假设基于sigma的均匀先验):
6、基础事实包括一组关键点坐标
7、
8、每个关键点被预测为2d随机变量,通常以位置(x’,y’)和(圆)标准偏差σ正态分布。对于预测的关键点随机变量而言,来自该随机变量的样本将等于基础事实关键点位置的相对似然值为:
9、
10、对于n个关键点的整个集合而言,预测一组坐标
11、s=[σ0,σ1,…,σn]。
12、我们以对数似然值来工作,因为它们更加方便。由于希望使来自每个预测的关键点的样本等于基础事实的对数似然值最大化,因而使作为负对数似然值之和的损失)(loss)最小化。
13、
14、
15、
16、
17、为了清楚起见,将其拆分成两个部分:
18、loss=lossσ+lossμ,其中,
19、并且
20、lossσ针对围绕关键点预测太过不确定而对所述网络进行惩罚,并且lossμ针对做出定位很差的关键点预测而对所述网络进行惩罚。另外,在一些示例中,在以上示例中的对称性gaussian可以被扩展至非对称性gaussian。
21、也能够通过引入适当的先验而在训练时间上影响不确定性值的分布。以上公式假定在预测sigma上的均匀先验。对(2d)gaussian分布的sigma(或精确度)的先验的自然选择是wishart分布(gaussian分布的共轭先验),但是也能够采用其他的。该先验是单变量情况下的gamma分布。这样做的作用在于在训练时间上鼓励所述网络向当前做得差(其中,sigma大)的情况分配更多的神经资源并且向已经相当确定的情况(其中,sigma小)分配较少的神经资源,以便平衡其关键点预测对于下游模型拟合的有用性。对于假定gamma先验的推导参见下文。
22、定义(精确度、gaussian分布、gamma或者wishart)
23、精确度
24、
25、
26、a和b是(人工)调节的常数“形状和逆尺度”
27、
28、根据关键点对数似然值推导,通过使-log(p)最小化而使p最大化,
29、
30、
31、
32、根据对于gamma先验而言的关键点损失项,
33、第一项是常量,因而对训练没有影响(将其忽略)。向所述损失增加以下项而非-log(gam):
34、=>loss+=bτ-(a-1)log(τ),
35、就σ而言是相同的:
36、
37、另外,可以实施经由关键点不确定性的对象检测。可以在图像上施加滑动窗口,并且可以测量针对每个窗口的平均关键点置信度。如果未找到具有高平均关键点确定性的窗口,那么能够确定所述对象未处在所述图像中。否则,可以采取报告了最高平均关键点置信度的窗口以包含所述对象。
38、使用所描述的技术实现的使用情况中的一些使用情况包括接收来自常规彩色(rgb)相机而非深度相机的图像输入、具有多得多的界标的预测以及与预测固有相机参数(例如,焦距)的模型拟合器相结合的使用情况。这对于根据由各种相机拍摄的rgb图像恢复3d结构而言实现了良好结果。额外的使用情况包括根据多个视图来执行3d重构,其中,考虑了每个视图中的不确定性,并且其中,每个相机的非固有参数被同时地优化。更一般而言,可以接收来自各种类型的相机(诸如web相机、深度相机、头戴式显示器(hmd)上的相机、ir相机、事件相机等)的图像输入,并且图像能够是rgb图像、深度映射图像、ir图像等。相机的放置能够是由外向内的(例如,传感器是固定的,就像在web相机中那样),或者在进行内部视角(introspective)位置跟踪,其中,相机或传感器位于正在被跟踪的设备上(例如,hmd)。就hmd而言,也可以采用面部的观测部分上的密集界标对hmd自身进行相对于面部的定位。
39、本
技术实现要素:
部分并非意在限制所要求保护的主题的范围。此外,所要求保护的主题并不限于克服在本公开的任何部分中所指出的任何或全部缺陷的实施方式。
1.一种用于由计算系统来预测关键点的方法,所述方法包括:
2.根据权利要求1所述的方法,其中,不确定性值的分布是在所述训练期间通过引入适当的先验被影响的。
3.根据权利要求1所述的方法,其中,所述2d随机变量是具有位置和不确定性的2d圆gaussian。
4.根据权利要求1所述的方法,其中,训练所述神经网络包括利用gaussian负对数似然值(gnll)损失进行训练:
5.根据权利要求1所述的方法,其中,来自所述2d随机变量的样本将等于基础事实关键点位置的相对似然值为:
6.根据权利要求1所述的方法,还包括使作为负对数似然值之和的损失最小化。
7.根据权利要求1所述的方法,其中,所述基础事实包括一组关键点坐标
8.根据权利要求1所述的方法,还包括预测受遮挡的关键点和所述图像外部的关键点。
9.根据权利要求1所述的方法,其中,所述关键点是以亚像素精确度来预测的。
10.根据权利要求1所述的方法,其中,所述图像是从被附接至hmd的一组内部视角传感器接收的,所述方法还包括:
11.根据权利要求10所述的方法,还包括对所述hmd或所述hmd的附件进行定位或校准。
12.根据权利要求1所述的方法,其中,基础事实图像和关键点包括由相机或传感器捕获的、具有注解的基础事实的图像对,其中,用于所述神经网络的训练数据包括受遮挡的关键点或者基础事实图像外部的关键点。
13.根据权利要求1所述的方法,其中,基础事实图像和所述关键点是由计算机生成或渲染的。
14.一种用于使用观测数据来拟合模型的计算系统,所述计算系统包括:
15.一种具有存储在其上的计算机可执行指令的计算机可读存储介质,所述计算机可执行指令当由计算系统的处理器运行时,使得所述计算系统执行包括以下的操作: