http://www.wanxiangshu.com

腾讯优图入选AAAI 2021的论文节选 涵盖动作识别和人脸安全等领域

近日,国际人工智能顶级会议AAAI2021公布了论文录取结果。AAAI是人工智能领域最悠久、涵盖内容最为广泛的国际顶级学术会议之一。AAAI2021一共收到9034篇论文提交,其中有效审稿的数量为7911篇,最终录取数量为1692篇,录取率为21.4%。

AAAI(AssociationfortheAdvanceofArtificialIntelligence),即美国人工智能协会,是人工智能领域的主要学术组织之一,其主办的年会也是人工智能领域的国际顶级会议。在中国计算机学会的国际学术会议排名以及清华大学新发布的计算机科学推荐学术会议和期刊列表中,AAAI均被列为人工智能领域的A类顶级会议。

本次AAAI腾讯优图实验室共入选了11篇论文,涉及动作识别、人群密度估计、人脸安全等领域,展现了腾讯在计算机视觉领域的技术实力。

以下为部分腾讯优图入选AAAI2021的论文:

01

学习用于动作识别的全面运动特征表达

LearningComprehensiveMotionRepresentationforActionRecognition

运动特征在动作识别中起到非常重要的作用。基于2DCNN的方法虽然高效,但是由于对每一帧都采用相同的二维卷积核,会产生大量的冗余和重复特征。近期有一些工作通过建立帧间的联系获取运动信息,但是依然存在感受野有限的问题。此外,特征的增强依旧只在通道或者空间维度单独进行。

为了解决这些问题,我们首先提出了一个通道特征增强模块(CME)自适应地增强与运动相关的通道。增强系数通过分析整段视频的信息获得。根据相邻特征图之间的点对点相似性,我们进一步提出了一种空间运动增强(SME)模块,以指导模型集中于包含运动关键目标的区域,其背后的直觉是背景区域的变化通常比视频的运动区域慢。通过将CME和SME集成到现成的2D网络中,我们最终获得了用于动作识别的全面运动特征学习方法。

我们的方法在三个公共数据集上取得了有竞争力的表现:Something-SomethingV1&V2和Kinetics-400。特别是在时序推理数据集Something-SomethingV1和V2上,当使用16帧作为输入时,我们的方法比之前最好的方法高2.3%和1.9%。

1ec5fef6-441d-11eb-8b86-12bb97331649.png

02

选择还是融合?基于自适应尺度选择的人群密度估计ToChooseortoFuse?ScaleSelectionforCrowdCounting

本文提出了一种高效地充分利用网络内部多尺度特征表示的方法,能够有效解决人群密度估计中的大范围尺度变化问题。具体的,考虑到每层特征都有各自最擅长预测的人群尺度范围,本文提出了一种图像块级别的特征层选择策略来实现尽可能小的计数误差。显然,在没有人群尺度标注信息的情况下,任何人工指定人群尺度与特征层对应关系的方法都是次优的并会带来额外误差。

相反,本文提出的尺度自适应选择网络SASNet可以自动地学习这种对应关系,并通过软选择的方式来缓解离散的特征层与连续的人群尺度变化之间的矛盾。由于SASNet为同一图像块内相似尺度的人群选择同一特征层,直接使用传统的像素级损失函数会忽略图像块内部不同样本间各异的学习难度。

因此,本文还提出了一种金字塔区域感知损失(PRALoss),从图像块级别开始以一种自上而下的方式迭代地选择最困难的样本来优化。鉴于PRALoss能够根据上层父图像块是过预测还是欠预测来选择困难样本,因此还能够缓解业界普遍面临的训练目标最小化和计数误差最小化之间不一致的问题。我们的方法在多达四个公开数据集上取得了优异的性能。

1f823986-441d-11eb-8b86-12bb97331649.png

03

解耦场景和运动的无监督视频表征学习

EnhancingUnsupervisedVideoRepresentationLearningbyDecouplingtheSceneandtheMotion

相比于图像表征学习,视频表征学习中的一个重要因素是物体运动信息(ObjectMotion)。然而我们发现,在当前主流的视频数据集中,一些动作类别会和发生的场景强相关,导致模型往往只关注了场景信息。比如,模型可能仅仅因为发生的场景是足球场,就将拉拉队员在足球场上跳舞的视频判断成了踢足球。

这违背了视频表征学习最初的目的,即学习物体运动信息,并且不容忽视的是,不同的数据集可能会带来不同的场景偏见(SceneBias)。为了解决这个问题,我们提出了用两个简单的操作来解耦合场景和运动(DecouplingtheSceneandtheMotion,DSM),以此来到达让模型更加关注运动信息的目的。

具体来说,我们为每段视频都会构造一个正样本和一个负样本,相比于原始视频,正样本的运动信息没有发生变化,但场景被破坏掉了,而负样本的运动信息发生了改变,但场景信息基本被保留了下来。构造正负样本的操作分别叫做SpatialLocalDisturbance和TemporalLocalDisturbance。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。