近日,國際人工智能頂級會議AAAI 2021公布了論文錄取結果。AAAI是人工智能領域最悠久、涵蓋內容最為廣泛的國際頂級學術會議之一。AAAI 2021一共收到9034篇論文提交,其中有效審稿的數量為7911篇,最終錄取數量為1692篇,錄取率為21.4%。
AAAI(Association for the Advance of Artificial Intelligence), 即美國人工智能協(xié)會,是人工智能領域的主要學術組織之一,其主辦的年會也是人工智能領域的國際頂級會議。在中國計算機學會的國際學術會議排名以及清華大學新發(fā)布的計算機科學推薦學術會議和期刊列表中,AAAI 均被列為人工智能領域的 A 類頂級會議。
本次AAAI 騰訊優(yōu)圖實驗室共入選了11篇論文,涉及動作識別、人群密度估計、人臉安全等領域,展現(xiàn)了騰訊在計算機視覺領域的技術實力。
以下為部分騰訊優(yōu)圖入選AAAI 2021的論文:
01
學習用于動作識別的全面運動特征表達
Learning Comprehensive Motion Representation for Action Recognition
運動特征在動作識別中起到非常重要的作用。基于2D CNN的方法雖然高效,但是由于對每一幀都采用相同的二維卷積核,會產生大量的冗余和重復特征。近期有一些工作通過建立幀間的聯(lián)系獲取運動信息,但是依然存在感受野有限的問題。此外,特征的增強依舊只在通道或者空間維度單獨進行。為了解決這些問題,騰訊優(yōu)圖首先提出了一個通道特征增強模塊(CME)自適應地增強與運動相關的通道。增強系數通過分析整段視頻的信息獲得。根據相鄰特征圖之間的點對點相似性,騰訊優(yōu)圖進一步提出了一種空間運動增強(SME)模塊,以指導模型集中于包含運動關鍵目標的區(qū)域,其背后的直覺是背景區(qū)域的變化通常比視頻的運動區(qū)域慢。 通過將CME和SME集成到現(xiàn)成的2D網絡中,騰訊優(yōu)圖最終獲得了用于動作識別的全面運動特征學習方法。 騰訊優(yōu)圖的方法在三個公共數據集上取得了有競爭力的表現(xiàn):Something-Something V1&V2和Kinetics-400。 特別是在時序推理數據集Something-Something V1和V2上,當使用16幀作為輸入時,騰訊優(yōu)圖的方法比之前最好的方法高2.3%和1.9%。
02
選擇還是融合?基于自適應尺度選擇的人群密度估計
To Choose or to Fuse? Scale Selection for Crowd Counting
本文提出了一種高效地充分利用網絡內部多尺度特征表示的方法,能夠有效解決人群密度估計中的大范圍尺度變化問題。具體地,考慮到每層特征都有各自最擅長預測的人群尺度范圍,本文提出了一種圖像塊級別的特征層選擇策略來實現(xiàn)盡可能小的計數誤差。顯然,在沒有人群尺度標注信息的情況下,任何人工指定人群尺度與特征層對應關系的方法都是次優(yōu)的并會帶來額外誤差。相反地,本文提出的尺度自適應選擇網絡SASNet可以自動地學習這種對應關系,并通過軟選擇的方式來緩解離散的特征層與連續(xù)的人群尺度變化之間的矛盾。由于SASNet為同一圖像塊內相似尺度的人群選擇同一特征層,直接使用傳統(tǒng)的像素級損失函數會忽略圖像塊內部不同樣本間各異的學習難度。因此,本文還提出了一種金字塔區(qū)域感知損失(PRA Loss),從圖像塊級別開始以一種自上而下的方式迭代地選擇最困難的樣本來優(yōu)化。鑒于PRA Loss能夠根據上層父圖像塊是過預測還是欠預測來選擇困難樣本,因此還能夠緩解業(yè)界普遍面臨的訓練目標最小化和計數誤差最小化之間不一致的問題。騰訊優(yōu)圖的方法在多達四個公開數據集上取得了優(yōu)異的性能。
03
解耦場景和運動的無監(jiān)督視頻表征學習
Enhancing Unsupervised Video Representation Learning by Decoupling the Scene and the Motion
相比于圖像表征學習, 視頻表征學習中的一個重要因素是物體運動信息(Object Motion)。然而騰訊優(yōu)圖發(fā)現(xiàn), 在當前主流的視頻數據集中, 一些動作類別會和發(fā)生的場景強相關, 導致模型往往只關注了場景信息。比如, 模型可能僅僅因為發(fā)生的場景是足球場, 就將拉拉隊員在足球場上跳舞的視頻判斷成了踢足球。這違背了視頻表征學習最初的目的, 即學習物體運動信息, 并且不容忽視的是, 不同的數據集可能會帶來不同的場景偏見(Scene Bias)。為了解決這個問題, 騰訊優(yōu)圖提出了用兩個簡單的操作來解耦合場景和運動(Decoupling the Scene and the Motion, DSM), 以此來到達讓模型更加關注運動信息的目的。具體來說, 騰訊優(yōu)圖為每段視頻都會構造一個正樣本和一個負樣本, 相比于原始視頻, 正樣本的運動信息沒有發(fā)生變化, 但場景被破壞掉了, 而負樣本的運動信息發(fā)生了改變, 但場景信息基本被保留了下來。構造正負樣本的操作分別叫做Spatial Local Disturbance和Temporal Local Disturbance。騰訊優(yōu)圖的優(yōu)化目標是在隱空間在拉近正樣本和原始視頻的同時, 推遠負樣本。用這種方式, 場景帶來的負面影響被削弱掉了, 而模型對時序也變得更加敏感。騰訊優(yōu)圖在兩個任務上, 用不同的網絡結構、不同的預訓練數據集進行了實驗驗證, 發(fā)現(xiàn)騰訊優(yōu)圖方法在動作識別任務上, 在UCF101以及HMDB51數據集上分別超越當前學界領先水平8.1%以及8.8%。
04
面向真實圖像超分辨率的頻率一致性自適應方法Frequency Consistent Adaptation for Real World Super Resolution
最近的基于深度學習的超分辨率(SR)方法在具有已知降質的圖像上取得了卓越的性能。但是,這些方法在現(xiàn)實世界中總是會失敗,因為理想退化(例如,雙三次降采樣)之后的低分辨率(LR)圖像會偏離真實源域。在頻率密度上可以清楚地觀察到LR圖像和真實世界圖像之間的域間隙,這啟發(fā)騰訊優(yōu)圖顯式地縮小由于不正確的降質而導致的間隙。從這個角度出發(fā),騰訊優(yōu)圖設計了一種新穎的頻率一致性自適應方法(FCA),能夠確保將現(xiàn)有SR方法應用于真實場景時保持頻域一致性。騰訊優(yōu)圖從無監(jiān)督的圖像中估計退化內核,并生成相應的LR圖像。為了給核估計提供有用的梯度信息,騰訊優(yōu)圖提出了通過區(qū)分不同尺度圖像的頻率密度的頻率密度比較器(FDC)?;谟蛞恢碌腖R-HR對,騰訊優(yōu)圖訓練了易于實現(xiàn)的卷積神經網絡(CNN)SR模型。大量實驗表明,所提出的FCA在真實環(huán)境下提高了SR模型的性能,以高保真度和合理的感知度獲得了最先進的結果,從而為實際SR應用提供了一種新穎有效的框架。
05
混合域活體檢測中的通用表征學習
Generalizable Representation Learning for Mixture Domain Face Anti-Spoofing
基于域泛化的活體檢測技術對未知場景有更好的泛化性,受到了工業(yè)界和學術界的廣泛關注。已有的域泛化方法需要域標簽的支持,然而在實際場景中,所收集到的往往是域信息不可知的混合數據。在這種場景下,大多數已有的方法是不可用的。而且域劃分的方式可以有多種,因此單一固定的劃分方法可能只是次優(yōu)解。
為解決實際混合數據問題,騰訊優(yōu)圖提出了一種基于迭代式無監(jiān)督子域劃分的元學習方法。該方法無需域標簽,通過高鑒別性的域特征實現(xiàn)子域劃分,并通過元學習的方式進行模型的優(yōu)化。具體來說,騰訊優(yōu)圖基于實例正則化定義了域信息表示,并設計了域表示學習模塊(DRLM)來提取高鑒別性的域特征用以精準的域聚類。
此外,為了緩解離群點對聚類的阻礙,騰訊優(yōu)圖采用最大均值差異(MMD)來校正樣本特征分布與先驗分布的差異,以增強聚類的可靠性。實驗結果表明騰訊優(yōu)圖的方法(D2AM)優(yōu)于傳統(tǒng)的域泛化方法,包括使用域標簽的方法,為實際場景下活體技術的應用提供了有效框架。
06
基于局部關聯(lián)學習的人臉偽造檢測
Local Relation Learning for Face Forgery Detection
隨著人臉編輯技術的快速發(fā)展,人臉內容取證引起了廣泛的關注。大多數現(xiàn)有方法往往利用二值類別標簽或偽造區(qū)域等監(jiān)督信息來解決人臉偽造檢測任務。然而,由于沒有考慮到局部區(qū)域間的關聯(lián),這些全局監(jiān)督信息不足以學習到泛化性強的特征,往往容易過擬合。
為了解決這個問題,騰訊優(yōu)圖提出了一種通過局部關聯(lián)學習來進行人臉偽造檢測的新方法。具體而言,騰訊優(yōu)圖提出了一個多尺度局部相似性模塊(MPSM),該模塊通過衡量局部區(qū)域特征間的相似性來構造一種泛化性強、魯棒性高的相似模式。
此外,騰訊優(yōu)圖還提出了一個RGB-頻域注意力模塊(RFAM)來融合RGB圖像和頻域信息,從而得到更全面的局部特征表示,進一步提高了相似模式的可靠性。大量的實驗表明騰訊優(yōu)圖所提出的方法在多個數據集上優(yōu)于現(xiàn)有的方法,同時詳細的可視化也充分證明了騰訊優(yōu)圖方法的魯棒性和可解釋性。
07
基于可泛化樣本選擇的行人重識別方法
One for More: Selecting Generalizable Samples for Generalizable ReID Model
現(xiàn)有行人重新識別(ReID)模型的訓練目標是在當前批次樣本上模型的損失減少,而與其他批次樣本的性能無關。它將不可避免地導致模型過擬合到某些樣本(例如,不平衡類中的頭部數據,簡單樣本或噪聲樣本)。目前有基于采樣的方法通過設計特定準則來選擇特定樣本來解決該問題,這些方法對某些類型的數據(例如難樣本,尾部數據)施加了更多的關注,這不適用于真實的ReID數據分布。因此,本文將所選樣本的泛化能力作為損失函數,并學習一個采樣器來自動選擇可泛化樣本,而不是簡單地推測哪些樣本更有意義。更重要的是,騰訊優(yōu)圖提出的基于可泛化能力的采樣器可以無縫集成到ReID訓練框架中,該框架能夠以端到端的方式同時訓練ReID模型和采樣器。實驗結果表明,該方法可以有效地改善ReID模型的訓練,提高ReID模型的性能。
08
Learning a Few-shot Embedding Model by Contrastive Learning
基于對比學習的小樣本植入模型
小樣本學習是根據少量的先驗信息去對于目標目標類別進行分類。這些信息一般沉淀在一個深度模型中,用來對支持集和問詢集進行匹配。本文的目標是利用對比學習的方法學習一個小樣本植入模型,具體貢獻如下:
(1)騰訊優(yōu)圖深入研究噪聲對比估計方法,并利用它來訓練小樣本植入模型。
(2)騰訊優(yōu)圖提出一個名為infoPatch的植入模型方法,智能挖掘局部的聯(lián)系,保證穩(wěn)步提升小樣本分類的能力。
(3)騰訊優(yōu)圖在文章中展示了infoPatch的有效性。
(4)騰訊優(yōu)圖的模型的指標在三個常用數據集miniImageNet,tieredImageNet和ewshot-CIFAR100上都達到了頂尖水準。
09
基于Transformer結構層內-層間聯(lián)合全局表示的圖像描述
Improving Image Captioning by Leveraging Intra- and Inter-layer Global Representation in Transformer Network
本論文由騰訊優(yōu)圖實驗室與廈門大學合作完成。
基于Transformer的結構近來在圖像描述任務中取得了巨大的成功, 這些模型的范式都是將目標regions編碼成隱含特征實現(xiàn)描述的解碼。 然而,騰訊優(yōu)圖發(fā)現(xiàn)這些隱含特征僅僅涵蓋了region級別的局部特征,忽略了考慮整張圖片的全局特征的建模,使得模型難以進一步拓展在圖像描述中的復雜多模態(tài)推理能力。 因此,這篇文章騰訊優(yōu)圖提出了一個新的模型GET,同時提取更為綜合的全局信息并將全局信息作為自適應引導信號生成更為高質量的圖像描述。具體而言,在該模型中,騰訊優(yōu)圖首先設計了一個全局加強的編碼器和全局自適應的解碼器,其中前者利用Transformer層級結構特點,提取層內-層間聯(lián)合全局特征,后者則利用全局自適應控制器,控制全局特征融入解碼器來指導圖像描述的生成。本文在MS COCO數據集上的實驗證明了騰訊優(yōu)圖相對于當前最先進模型的優(yōu)勢。
10
基于雙層級特征協(xié)同Transformer的圖像描述生成
Dual-level Collaborative Transformer for Image Captioning
本論文由騰訊優(yōu)圖實驗室與廈門大學合作完成。
由目標檢測網絡提取的區(qū)域特征在圖像描述生成的發(fā)展中起著重要的作用。然而,這種特征中缺乏上下文信息和細粒度細節(jié),而這正是網格特征的優(yōu)點。本文提出了一種新的雙層級特征協(xié)同Transformer,以實現(xiàn)兩者的優(yōu)勢互補。具體地說,在DLCT中,騰訊優(yōu)圖首先使用DWSA來挖掘它們的內在特性,并在其中引入綜合關系注意力機制來嵌入幾何信息。此外,騰訊優(yōu)圖還提出了LCCA模塊,目的是解決這兩個特征直接融合所產生的語義噪聲問題,通過構造幾何對齊圖來精確對齊和增強區(qū)域和網格特征。為了驗證騰訊優(yōu)圖的模型,騰訊優(yōu)圖在基準數據集MS-COCO上進行了大量的實驗,并在本地和在線測試集上實現(xiàn)了SOTA性能,
在Karpathy 測試集上達到133.8%的CIDEr得分,在官方測試集上達到135.4%的CIDEr得分。
11
圖博弈嵌入
Graph Game Embedding
本論文由騰訊優(yōu)圖實驗室與南京理工大學合作完成。
圖嵌入旨在將節(jié)點/邊編碼為低維連續(xù)特征,已成為圖分析的重要工具并被應用于圖/節(jié)點分類,鏈接預測等任務。在本文中,騰訊優(yōu)圖提出了一種新穎的名為圖博弈嵌入的圖學習框架,以學習具有判別性的節(jié)點表示并對圖結構進行編碼。受博弈學習理論的啟發(fā),節(jié)點嵌入被轉換為博弈過程中玩家策略的選擇/搜索過程,其中每個節(jié)點對應一個玩家,而每條邊對應于兩個玩家之間的交互。然后,定義了一個在理論上滿足納什均衡的收益函數以衡量圖演化過程中參與玩家(節(jié)點)的收益/損失。更進一步地,引入了一種合作與競爭機制以提高該框架的判別學習能力。在上述圖博弈嵌入框架下,考慮節(jié)點的不同交互方式,騰訊優(yōu)圖提出了兩種具體模型,即對交互圖博弈嵌入模型和群組圖博弈嵌入模型。與現(xiàn)有的圖嵌入方法相比,本文所提出的框架具有兩個優(yōu)點:(1)所設計的收益函數保證了圖網絡的穩(wěn)定演化,滿足納什均衡且具有收斂性的理論保證;(2)所引入的協(xié)作和競爭機制可指導每個節(jié)點學習到區(qū)別于其他節(jié)點的優(yōu)化策略,從而賦予圖博弈嵌入框架以學習具有判別性特征的能力。騰訊優(yōu)圖在三個關于引文網絡的公共數據集上對所提出的方法進行了評測,實驗結果驗證了其有效性。
免責聲明:市場有風險,選擇需謹慎!此文僅供參考,不作買賣依據。
關鍵詞: