Paper Information
- 原文網址:https://arxiv.org/abs/2104.03135
- 研究機構:USTB、MSRA
- 發表時間:CVPR 2021
Introduction
- 自從 BUTD [1] 提出後,大部分的 V+L(Visual and Language)model 都採用 object detector 來抽取圖片特徵,然而這種 region-based 的方法卻存在三大缺點:
- 這些特徵只關注 bbox 裡的資訊,bbox 外的則容易被忽略。
- 這些特徵會受到 pre-defined categories 的限制。
- 受 object detector 的影響,這些特徵會有 low quality、noise、oversampling、rely on large-scale boxes annotation data 等問題。
- 好在 Facebook 於 2019 提出了 GridFeats [2],拋棄 object detector 的曙光才得以到來。除了緩解上述問題外,由於不再需要 object detector,也得以讓 V+L 回歸 E2E(End-to-End)。本文所提出的方法 SOHO(Seeing Out of tHe bOx)就是其中一個 E2E 模型。
- pre-training 的部分,除了常用的 MLM(Mask Language Modeling)、ITM(Image Text Matching)外,作者還提出了一個叫 MVM(Mask Visual Modeling)的方法。
- 本文貢獻:E2E、MVM。
Methods
Pre-training
- SOHO 的 pre-training 架構如 Figure 2 所示。
- text 的部分參照 BERT 的做法做 embedding。
- image 的部分先經過 resnet-101(trainable visual encoder)後,丟到作者提出的 vd-based embedding(vd:visual dictionary)。
- 最後將 text embedding、vd-based embedding 丟到 VL-BERT [3](cross modal transformer)做整合,完成 pre-training。
- pre-training 任務總共有三:MLM、ITM 以及作者提出的 MVM。
- MLM、ITM 就跟其他人的做法一樣,沒什麼好講的,這裡只介紹 MVM。
- MVM:
- 對於 resnet-101 的輸出,$v_i$,找出 vd 中與之最相近的向量,$d_{h_i}$。
- 則 $d_{h_i}$ 為 $v_i$ 的 vd-based embedding;$d_{h_i}$ 的編號 $h_i$ 為 $v_i$ 的 label。
$$
h_i = \arg\min_{j} ||v_i - d_j||_{2} \
f(v_i) = d_{h_i}
$$- $d_j$:vd 中的向量。
- $f$:vd mapping。
- $d_j$ 是會隨時間更新的,更新方式如下:
$$
\hat d_{j} = \gamma * d_{j} + (1 - \gamma) * \frac{\sum_{h_i = j} v_i}{|f^{-1}(j)|}
$$- $\gamma \in [0, 1]$
- $|f^{-1}(j)|$:inverse mapping group size,也就是選到同一個 $d_j$ 的 $v_i$ 的個數。
- MVM 的作法與 MLM 類似,就是隨機蓋掉一些 vd-based embedding,然後模型要去預測這些被蓋掉的特徵的 label。
$$
L_{MVM} = -E_{(W, f(V)) \sim D} \log p(h_i | W, f(V)_{\backslash j})
$$- $L_{MVM}$:MVM loss
- $D$:dataset
- $W$:word embedding
- $f(V)_{\backslash j}$:沒被蓋掉的 vd-based embedding
- 在做 pre-train 時,1 張 image 會被分配到 4 個 sentence,其中 2 句是 positive pair,另外 2 句是 negative pair。只有在 positive pair 上才會做 MLM 跟 MVM。
Fine-tuning
- 作者將 SOHO fine-tune 到 4 種任務上:TR/IR、VQA、NLVR、VE。
- TR/IR:image-to-text retrieval、text-to-image retrieval
- VQA:visual question answering
- NLVR:natural language for visual reasoning
- VE:visual entailment
- 但目前(2021/6/29)只釋出 VQA 的 code 而已,其他都還沒。
Experiments & Results
Dataset
- pre-training dataset 與 fine-tune dataset 如 Table 1 所示。
- 值得注意的是,跟其他 2020 年 V+L 模型比起來 SOHO 的 pre-train dataset 已經算小了。只用 MSCOCO 跟 VG 而已。
Downstream Tasks and Results
- 在處理 downstream task 時,作者發現使用 visual representation(resnet-101 output,$v$)的效果會比 vd-embedding($d$)好。因此後續的實驗都是使用 visual representation。
- TR/IR、VQA、NLVR、VE 的結果如 Table 2 ~ 6 所示。
- VQA 的部分(Table 4),即使在 pre-train dataset 比較少的情況下,SOHO 的效能一就可以比架構類似的 UNITER [4] 好個 0.5,可見 E2E、MVM 的功效還是粉不錯的。
- UNITER 的 pre-train dataset:MSCOCO + VG + CC + SBU。
Ablation Study
- 為了驗證 vd 的貢獻,作者對其它做了 ablation study,結果如 Table 7 所示。
- 可以看到 vd 的加入確實是能提升效能的。並且作者還發現 vd size($d_j$ 的維度)落在 2048 或 4096 時效果最好。
- vd size 大一點可以學到更 fine-grained 的資訊,但太大反而會讓模型喪失總結能力(abstraction)。
References
[1] Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering
[2] In Defense of Grid Features for Visual Question Answering
[3] VL-BERT: Pre-training of Generic Visual-Linguistic Representations
[4] UNITER: UNiversal Image-TExt Representation Learning