[論文筆記] Seeing Out of tHe bOx - End-to-End Pre-training for Vision-Language Representation Learning


Posted by Ivan Fang on 2021-06-30

Paper Information

Introduction

  • 自從 BUTD [1] 提出後,大部分的 V+L(Visual and Language)model 都採用 object detector 來抽取圖片特徵,然而這種 region-based 的方法卻存在三大缺點:
    • 這些特徵只關注 bbox 裡的資訊,bbox 外的則容易被忽略。
    • 這些特徵會受到 pre-defined categories 的限制。
    • 受 object detector 的影響,這些特徵會有 low quality、noise、oversampling、rely on large-scale boxes annotation data 等問題。
  • 好在 Facebook 於 2019 提出了 GridFeats [2],拋棄 object detector 的曙光才得以到來。除了緩解上述問題外,由於不再需要 object detector,也得以讓 V+L 回歸 E2E(End-to-End)。本文所提出的方法 SOHO(Seeing Out of tHe bOx)就是其中一個 E2E 模型。
  • pre-training 的部分,除了常用的 MLM(Mask Language Modeling)、ITM(Image Text Matching)外,作者還提出了一個叫 MVM(Mask Visual Modeling)的方法。
  • 本文貢獻:E2E、MVM。

Methods

Pre-training

  • SOHO 的 pre-training 架構如 Figure 2 所示。
    • text 的部分參照 BERT 的做法做 embedding。
    • image 的部分先經過 resnet-101(trainable visual encoder)後,丟到作者提出的 vd-based embedding(vd:visual dictionary)。
    • 最後將 text embedding、vd-based embedding 丟到 VL-BERT [3](cross modal transformer)做整合,完成 pre-training。
  • pre-training 任務總共有三:MLM、ITM 以及作者提出的 MVM。
    • MLM、ITM 就跟其他人的做法一樣,沒什麼好講的,這裡只介紹 MVM。
  • MVM
    • 對於 resnet-101 的輸出,$v_i$,找出 vd 中與之最相近的向量,$d_{h_i}$。
    • 則 $d_{h_i}$ 為 $v_i$ 的 vd-based embedding;$d_{h_i}$ 的編號 $h_i$ 為 $v_i$ 的 label。
      $$
      h_i = \arg\min_{j} ||v_i - d_j||_{2} \
      f(v_i) = d_{h_i}
      $$
      • $d_j$:vd 中的向量。
      • $f$:vd mapping。
    • $d_j$ 是會隨時間更新的,更新方式如下:
      $$
      \hat d_{j} = \gamma * d_{j} + (1 - \gamma) * \frac{\sum_{h_i = j} v_i}{|f^{-1}(j)|}
      $$
      • $\gamma \in [0, 1]$
      • $|f^{-1}(j)|$:inverse mapping group size,也就是選到同一個 $d_j$ 的 $v_i$ 的個數。
    • MVM 的作法與 MLM 類似,就是隨機蓋掉一些 vd-based embedding,然後模型要去預測這些被蓋掉的特徵的 label。
      $$
      L_{MVM} = -E_{(W, f(V)) \sim D} \log p(h_i | W, f(V)_{\backslash j})
      $$
      • $L_{MVM}$:MVM loss
      • $D$:dataset
      • $W$:word embedding
      • $f(V)_{\backslash j}$:沒被蓋掉的 vd-based embedding
  • 在做 pre-train 時,1 張 image 會被分配到 4 個 sentence,其中 2 句是 positive pair,另外 2 句是 negative pair。只有在 positive pair 上才會做 MLM 跟 MVM。

Fine-tuning

  • 作者將 SOHO fine-tune 到 4 種任務上:TR/IR、VQA、NLVR、VE。
    • TR/IR:image-to-text retrieval、text-to-image retrieval
    • VQA:visual question answering
    • NLVR:natural language for visual reasoning
    • VE:visual entailment
  • 但目前(2021/6/29)只釋出 VQA 的 code 而已,其他都還沒。

Experiments & Results

Dataset

  • pre-training dataset 與 fine-tune dataset 如 Table 1 所示。
  • 值得注意的是,跟其他 2020 年 V+L 模型比起來 SOHO 的 pre-train dataset 已經算小了。只用 MSCOCO 跟 VG 而已。

Downstream Tasks and Results

  • 在處理 downstream task 時,作者發現使用 visual representation(resnet-101 output,$v$)的效果會比 vd-embedding($d$)好。因此後續的實驗都是使用 visual representation。
  • TR/IR、VQA、NLVR、VE 的結果如 Table 2 ~ 6 所示。

  • VQA 的部分(Table 4),即使在 pre-train dataset 比較少的情況下,SOHO 的效能一就可以比架構類似的 UNITER [4] 好個 0.5,可見 E2E、MVM 的功效還是粉不錯的。
    • UNITER 的 pre-train dataset:MSCOCO + VG + CC + SBU。

Ablation Study

  • 為了驗證 vd 的貢獻,作者對其它做了 ablation study,結果如 Table 7 所示。
  • 可以看到 vd 的加入確實是能提升效能的。並且作者還發現 vd size($d_j$ 的維度)落在 2048 或 4096 時效果最好。
    • vd size 大一點可以學到更 fine-grained 的資訊,但太大反而會讓模型喪失總結能力(abstraction)。

References

[1] Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering
[2] In Defense of Grid Features for Visual Question Answering
[3] VL-BERT: Pre-training of Generic Visual-Linguistic Representations
[4] UNITER: UNiversal Image-TExt Representation Learning


#VLP #E2E #MVM







Related Posts

PHP 語法入門

PHP 語法入門

OOP 15 - Interface Segregation Principles

OOP 15 - Interface Segregation Principles

D21_修正第二週作業、繼續第三週

D21_修正第二週作業、繼續第三週


Comments