사전학습된 BEiT-3은 다양한 비전, 비전+언어 멀티모달 downstream task로 미세조정 할 수 있음
비전 downstream task에서는 통합 아키텍쳐에서 (a)만 사용하여 미세조정 (Vision Expert만 활성화)
이미지-언어 검색 task(Flicker30k, COCO)에서는 (d)의 Dual Encoder 사용하여 미세조정
이외 비전+언어 멀티모달 downstream task는 (c)의 Fusion Encoder를 사용하여 미세조정
저자들이 그림을 이해하기 힘들게 그려놨는데 멀티모달 task의 경우 text, image pair가 input으로 들어왔을때 text는 language exprt, image는 vision expert를 forward하고 마지막 3개 layer에서는 VL Expert를 forward하는 구조임
3. Result
3.1. Vision-Language Downstream Tasks
시각적 질문답변 VQAv2, 시각적 추론 NLVR2, 이미지 캡셔닝 COCO에 대한 벤치마크 결과
이미지-자연어 검색 MSCOCO, Flicker30K에 대한 벤치마크 결과
객체탐지 COCO에 대한 벤치마크 결과
3.2. Vision Downstream Tasks
ImageNet-1K 벤치마크 결과
Google의 내부데이터를 사용한 모델들보다 성능은 떨어지지만 public 데이터인 ImageNet-21k를 사용한 모델중에선 가장 성능이 좋음.
CoCa와 비교하여 공개데이터 사용 및 이미지사이즈 336x336을 사용하였지만 성능차이가 크지않고 512x512 사이즈를 사용한 다른 모델보다 더 좋은 성능을 보이는것은 고무적이라 생각됨.