RoBERTa: A Robustly Optimized BERT Pretraining Approach
Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov
https://arxiv.org/abs/1907.11692
large-scale text copora dataset(160GB)
CC-News (76GB)
OpenWebText (38GB)
Stories (31GB)
Dynamic Masking
Model Input Format and Next Sentence Prediction
이러한 불일치를 더 잘 이해하기 위해 몇 가지 대체 training format을 비교한다.
Results
표 2: BookCorpus + WikiPedia에 Pre-train된 base model에 대한 결과.
Training with large batches
표 3: 다양한 batch size로 train된 bert_base에 대한 결과. 모두 동일한 계산비용.
Text Encoding(약간의 성능 향상이 있을거라는 가설, 실험은 진행하지 않음)