CtrlK

DistilBERT, a distilled version of BERT

1. Background

계속 파라메터 개수가 증가; NVIDIA 최신 모델은 83억개의 파라메터
Deployment시 모델 성능 vs. latency tradeoff
Knowledge Distillation(KD, 지식 증류)로 BERT 모델을 다이어트해보는 것이 목적
- KD는 Larger(Teacher) model로부터 Compact(Student) model를 생성하는 Hinton이 제안한 기법

2. Experiment

95% 성능을 유지하면서 파라메터 개수를 40% 저감
IMDB 리뷰 데이터셋에서 BERT는 93.46% 정확도, DistilBERT는 92.82% 정확도
추론 시에는 BERT 대비 60% 더 빠르고 ELMo+BiLSTM 대비 120% 더 빠름

References

PreviousBERT(Bi-directional Encoder Representations from Transformers)Next[Hands-on] Fine Tuning Naver Movie Review Sentiment Classification with KoBERT using GluonNLP

Last updated 4 years ago

Was this helpful?