OpenAI GPT-2
1. Background
๋ชจ๋ธ์ด ํ์ตํ ๋ฐ์ดํฐ์๋ง ์ ์๋ํ๋ narrow expert๋ณด๋ค generalist๋ฅผ ์ํจ โ ์ต๊ทผ ๋ณด๋ค ๋์ ๋ฒ์์ dataset๊ณผ ์ฌ๋ฌ ๊ณผ์ ๋ค์ ๋ํ GLUE benchmark ๋ฑ์ด ์ ์๋๊ธฐ ์์
๊ธฐ์กด์ Language Model(LM)์ ํน์ ๋๋ฉ์ธ์ ์น์ฐ์น ํ ์คํธ๋ง ๋ฐ์ดํฐ์ ์ผ๋ก ํ์ฉ (์: BERT๋ BookCorpous(800M words) + ์ํคํผ๋์(2500M words))
Common Crawl๋ ๊ณ ๋ คํด ๋ดค์ง๋ง, ๋ฐ์ดํฐ ํ๋ฆฌํฐ ์ด์๊ฐ ์๊ณ ๋ฐ์ดํฐ๋ฅผ ์ดํดํ ์ ์์ด์ ๋ถ์ ํฉ
๋ฐ๋ผ์, ๋ณธ ๋ ผ๋ฌธ์์ ์น์คํฌ๋ํ์ผ๋ก WebText ๋ฐ์ดํฐ์ ์ ์๋ก ์์ฑ
Reddit์์ ์ธ๋ถ(outbound) ๋งํฌ ์ค์ karma(ํ์ด์ค๋ถ์ like์ ์ ์ฌ)๋ ๊ฒ ์๊ณ karma 3๊ฐ ์ด์ ๋ฐ์ ๊ธ๋ค๋ง ์ฌ์ฉ
Text subset์ผ๋ก 4500๋ง๊ฐ ๋งํฌ๊ฐ ์๋๋ฐ ์ฌ๊ธฐ์์ html ํ์ฑ, ์ํคํผ๋์ ๋ฌธ์ ์ ๊ฑฐ, ์ค๋ณต ์ฒ๋ฆฌ ๋ฑ์ ์ ์ฒ๋ฆฌ ํ 8๋ฐฑ๋ง ๊ฐ ๋ฌธ์, 40GB corpus๋ก ๊ฐ์ํ
๋ํ, BERT์ ๋ฌ๋ฆฌ pre-training+fine-tuning์ ์กฐํฉ์ด ์๋๋ผ ํ์ต ์๋ฃ ํ ๋ ์ด์์ task-specificํ ๋ฐ์ดํฐ๋ฅผ fine-tuningํ์ง ์์ (๋ฌผ๋ก fine-tuning๋ ๊ฐ๋ฅํ๋ฉฐ BERT์ ํฐ ์ฑ๋ฅ ์ฐจ์ด๋ ์์)
2. Model
๊ฐ์
Transformer ๋์ฝ๋๋ง ์ฌ์ฉ
BERT์ ์ ํ ์ดํ ์ ์ด ์๋ Masked ์ ํ ์ดํ ์ ์ฌ์ฉ
์ด 4๊ฐ์ ๋ชจ๋ธ ์ ์ (GPT-2 small, GPT-2 medium, GPT-2 large, GPT-2 extra large)
GPT-2 small์ GPT-1๊ณผ ํ๋ผ๋ฉํฐ ๊ฐ์ ๋์ผ
GPT-2 medium์ BERT์ ํ๋ผ๋ฉํฐ ๊ฐ์ ๋์ผ
์ฝ 15์ต๊ฐ์ ํ๋ผ๋ฉํฐ ๊ฐ์๋ก GPT ๋๋น 10๋ฐฐ ์ด์ ๋ง์

์ฃผ์ ํ๋ผ๋ฉํฐ ๋ณ๊ฒฝ
์ดํ ๊ฐ์: 50,527๊ฐ
Context size: 512 โ 1024 ํ ํฐ
Batch size: 512
๊ฐ residual ๊ณ์ธต์ ๊ฐ์ค์น ์ด๊ธฐ๊ฐ์ 1/sqrt(N)์ผ๋ก ์ค์ผ์ผ๋ง (N์ residual ๊ณ์ธต๋ค์ ๊ฐ์)
Layer Normalization์ด ์๋๋ attention ๋ค์์ด์๋๋ฐ ๊ฐ sub-block์ input์ผ๋ก ์ฎ๊ฒจ์ง
๋ง์ง๋ง ์ ํ ์ดํ ์ ๋ธ๋ก์ ์ถ๊ฐ layer normalization ์ ์ฉ
๊ฐ ๋ชจ๋ธ์ learning rate๋ WebText์ 5%๋ฅผ ๋ผ์ ๋ง๋ held-out ์ํ์ ์ฌ์ฉํ์ฌ ์๋ ์กฐ์ โ ์ฌ์ ํ WebText์ ๊ณผ์์ ํฉ(underfitted)๋์๊ธฐ์ ๋ ์ค๋ ํ์ต์ํค๋ฉด ๋ ๋์ ์ฑ๋ฅ์ ์ป์ ์ ์์ ๊ฑฐ๋ผ ๊ธฐ๋
A Deeper Look Inside
์์ ํ ํฐ์ผ๋ก
<|endoftext|>
์ฌ์ฉ. ์ด์ ๋ถํด ํธ์์<s>
๋ผ๊ณ ์นญํจํ ํฐ ์๋ฒ ๋ฉ ํ๋ ฌ์์ ํด๋น vocab ๊ฒ์ ํ Positional encoding ๊ฒฐ๊ณผ ๊ฐ์ฐ
Decoder๋ค์ ๊ฑฐ์ณ ๋์จ ์ถ๋ ฅ ๋ฒกํฐ์ ํ ํฐ ์๋ฒ ๋ฉ ํ๋ ฌ์ ๊ณฑํด ์ถ๋ ฅ ํ ํฐ์ logit(ํ๋ฅ ) ๊ณ์ฐ
์ ๋ ฅ ํ ํฐ์ด Decoder ๋ ์ด์ด๋ฅผ ํตํด ์ฐ์์ ์ผ๋ก ์ฒ๋ฆฌ๋ ๋ค์ ์ต์ข ๋ฒกํฐ(vocab ์ด ๊ฐ์)๊ฐ ์์ฑ๋จ. ์ต์ข ๋ฒกํฐ๋ top_1์ด๋ top_k๋ฅผ ํตํด ๊ฐ์ฅ ํ๋ฅ ์ด ๋์ ๋จ์ด๋ฅผ ๋ค์ ๋จ์ด๋ก ์ ํ
top_1: vocab ์ค์์ ๊ฐ์ฅ ํ๋ฅ ์ด ๋์ vocab๋ฅผ ์ ํ (top_k = 1)
top_k: ์์ k๊ฐ์ vocab๋ฅผ ์ ํ ํ ์ํ๋ง

References
Implementation
Last updated
Was this helpful?