[Paper review] KMMLU/KMMLU-Redux/KMMLU-Pro Dataset
1. KMMLU
1.1. ๋ฐ์ดํฐ์
๊ฐ์ ๋ฐ ๊ฐ๋ฐ ๋ฐฐ๊ฒฝ

KMMLU๋ ํ๊ตญ์ด๋ก ๋ ์ ๋ฌธ๊ฐ ์์ค์ ๋ค์ค ์ ํํ ๋ฌธ์ (multiple-choice questions) ๋ฒค์น๋งํฌ๋ก, ์ด 35,030๊ฐ์ ์ง๋ฌธ์ ํฌํจํ๋ฉฐ 45๊ฐ ๊ณผ๋ชฉ(์ธ๋ฌธ/์ฌํ, STEM, ์์ฉ๊ณผํ, ๊ธฐํ)์ ๊ฑธ์ณ ์์
๊ธฐ์กด์ ํ๊ตญ์ด ๋ฒค์น๋งํฌ๋ค์ด ์ฃผ๋ก ์์ด ๊ธฐ๋ฐ ๋ฒค์น๋งํฌ(MMLU ๋ฑ)๋ฅผ ๋ฒ์ญํ ๊ฒ์ด์๊ณ , ๋ฒ์ญ ์ ๋ฌธ์ฅ ์์ฐ์ฑ ์ ํ, ๋ฌธํ์ /์ ๋์ ๋ฌธ๋งฅ ๋ฏธ๋ฐ์, ๋ฒ์ญ ์ค๋ฅ ๊ฐ๋ฅ์ฑ ๋ฑ์ ํ๊ณ๊ฐ ์กด์ฌํ๋ค๋ ์ ์ด ๋๊ธฐ
๋ฐ๋ผ์ ๋ณธ ์ฐ๊ตฌ์์๋ ์๋ฌธ ํ๊ตญ์ด ์ํ(์: ๊ณต๋ฌด์ PSAT, ํ๊ตญ ๋ฉดํ์ํ(Korean License Tests), ๋ํ์ํ๋ฅ๋ ฅ์ํ(CSAT) ๋ฑ)์์ ์ง์ ์์งํ์ฌ, ํ๊ตญ์ด ๊ณ ์ ์ ์ธ์ด์ ยท๋ฌธํ์ ๋งฅ๋ฝ์ ๋ฐ์ํ๊ณ ๋ฒ์ญ ๊ธฐ๋ฐ ํธํฅ์ ํผํ๊ณ ์ ํจ.
๋ํ, ๊ณต๊ฐ๋ ํ๊ฐ ์ฝ๋(evaluation harness)๋ฅผ EleutherAI์ LM-Eval-Harness์ ์ฐ๋ํ์ฌ ๊ณต๊ฐํจ์ผ๋ก์จ reproducibility ํ๋ณด
1.2. ๋ฐ์ดํฐ์
๊ตฌ์ฑ
์ด 35,030๊ฐ์ ํ ์คํธ ์ง๋ฌธ, ์ ์ฒด ๋ฐ์ดํฐ ์๋ ์ฝ 243,777๊ฐ (train + validation + test)
๋ถ์ผ๋ณ ๊ตฌ์ฑ์ 45๊ณผ๋ชฉ: STEM (์์ฐ๊ณผํ/๊ธฐ์ /๊ณตํ/์ํ), ์์ฉ๊ณผํ (์: ํญ๊ณต๊ณตํ, ๊ฐ์ค ๊ธฐ์ ๊ณตํ, ์ง์ ์ ๋ ๋ฑ ์ฐ์ ๊ด๋ จ ๊ณผ๋ชฉ), HUMSS (์ธ๋ฌธยท์ฌํ ๊ด๋ จ ๊ณผ๋ชฉ: ์ญ์ฌ, ์ฌ๋ฆฌ, ํ๊ณ, ์ ์น์ฌํ ๋ฑ), ๊ธฐํ ๊ณผ๋ชฉ (๋ฌธํ, ์ํ๊ฐ๊ณต, ๋์ ๊ณผํ, ๊ฑด๊ฐ ๋ฑ)
human accuracy data (์ค์ ์์์ ์ฑ์ )๋ ํ๋ณด ๊ฐ๋ฅํ ์ํ๋ค(์ ์ฒด์ ์ฝ 90%)๋ก๋ถํฐ ์์งํ์์ผ๋ฉฐ, ํ๊ท ์ธ๊ฐ ์ ํ๋๋ ์ฝ 62.6%์ด๋ค.
ํต์ ๋ฉดํ์ํ(pass ๊ธฐ์ค 80% ์ด์), PSAT ํ๊ท ํฉ๊ฒฉ์ ์ ์ ์ฝ 83.7% ๋ฑ์ ์ฐธ์กฐํ์ฌ, KMMLU ์์์ 80% ์ด์ ์ฑ์ ์ ๋ด๋ ๊ฒ์ ์ธ๊ฐ ์ ๋ฌธ๊ฐ ์์ค์ ๊ทผ์ ํ ์ฑ๋ฅ์ผ๋ก ๊ฐ์ฃผํ ์ ์๋ค.
๋ฐ์ดํฐ ๋ถํ ์ train (208,522), validation (225, few-shot exemplar์ฉ), test (35,030)
few-shot exemplars: ๊ฐ subject๋ง๋ค 5๋ฌธ์ ์ฉ CoT (chain-of-thought) reasoning exemplar ํ๋ณด (์ด 225 exemplars)
1.3. ๋ฐ์ดํฐ์
๊ตฌ์ถ ๋ฐฉ๋ฒ

์ถ์ฒ: 533๊ฐ์ ๋ค์ํ ์ํ ์ถ์ฒ (PSAT, Korean License Tests, CSAT)์์ ์๋ ํฌ๋กค๋ง์ ํตํด ์ด๊ธฐ 371,002๋ฌธํญ ์์ง.
ํ์ฒ๋ฆฌ ํํฐ๋ง ๋ฐ ์ ์ :
parsing ์ค๋ฅ, ์ค๋ณต ์ง๋ฌธ ์ ๊ฑฐ, ๋น์ ์ ์ต์ ๊ฐ์(4๊ฐ ๋ฏธ๋ง ํน์ 4๊ฐ ์ด๊ณผ) ์กฐ์ , stopwords/regex, model-based classifier ๋ฑ์ ํ์ฉํ ํํฐ๋ง ์ ์ฉ โ ์ฝ 34% ๊ฐ์ (371,002 โ 243,777)
์ค๋ณต์ฑ ๋์ ๋ฌธ์ (์: ๊ณ์ ๋ณ ๋ฐ๋ณต ์ถ์ ๋๋ ๋ฌธ์ ๋ฑ) ์ ๊ฑฐ
์ธ๊ฐ ์์์ ์ฑ๊ณผ ๋ฐ์ดํฐ ํ๋ณด ๊ฐ๋ฅํ ์ํ ์ค์ฌ์ผ๋ก ์ ๋ณ; ์๋ต ๋ถํฌ, ๋์ด๋ ๊ณ ๋ ค
์ ์๊ถ ๊ฒํ ๋ฐ ๋ด์ฉ ๊ต์ :
Test ๋ฐ Validation ์ธํธ์ ๋ํด manual review ์ํํ์ฌ ์ ์๊ถ ๋ฌธ์ ๊ฐ ์๋ ๋ฌธํญ ์ ๊ฑฐ (147๋ฌธ์ ๋์ฒด) ๋ฐ ์ค๋ฅ ๋ฐ๊ฒฌ๋ 741๋ฌธ์ ์์ (์ปค๋ฎค๋ํฐ ํผ๋๋ฐฑ ๊ธฐ๋ฐ)
๋ฐ์ดํฐ ๋์(leakage) ๊ฐ๋ฅ์ฑ ๊ฒํ : Xu et al.(2024) ๋ฐฉ์; Alpaca-Eval (https://github.com/tatsu-lab/alpaca_eval) ์ ๋ฐ๋ผ benchmark leakage ๋ถ์ ์ํ โ open/proprietary ๋ชจ๋ธ ๋ชจ๋ KMMLU ์ง๋ฌธ์ recallํ์ง ๋ชปํจ โ ๋ฐ์ดํฐ ๋์ ๊ฐ๋ฅ์ฑ ๋ฎ์ ํ๋จ๋จ
CoT exemplars ์์ฑ:
GPT-4, HyperCLOVA X ๋ LLM, zero-shot CoT ๋ฐ browsing-augmented CoT prompt ๋ฐฉ์ ์ ์ฉ
๊ฐ input์ ๋ํด 4 ร 10๊ฐ์ง reasoning path (2 LLM ร 2 prompting ๋ฐฉ์ ร oversample 10) ์์ฑ โ self-consistency๋ก majority vote โ ์์ 4๊ฐ rationales ์ ๋ณ โ ์ ์ manually ๊ฒํ โ ๊ฐ ๋ฌธํญ๋ง๋ค 2๋ช ์ ๊ฒํ ์ ๋ฐฐ์น, ์ฝ 87% ์ผ์น์จ ํ ๋ฐ๋ณต ๊ฒ์ฆํ์ฌ ์ต์ข ์ ์
HARD subset (KMMLU-HARD):
GPT-3.5 TURBO, GEMINI PRO, HYPERCLOVA X, GPT-4 ์ค ์ ์ด๋ ํ ๊ฐ ์ด์์ ๋ชจ๋ธ์ด ํ๋ฆฐ ๋ฌธํญ์ ๋์์ผ๋ก, ๊ฐ ๊ณผ๋ชฉ๋น ์ต์ 23~100๋ฌธํญ์ฉ ๊ท ๋ฑ ๋ถ๋ฐฐํ์ฌ ์ด 4,104๋ฌธํญ ๊ตฌ์ฑ
1.4. ์คํ ๊ฒฐ๊ณผ ์์ฝ
ํ๊ฐ ๋ฐฉ์: 5-shot few-shot setting, Direct prompting (greedy decoding) vs CoT prompting (chain-of-thought) ๋น๊ต
ํ๊ฐ ๋ชจ๋ธ: ์ด 27๊ฐ ๋ชจ๋ธ (๋ค๊ตญ์ด ์ฌ์ ํ์ต ๋ชจ๋ธ, ๋ค๊ตญ์ด ์ฑ ๋ชจ๋ธ, ํ๊ตญ์ด ์ฌ์ /๊ณ์ ํ์ต ๋ชจ๋ธ, ์์ ์ฉ LLM ํฌํจ)
์ฃผ์ ์ฑ๋ฅ ๊ฒฐ๊ณผ (Direct, 5-shot):
๋ค๊ตญ์ด pretrained ๋ชจ๋ธ ์์: LLAMA-2-70B 40.28%, Qwen-72B ์ฝ 50.83%
ํ๊ตญ์ด pretrained ๋ชจ๋ธ: POLYGLOT-KO-12.8B 29.26% ์์ค (๊ธฐ๋ณธ ์์ค, ๋๋ค ์ถ์ธก 25% ๋๋น ์ฝ๊ฐ ์ฐ์)
Continual pretrained ๋ชจ๋ธ: YI-KO-34B ์ฝ 50.46% ์์ค
์์ ์ฉ/ํ๋กํ๋ผ์ด์ดํฐ๋ฆฌ ๋ชจ๋ธ: GPT-4 ์ต๊ณ 59.95%, HYPERCLOVA X ์ฝ 53.40% ๋ฑ
CoT prompting์ ํจ๊ณผ:
์ผ๋ถ ๋ชจ๋ธ (ํนํ HYPERCLOVA X)๋ CoT ์ฌ์ฉ ์ ์ฑ๋ฅ ํฅ์ (์: KMMLU-HARD subset ์์ Direct ๋๋น CoT ํ๊ท 17.06% โ 27.11%)
๋ค๋ง, ๋ชจ๋ ๋ชจ๋ธ์์ CoT๊ฐ ์ผ๊ด๋๊ฒ ๊ฐ์ ์ ๋ณด์ด๋ ๊ฒ์ ์๋๋ฉฐ, ์ผ๋ถ์์๋ ์คํ๋ ค ์ฑ๋ฅ ํ๋ฝ (์: Qwen-72B-Chat ๋ฑ)๋ ๊ด์ฐฐ๋จ
๊ท๋ชจ/์ปดํจํ ๊ณผ ์ฑ๋ฅ ์๊ด๊ด๊ณ:
๋ ํฐ ํ๋ผ๋ฏธํฐ ๋ชจ๋ธ, ๋ง์ compute/training tokens์ ์ฌ์ฉํ ๋ชจ๋ธ์ด ๋์ฒด๋ก ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค (scaling effect)
ํ๊ตญ์ด-ํนํ ๋ชจ๋ธ ๋๋น ๋ค๊ตญ์ด ๋ชจ๋ธ์ ์๋์ ์ฐ์:
POLYGLOT-KO ๋ฑ์ ํ๊ตญ์ด ํนํ ๋ชจ๋ธ์ด ๊ธฐ๋๋งํผ ์ฑ๋ฅ์ด ๋์ง ์์ ๋ฐ๋ฉด, ์์ด/์ค๊ตญ์ด ์ค์ฌ์ผ๋ก ํ์ต๋ ํฐ ๋ค๊ตญ์ด ๋ชจ๋ธ(LLAMA-2, YI, Qwen ๋ฑ)์ด ์คํ๋ ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ ๊ฒฝํฅ ์์. ์ด๋ ํ์ต ๋ฐ์ดํฐ๋/compute ์์ฐ์ ์ฐจ์ด๊ฐ ํฌ๊ธฐ ๋๋ฌธ์ด๋ผ๊ณ ๋ถ์๋จ
๋ถ์ ๊ฒฐ๊ณผ:
KMMLU์ ๋ฌธ์ ๋ 86.1%๊ฐ ์์ฐ์ค๋ฌ์ด ํ๊ตญ์ด ํํ(natural phrasing), 20.4%๊ฐ ํ๊ตญ ๊ณ ์ ์ ๋ฌธํ/์ ๋/๋ฒ๋ฅ ์ง์(korean-specific knowledge)์ ์๊ตฌํ๋ฉฐ, ๋ฒ์ญ๋ MMLU ๋๋น ๋ ๋ฌธํ์ ์ผ๋ก ์ ํฉํ๋ค๋ ํ๊ฐ๋จ
KMMLU-HARD subset์์ CoT prompting์ ํจ๊ณผ๋ฅผ ๋ณ๋๋ก ๋ถ์, HYPERCLOVA X๋ CoT๊ฐ ๋ช ํํ ์ฑ๋ฅ ํฅ์์ ๋ณด์ธ ๋ฐ๋ฉด ๋ค๋ฅธ ๋ชจ๋ธ์ ๊ณผ๋ชฉ์ ๋ฐ๋ผ ์ฑ๋ฅ ํธ์ฐจ๊ฐ ์์
2. KMMLU-Redux & KMMLU-Pro
2.1. ๋ฐ์ดํฐ์
๊ฐ์ ๋ฐ ๊ฐ๋ฐ ๋ฐฐ๊ฒฝ
๊ธฐ์กด KMMLU๊ฐ ๊ฝค ๊ท๋ชจ๊ฐ ํฌ๊ณ ์ด๋ฑํ๊ต๋ถํฐ ๋ํ ์์ค๊น์ง์ ์ผ๋ฐ ์ง์์ ํ๊ฐํจ์ผ๋ก์จ ๋ค์ํ ๋ถ์ผ๋ฅผ ํฌ๊ดํ์ง๋ง, ์ ๋ขฐ์ฑ ๋ฌธ์ ์ ๋ฐ์ดํฐ ๋ฐ์ดํฐ ๋์ ๋ฆฌ์คํธ์ ๊ฐ์ ํ๊ณ๊ฐ ์กด์ฌํจ.
์ผ๋ถ ๋ฌธํญ์์ ๋์ค๋ ๋ต๋ณ(leaked answers), ๋ถ๋ถ๋ช ํ ๋ฌธ์ ์ ์, ์๋ชป๋ ํ๊ธฐ/notation ์ค๋ฅ ๋ฑ ํ์ง ๋ฌธ์ ์กด์ฌ
KMMLU์ ์ฌ๋ฌ ๋ฌธํญ์ด ํ์ต์ฉ ๋๊ท๋ชจ ์ฝํผ์ค ๋๋ ์น์ ์ด๋ฏธ ์ ํฌ๋ ๊ฐ๋ฅ์ฑ โ ๋ฐ์ดํฐ ๋์(contamination) ๋ฆฌ์คํฌ ์กด์ฌ
KMMLU๋ ํ๋ฌธ/์ฐ์ ๊ด๋ จ ์ํ ๋ฑ์ ๋ค์ํ๊ฒ ํฌํจํ์ง๋ง, โ์ค์ ์ฐ์ ์์ฉ(professional/industrial)โ ์์ค์ ์ ๋ฌธ ์๊ฒฉ์ํ(professional licensure exams)๋ฌธํญ์ ์ถฉ๋ถํ ๋ฐ์ํ์ง ๋ชปํจ (ํนํ ๋งค์ฐ ์ ๋ฌธํ๋ ๋ผ์ด์ ์ค ์ํ ๋ถ์ผ)
๋ฐ๋ผ์ ์ด ๋ ผ๋ฌธ์์๋ ๋ค์ ๋ ๊ฐ์ง ๋ฒค์น๋งํฌ๋ฅผ ์ ์
KMMLU-Redux: ๊ธฐ์กด KMMLU์์ ๋ฌธ์ ์ ์ ์๋ณํ์ฌ ์ ์ (cleaned)ํ๊ณ ๋์ด๋๋ฅผ ์กฐ์ ํ ์ถ์ํ ๋ฒ์
KMMLU-Pro: ํ๊ตญ์ ๊ตญ๊ฐ ์ ๋ฌธ ๋ฉดํ์ํ(Korean National Professional Licensure, KNPL) ๊ธฐ๋ฐ์ผ๋ก, ๋ฒ๋ฅ , ํ๊ณ, ์ํ ๋ฑ 14๊ฐ ์ ๋ฌธ ๋ถ์ผ์ ๊ณ ๊ธ ์ง์์ ๋ฐ์ํ์ฌ ๋ณด๋ค ์ค๋ฌด์ ์ธ ์ ๋ฌธ๋ถ์ผ ์ํ๋ฌธํญ๋ค์ ํฌํจํ๋ ์ ๊ท ๋ฒค์น๋งํฌ
๋ ๋ฒค์น๋งํฌ ๋ชจ๋ ์ฐ์ /์ ๋ฌธ์ฑ ๊ธฐ๋ฐ ๋ฌธ์ ์ ์ ํฉ์ฑ์ ๋์ด๊ณ , ํ๊ตญ์ด LLM์ ์ค์ ํ์ฉ ๊ฐ๋ฅ์ฑ์ ํ๊ฐํ ์ ์๋๋ก ์ค๊ณ๋จ
2.2. ๊ฐ ํ๊ฐ ๋ฐ์ดํฐ์
์ค๋ช
KMMLU-Redux
๊ธฐ์กด KMMLU์์ ๊ธฐ์ ์๊ฒฉ์ํ(Korean National Technical Qualification, KNTQ) ์ถ์ ๋ฌธํญ ์ค ๋ฌธ์ ์ ์ ์ ๊ฑฐํ๊ณ ์ ์ ํ subset๋ก ์ด 2,587๋ฌธํญ ํฌํจ
๋ค๋ฃจ๋ ๋ถ์ผ๋ ์ฐ์ /๊ณตํ ์ค์ฌ์ผ๋ก, ์: ๋๋ฆผ์ด์ , ๊ฑด์ถ, ์ ๊ธฐ์ ์, ํ๊ฒฝ์๋์ง, ๊ธฐ๊ณ, ์ ๋ณดํต์ , ์ฌ๋ฃ, ์์ ๊ด๋ฆฌ, ๊ด์ ์์ ๋ฑ ์ด 13๊ฐ ์ด์ (์ค์ ๋ฆฌ์คํธ: ๋๋ฆผ์ด์ 185, ๊ฑด์ถ 71, ํํ 140, ๊ฑด์ค 333, ๋ฌธํ์์ ๋์์ธ๋ฐฉ์ก 119, ์ ๊ธฐ์ ์ 114, ํ๊ฒฝ์๋์ง 377, ์ํ๊ฐ๊ณต 78, ์ ๋ณดํต์ 185, ๊ธฐ๊ณ 270, ๊ฒฝ์/ํ๊ณ/์ฌ๋ฌด 34, ์ฌ๋ฃ 262, ๊ด์ ์์ 19, ์์ ๊ด๋ฆฌ 400)
KNTQ ์ํ ์์์๋ ๋ณดํต ํ์ฌํ์ ์์ง์ ๋๋ ์ต์ 9๋ ์ฐ์ ๊ฒฝ๋ ฅ์๋ฅผ ์๊ตฌํ๋ฏ๋ก ๋์ด๋๊ฐ ๋๊ณ ์ ๋ฌธ์ฑ์ ์๊ตฌํ๋ค.
KMMLU-Redux๋ ํนํ โ์ฌ์ด ๋ฌธ์ โ(multiple small LLM๋ค์ด ์ ๋ต์ ๋ง์ถ ๋ฌธ์ )๋ฅผ ๋ฐฐ์ ํ์ฌ ๋ ์ด๋ ค์ด/๋์ ์ ์ธ ๋ฌธํญ ์ค์ฌ์ผ๋ก ๊ตฌ์ฑ๋จ. ๊ตฌ์ฒด์ ์ผ๋ก, 7๊ฐ์ ์ํ LLM (์: Llama 3.2 3B, Qwen 2.5 3B, Gemma 3 4B IT, Kanana Nano 2.1B Instruct, EXAONE 3.5 2.4B, DeepSeek-R1-Distill-Qwen-1.5B, Ko-R1-7B-v2.1) ์ค 4๊ฐ ์ด์์ด ๋ง์ถ ๋ฌธ์ ๋ ์ ์ธ
KMMLU-Pro
ํ๊ตญ์ ๊ตญ๊ฐ ์ ๋ฌธ ๋ฉดํ์ํ(Korean National Professional Licensure, KNPL)์์ ์ค์ ๋ก ์ํ๋ ์ต์ ์ฐ๋ ์ํ๋ฌธํญ ์ค ๋ค์ง์ ํํ(MCQA, multiple-choice) ๋ฌธํญ์ ์ง์ ์์งํ ๋ฒค์น๋งํฌ๋ก ์ด 2,822๋ฌธํญ ํฌํจ
ํฌํจ๋ ๋ฉดํ ์ข ๋ฅ๋ ์ด 14๊ฐ์ด๋ฉฐ, ๋ถ์ผ๋ ๋ฒ๋ฅ , ํ๊ณ/์ธ๋ฌด, ๊ฐ์ ํ๊ฐ/์ํด์ฌ์ , ์์ฝ ๊ณ์ด(ํ์์ฌ, ์์ฌ, ์น๊ณผ์์ฌ, ์ฝ์ฌ, ํ์ฝ์ฌ), ๊ด์ธ์ฌ ๋ฑ์ด๋ค. (ํ์ผ๋ฟ ๋ฆฌ์คํธ: ๋ฒ๋ฌด์ฌ, ๋ณํธ์ฌ, ๊ณต์ธ๋ ธ๋ฌด์ฌ, ๋ณ๋ฆฌ์ฌ, ๊ณต์ธํ๊ณ์ฌ, ์ธ๋ฌด์ฌ, ๊ด์ธ์ฌ, ์ํด์ฌ์ ์ฌ, ๊ฐ์ ํ๊ฐ์ฌ, ํ์์ฌ, ์น๊ณผ์์ฌ, ์ฝ์ฌ, ํ์ฝ์ฌ, ์์ฌ)
๋ฌธํญ์ ๋ชจ๋ ์ต๊ทผ ์ฐ๋ ์ํ ์ถ์ฒ์ด๋ฉฐ, ํฅํ ์ฐ๊ฐ ๊ฐฑ์ ์ ํตํด ์ต์ ์ํ๋ฌธํญ์ผ๋ก ์ ์ง๋ ๊ณํ์.
ํ ์คํธ ๊ธฐ๋ฐ MCQA๋ง ํฌํจ (์ด๋ฏธ์ง๋ฅผ ํฌํจํ ๋ฌธํญ์ ์ ์ธ)
์ค์ ๋ฉดํ ์ํ ๊ธฐ์ค(pass ๊ธฐ์ค: ๊ฐ ๊ณผ๋ชฉ ์ต์ 40%, ์ ์ฒด ํ๊ท 60% ์ด์, ์ผ๋ถ ๋ฉดํ๋ ์๋ํ๊ฐ ๊ธฐ์ค) ๋ฑ์ ํ๊ฐ ๊ธฐ์ค์ผ๋ก ๋ฐ์ํ์ฌ โLLM์ด ๋ช ๊ฐ ์๊ฒฉ์ํ(pass ๊ธฐ์ค ์ถฉ์กฑ ๊ฐ๋ฅ)โ ์ธ์ง๋ฅผ ์ธก์ ํ ์ ์์.
2.3. ๋ฐ์ดํฐ์
๊ตฌ์ถ ๋ฐฉ๋ฒ (KMMLU-Redux & KMMLU-Pro)
KMMLU-Redux ๊ตฌ์ถ ๊ณผ์
๊ธฐ์กด KMMLU ๋ฐ์ดํฐ์ ์ KNTQ ์ถ์ ๋ฌธํญ ์ ์ฒด์์ ์์
๋ฌธ์ ์ ์ง๋จ: ๋์ค๋ ์ ๋ต(leaked), ๋น์ ํํ notation/ํ๊ธฐ ์ค๋ฅ, ๋ถ๋ช ํํ ๋ฌธํญ ์ ์, ์ฐธ์กฐ ์ค๋ฅ(์ค์ ์กด์ฌํ์ง ์๋ ์๋ฃ ์ฐธ์กฐ) ๋ฑ ์๋ณ ๋ฐ ๋ชฉ๋กํ
manual review: ์ ์๋ค์ด ์ง์ ๋ชจ๋ ํ๋ณด ๋ฌธํญ์ ๊ฒํ ํ์ฌ ๋ฌธ์ ์ ๋ฌธํญ ์ ๊ฑฐ ๋๋ ์์ , ์ ๋งคํ ๋ฌธํญ์ ์ ์ธ
์ํ LLM ๊ธฐ๋ฐ ๋์ด๋ ํํฐ๋ง: ์์ ์ธ๊ธํ 7๊ฐ ์ํ LLM๋ค์ ์ฌ์ฉํด, 4๊ฐ ์ด์ ๋ชจ๋ธ์ด ๋ง์ถ ๋ฌธํญ์ โ๋๋ฌด ์ฌ์ดโ ๋ฌธํญ์ผ๋ก ๊ฐ์ฃผํ๊ณ ์ ์ธํจ โ ๋์ด๋ ์ํฅ ์กฐ์
๋ฌธํญ ๋ฉํ๋ฐ์ดํฐ ์ ์ ๋ฐ ํ์คํ: ์ ํ์ง(option) ๊ฐ์ 4๊ฐ๋ก ํต์ผ, ํ ์คํธ ํ์ ์ค๋ฅ ์์ , ํ๊ธ ํํ ์ค๋ฅยท์คํ์ ๊ต์ ๋ฑ ์ํ
๋ฐ์ดํฐ ๋ถํ : ์ ์ฒด 2,587๋ฌธํญ์ MCQA ํํ๋ก ๊ตฌ์ฑ, ํ๊ฐ์ฉ prompt ๋ฐ exemplar ์ ๊ณต
KMMLU-Pro ๊ตฌ์ถ ๊ณผ์
๋์ ๋ฉดํ์ํ ์ ์ : ํ๊ตญ์ KNPL ์ํ ์ค ์ต๊ทผ ์ฐ๋ ์ํ๋ ๋ฉดํ๋ค ์ค multiple-choice ๋ฌธํญ์ด ์กด์ฌํ๋ ์ํ๋ค (14๊ฐ ๋ฉดํ) ์ ์
๊ณต์ ์ํ ์ถ์ฒ๋ก๋ถํฐ ๋ฌธํญ ์ง์ ์์ง: ๊ฐ ๋ฉดํ ์ํ์ ๊ณต์ ๊ธฐ๊ด ์น์ฌ์ดํธ/๋ฐฐํฌ ์๋ฃ ๋๋ ๊ณต๊ฐ ์ถ์ ๋ฌธ์์์ MCQA ํํ ๋ฌธํญ ํ๋ณด (๊ณต์ ๋ ฅ/์ ํ์ฑ ํ๋ณด)
manual review: ์์ง๋ ๋ฌธํญ์ ๋ํด ์ ์๋ค์ด ์ง์ ๊ฒํ ํ์ฌ ์คํ/ํ๊ธฐ ์ค๋ฅ, ์ ๋งคํ ๋ฌธํญ, ์๋ชป๋ ์ฐธ์กฐ, ์ด๋ฏธ์ง ํฌํจ ๋ฌธ์ ๋ฑ์ ์ ๊ฑฐ. ํนํ ์ด๋ฏธ์ง ๊ธฐ๋ฐ ๋ฌธํญ์ด๋ descriptive/์ฃผ๊ด์ ๋ฌธํญ์ ์ ์ธ๋จ.
pass ๊ธฐ์ค ๋ฐ์: ๊ฐ ๋ฉดํ์ํ์ ๊ณต์ ๊ธฐ์ค (์: ๊ฐ ๊ณผ๋ชฉ ์ต์ ์ ์, ์ ์ฒด ํ๊ท ์ ์ ๊ธฐ์ค, ์๋ํ๊ฐ ๊ธฐ์ค ๋ฑ) ์ ์์งํ์ฌ, ๊ฐ ๋ฌธํญ๋ณ๋ก LLM ์ฑ๋ฅ ๋น๊ต์ ํด๋น ๊ธฐ์ค์ ๋ง์ถ์๋์ง ํ๋จํ ์ ์๋๋ก ๊ตฌ์ฑ.
์ฐ๊ฐ ๊ฐฑ์ ๊ณํ: ํฅํ ์ํ์ฐ๋์ ๋ฐ๋ผ ์ฃผ๊ธฐ์ ์ผ๋ก ๋ฌธํญ์ ๊ฐฑ์ ํ์ฌ ์ต์ ์ฑ์ ์ ์งํ๊ณ dataset contamination (์ด๋ฏธ ์ ํฌ๋ ๋ฌธํญ ํฌํจ ๊ฐ๋ฅ์ฑ) ๋ฆฌ์คํฌ๋ฅผ ๋ฎ์ถค.
2.4. ์คํ ๊ฒฐ๊ณผ ์์ฝ
ํ๊ฐ ๋ฐฉ์
KMMLU-Redux ๋ฐ KMMLU-Pro ๋ชจ๋ few-shot (5-shot) setting์์ English/Korean prompt ์ฌ์ฉ
Direct ๋ฐฉ์ (๊ทธ๋ฆฌ๋ decoding)๊ณผ โThinkingโ(chain-of-thought ํน์ reasoning-enhanced prompt, prompt ๋ด โthinkingโ ๋ฑ)์ ๋น๊ต
ํ๊ฐ ์งํ: ๋จ์ ์ ํ๋(accuracy), ๊ทธ๋ฆฌ๊ณ KMMLU-Pro์ ๊ฒฝ์ฐ LLM์ด pass ์กฐ๊ฑด(๊ฐ ๋ฉดํ์ํ์ ๊ธฐ์ค) ์ถฉ์กฑ ์ฌ๋ถ, pass ํ ์ ์๋ ๋ฉดํ์ํ ๊ฐ์ (# of passed KNPLs) ๋ฑ์ ํจ๊ป ๋ณด๊ณ ํจ
์ฃผ์ ์ฑ๋ฅ ๊ฒฐ๊ณผ (Table 2 ์ฐธ์กฐ)
KMMLU-Redux: ๋ชจ๋ธ๋ณ ์ ํ๋
์: o1(OpenAI ๋ชจ๋ธ) ์ฝ 81.14% ์ ํ๋, Llama-4-Maverick-17B-128E-Instruct 77.58% ๋ฑ ์์๊ถ ๋ชจ๋ธ ์กด์ฌ
Spearman ์์ ์๊ด๊ณ์ ฯ โ 0.995๋ก, KMMLU์ KMMLU-Redux ์ฑ๋ฅ ๋ถํฌ๋ ๋งค์ฐ ์ ์ฌํ์ง๋ง Redux ์ชฝ์ด ๋ค์ ๋ฎ์ ํธ (์ ์ ํ ๋์ด๋ ์์น ๊ฒฐ๊ณผ)
KMMLU-Pro:
์ ํ๋(ํ๊ท micro-accuracy) ๋ฐ pass ๊ฐ์ ๊ธฐ์ค
์: o1 ๋ชจ๋ธ ์ ํ๋ ์ฝ 78.09% (KMMLU-Pro), Claude 3.7 (Thinking ํฌํจ) ์ 12/14 ๋ฉดํ์ํ pass, GPT-4.1 ๋ฑ ์ผ๋ถ ๋ชจ๋ธ์ ์ต๋ 10/14 pass ์ฑ๋ฅ ๋ณด์
์ ํ๋๊ฐ ๋๋๋ผ๋ pass ๊ฐ์ ๋ฉด์์๋ ๊ท ํ ์๊ฒ ๊ณผ๋ชฉ๋ณ ๊ธฐ์ค์ ์ถฉ์กฑํ์ง ๋ชปํด passํ์ง ๋ชปํ๋ ๊ฒฝ์ฐ๋ ์์ (์: ์ผ๋ถ ๋ชจ๋ธ์ ํน์ ๊ณผ๋ชฉ ์ฑ์ ๋ถ์กฑ)
๋ชจ๋ธ๋ณ ๋น๊ต:
์ํ ๋ชจ๋ธ(<10B)์์๋ KMMLU-Redux ๋ฐ KMMLU-Pro ๋ชจ๋ ์ฑ๋ฅ์ด ๋ฎ์ ํธ์ด๊ณ , reasoning-enhanced prompt (โthinkingโ) ์ฌ์ฉ ์ ์ฑ๋ฅ ๊ฐ์ ๊ฒฝํฅ ์์
๋ํ ๋ชจ๋ธ (>70B)์์๋ ์ ํ๋๋ ๋๊ณ pass ๊ฐ์๋ ์๋์ ์ผ๋ก ๋ง์. ์: Qwen3-235B-A22B (w/ thinking) ์ฝ 74.49% ์ ํ๋, 6/14 ๋ฉดํ์ํ pass ๊ฐ๋ฅ
Spearman ์๊ด๊ด๊ณ ๋ถ์ ๋ฑ์ ํตํด, KMMLU-Redux ์ฑ๋ฅ์ด ๋์๋ ๋ชจ๋ธ๋ค์ด ๋์ผํ ์์๋ก KMMLU-Pro์์๋ ๋น๊ต์ ๋์ ์ฑ๋ฅ์ ๋ณด์ด๋ ๊ฒฝํฅ ์์ (์ฆ, benchmark ๊ฐ rank-consistency ์กด์ฌ)
๋ถ์ผ๋ณ ๋ถ์
KMMLU-Redux: ์ฐ์ ยท๊ณตํ ๋ถ์ผ ์ ๋ฐ์ ์ผ๋ก ๋ชจ๋ธ ์ฑ๋ฅ์ด ๋น๊ต์ ์ํธํ๋, ๊ด์ ์์(Mining & Resources), ๊ฑด์ถ(Architecture) ๋ฑ ์ผ๋ถ ๋ถ์ผ์์๋ ์ฑ๋ฅ ์ ํ๊ฐ ๋๋๋ฌ์ง. ์ด๋ ํด๋น ๋ถ์ผ์ ๋ํ ์ฌ์ ํ์ต ๋ฐ์ดํฐ ๋ถ์กฑ ๋ฐ ์ ๋ฌธ์ฉ์ด/์ ๋์ ๋งฅ๋ฝ ๋ถ์กฑ์ด ์์ธ์ผ๋ก ๋ถ์๋จ.
KMMLU-Pro:
์ํ/์ฝํ ๊ณ์ด ๋ฉดํ์ํ(ํ์์ฌ, ์น๊ณผ์์ฌ, ์ฝ์ฌ ๋ฑ)์ many LLM๋ค์ด pass ๊ธฐ์ค (๊ฐ ๊ณผ๋ชฉ ์ต์ 40%, ์ ์ฒดํ๊ท 60%)์ ์ถฉ์กฑํ๋ ๊ฒฝํฅ์ด ์์
๋ฐ๋ฉด, ๋ฒ๋ฅ ๊ด๋ จ ๋ฉดํ์ํ (๋ฒ๋ฌด์ฌ, ๋ณํธ์ฌ, ๊ณต์ธ๋ ธ๋ฌด์ฌ ๋ฑ) ๋ฐ ์ธ๋ฌด/ํ๊ณ ๊ด๋ จ ์ํ์์๋ ์ ๋ฐ์ ์ผ๋ก ๋งค์ฐ ๋ฎ์ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, passํ๊ธฐ ์ด๋ ค์ด ๊ฒฝ์ฐ ๋ง์. ์ด๋ ํ๊ตญ ๋ฒ๋ฅ /์ธ๋ฌด ์ฒด๊ณ์ ํนํ๋ ์ง์ ๋ถ์กฑ ๋๋ฌธ์ด๋ผ๋ ๋ถ์์.
reasoning budget (์ถ๋ก ์๋ ํ์ ๋ฑ) ์ฆ๊ฐ โ ์ ์ฒด ์ ํ๋ ์์น ๊ฒฝํฅ ์กด์ฌ (์: Qwen3, Claude ๋ฑ) ํ์ง๋ง ์ผ๋ถ ๋ฉดํ์์๋ reasoning budget ์ฆ๊ฐ์๋ ์๋ฏธ ์๋ ์ฑ๋ฅ ํฅ์ ์์ (์: Judicial Scrivener, Herb Pharmacist ๋ฉดํ ๋ฑ)
์ถ๊ฐ ๋ถ์
KMMLU-Redux๊ฐ KMMLU ๋๋น ์ ์ ๋ ๋ฐ์ดํฐ์ ์ด๋ฏ๋ก, ์ผ๋ถ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๋ฝํ์ง๋ง (๋์ด๋ ์ํฅ), ๋ชจ๋ธ ๊ฐ ์์(rank correlation)์๋ ํฐ ๋ณํ๊ฐ ์๋ค๋ ์ ์ด ๋๋ฌ๋จ (ฯ โ 0.995)
KMMLU-Pro vs ๋ฒ์ญ ๊ธฐ๋ฐ ๋ฒค์น๋งํฌ ๋น๊ต:
์๋ฅผ ๋ค์ด ํ๊ตญ์ด ๋ฒ์ญ๋ MMLU(Korean subset of MMMLU) ๋๋น KMMLU-Pro์์ ์ฑ๋ฅ ๊ฒฉ์ฐจ๊ฐ ํฐ ๋ถ์ผ๋ ๋ฒ๋ฅ /ํ๊ณ ๊ด๋ จ ๋ถ์ผ์. ๋ฐ๋ฉด ์ํ/์ฝํ ๋ถ์ผ๋ ๋น๊ต์ ๋๋ฉ์ธ ์ง์์ด ๊ตญ์ ์ ์ผ๋ก ์ ์ฌํ ์์ญ์ด๊ธฐ ๋๋ฌธ์ ๊ฒฉ์ฐจ๊ฐ ์๋ค๋ ๋ถ์ ์์.
prompt ์ค๊ณ (โKorean promptโ: โ์ ๋ต์ ๊ณ ๋ฅด์ธ์ โฆ ๋น์ ์ ์ต์ข ์ ๋ต์ ABCD ์ค ํ๋์ด๊ณ , โ์ ๋ต:โ ๋ค์ ์์ผ ํฉ๋๋ค. ์ฐจ๊ทผ์ฐจ๊ทผ ์๊ฐํ๊ณ ์ถ๋ก ํ์ธ์.โ) ๋ฑ์ด ๋ชจ๋ ํ๊ฐ์์ ๋์ผํ๊ฒ ์ ์ฉ๋จ, ์ด๋ฅผ ํตํด ๋ชจ๋ธ๋ณ ๋น๊ต๊ฐ ๊ณต์ ํ๊ฒ ์ด๋ฃจ์ด์ง.
3. KMMLU vs KMMLU-Redux vs KMMLU-Pro ๋น๊ต ์์ฝ
๊ฐ๋ฐ ๋ฐฐ๊ฒฝ
๋ฒ์ญ ๊ธฐ๋ฐ ๋ฒค์น๋งํฌ์ ํ๊ณ(์ธ์ด ์์ฐ์ฑยท๋ฌธํ์ ๋งฅ๋ฝ ๋ถ์กฑ) ๊ทน๋ณต
KMMLU ํ์ง ๋ฌธ์ (๋์ค, ์ค๋ฅ, ์ฌ์ด ๋ฌธํญ) ๋ณด์
์ค์ ์ ๋ฌธ ๋ฉดํ์ํ ๊ธฐ๋ฐ์ผ๋ก ์ค๋ฌด/์ฐ์ ์์ฉ ํ๊ฐ
๋ฐ์ดํฐ ๊ท๋ชจ
35,030 test ๋ฌธํญ (์ด 243k ๋ฌธํญ ํฌํจ)
2,587๋ฌธํญ
2,822๋ฌธํญ
์ถ์ฒ
PSAT, ํ๊ตญ ๋ฉดํ์ํ(KNTQ), CSAT ๋ฑ 533๊ฐ ์ถ์ฒ
KMMLU ์ค KNTQ ๊ด๋ จ ๋ฌธํญ ์ ์
ํ๊ตญ ๊ตญ๊ฐ ์ ๋ฌธ ๋ฉดํ์ํ(KNPL, ๋ณํธ์ฌยท์์ฌยท์ฝ์ฌ ๋ฑ 14์ข )
๋ถ์ผ
45๊ณผ๋ชฉ (STEM, ์ธ๋ฌธยท์ฌํ, ์์ฉ๊ณผํ, ๊ธฐํ)
์ฐ์ ยท๊ณตํ ์ค์ฌ (๋๋ฆผ์ด์ , ์ ๊ธฐ์ ์, ๊ธฐ๊ณ, ํ๊ฒฝ์๋์ง ๋ฑ)
๋ฒ๋ฅ , ํ๊ณยท์ธ๋ฌด, ๊ฐ์ ํ๊ฐ, ์ํด์ฌ์ , ์์ฝ ๊ณ์ด ๋ฑ
ํน์ง
ํ๊ตญ์ด ์๋ฌธ ์ํ ๊ธฐ๋ฐ, ์ธ๊ฐ ์ ์ ์ฐธ์กฐ, HARD subset ์ ๊ณต
์ฌ์ด ๋ฌธํญ ์ ๊ฑฐ (์ํ LLM 7๊ฐ ์ค 4๊ฐ ์ด์ ๋ง์ถ ๋ฌธํญ ์ ์ธ), ์ ์ /๋์ด๋ ์ํฅ
์ต์ ์ฐ๋ ์ํ๋ฌธํญ, pass ๊ธฐ์ค ๋ฐ์, ์ฐ๊ฐ ๊ฐฑ์ ๊ณํ
๊ตฌ์ถ ๋ฐฉ๋ฒ
37๋งโ24๋ง ํํฐ๋ง, parsing/์ค๋ณต ์ ๊ฑฐ, human ์ฑ์ ํ๋ณด, CoT exemplar ์ ์, ์ ์๊ถ/์ค๋ฅ ์์
KMMLU ๋ฌธํญ manual review + ์ํ LLM ๋์ด๋ ํํฐ๋ง + ์ ์
KNPL ์ํ MCQA ์ง์ ์์ง, manual review, ์ด๋ฏธ์ง ๋ฌธํญ ์ ์ธ, pass ๊ธฐ์ค ๋ฐ์
ํ๊ฐ ๋ฐฉ์
5-shot, Direct vs CoT
5-shot, Direct vs Thinking
5-shot, Direct vs Thinking, pass ๊ฐ์ ์ธก์
์ฃผ์ ๊ฒฐ๊ณผ
GPT-4 ์ฝ 60%, HyperCLOVA X ~53%, Llama-2 70B ~40%
์์ ๋ชจ๋ธ ์ ํ๋ ~77โ81%, ๊ธฐ์กด KMMLU ๋๋น ๋ค์ ๋ฎ์(๋์ด๋โ)
์์ ๋ชจ๋ธ ์ ํ๋ 74โ78%, ์ผ๋ถ ๋ชจ๋ธ์ 1012๊ฐ ๋ฉดํ์ํ pass ๊ฐ๋ฅ
์์
ํ๊ตญ์ด ๊ณ ์ ๋ฒค์น๋งํฌ ์ ์, ๋ค๊ตญ์ด ๋ชจ๋ธ > ํ๊ตญ์ด ํนํ ๋ชจ๋ธ ํ์ ๋ฐ๊ฒฌ
ํ์ง ๋ฌธ์ ์ ๊ฑฐยท๋์ด๋ ์กฐ์ ์ผ๋ก ์ ๋ขฐ์ฑโ
์ค๋ฌด ์ ๋ฌธ์ฑ ํ๊ฐ, LLM์ ์ค์ ์๊ฒฉ์ํ ํต๊ณผ ๊ฐ๋ฅ์ฑ ์ธก์
4. Korean Benchmark Results
KMMLU๋ 5-shot Direct, Redux/Pro๋ ๋ ผ๋ฌธ ๊ธฐ๋ณธ ์ธํ (๋์ฒด๋ก zero-shot CoT, ์ผ๋ถ ์์ด ํ๋กฌํํธ ์ ํ) ๊ธฐ์ค
KMMLU(ํ์ ยท์ฐ์ ์ ๋ฐ)์์ GPT-4 โ 60%, HyperCLOVA X โ 53%, Qwen-72B โ 51%๋ก ์ฌ์ง ์กด์ฌ
Redux์ Pro์์ o1/Claude/GPT-4.1๊ธ์ด ์์๊ถ์ด๋ฉฐ, Claude 3.7(Thinking)์ด 12/14 ๋ฉดํ ํฉ๊ฒฉ์ผ๋ก ์ต๋ค
SLM์ ์๋ฃ ๊ณ์ด์์ ์ผ๋ถ ํฉ๊ฒฉ ์ฌ๋ก๊ฐ ์์ผ๋, ๋ฒยท์ธ๋ฌด ๊ณ์ด์ ์ ๋ฐ์ ์ผ๋ก ๋ํญ.
Accuracy Summary
LLM
GPT-4
59.95
โ
โ
โ
GPT-4.1
โ
75.86
72.99
10 / 14
o1
โ
81.14
78.09
10 / 14
o3
โ
79.92
73.60
9 / 14
o4-mini
โ
75.80
69.65
6 / 14
Claude 3.7 Sonnet
โ
76.88
74.52
10 / 14
Claude 3.7 (Thinking)
โ
79.36
77.70
12 / 14 โ ์ต๋ค ํฉ๊ฒฉ
Grok-3
โ
72.90
โ
โ
Grok-3-mini
โ
71.47
โ
โ
HyperCLOVA X
53.40
โ
โ
โ
Gemini Pro
50.18
โ
โ
โ
Qwen-72B
50.83
โ
โ
โ
Llama-2-70B
40.28
โ
โ
โ
์ถ์ฒ: KMMLU ๋ณธ๋ฌธ Table 3(ํ๊ท ์ ํ๋) , KMMLU-Redux/Pro ๋ณธ๋ฌธ Table 2(์ ํ๋ยทํฉ๊ฒฉ ์)
SLM
Qwen3-8B (Thinking)
58.79
55.27
3 / 14
Qwen3-8B
49.25
46.92
1 / 14
Gemma 3 12B IT
46.70
45.82
2 / 14
Phi-4 (14B)
49.75
45.32
1 / 14
Llama 3.1 8B Instruct
31.89
33.81
0 / 14
Gemma 3 4B IT
25.09
32.86
0 / 14
Llama 3.2 3B Instruct
17.59
25.53
0 / 14
Ko-R1-7B-v2.1
41.94
38.70
1 / 14
์ฐธ๊ณ : ReduxโPro ์ฑ์ /์์ ์๊ด ๋์(ฯโ0.995)
4.2. ๋๋ฉ์ธ๋ณ ์ฑ๋ฅ ๊ฒฝํฅ

์ํยท์ฝํ ๊ณ์ด: ์ต์ ๋ํ LLM๋ค์ pass ๊ธฐ์ค ์ถฉ์กฑ โ ์ค์ ์ค๋ฌด ํ์ฉ ๊ฐ๋ฅ์ฑ โ
๋ฒ๋ฅ ยท์ธ๋ฌดยทํ๊ณ ๊ณ์ด: ์ฌ์ ํ ๋ฎ์ ์ฑ๋ฅ์ผ๋ก ๋๊ณต๋ถ๋ฝ โ ํ๊ตญ ํนํ ๋ฒ๋ นยท์ ๋ ์ง์ ๋ถ์กฑ
Redux(์ฐ์ ๊ธฐ์ ): ๋์ด๋ ๊ฐํ โ ๊ด์ /๊ฑด์ถ/์์ ๊ด๋ฆฌ ๋ถ์ผ์์ ์ฑ๋ฅ ๊ฒฉ์ฐจ ํ๋
SLM: ์ผ๋ถ ์์ฝ ๋ถ์ผ ์ ์ธ, pass ์ฑ์ ๊ฑฐ์ ๋ถ๊ฐ๋ฅ
KMMLU
STEM (์ํยท๋ฌผ๋ฆฌยท๊ณตํ ๋ฑ)
GPT-4: ํ๊ท 59.7% (์ํ/ํํ์ ์๋์ ์ผ๋ก ๋ฎ๊ณ , ์๋ฌผ/์ง๊ตฌ๊ณผํ์ ๋น๊ต์ ์ํธ)
LLaMA-2-70B: ์ฝ 40%
ํ๊ตญ์ด ํนํ Polyglot-Ko: 29% (STEM ์ ์ฒด ๋ํญ)
์ธ๋ฌธยท์ฌํ (์ญ์ฌ, ์ ์น, ๊ฒฝ์ ๋ฑ)
GPT-4: 62~65% (ํ๊ตญ์ฌ ๋ฑ ํ๊ตญ ํนํ ๊ณผ๋ชฉ์ ์ฌ์ ํ ๋ฎ์)
HyperCLOVA X: ์ฝ 53%
Gemini Pro: 50% ์ ํ
์์ฉ๊ณผํ (๋ฒ๋ฅ ยทํ๊ณยท์ํ ๊ด๋ จ ์๊ฒฉ์ํ ๊ณผ๋ชฉ)
GPT-4: 55% ๋ด์ธ (๋ฒ๋ฅ ยท์ธ๋ฌด ๋ฎ์, ๋ณด๊ฑด๊ณ์ด ์๋์ ์ผ๋ก ๋์)
ํ๊ตญ์ด ํนํ ๋ชจ๋ธ: ์ฌ์ ํ ๋ฎ์ (๋๋ค ์ถ์ธก๋ณด๋ค ์ฝ๊ฐ ๋์ ์์ค)
KMMLU-Redu
์ ๊ธฐ์ ์ / ๊ธฐ๊ณ / ๊ฑด์ค / ํ๊ฒฝ์๋์ง
๋ํ ๋ชจ๋ธ(o1, Claude 3.7, GPT-4.1): 70~80%๋ ์ ํ๋
์ค์ํ ๋ชจ๋ธ(Qwen-8B, Gemma-12B): 40~55%๋
์ด์ํ ๋ชจ๋ธ(Llama-3.2 3B): 20% ์ดํ
๊ด์ ์์ / ๊ฑด์ถ / ์์ ๊ด๋ฆฌ
์ ์ฒด์ ์ผ๋ก ์ฑ๋ฅ ์ ํ ๋๋๋ฌ์ง
์: Claude 3.7 Sonnet๋ 60% ๋ฏธ๋ง, ์ํ ๋ชจ๋ธ์ 30% ์ดํ
์ํ๊ฐ๊ณต / ๋๋ฆผ์ด์
์์ ๋ชจ๋ธ(o1, GPT-4.1)์ 75% ์ด์
SLM์ 40% ์ ํ
KMMLU-Pro
์์ฝ ๊ณ์ด (์์ฌยท์น๊ณผยทํ์์ฌยท์ฝ์ฌยทํ์ฝ์ฌ)
Claude 3.7 (Thinking): ํฉ๊ฒฉ ๊ฐ๋ฅ (pass ๊ธฐ์ค ์ถฉ์กฑ)
GPT-4.1, o1: ๋์ฒด๋ก 70% ์ด์, pass ๊ฐ๋ฅ
์ผ๋ถ SLM(Qwen-8B, Gemma-12B): ์ฝ์ฌยทํ์ฝ์ฌ์์ ์ ํ์ ์ผ๋ก pass
๋ฒ๋ฅ ๊ณ์ด (๋ณํธ์ฌยท๋ฒ๋ฌด์ฌยท๊ณต์ธ๋ ธ๋ฌด์ฌยท๋ณ๋ฆฌ์ฌ)
๋๋ถ๋ถ์ ๋ชจ๋ธ์ด ๋ฎ์ ์ฑ์ (40~55%)
pass ๊ธฐ์ค(๊ณผ๋ชฉ๋ณ 40% ์ด์, ์ ์ฒด ํ๊ท 60%) ์ถฉ์กฑ ์ด๋ ค์
o1, Claude 3.7๋ ๋ฒ๋ฅ ๊ณ์ด ํฉ๊ฒฉ์ ๊ฑฐ์ ์คํจ
ํ๊ณ/์ธ๋ฌด/๊ด์ธ/๊ฐ์ ํ๊ฐยท์ํด์ฌ์
๋ํ ๋ชจ๋ธ๋ 55~65%๋ โ ํฉ๊ฒฉ ๊ธฐ์ค ์ถฉ์กฑ ์ด๋ ค์
์ธ๋ฌด์ฌ/ํ๊ณ์ฌ ์ํ์ ๊ฑฐ์ ๋ชจ๋ ๋ชจ๋ธ์ด ์คํจ
๊ด์ธ์ฌ/์ํด์ฌ์ ์ฌ/๊ฐ์ ํ๊ฐ์ฌ
GPT-4.1, Claude 3.7์ ์ผ๋ถ ์ํ ํฉ๊ฒฉ ๊ฐ๋ฅ์ฑ
SLM์ ๊ฑฐ์ ์ ๋ถ ํ๋ฝ
References
KMMLU-Redux & KMMLU-Pro: https://arxiv.org/pdf/2507.08924
Last updated