[Paper review] KMMLU/KMMLU-Redux/KMMLU-Pro Dataset

1. KMMLU


1.1. ๋ฐ์ดํ„ฐ์…‹ ๊ฐœ์š” ๋ฐ ๊ฐœ๋ฐœ ๋ฐฐ๊ฒฝ

  • KMMLU๋Š” ํ•œ๊ตญ์–ด๋กœ ๋œ ์ „๋ฌธ๊ฐ€ ์ˆ˜์ค€์˜ ๋‹ค์ค‘ ์„ ํƒํ˜• ๋ฌธ์ œ (multiple-choice questions) ๋ฒค์น˜๋งˆํฌ๋กœ, ์ด 35,030๊ฐœ์˜ ์งˆ๋ฌธ์„ ํฌํ•จํ•˜๋ฉฐ 45๊ฐœ ๊ณผ๋ชฉ(์ธ๋ฌธ/์‚ฌํšŒ, STEM, ์‘์šฉ๊ณผํ•™, ๊ธฐํƒ€)์— ๊ฑธ์ณ ์žˆ์Œ

  • ๊ธฐ์กด์˜ ํ•œ๊ตญ์–ด ๋ฒค์น˜๋งˆํฌ๋“ค์ด ์ฃผ๋กœ ์˜์–ด ๊ธฐ๋ฐ˜ ๋ฒค์น˜๋งˆํฌ(MMLU ๋“ฑ)๋ฅผ ๋ฒˆ์—ญํ•œ ๊ฒƒ์ด์—ˆ๊ณ , ๋ฒˆ์—ญ ์‹œ ๋ฌธ์žฅ ์ž์—ฐ์„ฑ ์ €ํ•˜, ๋ฌธํ™”์ /์ œ๋„์  ๋ฌธ๋งฅ ๋ฏธ๋ฐ˜์˜, ๋ฒˆ์—ญ ์˜ค๋ฅ˜ ๊ฐ€๋Šฅ์„ฑ ๋“ฑ์˜ ํ•œ๊ณ„๊ฐ€ ์กด์žฌํ•œ๋‹ค๋Š” ์ ์ด ๋™๊ธฐ

  • ๋”ฐ๋ผ์„œ ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ์›๋ฌธ ํ•œ๊ตญ์–ด ์‹œํ—˜(์˜ˆ: ๊ณต๋ฌด์› PSAT, ํ•œ๊ตญ ๋ฉดํ—ˆ์‹œํ—˜(Korean License Tests), ๋Œ€ํ•™์ˆ˜ํ•™๋Šฅ๋ ฅ์‹œํ—˜(CSAT) ๋“ฑ)์—์„œ ์ง์ ‘ ์ˆ˜์ง‘ํ•˜์—ฌ, ํ•œ๊ตญ์–ด ๊ณ ์œ ์˜ ์–ธ์–ด์ ยท๋ฌธํ™”์  ๋งฅ๋ฝ์„ ๋ฐ˜์˜ํ•˜๊ณ  ๋ฒˆ์—ญ ๊ธฐ๋ฐ˜ ํŽธํ–ฅ์„ ํ”ผํ•˜๊ณ ์ž ํ•จ.

  • ๋˜ํ•œ, ๊ณต๊ฐœ๋œ ํ‰๊ฐ€ ์ฝ”๋“œ(evaluation harness)๋ฅผ EleutherAI์˜ LM-Eval-Harness์™€ ์—ฐ๋™ํ•˜์—ฌ ๊ณต๊ฐœํ•จ์œผ๋กœ์จ reproducibility ํ™•๋ณด

1.2. ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์„ฑ

  • ์ด 35,030๊ฐœ์˜ ํ…Œ์ŠคํŠธ ์งˆ๋ฌธ, ์ „์ฒด ๋ฐ์ดํ„ฐ ์ˆ˜๋Š” ์•ฝ 243,777๊ฐœ (train + validation + test)

  • ๋ถ„์•ผ๋ณ„ ๊ตฌ์„ฑ์€ 45๊ณผ๋ชฉ: STEM (์ž์—ฐ๊ณผํ•™/๊ธฐ์ˆ /๊ณตํ•™/์ˆ˜ํ•™), ์‘์šฉ๊ณผํ•™ (์˜ˆ: ํ•ญ๊ณต๊ณตํ•™, ๊ฐ€์Šค ๊ธฐ์ˆ  ๊ณตํ•™, ์ง€์ ์ œ๋„ ๋“ฑ ์‚ฐ์—…๊ด€๋ จ ๊ณผ๋ชฉ), HUMSS (์ธ๋ฌธยท์‚ฌํšŒ ๊ด€๋ จ ๊ณผ๋ชฉ: ์—ญ์‚ฌ, ์‹ฌ๋ฆฌ, ํšŒ๊ณ„, ์ •์น˜์‚ฌํšŒ ๋“ฑ), ๊ธฐํƒ€ ๊ณผ๋ชฉ (๋ฌธํ™”, ์‹ํ’ˆ๊ฐ€๊ณต, ๋†์—…๊ณผํ•™, ๊ฑด๊ฐ• ๋“ฑ)

  • human accuracy data (์‹ค์ œ ์‘์‹œ์ž ์„ฑ์ )๋„ ํ™•๋ณด ๊ฐ€๋Šฅํ•œ ์‹œํ—˜๋“ค(์ „์ฒด์˜ ์•ฝ 90%)๋กœ๋ถ€ํ„ฐ ์ˆ˜์ง‘ํ•˜์˜€์œผ๋ฉฐ, ํ‰๊ท  ์ธ๊ฐ„ ์ •ํ™•๋„๋Š” ์•ฝ 62.6%์ด๋‹ค.

  • ํ†ต์ƒ ๋ฉดํ—ˆ์‹œํ—˜(pass ๊ธฐ์ค€ 80% ์ด์ƒ), PSAT ํ‰๊ท  ํ•ฉ๊ฒฉ์ž ์ ์ˆ˜ ์•ฝ 83.7% ๋“ฑ์„ ์ฐธ์กฐํ•˜์—ฌ, KMMLU ์ƒ์—์„œ 80% ์ด์ƒ ์„ฑ์ ์„ ๋‚ด๋Š” ๊ฒƒ์€ ์ธ๊ฐ„ ์ „๋ฌธ๊ฐ€ ์ˆ˜์ค€์— ๊ทผ์ ‘ํ•œ ์„ฑ๋Šฅ์œผ๋กœ ๊ฐ„์ฃผํ•  ์ˆ˜ ์žˆ๋‹ค.

  • ๋ฐ์ดํ„ฐ ๋ถ„ํ• ์€ train (208,522), validation (225, few-shot exemplar์šฉ), test (35,030)

  • few-shot exemplars: ๊ฐ subject๋งˆ๋‹ค 5๋ฌธ์ œ์”ฉ CoT (chain-of-thought) reasoning exemplar ํ™•๋ณด (์ด 225 exemplars)

1.3. ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ• ๋ฐฉ๋ฒ•

  • ์ถœ์ฒ˜: 533๊ฐœ์˜ ๋‹ค์–‘ํ•œ ์‹œํ—˜ ์ถœ์ฒ˜ (PSAT, Korean License Tests, CSAT)์—์„œ ์ž๋™ ํฌ๋กค๋ง์„ ํ†ตํ•ด ์ดˆ๊ธฐ 371,002๋ฌธํ•ญ ์ˆ˜์ง‘.

  • ํ›„์ฒ˜๋ฆฌ ํ•„ํ„ฐ๋ง ๋ฐ ์ •์ œ:

    • parsing ์˜ค๋ฅ˜, ์ค‘๋ณต ์งˆ๋ฌธ ์ œ๊ฑฐ, ๋น„์ •์ƒ ์˜ต์…˜ ๊ฐœ์ˆ˜(4๊ฐœ ๋ฏธ๋งŒ ํ˜น์€ 4๊ฐœ ์ดˆ๊ณผ) ์กฐ์ •, stopwords/regex, model-based classifier ๋“ฑ์„ ํ™œ์šฉํ•œ ํ•„ํ„ฐ๋ง ์ ์šฉ โ†’ ์•ฝ 34% ๊ฐ์†Œ (371,002 โ†’ 243,777)

    • ์ค‘๋ณต์„ฑ ๋†’์€ ๋ฌธ์ œ(์˜ˆ: ๊ณ„์ ˆ๋ณ„ ๋ฐ˜๋ณต ์ถœ์ œ๋˜๋Š” ๋ฌธ์ œ ๋“ฑ) ์ œ๊ฑฐ

    • ์ธ๊ฐ„ ์‘์‹œ์ž ์„ฑ๊ณผ ๋ฐ์ดํ„ฐ ํ™•๋ณด ๊ฐ€๋Šฅํ•œ ์‹œํ—˜ ์ค‘์‹ฌ์œผ๋กœ ์„ ๋ณ„; ์‘๋‹ต ๋ถ„ํฌ, ๋‚œ์ด๋„ ๊ณ ๋ ค

  • ์ €์ž‘๊ถŒ ๊ฒ€ํ†  ๋ฐ ๋‚ด์šฉ ๊ต์ •:

    • Test ๋ฐ Validation ์„ธํŠธ์— ๋Œ€ํ•ด manual review ์ˆ˜ํ–‰ํ•˜์—ฌ ์ €์ž‘๊ถŒ ๋ฌธ์ œ๊ฐ€ ์žˆ๋Š” ๋ฌธํ•ญ ์ œ๊ฑฐ (147๋ฌธ์ œ ๋Œ€์ฒด) ๋ฐ ์˜ค๋ฅ˜ ๋ฐœ๊ฒฌ๋œ 741๋ฌธ์ œ ์ˆ˜์ • (์ปค๋ฎค๋‹ˆํ‹ฐ ํ”ผ๋“œ๋ฐฑ ๊ธฐ๋ฐ˜)

  • ๋ฐ์ดํ„ฐ ๋ˆ„์ˆ˜(leakage) ๊ฐ€๋Šฅ์„ฑ ๊ฒ€ํ† : Xu et al.(2024) ๋ฐฉ์‹; Alpaca-Eval (https://github.com/tatsu-lab/alpaca_eval) ์— ๋”ฐ๋ผ benchmark leakage ๋ถ„์„ ์ˆ˜ํ–‰ โ†’ open/proprietary ๋ชจ๋ธ ๋ชจ๋‘ KMMLU ์งˆ๋ฌธ์„ recallํ•˜์ง€ ๋ชปํ•จ โ†’ ๋ฐ์ดํ„ฐ ๋ˆ„์ˆ˜ ๊ฐ€๋Šฅ์„ฑ ๋‚ฎ์Œ ํŒ๋‹จ๋จ

  • CoT exemplars ์ƒ์„ฑ:

    • GPT-4, HyperCLOVA X ๋‘ LLM, zero-shot CoT ๋ฐ browsing-augmented CoT prompt ๋ฐฉ์‹ ์ ์šฉ

    • ๊ฐ input์— ๋Œ€ํ•ด 4 ร— 10๊ฐ€์ง€ reasoning path (2 LLM ร— 2 prompting ๋ฐฉ์‹ ร— oversample 10) ์ƒ์„ฑ โ†’ self-consistency๋กœ majority vote โ†’ ์ƒ์œ„ 4๊ฐœ rationales ์„ ๋ณ„ โ†’ ์ €์ž manually ๊ฒ€ํ†  โ†’ ๊ฐ ๋ฌธํ•ญ๋งˆ๋‹ค 2๋ช…์˜ ๊ฒ€ํ† ์ž ๋ฐฐ์น˜, ์•ฝ 87% ์ผ์น˜์œจ ํ›„ ๋ฐ˜๋ณต ๊ฒ€์ฆํ•˜์—ฌ ์ตœ์ข… ์„ ์ •

  • HARD subset (KMMLU-HARD):

    • GPT-3.5 TURBO, GEMINI PRO, HYPERCLOVA X, GPT-4 ์ค‘ ์ ์–ด๋„ ํ•œ ๊ฐœ ์ด์ƒ์˜ ๋ชจ๋ธ์ด ํ‹€๋ฆฐ ๋ฌธํ•ญ์„ ๋Œ€์ƒ์œผ๋กœ, ๊ฐ ๊ณผ๋ชฉ๋‹น ์ตœ์†Œ 23~100๋ฌธํ•ญ์”ฉ ๊ท ๋“ฑ ๋ถ„๋ฐฐํ•˜์—ฌ ์ด 4,104๋ฌธํ•ญ ๊ตฌ์„ฑ

1.4. ์‹คํ—˜ ๊ฒฐ๊ณผ ์š”์•ฝ

  • ํ‰๊ฐ€ ๋ฐฉ์‹: 5-shot few-shot setting, Direct prompting (greedy decoding) vs CoT prompting (chain-of-thought) ๋น„๊ต

  • ํ‰๊ฐ€ ๋ชจ๋ธ: ์ด 27๊ฐœ ๋ชจ๋ธ (๋‹ค๊ตญ์–ด ์‚ฌ์ „ํ•™์Šต ๋ชจ๋ธ, ๋‹ค๊ตญ์–ด ์ฑ— ๋ชจ๋ธ, ํ•œ๊ตญ์–ด ์‚ฌ์ „/๊ณ„์† ํ•™์Šต ๋ชจ๋ธ, ์ƒ์—…์šฉ LLM ํฌํ•จ)

  • ์ฃผ์š” ์„ฑ๋Šฅ ๊ฒฐ๊ณผ (Direct, 5-shot):

    • ๋‹ค๊ตญ์–ด pretrained ๋ชจ๋ธ ์˜ˆ์‹œ: LLAMA-2-70B 40.28%, Qwen-72B ์•ฝ 50.83%

    • ํ•œ๊ตญ์–ด pretrained ๋ชจ๋ธ: POLYGLOT-KO-12.8B 29.26% ์ˆ˜์ค€ (๊ธฐ๋ณธ ์ˆ˜์ค€, ๋žœ๋ค ์ถ”์ธก 25% ๋Œ€๋น„ ์•ฝ๊ฐ„ ์šฐ์œ„)

    • Continual pretrained ๋ชจ๋ธ: YI-KO-34B ์•ฝ 50.46% ์ˆ˜์ค€

    • ์ƒ์—…์šฉ/ํ”„๋กœํ”„๋ผ์ด์–ดํ„ฐ๋ฆฌ ๋ชจ๋ธ: GPT-4 ์ตœ๊ณ  59.95%, HYPERCLOVA X ์•ฝ 53.40% ๋“ฑ

  • CoT prompting์˜ ํšจ๊ณผ:

    • ์ผ๋ถ€ ๋ชจ๋ธ (ํŠนํžˆ HYPERCLOVA X)๋Š” CoT ์‚ฌ์šฉ ์‹œ ์„ฑ๋Šฅ ํ–ฅ์ƒ (์˜ˆ: KMMLU-HARD subset ์—์„œ Direct ๋Œ€๋น„ CoT ํ‰๊ท  17.06% โ†’ 27.11%)

    • ๋‹ค๋งŒ, ๋ชจ๋“  ๋ชจ๋ธ์—์„œ CoT๊ฐ€ ์ผ๊ด€๋˜๊ฒŒ ๊ฐœ์„ ์„ ๋ณด์ด๋Š” ๊ฒƒ์€ ์•„๋‹ˆ๋ฉฐ, ์ผ๋ถ€์—์„œ๋Š” ์˜คํžˆ๋ ค ์„ฑ๋Šฅ ํ•˜๋ฝ (์˜ˆ: Qwen-72B-Chat ๋“ฑ)๋„ ๊ด€์ฐฐ๋จ

  • ๊ทœ๋ชจ/์ปดํ“จํŒ…๊ณผ ์„ฑ๋Šฅ ์ƒ๊ด€๊ด€๊ณ„:

    • ๋” ํฐ ํŒŒ๋ผ๋ฏธํ„ฐ ๋ชจ๋ธ, ๋งŽ์€ compute/training tokens์„ ์‚ฌ์šฉํ•œ ๋ชจ๋ธ์ด ๋Œ€์ฒด๋กœ ๋” ๋†’์€ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์คŒ (scaling effect)

  • ํ•œ๊ตญ์–ด-ํŠนํ™” ๋ชจ๋ธ ๋Œ€๋น„ ๋‹ค๊ตญ์–ด ๋ชจ๋ธ์˜ ์ƒ๋Œ€์  ์šฐ์œ„:

    • POLYGLOT-KO ๋“ฑ์˜ ํ•œ๊ตญ์–ด ํŠนํ™” ๋ชจ๋ธ์ด ๊ธฐ๋Œ€๋งŒํผ ์„ฑ๋Šฅ์ด ๋†’์ง€ ์•Š์€ ๋ฐ˜๋ฉด, ์˜์–ด/์ค‘๊ตญ์–ด ์ค‘์‹ฌ์œผ๋กœ ํ•™์Šต๋œ ํฐ ๋‹ค๊ตญ์–ด ๋ชจ๋ธ(LLAMA-2, YI, Qwen ๋“ฑ)์ด ์˜คํžˆ๋ ค ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ๋Š” ๊ฒฝํ–ฅ ์žˆ์Œ. ์ด๋Š” ํ•™์Šต ๋ฐ์ดํ„ฐ๋Ÿ‰/compute ์˜ˆ์‚ฐ์˜ ์ฐจ์ด๊ฐ€ ํฌ๊ธฐ ๋•Œ๋ฌธ์ด๋ผ๊ณ  ๋ถ„์„๋จ

  • ๋ถ„์„ ๊ฒฐ๊ณผ:

    • KMMLU์˜ ๋ฌธ์ œ๋Š” 86.1%๊ฐ€ ์ž์—ฐ์Šค๋Ÿฌ์šด ํ•œ๊ตญ์–ด ํ‘œํ˜„(natural phrasing), 20.4%๊ฐ€ ํ•œ๊ตญ ๊ณ ์œ ์˜ ๋ฌธํ™”/์ œ๋„/๋ฒ•๋ฅ  ์ง€์‹(korean-specific knowledge)์„ ์š”๊ตฌํ•˜๋ฉฐ, ๋ฒˆ์—ญ๋œ MMLU ๋Œ€๋น„ ๋” ๋ฌธํ™”์ ์œผ๋กœ ์ ํ•ฉํ•˜๋‹ค๋Š” ํ‰๊ฐ€๋จ

    • KMMLU-HARD subset์—์„œ CoT prompting์˜ ํšจ๊ณผ๋ฅผ ๋ณ„๋„๋กœ ๋ถ„์„, HYPERCLOVA X๋Š” CoT๊ฐ€ ๋ช…ํ™•ํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์ธ ๋ฐ˜๋ฉด ๋‹ค๋ฅธ ๋ชจ๋ธ์€ ๊ณผ๋ชฉ์— ๋”ฐ๋ผ ์„ฑ๋Šฅ ํŽธ์ฐจ๊ฐ€ ์žˆ์Œ

2. KMMLU-Redux & KMMLU-Pro


2.1. ๋ฐ์ดํ„ฐ์…‹ ๊ฐœ์š” ๋ฐ ๊ฐœ๋ฐœ ๋ฐฐ๊ฒฝ

  • ๊ธฐ์กด KMMLU๊ฐ€ ๊ฝค ๊ทœ๋ชจ๊ฐ€ ํฌ๊ณ  ์ดˆ๋“ฑํ•™๊ต๋ถ€ํ„ฐ ๋Œ€ํ•™ ์ˆ˜์ค€๊นŒ์ง€์˜ ์ผ๋ฐ˜ ์ง€์‹์„ ํ‰๊ฐ€ํ•จ์œผ๋กœ์จ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ๋ฅผ ํฌ๊ด„ํ•˜์ง€๋งŒ, ์‹ ๋ขฐ์„ฑ ๋ฌธ์ œ์™€ ๋ฐ์ดํ„ฐ ๋ฐ์ดํ„ฐ ๋ˆ„์ˆ˜ ๋ฆฌ์ŠคํŠธ์™€ ๊ฐ™์€ ํ•œ๊ณ„๊ฐ€ ์กด์žฌํ•จ.

    1. ์ผ๋ถ€ ๋ฌธํ•ญ์—์„œ ๋ˆ„์„ค๋œ ๋‹ต๋ณ€(leaked answers), ๋ถˆ๋ถ„๋ช…ํ•œ ๋ฌธ์ œ ์ •์˜, ์ž˜๋ชป๋œ ํ‘œ๊ธฐ/notation ์˜ค๋ฅ˜ ๋“ฑ ํ’ˆ์งˆ ๋ฌธ์ œ ์กด์žฌ

    2. KMMLU์˜ ์—ฌ๋Ÿฌ ๋ฌธํ•ญ์ด ํ•™์Šต์šฉ ๋Œ€๊ทœ๋ชจ ์ฝ”ํผ์Šค ๋˜๋Š” ์›น์— ์ด๋ฏธ ์œ ํฌ๋œ ๊ฐ€๋Šฅ์„ฑ โ€” ๋ฐ์ดํ„ฐ ๋ˆ„์ˆ˜(contamination) ๋ฆฌ์Šคํฌ ์กด์žฌ

    3. KMMLU๋Š” ํ•™๋ฌธ/์‚ฐ์—… ๊ด€๋ จ ์‹œํ—˜ ๋“ฑ์„ ๋‹ค์–‘ํ•˜๊ฒŒ ํฌํ•จํ•˜์ง€๋งŒ, โ€œ์‹ค์ œ ์‚ฐ์—… ์‘์šฉ(professional/industrial)โ€ ์ˆ˜์ค€์˜ ์ „๋ฌธ ์ž๊ฒฉ์‹œํ—˜(professional licensure exams)๋ฌธํ•ญ์€ ์ถฉ๋ถ„ํžˆ ๋ฐ˜์˜ํ•˜์ง€ ๋ชปํ•จ (ํŠนํžˆ ๋งค์šฐ ์ „๋ฌธํ™”๋œ ๋ผ์ด์„ ์Šค ์‹œํ—˜ ๋ถ„์•ผ)

  • ๋”ฐ๋ผ์„œ ์ด ๋…ผ๋ฌธ์—์„œ๋Š” ๋‹ค์Œ ๋‘ ๊ฐ€์ง€ ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์•ˆ

    • KMMLU-Redux: ๊ธฐ์กด KMMLU์—์„œ ๋ฌธ์ œ์ ์„ ์‹๋ณ„ํ•˜์—ฌ ์ •์ œ(cleaned)ํ•˜๊ณ  ๋‚œ์ด๋„๋ฅผ ์กฐ์ •ํ•œ ์ถ•์†ŒํŒ ๋ฒ„์ „

    • KMMLU-Pro: ํ•œ๊ตญ์˜ ๊ตญ๊ฐ€ ์ „๋ฌธ ๋ฉดํ—ˆ์‹œํ—˜(Korean National Professional Licensure, KNPL) ๊ธฐ๋ฐ˜์œผ๋กœ, ๋ฒ•๋ฅ , ํšŒ๊ณ„, ์˜ํ•™ ๋“ฑ 14๊ฐœ ์ „๋ฌธ ๋ถ„์•ผ์˜ ๊ณ ๊ธ‰ ์ง€์‹์„ ๋ฐ˜์˜ํ•˜์—ฌ ๋ณด๋‹ค ์‹ค๋ฌด์ ์ธ ์ „๋ฌธ๋ถ„์•ผ ์‹œํ—˜๋ฌธํ•ญ๋“ค์„ ํฌํ•จํ•˜๋Š” ์‹ ๊ทœ ๋ฒค์น˜๋งˆํฌ

  • ๋‘ ๋ฒค์น˜๋งˆํฌ ๋ชจ๋‘ ์‚ฐ์—…/์ „๋ฌธ์„ฑ ๊ธฐ๋ฐ˜ ๋ฌธ์ œ์˜ ์ ํ•ฉ์„ฑ์„ ๋†’์ด๊ณ , ํ•œ๊ตญ์–ด LLM์˜ ์‹ค์ œ ํ™œ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋จ

2.2. ๊ฐ ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ์…‹ ์„ค๋ช…

KMMLU-Redux

  • ๊ธฐ์กด KMMLU์—์„œ ๊ธฐ์ˆ  ์ž๊ฒฉ์‹œํ—˜(Korean National Technical Qualification, KNTQ) ์ถœ์ œ๋ฌธํ•ญ ์ค‘ ๋ฌธ์ œ์ ์„ ์ œ๊ฑฐํ•˜๊ณ  ์ •์ œํ•œ subset๋กœ ์ด 2,587๋ฌธํ•ญ ํฌํ•จ

  • ๋‹ค๋ฃจ๋Š” ๋ถ„์•ผ๋Š” ์‚ฐ์—…/๊ณตํ•™ ์ค‘์‹ฌ์œผ๋กœ, ์˜ˆ: ๋†๋ฆผ์–ด์—…, ๊ฑด์ถ•, ์ „๊ธฐ์ „์ž, ํ™˜๊ฒฝ์—๋„ˆ์ง€, ๊ธฐ๊ณ„, ์ •๋ณดํ†ต์‹ , ์žฌ๋ฃŒ, ์•ˆ์ „๊ด€๋ฆฌ, ๊ด‘์—…์ž์› ๋“ฑ ์ด 13๊ฐœ ์ด์ƒ (์‹ค์ œ ๋ฆฌ์ŠคํŠธ: ๋†๋ฆผ์–ด์—… 185, ๊ฑด์ถ• 71, ํ™”ํ•™ 140, ๊ฑด์„ค 333, ๋ฌธํ™”์˜ˆ์ˆ ๋””์ž์ธ๋ฐฉ์†ก 119, ์ „๊ธฐ์ „์ž 114, ํ™˜๊ฒฝ์—๋„ˆ์ง€ 377, ์‹ํ’ˆ๊ฐ€๊ณต 78, ์ •๋ณดํ†ต์‹  185, ๊ธฐ๊ณ„ 270, ๊ฒฝ์˜/ํšŒ๊ณ„/์‚ฌ๋ฌด 34, ์žฌ๋ฃŒ 262, ๊ด‘์—…์ž์› 19, ์•ˆ์ „๊ด€๋ฆฌ 400)

  • KNTQ ์‹œํ—˜ ์‘์‹œ์ž๋Š” ๋ณดํ†ต ํ•™์‚ฌํ•™์œ„ ์†Œ์ง€์ž ๋˜๋Š” ์ตœ์†Œ 9๋…„ ์‚ฐ์—… ๊ฒฝ๋ ฅ์ž๋ฅผ ์š”๊ตฌํ•˜๋ฏ€๋กœ ๋‚œ์ด๋„๊ฐ€ ๋†’๊ณ  ์ „๋ฌธ์„ฑ์„ ์š”๊ตฌํ•œ๋‹ค.

  • KMMLU-Redux๋Š” ํŠนํžˆ โ€œ์‰ฌ์šด ๋ฌธ์ œโ€(multiple small LLM๋“ค์ด ์ •๋‹ต์„ ๋งž์ถ˜ ๋ฌธ์ œ)๋ฅผ ๋ฐฐ์ œํ•˜์—ฌ ๋” ์–ด๋ ค์šด/๋„์ „์ ์ธ ๋ฌธํ•ญ ์ค‘์‹ฌ์œผ๋กœ ๊ตฌ์„ฑ๋จ. ๊ตฌ์ฒด์ ์œผ๋กœ, 7๊ฐœ์˜ ์†Œํ˜• LLM (์˜ˆ: Llama 3.2 3B, Qwen 2.5 3B, Gemma 3 4B IT, Kanana Nano 2.1B Instruct, EXAONE 3.5 2.4B, DeepSeek-R1-Distill-Qwen-1.5B, Ko-R1-7B-v2.1) ์ค‘ 4๊ฐœ ์ด์ƒ์ด ๋งž์ถ˜ ๋ฌธ์ œ๋Š” ์ œ์™ธ

KMMLU-Pro

  • ํ•œ๊ตญ์˜ ๊ตญ๊ฐ€ ์ „๋ฌธ ๋ฉดํ—ˆ์‹œํ—˜(Korean National Professional Licensure, KNPL)์—์„œ ์‹ค์ œ๋กœ ์‹œํ–‰๋œ ์ตœ์‹  ์—ฐ๋„ ์‹œํ—˜๋ฌธํ•ญ ์ค‘ ๋‹ค์ง€์„ ํƒํ˜•(MCQA, multiple-choice) ๋ฌธํ•ญ์„ ์ง์ ‘ ์ˆ˜์ง‘ํ•œ ๋ฒค์น˜๋งˆํฌ๋กœ ์ด 2,822๋ฌธํ•ญ ํฌํ•จ

  • ํฌํ•จ๋œ ๋ฉดํ—ˆ ์ข…๋ฅ˜๋Š” ์ด 14๊ฐœ์ด๋ฉฐ, ๋ถ„์•ผ๋Š” ๋ฒ•๋ฅ , ํšŒ๊ณ„/์„ธ๋ฌด, ๊ฐ์ •ํ‰๊ฐ€/์†ํ•ด์‚ฌ์ •, ์˜์•ฝ ๊ณ„์—ด(ํ•œ์˜์‚ฌ, ์˜์‚ฌ, ์น˜๊ณผ์˜์‚ฌ, ์•ฝ์‚ฌ, ํ•œ์•ฝ์‚ฌ), ๊ด€์„ธ์‚ฌ ๋“ฑ์ด๋‹ค. (ํŒŒ์ผ๋Ÿฟ ๋ฆฌ์ŠคํŠธ: ๋ฒ•๋ฌด์‚ฌ, ๋ณ€ํ˜ธ์‚ฌ, ๊ณต์ธ๋…ธ๋ฌด์‚ฌ, ๋ณ€๋ฆฌ์‚ฌ, ๊ณต์ธํšŒ๊ณ„์‚ฌ, ์„ธ๋ฌด์‚ฌ, ๊ด€์„ธ์‚ฌ, ์†ํ•ด์‚ฌ์ •์‚ฌ, ๊ฐ์ •ํ‰๊ฐ€์‚ฌ, ํ•œ์˜์‚ฌ, ์น˜๊ณผ์˜์‚ฌ, ์•ฝ์‚ฌ, ํ•œ์•ฝ์‚ฌ, ์˜์‚ฌ)

  • ๋ฌธํ•ญ์€ ๋ชจ๋‘ ์ตœ๊ทผ ์—ฐ๋„ ์‹œํ—˜ ์ถœ์ฒ˜์ด๋ฉฐ, ํ–ฅํ›„ ์—ฐ๊ฐ„ ๊ฐฑ์‹ ์„ ํ†ตํ•ด ์ตœ์‹  ์‹œํ—˜๋ฌธํ•ญ์œผ๋กœ ์œ ์ง€๋  ๊ณ„ํš์ž„.

  • ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜ MCQA๋งŒ ํฌํ•จ (์ด๋ฏธ์ง€๋ฅผ ํฌํ•จํ•œ ๋ฌธํ•ญ์€ ์ œ์™ธ)

  • ์‹ค์ œ ๋ฉดํ—ˆ ์‹œํ—˜ ๊ธฐ์ค€(pass ๊ธฐ์ค€: ๊ฐ ๊ณผ๋ชฉ ์ตœ์†Œ 40%, ์ „์ฒด ํ‰๊ท  60% ์ด์ƒ, ์ผ๋ถ€ ๋ฉดํ—ˆ๋Š” ์ƒ๋Œ€ํ‰๊ฐ€ ๊ธฐ์ค€) ๋“ฑ์„ ํ‰๊ฐ€ ๊ธฐ์ค€์œผ๋กœ ๋ฐ˜์˜ํ•˜์—ฌ โ€œLLM์ด ๋ช‡ ๊ฐœ ์ž๊ฒฉ์‹œํ—˜(pass ๊ธฐ์ค€ ์ถฉ์กฑ ๊ฐ€๋Šฅ)โ€ ์ธ์ง€๋ฅผ ์ธก์ •ํ•  ์ˆ˜ ์žˆ์Œ.

2.3. ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ• ๋ฐฉ๋ฒ• (KMMLU-Redux & KMMLU-Pro)

KMMLU-Redux ๊ตฌ์ถ• ๊ณผ์ •

  1. ๊ธฐ์กด KMMLU ๋ฐ์ดํ„ฐ์…‹์˜ KNTQ ์ถœ์ œ๋ฌธํ•ญ ์ „์ฒด์—์„œ ์‹œ์ž‘

  2. ๋ฌธ์ œ์  ์ง„๋‹จ: ๋ˆ„์„ค๋œ ์ •๋‹ต(leaked), ๋น„์ •ํ™•ํ•œ notation/ํ‘œ๊ธฐ ์˜ค๋ฅ˜, ๋ถˆ๋ช…ํ™•ํ•œ ๋ฌธํ•ญ ์ •์˜, ์ฐธ์กฐ ์˜ค๋ฅ˜(์‹ค์ œ ์กด์žฌํ•˜์ง€ ์•Š๋Š” ์ž๋ฃŒ ์ฐธ์กฐ) ๋“ฑ ์‹๋ณ„ ๋ฐ ๋ชฉ๋กํ™”

  3. manual review: ์ €์ž๋“ค์ด ์ง์ ‘ ๋ชจ๋“  ํ›„๋ณด ๋ฌธํ•ญ์„ ๊ฒ€ํ† ํ•˜์—ฌ ๋ฌธ์ œ์  ๋ฌธํ•ญ ์ œ๊ฑฐ ๋˜๋Š” ์ˆ˜์ •, ์• ๋งคํ•œ ๋ฌธํ•ญ์€ ์ œ์™ธ

  4. ์†Œํ˜• LLM ๊ธฐ๋ฐ˜ ๋‚œ์ด๋„ ํ•„ํ„ฐ๋ง: ์•ž์„œ ์–ธ๊ธ‰ํ•œ 7๊ฐœ ์†Œํ˜• LLM๋“ค์„ ์‚ฌ์šฉํ•ด, 4๊ฐœ ์ด์ƒ ๋ชจ๋ธ์ด ๋งž์ถ˜ ๋ฌธํ•ญ์€ โ€œ๋„ˆ๋ฌด ์‰ฌ์šดโ€ ๋ฌธํ•ญ์œผ๋กœ ๊ฐ„์ฃผํ•˜๊ณ  ์ œ์™ธํ•จ โ†’ ๋‚œ์ด๋„ ์ƒํ–ฅ ์กฐ์ •

  5. ๋ฌธํ•ญ ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ ์ •์ œ ๋ฐ ํ‘œ์ค€ํ™”: ์„ ํƒ์ง€(option) ๊ฐœ์ˆ˜ 4๊ฐœ๋กœ ํ†ต์ผ, ํ…์ŠคํŠธ ํ˜•์‹ ์˜ค๋ฅ˜ ์ˆ˜์ •, ํ•œ๊ธ€ ํ‘œํ˜„ ์˜ค๋ฅ˜ยท์˜คํƒˆ์ž ๊ต์ • ๋“ฑ ์ˆ˜ํ–‰

  6. ๋ฐ์ดํ„ฐ ๋ถ„ํ• : ์ „์ฒด 2,587๋ฌธํ•ญ์„ MCQA ํ˜•ํƒœ๋กœ ๊ตฌ์„ฑ, ํ‰๊ฐ€์šฉ prompt ๋ฐ exemplar ์ œ๊ณต

KMMLU-Pro ๊ตฌ์ถ• ๊ณผ์ •

  1. ๋Œ€์ƒ ๋ฉดํ—ˆ์‹œํ—˜ ์„ ์ •: ํ•œ๊ตญ์˜ KNPL ์‹œํ—˜ ์ค‘ ์ตœ๊ทผ ์—ฐ๋„ ์‹œํ–‰๋œ ๋ฉดํ—ˆ๋“ค ์ค‘ multiple-choice ๋ฌธํ•ญ์ด ์กด์žฌํ•˜๋Š” ์‹œํ—˜๋“ค (14๊ฐœ ๋ฉดํ—ˆ) ์„ ์ •

  2. ๊ณต์‹ ์‹œํ—˜ ์ถœ์ฒ˜๋กœ๋ถ€ํ„ฐ ๋ฌธํ•ญ ์ง์ ‘ ์ˆ˜์ง‘: ๊ฐ ๋ฉดํ—ˆ ์‹œํ—˜์˜ ๊ณต์‹ ๊ธฐ๊ด€ ์›น์‚ฌ์ดํŠธ/๋ฐฐํฌ ์ž๋ฃŒ ๋˜๋Š” ๊ณต๊ฐœ ์ถœ์ œ๋ฌธ์„œ์—์„œ MCQA ํ˜•ํƒœ ๋ฌธํ•ญ ํ™•๋ณด (๊ณต์‹ ๋ ฅ/์ •ํ™•์„ฑ ํ™•๋ณด)

  3. manual review: ์ˆ˜์ง‘๋œ ๋ฌธํ•ญ์— ๋Œ€ํ•ด ์ €์ž๋“ค์ด ์ง์ ‘ ๊ฒ€ํ† ํ•˜์—ฌ ์˜คํƒ€/ํ‘œ๊ธฐ ์˜ค๋ฅ˜, ์• ๋งคํ•œ ๋ฌธํ•ญ, ์ž˜๋ชป๋œ ์ฐธ์กฐ, ์ด๋ฏธ์ง€ ํฌํ•จ ๋ฌธ์ œ ๋“ฑ์„ ์ œ๊ฑฐ. ํŠนํžˆ ์ด๋ฏธ์ง€ ๊ธฐ๋ฐ˜ ๋ฌธํ•ญ์ด๋‚˜ descriptive/์ฃผ๊ด€์‹ ๋ฌธํ•ญ์€ ์ œ์™ธ๋จ.

  4. pass ๊ธฐ์ค€ ๋ฐ˜์˜: ๊ฐ ๋ฉดํ—ˆ์‹œํ—˜์˜ ๊ณต์‹ ๊ธฐ์ค€ (์˜ˆ: ๊ฐ ๊ณผ๋ชฉ ์ตœ์†Œ ์ ์ˆ˜, ์ „์ฒด ํ‰๊ท  ์ ์ˆ˜ ๊ธฐ์ค€, ์ƒ๋Œ€ํ‰๊ฐ€ ๊ธฐ์ค€ ๋“ฑ) ์„ ์ˆ˜์ง‘ํ•˜์—ฌ, ๊ฐ ๋ฌธํ•ญ๋ณ„๋กœ LLM ์„ฑ๋Šฅ ๋น„๊ต์‹œ ํ•ด๋‹น ๊ธฐ์ค€์„ ๋งž์ถ”์—ˆ๋Š”์ง€ ํŒ๋‹จํ•  ์ˆ˜ ์žˆ๋„๋ก ๊ตฌ์„ฑ.

  5. ์—ฐ๊ฐ„ ๊ฐฑ์‹  ๊ณ„ํš: ํ–ฅํ›„ ์‹œํ—˜์—ฐ๋„์— ๋”ฐ๋ผ ์ฃผ๊ธฐ์ ์œผ๋กœ ๋ฌธํ•ญ์„ ๊ฐฑ์‹ ํ•˜์—ฌ ์ตœ์‹ ์„ฑ์„ ์œ ์ง€ํ•˜๊ณ  dataset contamination (์ด๋ฏธ ์œ ํฌ๋œ ๋ฌธํ•ญ ํฌํ•จ ๊ฐ€๋Šฅ์„ฑ) ๋ฆฌ์Šคํฌ๋ฅผ ๋‚ฎ์ถค.

2.4. ์‹คํ—˜ ๊ฒฐ๊ณผ ์š”์•ฝ

ํ‰๊ฐ€ ๋ฐฉ์‹

  • KMMLU-Redux ๋ฐ KMMLU-Pro ๋ชจ๋‘ few-shot (5-shot) setting์—์„œ English/Korean prompt ์‚ฌ์šฉ

  • Direct ๋ฐฉ์‹ (๊ทธ๋ฆฌ๋”” decoding)๊ณผ โ€œThinkingโ€(chain-of-thought ํ˜น์€ reasoning-enhanced prompt, prompt ๋‚ด โ€œthinkingโ€ ๋“ฑ)์„ ๋น„๊ต

  • ํ‰๊ฐ€ ์ง€ํ‘œ: ๋‹จ์ˆœ ์ •ํ™•๋„(accuracy), ๊ทธ๋ฆฌ๊ณ  KMMLU-Pro์˜ ๊ฒฝ์šฐ LLM์ด pass ์กฐ๊ฑด(๊ฐ ๋ฉดํ—ˆ์‹œํ—˜์˜ ๊ธฐ์ค€) ์ถฉ์กฑ ์—ฌ๋ถ€, pass ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฉดํ—ˆ์‹œํ—˜ ๊ฐœ์ˆ˜ (# of passed KNPLs) ๋“ฑ์„ ํ•จ๊ป˜ ๋ณด๊ณ ํ•จ

์ฃผ์š” ์„ฑ๋Šฅ ๊ฒฐ๊ณผ (Table 2 ์ฐธ์กฐ)

  • KMMLU-Redux: ๋ชจ๋ธ๋ณ„ ์ •ํ™•๋„

    • ์˜ˆ: o1(OpenAI ๋ชจ๋ธ) ์•ฝ 81.14% ์ •ํ™•๋„, Llama-4-Maverick-17B-128E-Instruct 77.58% ๋“ฑ ์ƒ์œ„๊ถŒ ๋ชจ๋ธ ์กด์žฌ

    • Spearman ์ˆœ์œ„ ์ƒ๊ด€๊ณ„์ˆ˜ ฯ โ‰ˆ 0.995๋กœ, KMMLU์™€ KMMLU-Redux ์„ฑ๋Šฅ ๋ถ„ํฌ๋Š” ๋งค์šฐ ์œ ์‚ฌํ•˜์ง€๋งŒ Redux ์ชฝ์ด ๋‹ค์†Œ ๋‚ฎ์€ ํŽธ (์ •์ œ ํ›„ ๋‚œ์ด๋„ ์ƒ์Šน ๊ฒฐ๊ณผ)

  • KMMLU-Pro:

    • ์ •ํ™•๋„(ํ‰๊ท  micro-accuracy) ๋ฐ pass ๊ฐœ์ˆ˜ ๊ธฐ์ค€

    • ์˜ˆ: o1 ๋ชจ๋ธ ์ •ํ™•๋„ ์•ฝ 78.09% (KMMLU-Pro), Claude 3.7 (Thinking ํฌํ•จ) ์€ 12/14 ๋ฉดํ—ˆ์‹œํ—˜ pass, GPT-4.1 ๋“ฑ ์ผ๋ถ€ ๋ชจ๋ธ์€ ์ตœ๋Œ€ 10/14 pass ์„ฑ๋Šฅ ๋ณด์ž„

    • ์ •ํ™•๋„๊ฐ€ ๋†’๋”๋ผ๋„ pass ๊ฐœ์ˆ˜ ๋ฉด์—์„œ๋Š” ๊ท ํ˜• ์žˆ๊ฒŒ ๊ณผ๋ชฉ๋ณ„ ๊ธฐ์ค€์„ ์ถฉ์กฑํ•˜์ง€ ๋ชปํ•ด passํ•˜์ง€ ๋ชปํ•˜๋Š” ๊ฒฝ์šฐ๋„ ์žˆ์Œ (์˜ˆ: ์ผ๋ถ€ ๋ชจ๋ธ์€ ํŠน์ • ๊ณผ๋ชฉ ์„ฑ์  ๋ถ€์กฑ)

  • ๋ชจ๋ธ๋ณ„ ๋น„๊ต:

    • ์†Œํ˜• ๋ชจ๋ธ(<10B)์—์„œ๋Š” KMMLU-Redux ๋ฐ KMMLU-Pro ๋ชจ๋‘ ์„ฑ๋Šฅ์ด ๋‚ฎ์€ ํŽธ์ด๊ณ , reasoning-enhanced prompt (โ€œthinkingโ€) ์‚ฌ์šฉ ์‹œ ์„ฑ๋Šฅ ๊ฐœ์„  ๊ฒฝํ–ฅ ์žˆ์Œ

    • ๋Œ€ํ˜• ๋ชจ๋ธ (>70B)์—์„œ๋Š” ์ •ํ™•๋„๋„ ๋†’๊ณ  pass ๊ฐœ์ˆ˜๋„ ์ƒ๋Œ€์ ์œผ๋กœ ๋งŽ์Œ. ์˜ˆ: Qwen3-235B-A22B (w/ thinking) ์•ฝ 74.49% ์ •ํ™•๋„, 6/14 ๋ฉดํ—ˆ์‹œํ—˜ pass ๊ฐ€๋Šฅ

    • Spearman ์ƒ๊ด€๊ด€๊ณ„ ๋ถ„์„ ๋“ฑ์„ ํ†ตํ•ด, KMMLU-Redux ์„ฑ๋Šฅ์ด ๋†’์•˜๋˜ ๋ชจ๋ธ๋“ค์ด ๋™์ผํ•œ ์ˆœ์œ„๋กœ KMMLU-Pro์—์„œ๋„ ๋น„๊ต์  ๋†’์€ ์„ฑ๋Šฅ์„ ๋ณด์ด๋Š” ๊ฒฝํ–ฅ ์žˆ์Œ (์ฆ‰, benchmark ๊ฐ„ rank-consistency ์กด์žฌ)

๋ถ„์•ผ๋ณ„ ๋ถ„์„

  • KMMLU-Redux: ์‚ฐ์—…ยท๊ณตํ•™ ๋ถ„์•ผ ์ „๋ฐ˜์ ์œผ๋กœ ๋ชจ๋ธ ์„ฑ๋Šฅ์ด ๋น„๊ต์  ์–‘ํ˜ธํ•˜๋‚˜, ๊ด‘์—…์ž์›(Mining & Resources), ๊ฑด์ถ•(Architecture) ๋“ฑ ์ผ๋ถ€ ๋ถ„์•ผ์—์„œ๋Š” ์„ฑ๋Šฅ ์ €ํ•˜๊ฐ€ ๋‘๋“œ๋Ÿฌ์ง. ์ด๋Š” ํ•ด๋‹น ๋ถ„์•ผ์— ๋Œ€ํ•œ ์‚ฌ์ „ ํ•™์Šต ๋ฐ์ดํ„ฐ ๋ถ€์กฑ ๋ฐ ์ „๋ฌธ์šฉ์–ด/์ œ๋„์  ๋งฅ๋ฝ ๋ถ€์กฑ์ด ์›์ธ์œผ๋กœ ๋ถ„์„๋จ.

  • KMMLU-Pro:

    • ์˜ํ•™/์•ฝํ•™ ๊ณ„์—ด ๋ฉดํ—ˆ์‹œํ—˜(ํ•œ์˜์‚ฌ, ์น˜๊ณผ์˜์‚ฌ, ์•ฝ์‚ฌ ๋“ฑ)์€ many LLM๋“ค์ด pass ๊ธฐ์ค€ (๊ฐ ๊ณผ๋ชฉ ์ตœ์†Œ 40%, ์ „์ฒดํ‰๊ท  60%)์„ ์ถฉ์กฑํ•˜๋Š” ๊ฒฝํ–ฅ์ด ์žˆ์Œ

    • ๋ฐ˜๋ฉด, ๋ฒ•๋ฅ  ๊ด€๋ จ ๋ฉดํ—ˆ์‹œํ—˜ (๋ฒ•๋ฌด์‚ฌ, ๋ณ€ํ˜ธ์‚ฌ, ๊ณต์ธ๋…ธ๋ฌด์‚ฌ ๋“ฑ) ๋ฐ ์„ธ๋ฌด/ํšŒ๊ณ„ ๊ด€๋ จ ์‹œํ—˜์—์„œ๋Š” ์ „๋ฐ˜์ ์œผ๋กœ ๋งค์šฐ ๋‚ฎ์€ ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉฐ, passํ•˜๊ธฐ ์–ด๋ ค์šด ๊ฒฝ์šฐ ๋งŽ์Œ. ์ด๋Š” ํ•œ๊ตญ ๋ฒ•๋ฅ /์„ธ๋ฌด ์ฒด๊ณ„์— ํŠนํ™”๋œ ์ง€์‹ ๋ถ€์กฑ ๋•Œ๋ฌธ์ด๋ผ๋Š” ๋ถ„์„์ž„.

  • reasoning budget (์ถ”๋ก  ์‹œ๋„ ํšŸ์ˆ˜ ๋“ฑ) ์ฆ๊ฐ€ โ†’ ์ „์ฒด ์ •ํ™•๋„ ์ƒ์Šน ๊ฒฝํ–ฅ ์กด์žฌ (์˜ˆ: Qwen3, Claude ๋“ฑ) ํ•˜์ง€๋งŒ ์ผ๋ถ€ ๋ฉดํ—ˆ์—์„œ๋Š” reasoning budget ์ฆ๊ฐ€์—๋„ ์˜๋ฏธ ์žˆ๋Š” ์„ฑ๋Šฅ ํ–ฅ์ƒ ์—†์Œ (์˜ˆ: Judicial Scrivener, Herb Pharmacist ๋ฉดํ—ˆ ๋“ฑ)

์ถ”๊ฐ€ ๋ถ„์„

  • KMMLU-Redux๊ฐ€ KMMLU ๋Œ€๋น„ ์ •์ œ๋œ ๋ฐ์ดํ„ฐ์…‹์ด๋ฏ€๋กœ, ์ผ๋ถ€ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์€ ํ•˜๋ฝํ–ˆ์ง€๋งŒ (๋‚œ์ด๋„ ์ƒํ–ฅ), ๋ชจ๋ธ ๊ฐ„ ์ˆœ์œ„(rank correlation)์—๋Š” ํฐ ๋ณ€ํ™”๊ฐ€ ์—†๋‹ค๋Š” ์ ์ด ๋“œ๋Ÿฌ๋‚จ (ฯ โ‰ˆ 0.995)

  • KMMLU-Pro vs ๋ฒˆ์—ญ ๊ธฐ๋ฐ˜ ๋ฒค์น˜๋งˆํฌ ๋น„๊ต:

    • ์˜ˆ๋ฅผ ๋“ค์–ด ํ•œ๊ตญ์–ด ๋ฒˆ์—ญ๋œ MMLU(Korean subset of MMMLU) ๋Œ€๋น„ KMMLU-Pro์—์„œ ์„ฑ๋Šฅ ๊ฒฉ์ฐจ๊ฐ€ ํฐ ๋ถ„์•ผ๋Š” ๋ฒ•๋ฅ /ํšŒ๊ณ„ ๊ด€๋ จ ๋ถ„์•ผ์ž„. ๋ฐ˜๋ฉด ์˜ํ•™/์•ฝํ•™ ๋ถ„์•ผ๋Š” ๋น„๊ต์  ๋„๋ฉ”์ธ ์ง€์‹์ด ๊ตญ์ œ์ ์œผ๋กœ ์œ ์‚ฌํ•œ ์˜์—ญ์ด๊ธฐ ๋•Œ๋ฌธ์— ๊ฒฉ์ฐจ๊ฐ€ ์ž‘๋‹ค๋Š” ๋ถ„์„ ์žˆ์Œ.

  • prompt ์„ค๊ณ„ (โ€œKorean promptโ€: โ€œ์ •๋‹ต์„ ๊ณ ๋ฅด์„ธ์š” โ€ฆ ๋‹น์‹ ์˜ ์ตœ์ข… ์ •๋‹ต์€ ABCD ์ค‘ ํ•˜๋‚˜์ด๊ณ , โ€œ์ •๋‹ต:โ€ ๋’ค์— ์™€์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์ฐจ๊ทผ์ฐจ๊ทผ ์ƒ๊ฐํ•˜๊ณ  ์ถ”๋ก ํ•˜์„ธ์š”.โ€) ๋“ฑ์ด ๋ชจ๋“  ํ‰๊ฐ€์—์„œ ๋™์ผํ•˜๊ฒŒ ์ ์šฉ๋จ, ์ด๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ๋ณ„ ๋น„๊ต๊ฐ€ ๊ณต์ •ํ•˜๊ฒŒ ์ด๋ฃจ์–ด์ง.

3. KMMLU vs KMMLU-Redux vs KMMLU-Pro ๋น„๊ต ์š”์•ฝ


  • KMMLU๋Š” ์ฒซ ํ•œ๊ตญ์–ด ๋Œ€๊ทœ๋ชจ ๋ฒค์น˜๋งˆํฌ

  • KMMLU-Redux๋Š” ์ •์ œยท๋‚œ์ด๋„ ๊ฐ•ํ™” ๋ฒ„์ „

  • KMMLU-Pro๋Š” ์ „๋ฌธ ๋ฉดํ—ˆ์‹œํ—˜ ๊ธฐ๋ฐ˜ ์‹ค๋ฌด ํ‰๊ฐ€์šฉ ๋ฒค์น˜๋งˆํฌ

๊ตฌ๋ถ„
KMMLU
KMMLU-Redux
KMMLU-Pro

๊ฐœ๋ฐœ ๋ฐฐ๊ฒฝ

๋ฒˆ์—ญ ๊ธฐ๋ฐ˜ ๋ฒค์น˜๋งˆํฌ์˜ ํ•œ๊ณ„(์–ธ์–ด ์ž์—ฐ์„ฑยท๋ฌธํ™”์  ๋งฅ๋ฝ ๋ถ€์กฑ) ๊ทน๋ณต

KMMLU ํ’ˆ์งˆ ๋ฌธ์ œ(๋ˆ„์„ค, ์˜ค๋ฅ˜, ์‰ฌ์šด ๋ฌธํ•ญ) ๋ณด์™„

์‹ค์ œ ์ „๋ฌธ ๋ฉดํ—ˆ์‹œํ—˜ ๊ธฐ๋ฐ˜์œผ๋กœ ์‹ค๋ฌด/์‚ฐ์—… ์‘์šฉ ํ‰๊ฐ€

๋ฐ์ดํ„ฐ ๊ทœ๋ชจ

35,030 test ๋ฌธํ•ญ (์ด 243k ๋ฌธํ•ญ ํฌํ•จ)

2,587๋ฌธํ•ญ

2,822๋ฌธํ•ญ

์ถœ์ฒ˜

PSAT, ํ•œ๊ตญ ๋ฉดํ—ˆ์‹œํ—˜(KNTQ), CSAT ๋“ฑ 533๊ฐœ ์ถœ์ฒ˜

KMMLU ์ค‘ KNTQ ๊ด€๋ จ ๋ฌธํ•ญ ์ •์ œ

ํ•œ๊ตญ ๊ตญ๊ฐ€ ์ „๋ฌธ ๋ฉดํ—ˆ์‹œํ—˜(KNPL, ๋ณ€ํ˜ธ์‚ฌยท์˜์‚ฌยท์•ฝ์‚ฌ ๋“ฑ 14์ข…)

๋ถ„์•ผ

45๊ณผ๋ชฉ (STEM, ์ธ๋ฌธยท์‚ฌํšŒ, ์‘์šฉ๊ณผํ•™, ๊ธฐํƒ€)

์‚ฐ์—…ยท๊ณตํ•™ ์ค‘์‹ฌ (๋†๋ฆผ์–ด์—…, ์ „๊ธฐ์ „์ž, ๊ธฐ๊ณ„, ํ™˜๊ฒฝ์—๋„ˆ์ง€ ๋“ฑ)

๋ฒ•๋ฅ , ํšŒ๊ณ„ยท์„ธ๋ฌด, ๊ฐ์ •ํ‰๊ฐ€, ์†ํ•ด์‚ฌ์ •, ์˜์•ฝ ๊ณ„์—ด ๋“ฑ

ํŠน์ง•

ํ•œ๊ตญ์–ด ์›๋ฌธ ์‹œํ—˜ ๊ธฐ๋ฐ˜, ์ธ๊ฐ„ ์ ์ˆ˜ ์ฐธ์กฐ, HARD subset ์ œ๊ณต

์‰ฌ์šด ๋ฌธํ•ญ ์ œ๊ฑฐ (์†Œํ˜• LLM 7๊ฐœ ์ค‘ 4๊ฐœ ์ด์ƒ ๋งž์ถ˜ ๋ฌธํ•ญ ์ œ์™ธ), ์ •์ œ/๋‚œ์ด๋„ ์ƒํ–ฅ

์ตœ์‹  ์—ฐ๋„ ์‹œํ—˜๋ฌธํ•ญ, pass ๊ธฐ์ค€ ๋ฐ˜์˜, ์—ฐ๊ฐ„ ๊ฐฑ์‹  ๊ณ„ํš

๊ตฌ์ถ• ๋ฐฉ๋ฒ•

37๋งŒโ†’24๋งŒ ํ•„ํ„ฐ๋ง, parsing/์ค‘๋ณต ์ œ๊ฑฐ, human ์„ฑ์  ํ™•๋ณด, CoT exemplar ์ œ์ž‘, ์ €์ž‘๊ถŒ/์˜ค๋ฅ˜ ์ˆ˜์ •

KMMLU ๋ฌธํ•ญ manual review + ์†Œํ˜• LLM ๋‚œ์ด๋„ ํ•„ํ„ฐ๋ง + ์ •์ œ

KNPL ์‹œํ—˜ MCQA ์ง์ ‘ ์ˆ˜์ง‘, manual review, ์ด๋ฏธ์ง€ ๋ฌธํ•ญ ์ œ์™ธ, pass ๊ธฐ์ค€ ๋ฐ˜์˜

ํ‰๊ฐ€ ๋ฐฉ์‹

5-shot, Direct vs CoT

5-shot, Direct vs Thinking

5-shot, Direct vs Thinking, pass ๊ฐœ์ˆ˜ ์ธก์ •

์ฃผ์š” ๊ฒฐ๊ณผ

GPT-4 ์•ฝ 60%, HyperCLOVA X ~53%, Llama-2 70B ~40%

์ƒ์œ„ ๋ชจ๋ธ ์ •ํ™•๋„ ~77โ€“81%, ๊ธฐ์กด KMMLU ๋Œ€๋น„ ๋‹ค์†Œ ๋‚ฎ์Œ(๋‚œ์ด๋„โ†‘)

์ƒ์œ„ ๋ชจ๋ธ ์ •ํ™•๋„ 74โ€“78%, ์ผ๋ถ€ ๋ชจ๋ธ์€ 1012๊ฐœ ๋ฉดํ—ˆ์‹œํ—˜ pass ๊ฐ€๋Šฅ

์˜์˜

ํ•œ๊ตญ์–ด ๊ณ ์œ  ๋ฒค์น˜๋งˆํฌ ์ œ์‹œ, ๋‹ค๊ตญ์–ด ๋ชจ๋ธ > ํ•œ๊ตญ์–ด ํŠนํ™” ๋ชจ๋ธ ํ˜„์ƒ ๋ฐœ๊ฒฌ

ํ’ˆ์งˆ ๋ฌธ์ œ ์ œ๊ฑฐยท๋‚œ์ด๋„ ์กฐ์ •์œผ๋กœ ์‹ ๋ขฐ์„ฑโ†‘

์‹ค๋ฌด ์ „๋ฌธ์„ฑ ํ‰๊ฐ€, LLM์˜ ์‹ค์ œ ์ž๊ฒฉ์‹œํ—˜ ํ†ต๊ณผ ๊ฐ€๋Šฅ์„ฑ ์ธก์ •

4. Korean Benchmark Results


  • KMMLU๋Š” 5-shot Direct, Redux/Pro๋Š” ๋…ผ๋ฌธ ๊ธฐ๋ณธ ์„ธํŒ…(๋Œ€์ฒด๋กœ zero-shot CoT, ์ผ๋ถ€ ์˜์–ด ํ”„๋กฌํ”„ํŠธ ์ „ํ™˜) ๊ธฐ์ค€

  • KMMLU(ํ•™์ˆ ยท์‚ฐ์—… ์ „๋ฐ˜)์—์„  GPT-4 โ‰ˆ 60%, HyperCLOVA X โ‰ˆ 53%, Qwen-72B โ‰ˆ 51%๋กœ ์—ฌ์ง€ ์กด์žฌ

  • Redux์™€ Pro์—์„  o1/Claude/GPT-4.1๊ธ‰์ด ์ƒ์œ„๊ถŒ์ด๋ฉฐ, Claude 3.7(Thinking)์ด 12/14 ๋ฉดํ—ˆ ํ•ฉ๊ฒฉ์œผ๋กœ ์ตœ๋‹ค

  • SLM์€ ์˜๋ฃŒ ๊ณ„์—ด์—์„œ ์ผ๋ถ€ ํ•ฉ๊ฒฉ ์‚ฌ๋ก€๊ฐ€ ์žˆ์œผ๋‚˜, ๋ฒ•ยท์„ธ๋ฌด ๊ณ„์—ด์€ ์ „๋ฐ˜์ ์œผ๋กœ ๋‚œํ•ญ.

Accuracy Summary

LLM

Model
KMMLU
KMMLU-Redux
KMMLU-Pro
Pro ํ•ฉ๊ฒฉ ๋ฉดํ—ˆ ์ˆ˜

GPT-4

59.95

โ€”

โ€”

โ€”

GPT-4.1

โ€”

75.86

72.99

10 / 14

o1

โ€”

81.14

78.09

10 / 14

o3

โ€”

79.92

73.60

9 / 14

o4-mini

โ€”

75.80

69.65

6 / 14

Claude 3.7 Sonnet

โ€”

76.88

74.52

10 / 14

Claude 3.7 (Thinking)

โ€”

79.36

77.70

12 / 14 โ† ์ตœ๋‹ค ํ•ฉ๊ฒฉ

Grok-3

โ€”

72.90

โ€”

โ€”

Grok-3-mini

โ€”

71.47

โ€”

โ€”

HyperCLOVA X

53.40

โ€”

โ€”

โ€”

Gemini Pro

50.18

โ€”

โ€”

โ€”

Qwen-72B

50.83

โ€”

โ€”

โ€”

Llama-2-70B

40.28

โ€”

โ€”

โ€”

์ถœ์ฒ˜: KMMLU ๋ณธ๋ฌธ Table 3(ํ‰๊ท  ์ •ํ™•๋„) , KMMLU-Redux/Pro ๋ณธ๋ฌธ Table 2(์ •ํ™•๋„ยทํ•ฉ๊ฒฉ ์ˆ˜)

SLM

Model
KMMLU-Redux
KMMLU-Pro
Pro ํ•ฉ๊ฒฉ ๋ฉดํ—ˆ ์ˆ˜

Qwen3-8B (Thinking)

58.79

55.27

3 / 14

Qwen3-8B

49.25

46.92

1 / 14

Gemma 3 12B IT

46.70

45.82

2 / 14

Phi-4 (14B)

49.75

45.32

1 / 14

Llama 3.1 8B Instruct

31.89

33.81

0 / 14

Gemma 3 4B IT

25.09

32.86

0 / 14

Llama 3.2 3B Instruct

17.59

25.53

0 / 14

Ko-R1-7B-v2.1

41.94

38.70

1 / 14

์ฐธ๊ณ : Reduxโ†”Pro ์„ฑ์ /์ˆœ์œ„ ์ƒ๊ด€ ๋†’์Œ(ฯโ‰ˆ0.995)

4.2. ๋„๋ฉ”์ธ๋ณ„ ์„ฑ๋Šฅ ๊ฒฝํ–ฅ

  • ์˜ํ•™ยท์•ฝํ•™ ๊ณ„์—ด: ์ตœ์‹  ๋Œ€ํ˜• LLM๋“ค์€ pass ๊ธฐ์ค€ ์ถฉ์กฑ โ†’ ์‹ค์ œ ์‹ค๋ฌด ํ™œ์šฉ ๊ฐ€๋Šฅ์„ฑ โ†‘

  • ๋ฒ•๋ฅ ยท์„ธ๋ฌดยทํšŒ๊ณ„ ๊ณ„์—ด: ์—ฌ์ „ํžˆ ๋‚ฎ์€ ์„ฑ๋Šฅ์œผ๋กœ ๋‚œ๊ณต๋ถˆ๋ฝ โ†’ ํ•œ๊ตญ ํŠนํ™” ๋ฒ•๋ นยท์ œ๋„ ์ง€์‹ ๋ถ€์กฑ

  • Redux(์‚ฐ์—…๊ธฐ์ˆ ): ๋‚œ์ด๋„ ๊ฐ•ํ™” โ†’ ๊ด‘์—…/๊ฑด์ถ•/์•ˆ์ „๊ด€๋ฆฌ ๋ถ„์•ผ์—์„œ ์„ฑ๋Šฅ ๊ฒฉ์ฐจ ํ™•๋Œ€

  • SLM: ์ผ๋ถ€ ์˜์•ฝ ๋ถ„์•ผ ์ œ์™ธ, pass ์„ฑ์  ๊ฑฐ์˜ ๋ถˆ๊ฐ€๋Šฅ

KMMLU

  • STEM (์ˆ˜ํ•™ยท๋ฌผ๋ฆฌยท๊ณตํ•™ ๋“ฑ)

    • GPT-4: ํ‰๊ท  59.7% (์ˆ˜ํ•™/ํ™”ํ•™์€ ์ƒ๋Œ€์ ์œผ๋กœ ๋‚ฎ๊ณ , ์ƒ๋ฌผ/์ง€๊ตฌ๊ณผํ•™์€ ๋น„๊ต์  ์–‘ํ˜ธ)

    • LLaMA-2-70B: ์•ฝ 40%

    • ํ•œ๊ตญ์–ด ํŠนํ™” Polyglot-Ko: 29% (STEM ์ „์ฒด ๋‚œํ•ญ)

  • ์ธ๋ฌธยท์‚ฌํšŒ (์—ญ์‚ฌ, ์ •์น˜, ๊ฒฝ์ œ ๋“ฑ)

    • GPT-4: 62~65% (ํ•œ๊ตญ์‚ฌ ๋“ฑ ํ•œ๊ตญ ํŠนํ™” ๊ณผ๋ชฉ์€ ์—ฌ์ „ํžˆ ๋‚ฎ์Œ)

    • HyperCLOVA X: ์•ฝ 53%

    • Gemini Pro: 50% ์ „ํ›„

  • ์‘์šฉ๊ณผํ•™ (๋ฒ•๋ฅ ยทํšŒ๊ณ„ยท์˜ํ•™ ๊ด€๋ จ ์ž๊ฒฉ์‹œํ—˜ ๊ณผ๋ชฉ)

    • GPT-4: 55% ๋‚ด์™ธ (๋ฒ•๋ฅ ยท์„ธ๋ฌด ๋‚ฎ์Œ, ๋ณด๊ฑด๊ณ„์—ด ์ƒ๋Œ€์ ์œผ๋กœ ๋†’์Œ)

    • ํ•œ๊ตญ์–ด ํŠนํ™” ๋ชจ๋ธ: ์—ฌ์ „ํžˆ ๋‚ฎ์Œ (๋žœ๋ค ์ถ”์ธก๋ณด๋‹ค ์•ฝ๊ฐ„ ๋†’์Œ ์ˆ˜์ค€)

KMMLU-Redu

  • ์ „๊ธฐ์ „์ž / ๊ธฐ๊ณ„ / ๊ฑด์„ค / ํ™˜๊ฒฝ์—๋„ˆ์ง€

    • ๋Œ€ํ˜• ๋ชจ๋ธ(o1, Claude 3.7, GPT-4.1): 70~80%๋Œ€ ์ •ํ™•๋„

    • ์ค‘์†Œํ˜• ๋ชจ๋ธ(Qwen-8B, Gemma-12B): 40~55%๋Œ€

    • ์ดˆ์†Œํ˜• ๋ชจ๋ธ(Llama-3.2 3B): 20% ์ดํ•˜

  • ๊ด‘์—…์ž์› / ๊ฑด์ถ• / ์•ˆ์ „๊ด€๋ฆฌ

    • ์ „์ฒด์ ์œผ๋กœ ์„ฑ๋Šฅ ์ €ํ•˜ ๋‘๋“œ๋Ÿฌ์ง

    • ์˜ˆ: Claude 3.7 Sonnet๋„ 60% ๋ฏธ๋งŒ, ์†Œํ˜• ๋ชจ๋ธ์€ 30% ์ดํ•˜

  • ์‹ํ’ˆ๊ฐ€๊ณต / ๋†๋ฆผ์–ด์—…

    • ์ƒ์œ„ ๋ชจ๋ธ(o1, GPT-4.1)์€ 75% ์ด์ƒ

    • SLM์€ 40% ์ „ํ›„

KMMLU-Pro

  • ์˜์•ฝ ๊ณ„์—ด (์˜์‚ฌยท์น˜๊ณผยทํ•œ์˜์‚ฌยท์•ฝ์‚ฌยทํ•œ์•ฝ์‚ฌ)

    • Claude 3.7 (Thinking): ํ•ฉ๊ฒฉ ๊ฐ€๋Šฅ (pass ๊ธฐ์ค€ ์ถฉ์กฑ)

    • GPT-4.1, o1: ๋Œ€์ฒด๋กœ 70% ์ด์ƒ, pass ๊ฐ€๋Šฅ

    • ์ผ๋ถ€ SLM(Qwen-8B, Gemma-12B): ์•ฝ์‚ฌยทํ•œ์•ฝ์‚ฌ์—์„œ ์ œํ•œ์ ์œผ๋กœ pass

  • ๋ฒ•๋ฅ  ๊ณ„์—ด (๋ณ€ํ˜ธ์‚ฌยท๋ฒ•๋ฌด์‚ฌยท๊ณต์ธ๋…ธ๋ฌด์‚ฌยท๋ณ€๋ฆฌ์‚ฌ)

    • ๋Œ€๋ถ€๋ถ„์˜ ๋ชจ๋ธ์ด ๋‚ฎ์€ ์„ฑ์  (40~55%)

    • pass ๊ธฐ์ค€(๊ณผ๋ชฉ๋ณ„ 40% ์ด์ƒ, ์ „์ฒด ํ‰๊ท  60%) ์ถฉ์กฑ ์–ด๋ ค์›€

    • o1, Claude 3.7๋„ ๋ฒ•๋ฅ  ๊ณ„์—ด ํ•ฉ๊ฒฉ์€ ๊ฑฐ์˜ ์‹คํŒจ

  • ํšŒ๊ณ„/์„ธ๋ฌด/๊ด€์„ธ/๊ฐ์ •ํ‰๊ฐ€ยท์†ํ•ด์‚ฌ์ •

    • ๋Œ€ํ˜• ๋ชจ๋ธ๋„ 55~65%๋Œ€ โ†’ ํ•ฉ๊ฒฉ ๊ธฐ์ค€ ์ถฉ์กฑ ์–ด๋ ค์›€

    • ์„ธ๋ฌด์‚ฌ/ํšŒ๊ณ„์‚ฌ ์‹œํ—˜์€ ๊ฑฐ์˜ ๋ชจ๋“  ๋ชจ๋ธ์ด ์‹คํŒจ

  • ๊ด€์„ธ์‚ฌ/์†ํ•ด์‚ฌ์ •์‚ฌ/๊ฐ์ •ํ‰๊ฐ€์‚ฌ

    • GPT-4.1, Claude 3.7์€ ์ผ๋ถ€ ์‹œํ—˜ ํ•ฉ๊ฒฉ ๊ฐ€๋Šฅ์„ฑ

    • SLM์€ ๊ฑฐ์˜ ์ „๋ถ€ ํƒˆ๋ฝ

References

Last updated