Overview

0. Background: ํ‰๊ฐ€์˜ ์ค‘์š”์„ฑ


Road to Production: Evaluation-driven LLMOps

ํ‰๊ฐ€ ๋ฐฉ๋ฒ•๊ณผ ์˜์˜

  • ๋ณดํ†ต LLM์„ ๋ฒค์น˜๋งˆํฌ ๋ฐ์ดํ„ฐ์…‹์˜ ๋ชจ๋“  ์˜ˆ์ œ์— ๋Œ€ํ•ด ์ œ๋กœ์ƒท ๋˜๋Š” ํ“จ์ƒท์œผ๋กœ ์‹คํ–‰ํ•˜๊ณ , ์ •ํ™•๋„๋‚˜ F1 ์ ์ˆ˜ ๋“ฑ ์ง€ํ‘œ๋ฅผ ๊ณ„์‚ฐํ•จ.

  • ์ž๋™ํ™”๋œ ๋ฒค์น˜๋งˆํฌ๋Š” ํ‘œ์ค€ํ™”๋˜๊ณ  ๊ฐ๊ด€์ ์ด๋ฉฐ, ์—ฌ๋Ÿฌ ๋ชจ๋ธ์„ ์ง์ ‘ ๋น„๊ตํ•  ์ˆ˜ ์žˆ์Œ.

  • ์‹œ๊ฐ„์ด ์ง€๋‚จ์— ๋”ฐ๋ผ ๋ชจ๋ธ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์ถ”์ ํ•  ์ˆ˜ ์žˆ๊ณ , ๊ธฐ์ดˆ์ ์ธ ์–ธ์–ด ์ดํ•ด ๋Šฅ๋ ฅ ์—ฌ๋ถ€๋ฅผ ํŒ๋‹จํ•˜๋Š” ๋ฐ ํ•„์ˆ˜

๋ฃจ๋ธŒ๋ฆญ(Rubric)

  • ๋ฃจ๋ธŒ๋ฆญ์€ ํ‰๊ฐ€๋ฅผ ์œ„ํ•œ ๊ฐ€์ด๋“œ๋ผ์ธ/๊ธฐ์ค€ํ‘œ๋กœ ๊ฐ ํ•ญ๋ชฉ๋ณ„๋กœ ๋ฌด์—‡์ด ์ข‹์€ ์„ฑ๊ณผ์ด๊ณ , ๋ฌด์—‡์ด ๋ถ€์กฑํ•œ ์„ฑ๊ณผ์ธ์ง€ ๋ช…ํ™•ํ•˜๊ฒŒ ์ •์˜ํ•จ. ํ•™๊ต์—์„œ ์„ ์ƒ๋‹˜์ด ํ•™์ƒ๋“ค์˜ ๊ณผ์ œ๋ฅผ ์ฑ„์ ํ•  ๋•Œ ์‚ฌ์šฉํ•˜๋Š” ์ฑ„์ ํ‘œ๋กœ ๋น„์œ ํ•  ์ˆ˜ ์žˆ์Œ

  • ์˜ˆ: ์ดˆ๋“ฑํ•™๊ต์—์„œ '๋‚ด๊ฐ€ ์ข‹์•„ํ•˜๋Š” ๋™๋ฌผ' ๋ฐœํ‘œ๋ฅผ ํ•  ๋•Œ ์„ ์ƒ๋‹˜์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋ฃจ๋ธŒ๋ฆญ์„ ๋งŒ๋“ค ์ˆ˜ ์žˆ์Œ.

  • ๋ฐœํ‘œ ๋‚ด์šฉ (30์ )

    • ์šฐ์ˆ˜(30์ ): ๋™๋ฌผ์— ๋Œ€ํ•œ ์‚ฌ์‹ค์ด 5๊ฐœ ์ด์ƒ, ๋ชจ๋‘ ์ •ํ™•ํ•จ

    • ๋ณดํ†ต(20์ ): ๋™๋ฌผ์— ๋Œ€ํ•œ ์‚ฌ์‹ค์ด 3-4๊ฐœ, ๋Œ€๋ถ€๋ถ„ ์ •ํ™•ํ•จ

    • ๋ฏธํก(10์ ): ๋™๋ฌผ์— ๋Œ€ํ•œ ์‚ฌ์‹ค์ด 2๊ฐœ ์ดํ•˜, ๋ถ€์ •ํ™•ํ•œ ์ •๋ณด ํฌํ•จ

  • ๋ฐœํ‘œ ํƒœ๋„ (20์ )

    • ์šฐ์ˆ˜(20์ ): ๋ชฉ์†Œ๋ฆฌ๊ฐ€ ํฌ๊ณ  ๋ช…ํ™•ํ•˜๋ฉฐ, ์ฒญ์ค‘๊ณผ ๋ˆˆ ๋งž์ถค ์œ ์ง€

    • ๋ณดํ†ต(10์ ): ๋ชฉ์†Œ๋ฆฌ๋Š” ๋“ค๋ฆฌ์ง€๋งŒ ๊ฐ€๋” ์ž‘์•„์ง, ์ผ๋ถ€ ๋ˆˆ ๋งž์ถค

    • ๋ฏธํก(5์ ): ๋ชฉ์†Œ๋ฆฌ๊ฐ€ ๋„ˆ๋ฌด ์ž‘๊ณ , ๋ˆˆ ๋งž์ถค ๊ฑฐ์˜ ์—†์Œ

  • LLM ํ‰๊ฐ€์—์„œ์˜ ๋ฃจ๋ธŒ๋ฆญ์€ AI ๋ชจ๋ธ์ด ์‚ฌ์šฉ์ž์™€ ๋Œ€ํ™”ํ•  ๋•Œ ์ƒ์„ฑํ•˜๋Š” ์‘๋‹ต์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ๊ธฐ์ค€ํ‘œ๋กœ ์‰ฝ๊ฒŒ ๋งํ•ด์„œ, "์ด AI์˜ ๋Œ€๋‹ต์ด ํ•ฉ๊ฒฉ์ธ์ง€ ๋ถˆํ•ฉ๊ฒฉ์ธ์ง€ ์–ด๋–ป๊ฒŒ ํŒ๋‹จํ• ๊นŒ?"์— ๋Œ€ํ•œ ๋ช…ํ™•ํ•œ ๊ธฐ์ค€์„ ์ •ํ•ด๋‘” ๊ฒƒ์ž„.

  • ์˜ˆ๋ฅผ ๋“ค์–ด "Tool Call" ๋ฃจ๋ธŒ๋ฆญ์—์„œ๋Š”:

    • AI๊ฐ€ ์˜ฌ๋ฐ”๋ฅธ ๊ธฐ๋Šฅ์„ ์„ ํƒํ–ˆ๋Š”๊ฐ€?

    • ํ•„์š”ํ•œ ์ •๋ณด๋ฅผ ์ •ํ™•ํžˆ ์ถ”์ถœํ–ˆ๋Š”๊ฐ€?

    • ์‚ฌ์šฉ์ž๊ฐ€ ๋งํ•˜์ง€ ์•Š์€ ์ •๋ณด๋ฅผ ๋งˆ์Œ๋Œ€๋กœ ๋งŒ๋“ค์–ด๋‚ด์ง€๋Š” ์•Š์•˜๋Š”๊ฐ€?

  • ๋ฃจ๋ธŒ๋ฆญ์ด ์ค‘์š”ํ•œ ์ด์œ :

    1. ๊ฐ๊ด€์„ฑ: ์—ฌ๋Ÿฌ ํ‰๊ฐ€์ž๊ฐ€ ๋™์ผํ•œ ๊ธฐ์ค€์œผ๋กœ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ์Œ

    2. ์ผ๊ด€์„ฑ: ๋ชจ๋“  AI ๋ชจ๋ธ์„ ๊ฐ™์€ ๊ธฐ์ค€์œผ๋กœ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ์Œ

    3. ๋ช…ํ™•์„ฑ: ์–ด๋–ค ๋ถ€๋ถ„์ด ์ž˜ํ–ˆ๊ณ , ์–ด๋–ค ๋ถ€๋ถ„์ด ๊ฐœ์„ ์ด ํ•„์š”ํ•œ์ง€ ์ •ํ™•ํžˆ ์•Œ ์ˆ˜ ์žˆ์Œ

    4. ํ”ผ๋“œ๋ฐฑ: AI ๊ฐœ๋ฐœ์ž๋“ค์—๊ฒŒ ๊ตฌ์ฒด์ ์ธ ๊ฐœ์„  ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•  ์ˆ˜ ์žˆ์Œ

  • ๊ณผ์ ํ•ฉ ๋ฌธ์ œ: ๊ณต๊ฐœ๋œ ๋ฒค์น˜๋งˆํฌ ๋ฐ์ดํ„ฐ๊ฐ€ ํ•™์Šต ๋ฐ์ดํ„ฐ์— ํฌํ•จ๋˜๋ฉด ์ ์ˆ˜๊ฐ€ ๋ถ€ํ’€๋ ค์งˆ ์ˆ˜ ์žˆ์Œ.

  • ํ˜„์‹ค ์„ธ๊ณ„ ์„ฑ๋Šฅ๊ณผ์˜ ๊ดด๋ฆฌ: ๋ฒค์น˜๋งˆํฌ์—์„œ ๋†’์€ ์ ์ˆ˜๋ฅผ ๋ฐ›์•„๋„ ์‹ค์ œ ๋Œ€ํ™”๋‚˜ ์‘์šฉ์—์„œ ์‹ค์ˆ˜๋ฅผ ํ•  ์ˆ˜ ์žˆ์Œ.

  • ๊ตฟํ•˜ํŠธ ๋ฒ•์น™(Goodhart's Law): ๋ฒค์น˜๋งˆํฌ๊ฐ€ ๋ชฉํ‘œ๊ฐ€ ๋˜๋ฉด ๋ชจ๋ธ์ด ๋ฒค์น˜๋งˆํฌ ํŠน์„ฑ์— ๋งž์ถฐ ์ตœ์ ํ™”๋˜์–ด ์ง„์ •ํ•œ ๋Šฅ๋ ฅ๊ณผ๋Š” ๋‹ค๋ฅผ ์ˆ˜ ์žˆ์Œ.

  • ๋”ฐ๋ผ์„œ ์ƒˆ๋กญ๊ณ  ๋‹ค์–‘ํ•œ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•์„ ์ง€์†์ ์œผ๋กœ ๊ฐœ๋ฐœํ•  ํ•„์š”๊ฐ€ ์žˆ์Œ.

1. Key metrics for LLM evaluation


1.1. Traditional Statistical Metrics

  • Accuracy/Precision/Recall/F1/Exact Match โ€“ did the model get the correct answer or complete the task?

  • Perplexity โ€“ how well does the model predict text?

  • N-gram overlap metrics (bleu, rouge, etc.) โ€“ how much does output match a reference text?

์ง€ํ‘œ๋ช…
์„ค๋ช…
ํŠน์ง• ๋ฐ ํ•œ๊ณ„

Perplexity

์–ธ์–ด ๋ชจ๋ธ์ด ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ๋ฅผ ์–ผ๋งˆ๋‚˜ ์ž˜ ์˜ˆ์ธกํ•˜๋Š”์ง€ ํ‰๊ฐ€ํ•˜๋Š” ์ง€ํ‘œ๋กœ, ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ์˜ ํ‰๊ท  ์Œ์˜ ๋กœ๊ทธ ๊ฐ€๋Šฅ๋„์˜ ์ง€์ˆ˜๊ฐ’. ๊ฐ’์ด ๋‚ฎ์„์ˆ˜๋ก ๋ชจ๋ธ์ด ๋ฐ์ดํ„ฐ๋ฅผ ๋œ โ€˜๋†€๋ž๊ฒŒโ€™ ์—ฌ๊ฒจ ๋” ์ข‹์€ ์ ํ•ฉ๋„๋ฅผ ์˜๋ฏธ๋ฏธํ•จ. ์˜ˆ๋ฅผ ๋“ค์–ด, perplexity๊ฐ€ 20์ด๋ฉด ํ‰๊ท ์ ์œผ๋กœ ๋‹จ์–ด๋ฅผ 20๊ฐ€์ง€ ์ค‘ ํ•˜๋‚˜๋ฅผ ๊ณ ๋ฅด๋Š” ๊ฒƒ๋งŒํผ ๋ถˆํ™•์‹คํ•˜๋‹ค๋Š” ๋šฏ์ž„.

- ํ•™์Šต ์ค‘์ด๋‚˜ ๋ชจ๋ธ ๊ฐ„ ๋น„๊ต์— ์ฃผ๋กœ ์‚ฌ์šฉ - ๋‚ฎ์„์ˆ˜๋ก ์ข‹์Œ - ๋ฌธ๋ฒ•์ /์˜๋ฏธ์  ์ •ํ™•์„ฑ ํ‰๊ฐ€ ๋ถˆ๊ฐ€ - ์‹ค์ œ ์œ ์šฉ์„ฑ ํŒ๋‹จ ๋ถˆ๊ฐ€

BLEU (Bilingual Evaluation Understudy)

๊ธฐ๊ณ„ ๋ฒˆ์—ญ ํ‰๊ฐ€์— ๊ฐœ๋ฐœ๋œ ์ •๋ฐ€๋„ ๊ธฐ๋ฐ˜ ์ง€ํ‘œ๋กœ, ์ƒ์„ฑ ๋ฌธ์žฅ๊ณผ ํ•˜๋‚˜ ์ด์ƒ์˜ ๊ธฐ์ค€ ๋ฌธ์„œ ๊ฐ„ n-๊ทธ๋žจ(์—ฐ์†๋œ n๊ฐœ์˜ ๋‹จ์–ด) ๊ฒน์นจ ์ •๋„๋ฅผ ์ธก์ •. BLEU ์ ์ˆ˜๊ฐ€ ๋†’์œผ๋ฉด ๊ธฐ์ค€ ๋ฌธ์žฅ๊ณผ ์œ ์‚ฌํ•œ ๊ตฌ๋ฌธ์„ ๋งŽ์ด ํฌํ•จํ•œ ๊ฒƒ์œผ๋กœ ๊ฐ„์ฃผํ•จ.

- ํŠน์ • ๊ธฐ์ค€ ๋ฌธ์žฅ๊ณผ ๋น„๊ต์— ํšจ๊ณผ์  - ์ฐฝ์˜์  ์žฌ๊ตฌ์„ฑ์ด๋‚˜ ๋‹ค์–‘ํ•œ ํ‘œํ˜„์— ๋ถˆ๋ฆฌ - ๋‹จ์ผ ์ •๋‹ต์ด ์—†๋Š” ์ž์œ  ์ƒ์„ฑ์—๋Š” ์ ํ•ฉํ•˜์ง€ ์•Š์Œ

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

์ฃผ๋กœ ์š”์•ฝ ํ‰๊ฐ€์— ์‚ฌ์šฉ๋˜๋Š” ์ง€ํ‘œ๋กœ, ๊ธฐ์ค€ ๋ฌธ์„œ์˜ n-๊ทธ๋žจ ์ค‘ ์ƒ์„ฑ ๋ฌธ์žฅ์— ํฌํ•จ๋œ ๋น„์œจ(์žฌํ˜„์œจ) ์ธก์ •. ROUGE-L์€ ๊ฐ€์žฅ ๊ธด ๊ณตํ†ต ๋ถ€๋ถ„์ˆ˜์—ด(Longest Common Subsequence)์„ ํ†ตํ•ด ๋ฌธ์žฅ ๊ตฌ์กฐ ์œ ์‚ฌ์„ฑ ํ‰๊ฐ€

- ์š”์•ฝ์—์„œ ์ •๋ณด ํฌ์ฐฉ ์ •๋„ ํ‰๊ฐ€์— ์ ํ•ฉ - ๊ณ„์‚ฐ์ด ๊ฐ„๋‹จํ•˜๊ณ  ๊ธฐ์ค€ ๋ฌธ์„œ ํ•„์š” - ๋ฌธ๋งฅ ์ผ๊ด€์„ฑ, ์‚ฌ์‹ค ์ •ํ™•์„ฑ ํ‰๊ฐ€ ๋ถˆ๊ฐ€

METEOR (Metric for Evaluation of Translation with Explicit ORdering)

BLEU์˜ ํ•œ๊ณ„๋ฅผ ๋ณด์™„ํ•˜๊ธฐ ์œ„ํ•ด ๊ณ ์•ˆ๋œ ์ง€ํ‘œ๋กœ, ์–ด๊ฐ„(stem)๊ณผ ๋™์˜์–ด(synonym)๋ฅผ ํฌํ•จํ•ด ์œ ์—ฐํ•˜๊ฒŒ ๋‹จ์–ด๋ฅผ ๋งค์นญํ•จ. ์ •๋ฐ€๋„์™€ ์žฌํ˜„์œจ์„ ๋ชจ๋‘ ๊ณ ๋ คํ•˜๋ฉฐ, ๋‹จ์–ด ์ˆœ์„œ ์ฐจ์ด์— ํŽ˜๋„ํ‹ฐ๋ฅผ ๋ถ€๊ณผํ•จ.

- BLEU๋ณด๋‹ค ์ธ๊ฐ„ ํ‰๊ฐ€์™€ ์ƒ๊ด€๊ด€๊ณ„๊ฐ€ ๋†’์Œ - 0~1(๋˜๋Š” 0~100%) ์ ์ˆ˜๋กœ ํ‘œํ˜„ - ๋‹ค์–‘ํ•œ ํ‘œํ˜„ ์ธ์ •

ํ•œ๊ณ„์ 

  • ๊ธฐ์ค€ ๋ฌธ์„œ ํ•„์š”์„ฑ: ๋Œ€๋ถ€๋ถ„ ์ฐธ์กฐ ๋‹ต์•ˆ(ground truth)์ด ์žˆ์–ด์•ผ ํ‰๊ฐ€ ๊ฐ€๋Šฅ. ์ž์œ ๋กœ์šด ๋Œ€ํ™”๋‚˜ ์ฐฝ์˜์  ์ƒ์„ฑ์—๋Š” ์ ์šฉ ์–ด๋ ค์›€

  • ํ‘œ๋ฉด์  ์œ ์‚ฌ์„ฑ ํ‰๊ฐ€: ์˜๋ฏธ๋Š” ๊ฐ™์ง€๋งŒ ๋‹ค๋ฅธ ํ‘œํ˜„์€ ๋‚ฎ๊ฒŒ ํ‰๊ฐ€ํ•˜๊ฑฐ๋‚˜, ๊ธฐ์ค€ ๋ฌธ์žฅ์„ ๊ทธ๋Œ€๋กœ ๋ณต๋ถ™ํ•ด๋„ ๋†’์€ ์ ์ˆ˜ ํš๋“ ๊ฐ€๋Šฅ

  • ์‚ฌ์‹ค์„ฑยท๋…ผ๋ฆฌ์„ฑ ๋ฏธ๋ฐ˜์˜: ๋ฌธ๋ฒ•์€ ๋งž์•„๋„ ์‚ฌ์‹ค์ด ํ‹€๋ฆฌ๋ฉด ์ ์ˆ˜๊ฐ€ ๋†’์„ ์ˆ˜ ์žˆ์Œ

  • ๊ณผ์ตœ์ ํ™” ์œ„ํ—˜: ์ง€ํ‘œ์— ๋งž์ถ”๊ธฐ ์œ„ํ•œ โ€˜๊ฒŒ์ž„โ€™ ํ•™์Šต ์œ ๋„ ๊ฐ€๋Šฅ

1.2. Model-based Evaluation metrics

๊ธฐ์กด์˜ ๋‹จ์ˆœํ•œ overlap ๊ธฐ๋ฐ˜ ํ‰๊ฐ€ ์ง€ํ‘œ(์˜ˆ: BLEU, ROUGE)๋Š” ํ…์ŠคํŠธ์˜ ์˜๋ฏธ๋ฅผ ์ถฉ๋ถ„ํžˆ ๋ฐ˜์˜ํ•˜์ง€ ๋ชปํ•˜๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์Œ. ์ด๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด, LLM ๊ธฐ๋ฐ˜ ํ‰๊ฐ€๋ฅผ ํ™œ์šฉํ•ด ์ถœ๋ ฅ ๊ฒฐ๊ณผ์˜ ํ’ˆ์งˆ์„ ๋” ์ •๊ตํ•˜๊ฒŒ ํŒ๋‹จํ•จ.

ํ‰๊ฐ€ ์ง€ํ‘œ
์„ค๋ช…
ํŠน์ง• ๋ฐ ์žฅ์ 

BERTScore

BERT์˜ ์‚ฌ์ „ํ•™์Šต๋œ ์ž„๋ฒ ๋”ฉ์„ ํ™œ์šฉํ•ด ํ›„๋ณด ๋ฌธ์žฅ๊ณผ ๊ธฐ์ค€(reference) ๋ฌธ์žฅ ๊ฐ„ ์˜๋ฏธ์  ์œ ์‚ฌ์„ฑ์„ ํ‰๊ฐ€

๋‹จ์–ด ๊ฐ„ ๋ฒกํ„ฐ ์œ ์‚ฌ๋„ ๊ธฐ๋ฐ˜ ์ •๋ฐ€๋„, ์žฌํ˜„์œจ, F1 ์ ์ˆ˜ ์‚ฐ์ถœ. ์˜๋ฏธ ๊ธฐ๋ฐ˜ ํ‰๊ฐ€๋กœ BLEU/ROUGE๋ณด๋‹ค ์ธ๊ฐ„ ํ‰๊ฐ€์™€ ์ƒ๊ด€๊ด€๊ณ„๊ฐ€ ๋†’์Œ

COMET

Unbabel์—์„œ ๊ฐœ๋ฐœํ•œ ๊ธฐ๊ณ„๋ฒˆ์—ญ(MT) ํ‰๊ฐ€์šฉ ์‹ ๊ฒฝ๋ง ๋ชจ๋ธ

์›๋ฌธ, ๋ฒˆ์—ญ, ๊ธฐ์ค€ ๋ฒˆ์—ญ์„ ์ž…๋ ฅ๋ฐ›์•„ ์ธ๊ฐ„ ํ‰๊ฐ€์™€ ์œ ์‚ฌํ•œ ํ’ˆ์งˆ ์ ์ˆ˜๋ฅผ ์˜ˆ์ธก. ์˜ค์—ญ ๋“ฑ ๋‹จ์ˆœ ๊ฒน์นจ ์ง€ํ‘œ๊ฐ€ ๋†“์น˜๋Š” ์˜ค๋ฅ˜ ํฌ์ฐฉ ๊ฐ€๋Šฅ

BLEURT, PRISM, BARTScore

๋‹ค์–‘ํ•œ ์‚ฌ์ „ํ•™์Šต ๋ชจ๋ธ์„ ํ™œ์šฉํ•œ ํ•™์Šต ๊ธฐ๋ฐ˜ ํ‰๊ฐ€ ์ง€ํ‘œ๋“ค

BLEURT๋Š” BERT ๋ฏธ์„ธ์กฐ์ •, PRISM์€ ๋‹ค๊ตญ์–ด ๋ชจ๋ธ, BARTScore๋Š” BART ๊ธฐ๋ฐ˜ ์žฌ๊ตฌ์„ฑ ํ™•๋ฅ  ์ด์šฉ. ๋ชจ๋‘ ์˜๋ฏธ์  ํ‰๊ฐ€ ๊ฐ•ํ™”

GPT Score / LLM ๊ธฐ๋ฐ˜ ํ‰๊ฐ€

GPT-3, GPT-4 ๊ฐ™์€ ๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ์„ ์ง์ ‘ ํ‰๊ฐ€์ž๋กœ ํ™œ์šฉ

GPT-4์— ํ‰๊ฐ€ ๊ธฐ์ค€๊ณผ ์ฒด์ธ ์˜ค๋ธŒ ์‚ฌ๊ณ (chain-of-thought) ์„ค๋ช…์„ ํฌํ•จํ•œ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์ค˜ ์ ์ˆ˜ ๋ฐ ์ด์œ ๋ฅผ ์‚ฐ์ถœ. ์ธ๊ฐ„ ํ‰๊ฐ€์™€ ๋†’์€ ์ผ์น˜์œจ

  • BERTScore๋Š” ๋‹จ์–ด์˜ ์ •ํ™•ํ•œ ์ผ์น˜๊ฐ€ ์•„๋‹ˆ๋ผ ์˜๋ฏธ์ ์œผ๋กœ ์œ ์‚ฌํ•œ ๋‹จ์–ด๋ฅผ ์ฐพ์•„ ์ ์ˆ˜ ๋ถ€์—ฌ. ์˜ˆ๋ฅผ ๋“ค์–ด, "์ž๋™์ฐจ"์™€ "์ฐจ"๋Š” ๋‹ค๋ฅด์ง€๋งŒ ๋น„์Šทํ•œ ์˜๋ฏธ์ด๋ฏ€๋กœ ๋†’์€ ์ ์ˆ˜๋ฅผ ๋ฐ›์„ ์ˆ˜ ์žˆ์Œ.

  • COMET์€ ๊ธฐ๊ณ„๋ฒˆ์—ญ ํ’ˆ์งˆ ํ‰๊ฐ€๋ฅผ ์œ„ํ•ด ์ธ๊ฐ„ ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ๋ฅผ ํ•™์Šตํ•ด, ๋‹จ์ˆœ ๊ฒน์นจ์ด ์•„๋‹Œ ๋ฌธ๋งฅ๊ณผ ๋ฒˆ์—ญ ์˜ค๋ฅ˜๊นŒ์ง€ ํ‰๊ฐ€

  • BLEURT, PRISM, BARTScore ๋“ฑ์€ ๋‹ค์–‘ํ•œ ์‚ฌ์ „ํ•™์Šต ๋ชจ๋ธ์„ ํ™œ์šฉํ•ด ํ…์ŠคํŠธ ํ’ˆ์งˆ์„ ํ‰๊ฐ€ํ•˜๋ฉฐ, ๊ฐ๊ธฐ ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•๋ก ์œผ๋กœ ์˜๋ฏธ์  ์ ํ•ฉ์„ฑ, ๋ฌธ๋ฒ•, ์œ ์ฐฝ์„ฑ ๋“ฑ์„ ๋ฐ˜์˜.

  • GPT Score / LLM ๊ธฐ๋ฐ˜ ํ‰๊ฐ€๋Š” GPT-4 ๊ฐ™์€ ๊ฐ•๋ ฅํ•œ ์–ธ์–ด ๋ชจ๋ธ์„ ํ‰๊ฐ€์ž๋กœ ์‚ฌ์šฉํ•˜์—ฌ, ๋ฌธ์žฅ ๋…ผ๋ฆฌ์„ฑ, ๋ช…ํ™•์„ฑ, ์ ํ•ฉ์„ฑ ๋“ฑ์„ ์‚ฌ๋žŒ์ด ์ง์ ‘ ํ‰๊ฐ€ํ•˜๋“ฏ ํŒ๋‹จํ•จ.

์žฅ์  ๋ฐ ํ•œ๊ณ„

์žฅ์ 
ํ•œ๊ณ„
  • ์˜๋ฏธ์  ์ ํ•ฉ์„ฑ, ์œ ์ฐฝ์„ฑ, ๋ฌธ๋งฅ ์ดํ•ด ๋ฐ˜์˜ ๊ฐ€๋Šฅ

  • ์ธ๊ฐ„ ํ‰๊ฐ€์™€ ๋†’์€ ์ƒ๊ด€๊ด€๊ณ„

  • ๋‹จ์ˆœ ํ‚ค์›Œ๋“œ ๊ฒน์นจ์„ ๋„˜๋Š” ํ‰๊ฐ€ ๊ฐ€๋Šฅ

  • ๋ชจ๋ธ ์ž์ฒด์˜ ํŽธํ–ฅ(bias) ๋ฐ˜์˜ ๊ฐ€๋Šฅ

  • ํ‰๊ฐ€ ํ”„๋กฌํ”„ํŠธ ์„ค๊ณ„์— ๋ฏผ๊ฐ

  • ํ‰๊ฐ€ ๋ชจ๋ธ์— ์ตœ์ ํ™”๋œ ๋‹ต๋ณ€ ์ƒ์„ฑ ์œ„ํ—˜

  • ๋ฐ˜๋“œ์‹œ ์ธ๊ฐ„ ํ‰๊ฐ€์™€ ๋ณ‘ํ–‰ ํ•„์š”

๋ชจ๋ธ ๊ธฐ๋ฐ˜ ํ‰๊ฐ€ ์ง€ํ‘œ๋“ค์€ ๊ธฐ์กด BLEU, ROUGE ๊ฐ™์€ ๋‹จ์ˆœ ๊ฒน์นจ ์ง€ํ‘œ๋ณด๋‹ค ๋ฌธ์žฅ ์˜๋ฏธ, ๋ฌธ๋งฅ, ์˜ค๋ฅ˜ ์œ ํ˜•์„ ๋” ์ž˜ ๋ฐ˜์˜ํ•˜์—ฌ ์ž์—ฐ์–ด ์ƒ์„ฑ(NLG) ํ’ˆ์งˆ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐ ์œ ์šฉํ•จ. ํŠนํžˆ GPT-4์™€ ๊ฐ™์€ LLM์„ ํ™œ์šฉํ•œ ํ‰๊ฐ€ ๋ฐฉ์‹์€ ํ‰๊ฐ€ ๊ทผ๊ฑฐ๋ฅผ ์„ค๋ช…ํ•  ์ˆ˜ ์žˆ์–ด ์‹ ๋ขฐ๋„๊ฐ€ ๋†’์•„์ง€๊ณ  ์žˆ์Œ. ๋‹ค๋งŒ, ํ‰๊ฐ€ ๋ชจ๋ธ์˜ ํ•œ๊ณ„์™€ ํŽธํ–ฅ์„ ๊ณ ๋ คํ•ด ์‹ ์ค‘ํ•˜๊ฒŒ ์‚ฌ์šฉํ•ด์•ผ ํ•˜๋ฉฐ, ์ตœ์ข… ๊ฒ€์ฆ์€ ํ•ญ์ƒ ์ธ๊ฐ„ ํ‰๊ฐ€๊ฐ€ ํ•„์š”ํ•จ.

1.3. Human-Evaluated Methods


์ž๋™ ํ‰๊ฐ€ ์ง€ํ‘œ์˜ ํ•œ๊ณ„๋กœ ์ธํ•ด, LLM ํ‰๊ฐ€์—์„œ ์ธ๊ฐ„ ํ‰๊ฐ€๊ฐ€ ๋งค์šฐ ์ค‘์š”. ์ธ๊ฐ„ ํ‰๊ฐ€๋ฅผ ํ†ตํ•ด ๋„์›€๋จ(helpfulness), ์ง„์‹ค์„ฑ(truthfulness), ์ž์—ฐ์Šค๋Ÿฌ์›€(naturalness), ์„ ํ˜ธ๋„(preference), ์ฐฝ์˜์„ฑ, ์œค๋ฆฌ์„ฑ ํ‰๊ฐ€ ๊ฐ™์€ ์ž๋™ํ™” ์ง€ํ‘œ๋กœ ์ธก์ •ํ•˜๊ธฐ ์–ด๋ ค์šด ํ’ˆ์งˆ์„ ์ง์ ‘ ํŒ๋‹จํ•  ์ˆ˜ ์žˆ์Œ. ํ‰๊ฐ€์ž ๊ฐ„ ํŽธ์ฐจ ๋ฐ ํŽธํ–ฅ, ๋น„์šฉ ๋ฐ ์‹œ๊ฐ„ ๋“ฑ์˜ ๋‚œ์ œ๊ฐ€ ์žˆ์ง€๋งŒ ์žฅ์ ์ด ๋งŽ๊ธฐ์— ์ธ๊ฐ„ ํ‰๊ฐ€๋ฅผ ํ†ตํ•ด ์ž๋™ ์ง€ํ‘œ๋ฅผ ๋ณด์ •ํ•˜๋Š” ๊ฒƒ์ด ์ข‹์Œ.

์ฃผ์š” ์ธ๊ฐ„ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•

ํ‰๊ฐ€ ๋ฐฉ๋ฒ•
์„ค๋ช…
์žฅ์ 
์˜ˆ์‹œ ๋ฐ ํ™œ์šฉ

์„ ํ˜ธ๋„ ํ…Œ์ŠคํŠธ (Preference Tests, Pairwise Comparison)

๋‘ ๋ชจ๋ธ์˜ ์ถœ๋ ฅ(๋˜๋Š” ๋ชจ๋ธ๊ณผ ๊ธฐ์ค€ ๋‹ต๋ณ€)์„ ๋น„๊ตํ•ด ์–ด๋А ์ชฝ์ด ๋” ์ข‹์€์ง€ ์„ ํƒ

ํ‰๊ฐ€์ž๊ฐ€ ์ ˆ๋Œ€ ์ ์ˆ˜๋ณด๋‹ค ์ƒ๋Œ€์  ์„ ํ˜ธ๋ฅผ ํŒ๋‹จํ•˜๊ธฐ ์‰ฌ์›€, ๋ชจ๋ธ ๊ฐ„ ์„ฑ๋Šฅ ๋น„๊ต์— ํšจ๊ณผ์ 

OpenAI, DeepMind ๋“ฑ์—์„œ RLHF(์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ ๊ฐ•ํ™”ํ•™์Šต)์— ํ™œ์šฉ. GPT-4๊ฐ€ GPT-3.5๋ณด๋‹ค ์„ ํ˜ธ๋˜๋Š”์ง€ ํ‰๊ฐ€ํ•  ๋•Œ ์‚ฌ์šฉ

๋ผ์ด์ปคํŠธ ์ฒ™๋„ ํ‰๊ฐ€ (Likert Scale Ratings)

1~5 ๋˜๋Š” 1~7 ๋“ฑ ๊ณ ์ • ์ฒ™๋„๋กœ ์—ฌ๋Ÿฌ ๊ธฐ์ค€(ํ’ˆ์งˆ, ์œ ์ต์„ฑ, ํ•ด๋กœ์›€ ๋“ฑ) ํ‰๊ฐ€

์„ธ๋ฐ€ํ•œ ๋‹ค์ฐจ์› ํ‰๊ฐ€ ๊ฐ€๋Šฅ, ํ‰๊ท ๊ณผ ๋ถ„ํฌ๋กœ ๋ชจ๋ธ ์ƒํƒœ ํŒŒ์•… ๊ฐ€๋Šฅ

์ฑ—๋ด‡ ํ‰๊ฐ€์—์„œ ๋งŒ์กฑ๋„, ์ •ํ™•์„ฑ, ๊ณต์†ํ•จ ๋“ฑ ๋‹ค์ค‘ ์ง€ํ‘œ ํ‰๊ฐ€์— ์‚ฌ์šฉ

์Šค์นผ๋ผ ๋˜๋Š” ์ˆœ์œ„ ์ ์ˆ˜ (Scalar or Ranked Outputs)

0~10, 0~100 ๋“ฑ ์ ์ˆ˜ ๋ถ€์—ฌ ๋˜๋Š” ์—ฌ๋Ÿฌ ์ถœ๋ ฅ ์ˆœ์œ„ ๋งค๊น€

๋ผ์ด์ปคํŠธ ์ฒ™๋„๋ณด๋‹ค ์ž์œ ๋กœ์šด ์ ์ˆ˜ ๋ถ€์—ฌ ๊ฐ€๋Šฅ

๊ธด ์š”์•ฝ๋ฌธ ๊ฐ€๋…์„ฑ ํ‰๊ฐ€ ๋“ฑ์—์„œ ํ™œ์šฉ

A/B ํ…Œ์ŠคํŠธ (A/B Testing with End Users)

์‹ค์ œ ์‚ฌ์šฉ์ž์—๊ฒŒ ๋‘ ๋ชจ๋ธ์„ ๋ฐฐํฌํ•ด ํด๋ฆญ๋ฅ , ๋งŒ์กฑ๋„ ๋“ฑ ์‹ค์‚ฌ์šฉ ๋ฐ์ดํ„ฐ๋กœ ํ‰๊ฐ€

๋Œ€๊ทœ๋ชจ ์‹ค์‚ฌ์šฉ ํ‰๊ฐ€ ๊ฐ€๋Šฅ, ํ˜„์‹ค์  ์„ฑ๊ณต ๊ธฐ์ค€ ์ธก์ •

๊ฒ€์ƒ‰ ์งˆ์˜ ์‘๋‹ต ๋ชจ๋ธ ์‹ ๊ตฌ ๋ฒ„์ „ ๋น„๊ต, ์‚ฌ์šฉ์ž ํ–‰๋™ ๊ธฐ๋ฐ˜ ํ‰๊ฐ€

ํ‰๊ฐ€ ๋Œ€์ƒ ์ฃผ์š” ํ•ญ๋ชฉ

  • ์ •ํ™•์„ฑ(Accuracy/Correctness): ์‚ฌ์‹ค ์˜ค๋ฅ˜ ์—ฌ๋ถ€

  • ๊ด€๋ จ์„ฑ(Relevance): ์งˆ๋ฌธ๊ณผ ์ฃผ์ œ ์ ํ•ฉ์„ฑ

  • ์œ ์ฐฝ์„ฑ(Fluency/Naturalness): ๋ฌธ๋ฒ•, ์ž์—ฐ์Šค๋Ÿฌ์šด ๋ฌธ์žฅ ๊ตฌ์„ฑ

  • ์ผ๊ด€์„ฑ(Coherence): ๋…ผ๋ฆฌ์  ํ๋ฆ„, ์ด์•ผ๊ธฐ ์ „๊ฐœ

  • ์œ ์šฉ์„ฑ(Usefulness): ๋‹ต๋ณ€์˜ ์‹ค์งˆ์  ๋„์›€ ์—ฌ๋ถ€

  • ํ•ด๋กœ์›€/์œ ํ•ด์„ฑ(Harmfulness/Toxicity): ๊ณต๊ฒฉ์ , ๋ถ€์ ์ ˆํ•œ ๋‚ด์šฉ ํฌํ•จ ์—ฌ๋ถ€

  • ๊ณต์ •์„ฑ(Fairness): ํŽธํ–ฅ, ๊ณ ์ •๊ด€๋… ํฌํ•จ ์—ฌ๋ถ€

์ธ๊ฐ„ ํ‰๊ฐ€์˜ ํ•œ๊ณ„ ๋ฐ ๊ณผ์ œ

  • ๋น„์šฉ๊ณผ ์‹œ๊ฐ„: ๋Œ€๋Ÿ‰ ํ‰๊ฐ€๊ฐ€ ์–ด๋ ต๊ณ  ๋น„์šฉ์ด ๋งŽ์ด ๋“ฆ

  • ํ‰๊ฐ€์ž ๊ฐ„ ํŽธ์ฐจ: ์ฃผ๊ด€์  ์ฐจ์ด ์กด์žฌ, ๋‹ค์ˆ˜ ์˜๊ฒฌ ์ˆ˜๋ ด ๋ฐ ํ†ต๊ณ„์  ๋ถ„์„ ํ•„์š”

  • ํ‰๊ฐ€์ž ํŽธํ–ฅ: ์„ ํ˜ธ๋„, ์—„๊ฒฉ์„ฑ ์ฐจ์ด ๋“ฑ ํŽธํ–ฅ ๋ฌธ์ œ, ๋‹ค์–‘ํ•œ ํ‰๊ฐ€์ž ํ™œ์šฉ ๊ถŒ์žฅ

  • ์Šค์ผ€์ผ ๋ฌธ์ œ: ๋ฐ˜๋ณต์  ๋ชจ๋ธ ์—…๋ฐ์ดํŠธ ์‹œ ๋Œ€๊ทœ๋ชจ ํ‰๊ฐ€๊ฐ€ ๋น„ํšจ์œจ์ 

1.4. Custom task-specific metrics

LLM(๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ)์„ ํŠน์ • ์šฉ๋„์— ๋งž๊ฒŒ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด, ์ผ๋ฐ˜์ ์ธ ํ‰๊ฐ€ ์ง€ํ‘œ๋กœ๋Š” ๋‹ค๋ฃจ๊ธฐ ์–ด๋ ค์šด ํŠน์ˆ˜ํ•œ ๋ชฉํ‘œ๋ฅผ ๋ฐ˜์˜ํ•œ ๋งž์ถคํ˜• ์ง€ํ‘œ๋ฅผ ๊ฐœ๋ฐœํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์Œ.

๊ตฌ๋ถ„
์„ค๋ช…
์˜ˆ์‹œ ๋ฐ ์ฐธ๊ณ  ๋งํฌ

์‚ฌ์‹ค ์ •ํ™•๋„(Factual Accuracy)

๋ชจ๋ธ ์ถœ๋ ฅ์ด ์‹ค์ œ ์‚ฌ์‹ค๊ณผ ์–ผ๋งˆ๋‚˜ ์ผ์น˜ํ•˜๋Š”์ง€๋ฅผ ํ‰๊ฐ€ํ•˜์—ฌ ํ—ˆ์œ„ ์ •๋ณด(ํ™˜๊ฐ)๋ฅผ ์žก์•„๋ƒ„. ๋‹จ๋‹ตํ˜• ์งˆ๋ฌธ์˜ ์ •๋‹ต ์ผ์น˜์œจ๋ถ€ํ„ฐ, ์ง€์‹ ๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜ ์ •๋ฐ€๋„/์žฌํ˜„์œจ, ์š”์•ฝ๋ฌธ๊ณผ ์›๋ฌธ ๊ฐ„ ์‚ฌ์‹ค ์ผ๊ด€์„ฑ ๊ฒ€์‚ฌ(FactCC, Qยฒ) ๋“ฑ์ด ์žˆ์Œ.

์ผ๊ด€์„ฑ ๋ฐ ์‘์ง‘๋ ฅ(Coherence and Consistency)

๊ธด ํ…์ŠคํŠธ์˜ ๋…ผ๋ฆฌ์  ์—ฐ๊ฒฐ์„ฑ(์‘์ง‘์„ฑ)๊ณผ ๋ชจ์ˆœ ์—ฌ๋ถ€(์ผ๊ด€์„ฑ)๋ฅผ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์ด์•ผ๊ธฐ ๋‚ด ์บ๋ฆญํ„ฐ ๋ฌ˜์‚ฌ๊ฐ€ ์•ž๋’ค๋กœ ๋‹ฌ๋ผ์ง€๋Š”์ง€, ๋Œ€ํ™” ์ค‘ ๋‹ต๋ณ€์ด ์„œ๋กœ ๋ชจ์ˆœ๋˜๋Š”์ง€ ๊ฒ€์‚ฌ

ํŠน์ด์„ฑ ๋ฐ ๊ด€๋ จ์„ฑ(Specificity / Relevance)

๋Œ€ํ™” ์‘๋‹ต์ด ์งˆ๋ฌธ์— ๊ตฌ์ฒด์ ์ด๊ณ  ์ ์ ˆํ•œ์ง€ ํ™•์ธ. USR(Unsupervised and Reference-free evaluation) ์ง€ํ‘œ๋Š” ์ฐธ์กฐ ์—†์ด๋„ ๋‹ต๋ณ€์˜ ํŠน์ด์„ฑ๊ณผ ๊ด€๋ จ์„ฑ์„ ํ‰๊ฐ€ํ•˜๋ฉฐ ์ž„๋ฒ ๋”ฉ ์œ ์‚ฌ๋„ ๋น„๊ต๋„ ํ™œ์šฉํ•จ.

๊ธธ์ด ๊ธฐ๋ฐ˜ ํ‰๊ฐ€(Length-based Metrics)

๋‹ต๋ณ€์ด๋‚˜ ์ƒ์„ฑ๋ฌผ์ด ์š”๊ตฌํ•˜๋Š” ๊ธธ์ด ์กฐ๊ฑด(๊ฐ„๊ฒฐ์„ฑ ๋˜๋Š” ์ƒ์„ธํ•จ)์— ๋ถ€ํ•ฉํ•˜๋Š”์ง€ ํ‰๊ฐ€. ์˜ˆ: ์š”์•ฝ์˜ ์••์ถ•๋ฅ , ์ฝ”๋“œ ์ƒ์„ฑ ์‹œ ์˜ฌ๋ฐ”๋ฅธ ์ฝ”๋“œ ๋ผ์ธ ์ˆ˜ ๋“ฑ

์‚ฌ์šฉ์ž ์ฐธ์—ฌ๋„(User Engagement)

๋Œ€ํ™”ํ˜• ์‹œ์Šคํ…œ์—์„œ ์‹ค์ œ ์‚ฌ์šฉ์ž ํ–‰๋™์„ ํ†ตํ•œ ๊ฐ„์ ‘ ์ง€ํ‘œ์ž…๋‹ˆ๋‹ค. ์˜ˆ: ์ฑ—๋ด‡์ด ์‚ฌ๋žŒ ๊ฐœ์ž… ์—†์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•œ ๋น„์œจ(Containment rate), ํ•ด๊ฒฐ ์‹œ๊ฐ„, ์‚ฌ์šฉ์ž ๋งŒ์กฑ๋„ ๋“ฑ

์•ˆ์ „์„ฑ(Safety Metrics)

์œ ํ•ดํ•˜๊ฑฐ๋‚˜ ํŽธํ–ฅ๋œ ์ถœ๋ ฅ ๋น„์œจ ์ธก์ •. ์˜ˆ: ๋…์„ฑ ํƒ์ง€๊ธฐ ์‚ฌ์šฉ, ๋ฏผ๊ฐํ•œ ์งˆ๋ฌธ์— ๋Œ€ํ•œ ํŽธํ–ฅ ๋ถ„์„ ๋“ฑ

์ฝ”๋“œ ํŠนํ™” ํ‰๊ฐ€(Code-specific Metrics)

์ฝ”๋“œ ์ƒ์„ฑ ๋ชจ๋ธ ํ‰๊ฐ€์— ์‚ฌ์šฉ. ๋‹จ์œ„ ํ…Œ์ŠคํŠธ ํ†ต๊ณผ์œจ, ํ”„๋กœ๊ทธ๋ž˜๋ฐ ๋ฌธ์ œ ํ•ด๊ฒฐ๋ฅ (LeetCode, Codeforces) ๋“ฑ์ด ๋Œ€ํ‘œ์ ์ž„.

๋งž์ถคํ˜• ์ง€ํ‘œ์˜ ์ค‘์š”์„ฑ

  • ๋ชฉํ‘œ ์ •๋ ฌ์„ฑ: ์ผ๋ฐ˜ ์ง€ํ‘œ(BLEU, ROUGE ๋“ฑ)๋Š” ๋ฌธ๋ฒ•์ด๋‚˜ ํ‘œ๋ฉด์  ์œ ์‚ฌ์„ฑ ์ค‘์‹ฌ์ด์ง€๋งŒ, ๋งž์ถคํ˜• ์ง€ํ‘œ๋Š” ์‹ค์ œ ์‹œ์Šคํ…œ ๋ชฉํ‘œ(๋…ผ๋ฆฌ์  ์ผ๊ด€์„ฑ, ์‚ฌ์‹ค์„ฑ ๋“ฑ)๋ฅผ ์ง์ ‘ ์ธก์ •

  • ๋„๋ฉ”์ธ ์ง€์‹ ํ™œ์šฉ: ํŠน์ • ๋ถ„์•ผ๋‚˜ ์ž‘์—…์— ํŠนํ™”๋œ ํ‰๊ฐ€๊ฐ€ ๊ฐ€๋Šฅํ•˜๋ฉฐ, ์ถ”๊ฐ€ ๋„๊ตฌ(๋ถ„๋ฅ˜๊ธฐ, ํ…Œ์ŠคํŠธ ํ•˜๋‹ˆ์Šค ๋“ฑ)๋ฅผ ๊ตฌ์ถ•ํ•ด์•ผ ํ•  ์ˆ˜๋„ ์žˆ์Œ.

  • ๊ฒ€์ฆ ํ•„์š”์„ฑ: ๋งž์ถคํ˜• ์ง€ํ‘œ๋Š” ํ‘œ์ค€ ์ง€ํ‘œ๋งŒํผ ์—„๊ฒฉํ•˜๊ฒŒ ๊ฒ€์ฆ๋˜์ง€ ์•Š์€ ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์•„, ์ƒ˜ํ”Œ ์ถœ๋ ฅ์— ๋Œ€ํ•œ ์ˆ˜๋™ ๊ฒ€ํ† ๊ฐ€ ๋ณ‘ํ–‰๋จ.

  • ์ข…ํ•ฉ ํ‰๊ฐ€: ์ผ๋ฐ˜ ์ง€ํ‘œ์™€ ๋งž์ถคํ˜• ์ง€ํ‘œ๋ฅผ ํ•จ๊ป˜ ์“ฐ๋ฉด ํ‰๊ฐ€์˜ ์‹ ๋ขฐ์„ฑ๊ณผ ํฌ๊ด„์„ฑ์ด ๋†’์•„์ง.

2. LLM Benchmark Dataset


2.1. ๋ฒค์น˜๋งˆํฌ ์œ ํ˜•

๋ฒค์น˜๋งˆํฌ ์œ ํ˜•
๋ชฉ์ 
ํ‰๊ฐ€ ํ•ญ๋ชฉ
ํ‰๊ฐ€ ๋ฐฉ๋ฒ•
๋Œ€ํ‘œ ๋ฒค์น˜๋งˆํฌ์…‹

ํ•ต์‹ฌ ์ง€์‹ ๋ฒค์น˜๋งˆํฌ (Core-knowledge)

LLM์˜ ๊ธฐ๋ณธ ์ง€์‹ ๋ฐ ๋ฌธ์ œ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ ํ‰๊ฐ€

์งง์€ ์ •๋‹ต, ์„ ํƒํ˜• ๋ฌธ์ œ

์ •๋‹ต ๋งค์นญ ๋ฐ ์ž๋™ ๊ฒ€์ฆ

MMLU, HellaSwag, ARC, GSM8K, AGIEval ๋“ฑ

์ง€์‹œ ์ดํ–‰ ๋ฒค์น˜๋งˆํฌ (Instruction-following)

๋‹ค์–‘ํ•œ ์ง€์‹œ ์‚ฌํ•ญ ์ดํ–‰ ๋Šฅ๋ ฅ ํ‰๊ฐ€

์ง€์‹œ์‚ฌํ•ญ ์ค€์ˆ˜, ์‘๋‹ต ๋‹ค์–‘์„ฑ

์ง€์‹œ ๊ธฐ๋ฐ˜ ์‘๋‹ต ํ‰๊ฐ€

Flan, Self-instruct, NaturalInstructions ๋“ฑ

๋Œ€ํ™”ํ˜• ๋ฒค์น˜๋งˆํฌ (Conversational)

๋ฉ€ํ‹ฐํ„ด ๋Œ€ํ™”์—์„œ์˜ ์ƒํ˜ธ์ž‘์šฉ ๋ฐ ๋Œ€ํ™” ํ๋ฆ„ ํ‰๊ฐ€

๋Œ€ํ™” ์ž์—ฐ์Šค๋Ÿฌ์›€, ์œ ์šฉ์„ฑ, ๋ฌธ๋งฅ ์œ ์ง€

๋Œ€ํ™” ๊ธฐ๋ก ๋ฐ ์‚ฌ์šฉ์ž ํ‰๊ฐ€

CoQA, MMDialog, OpenAssistant, G-Eval ๋“ฑ

์ถœ์ฒ˜: https://arxiv.org/pdf/2306.05685

2.2. ๋ฒค์น˜๋งˆํฌ ๋ฐ์ดํ„ฐ์…‹

1. ์ผ๋ฐ˜ ์–ธ์–ด ์ดํ•ด ๋ฐ ์ถ”๋ก  ๋ฒค์น˜๋งˆํฌ

๋ฒค์น˜๋งˆํฌ๋ช…
์„ค๋ช…
์ฃผ์š” ํ‰๊ฐ€ ๋Œ€์ƒ
ํŠน์ง• ๋ฐ ํ™œ์šฉ

์ž์—ฐ์–ด ์ดํ•ด์˜ ๊ธฐ์ดˆ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ๋ฒค์น˜๋งˆํฌ. SuperGLUE๋Š” GLUE๋ณด๋‹ค ์–ด๋ ค์šด ๋ฌธ์ œ๋ฅผ ํฌํ•จํ•˜์—ฌ ๋ชจ๋ธ์˜ ์‹ฌํ™” ์ดํ•ด๋ ฅ์„ ์ ๊ฒ€ํ•จ.

๊ฐ์„ฑ ๋ถ„์„, ์งˆ๋ฌธ ์‘๋‹ต, ๋ฌธ์žฅ ์œ ์‚ฌ๋„ ๋“ฑ

GPT-3 ์ด์ƒ์˜ ๋ชจ๋ธ์€ ์ธ๊ฐ„ ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜๋ฉฐ, ๊ธฐ์ดˆ ๋Šฅ๋ ฅ ์ ๊ฒ€ ๋ฐ ์—ฐ๊ตฌ ๊ฐœ๋ฐœ์— ์œ ์šฉํ•จ.

๋ชจ๋ธ์˜ ์ •ํ™•๋„, ๊ฐ•๊ฑด์„ฑ, ๊ณต์ •์„ฑ, ํŽธํ–ฅ, ๋…์„ฑ, ํšจ์œจ์„ฑ ๋“ฑ ๋‹ค์ฐจ์› ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ ์ œ๊ณต.

๋‹ค๊ฐ์  ํ‰๊ฐ€ (์ •ํ™•๋„, ์•ˆ์ •์„ฑ, ์œค๋ฆฌ์  ์ธก๋ฉด ๋“ฑ)

๋ชจ๋ธ์˜ ์ „๋ฐ˜์  ํ’ˆ์งˆ์„ ํฌ๊ด„์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ์—ฐ๊ตฌ์™€ ์‹ค์ œ ์‘์šฉ ์‚ฌ์ด์˜ ๊ฐญ์„ ๋ฉ”์šฐ๋Š”๋ฐ ํ™œ์šฉ๋จ.

์œ„ํ‚คํ”ผ๋””์•„ ๊ธฐ๋ฐ˜์˜ ๋ฌธ์„œ์—์„œ ์ฃผ์–ด์ง„ ์งˆ๋ฌธ์— ๋Œ€ํ•ด ์ •ํ™•ํ•œ ๋‹ต์„ ๋„์ถœํ•˜๋Š”์ง€ ํ‰๊ฐ€.

๋ฌธ์„œ ์ดํ•ด ๋ฐ ์ •ํ™•ํ•œ ๋‹ต ์ƒ์„ฑ

์ž์—ฐ์–ด ์งˆ์˜์‘๋‹ต ์‹œ์Šคํ…œ์˜ ์„ฑ๋Šฅ ํ‰๊ฐ€์— ๋„๋ฆฌ ์‚ฌ์šฉ๋จ.

๊ธฐ๊ณ„ ๋ฒˆ์—ญ ํ’ˆ์งˆ ํ‰๊ฐ€๋ฅผ ์œ„ํ•œ ๊ตญ์ œ ๊ณต๋ชจ์ „ ๋ฐ ๋ฒค์น˜๋งˆํฌ ๋ฐ์ดํ„ฐ์…‹.

๋ฒˆ์—ญ ์ •ํ™•๋„, ์ž์—ฐ์Šค๋Ÿฌ์›€ ๋ฐ ์œ ์ฐฝ์„ฑ

๊ธฐ๊ณ„ ๋ฒˆ์—ญ ์—ฐ๊ตฌ์˜ ํ‘œ์ค€ ๋ฒค์น˜๋งˆํฌ๋กœ, ๋ฒˆ์—ญ ์‹œ์Šคํ…œ ํ‰๊ฐ€ ๋ฐ ๊ฐœ์„ ์— ํ™œ์šฉ๋จ.

2. ๋‹ค์ค‘ ์„ ํƒ ๋ฐ ์ „๋ฌธ/์ถ”๋ก  ๋Šฅ๋ ฅ ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ

๋ฒค์น˜๋งˆํฌ๋ช…
์„ค๋ช…
์ฃผ์š” ํ‰๊ฐ€ ๋Œ€์ƒ
ํŠน์ง• ๋ฐ ํ™œ์šฉ

57๊ฐœ ๋‹ค์–‘ํ•œ ์ฃผ์ œ์˜ ๋‹ค์ค‘ ์„ ํƒ ๋ฌธ์ œ๋ฅผ ํ†ตํ•ด ๊ด‘๋ฒ”์œ„ํ•œ ์ƒ์‹, ์ „๋ฌธ ์ง€์‹ ๋ฐ ์ถ”๋ก  ๋Šฅ๋ ฅ ํ‰๊ฐ€.

์—ญ์‚ฌ, ๋ฌธํ•™, ์ˆ˜ํ•™, ์ƒ๋ฌผํ•™ ๋“ฑ

GPT-4์˜ ๋†’์€ ์ ์ˆ˜๊ฐ€ ๋ชจ๋ธ์˜ ๊ด‘๋ฒ”์œ„ํ•œ ์ง€์‹ ๋ฐ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ์ฆ๋ช…ํ•˜๋Š” ์ง€ํ‘œ๋กœ ํ™œ์šฉ๋จ.

MMLU๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ „๋ฌธ ๋ถ„์•ผ ๋ฐ ์‹ค๋ฌด ์ค‘์‹ฌ ๋ฌธ์ œ๋ฅผ ์ถ”๊ฐ€ํ•˜์—ฌ ํ‰๊ฐ€.

์ „๋ฌธ ์ง€์‹ ๋ฐ ์‹ค๋ฌด ์ ์šฉ ๋Šฅ๋ ฅ

์‹ค๋ฌด ๋ฐ ์ „๋ฌธ ๋ถ„์•ผ ๋ฌธ์ œ๋ฅผ ํฌํ•จํ•˜์—ฌ ๋ชจ๋ธ์˜ ์‹ค์ œ ์—…๋ฌด ํ™œ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐ ์œ ์šฉํ•จ.

์ƒ์‹ ๋ฐ ๋…ผ๋ฆฌ ์ถ”๋ก  ๋ฌธ์ œ๋ฅผ ํ†ตํ•ด ์ผ์ƒ์  ์ถ”๋ก  ๋ฐ ๋ฌธ๋งฅ ํ•ด์„ ๋Šฅ๋ ฅ ํ‰๊ฐ€.

์ด์•ผ๊ธฐ ์ด์–ด๊ฐ€๊ธฐ, ๋ฌผ๋ฆฌ ์ƒ์‹, ๋Œ€๋ช…์‚ฌ ํ•ด์„ ๋“ฑ

ํŠนํžˆ ๋Œ€ํ˜• ๋ชจ๋ธ์—์„œ ์„ฑ๋Šฅ์ด ์ ์ฐจ ๊ฐœ์„ ๋˜๋Š” ์ถ”์„ธ์ด๋ฉฐ, ์ƒ์‹ ์ถ”๋ก  ํ…Œ์ŠคํŠธ๋กœ ์ž์ฃผ ํ™œ์šฉ๋จ.

200์—ฌ ๊ฐœ์˜ ์ฐฝ์˜์ , ๋„์ „์  ๊ณผ์ œ๋ฅผ ํฌํ•จํ•œ ๋งค์šฐ ๋‹ค์–‘ํ•œ ํ‰๊ฐ€ ํ•ญ๋ชฉ ์ œ๊ณต.

์ˆ˜ํ•™, ๋…ผ๋ฆฌ, ๊ณ ๋Œ€ ์–ธ์–ด ๋ฒˆ์—ญ ๋“ฑ

๊ธฐ์กด ๋ฒค์น˜๋งˆํฌ๋กœ ํ‰๊ฐ€ํ•˜๊ธฐ ์–ด๋ ค์šด ๋‹ค์ฑ„๋กœ์šด ๋Šฅ๋ ฅ(์ฐฝ์˜์„ฑ, ์ถ”๋ก  ๋“ฑ)์„ ํƒ์ƒ‰ํ•˜๋Š” ๋ฐ ์ ํ•ฉํ•จ.

BIG-bench ๋‚ด ์–ด๋ ค์šด ๋ฌธ์ œ๋“ค์„ ์„ ๋ณ„ํ•˜์—ฌ, ๊ณ ๋‚œ๋„ ์ถ”๋ก  ๋ฐ ๋‹ค๋‹จ๊ณ„ ๋ฌธ์ œ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ ํ‰๊ฐ€.

๋ณต์žกํ•œ ์ถ”๋ก , ๋‹ค๋‹จ๊ณ„ ๋ฌธ์ œ

MMLU๋ณด๋‹ค ๋” ์–ด๋ ค์šด ๋ฌธ์ œ๋“ค์„ ํฌํ•จ, ๊ณ ๋‚œ๋„ ์ถ”๋ก  ๋Šฅ๋ ฅ ํ‰๊ฐ€์— ํŠนํ™”๋จ.

๊ธด ์ง€๋ฌธ์—์„œ ์ˆซ์ž, ๋…ผ๋ฆฌ ๋ฐ ๋ณตํ•ฉ์  ๊ด€๊ณ„๋ฅผ ํŒŒ์•…ํ•ด ์ˆ˜๋ฆฌ์  ์ถ”๋ก ์„ ์š”๊ตฌํ•˜๋Š” ๋ฌธ์ œ๋“ค ์ œ๊ณต.

ํ…์ŠคํŠธ ๋‚ด ์ˆ˜๋ฆฌ์  ์ถ”๋ก  ๋ฐ ๊ณ„์‚ฐ ๋ฌธ์ œ

์ˆซ์ž ์ถ”์ถœ๊ณผ ๊ณ„์‚ฐ, ๋…ผ๋ฆฌ์  ์‚ฌ๊ณ ๋ฅผ ๋™์‹œ์— ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ์–ด ๋ณตํ•ฉ ์ถ”๋ก  ๋Šฅ๋ ฅ ์ธก์ •์— ์œ ์šฉํ•จ.

์ดˆ๋“ฑํ•™๊ต ์ˆ˜์ค€์˜ 8,000๊ฐœ ์ˆ˜ํ•™ ๋ฌธ์ œ๋ฅผ ํ†ตํ•ด ๋‹จ๊ณ„๋ณ„ ํ’€์ด ๋ฐ ์ถ”๋ก  ๊ณผ์ •์„ ํ‰๊ฐ€ํ•จ.

์ˆ˜ํ•™ ๋ฌธ์ œ ํ•ด๊ฒฐ, ๋…ผ๋ฆฌ์  ์ถ”๋ก 

๋‹จ๊ณ„๋ณ„ ํ’€์ด ์š”๊ตฌ๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์˜ ์ˆ˜ํ•™์  ์ถ”๋ก  ๋ฐ ๊ณ„์‚ฐ ๋Šฅ๋ ฅ์„ ์ •๋ฐ€ํ•˜๊ฒŒ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ์Œ.

๋ชจ๋ธ์ด ์‚ฌ์‹ค๊ณผ ํ—ˆ์œ„ ์ •๋ณด๋ฅผ ๊ตฌ๋ถ„ํ•˜๊ณ  ์ง„์‹ค์„ฑ ์žˆ๋Š” ๋‹ต๋ณ€์„ ์ƒ์„ฑํ•˜๋Š”์ง€ ํ‰๊ฐ€.

์‚ฌ์‹ค ์ •ํ™•์„ฑ, ํŽธํ–ฅ ๋ฐ ์˜ค๋ฅ˜ ํƒ์ง€

๋ชจ๋ธ์ด ํ—ˆ์œ„ ์ •๋ณด๋ฅผ ํ”ผํ•˜๊ณ , ์ง„์‹ค์— ๊ธฐ๋ฐ˜ํ•œ ๋‹ต๋ณ€์„ ๋‚ด๋†“๋Š”์ง€ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐ ์ค‘์ ์„ ๋‘ .

3. ์ฝ”๋“œ ์ƒ์„ฑ ๋ฐ ํ”„๋กœ๊ทธ๋ž˜๋ฐ ๋Šฅ๋ ฅ ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ

๋ฒค์น˜๋งˆํฌ๋ช…
์„ค๋ช…
์ฃผ์š” ํ‰๊ฐ€ ๋Œ€์ƒ
ํŠน์ง• ๋ฐ ํ™œ์šฉ

์ž์—ฐ์–ด ์„ค๋ช…์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์ฝ”๋“œ๋ฅผ ์ƒ์„ฑํ•˜๊ณ , ํ…Œ์ŠคํŠธ ์ผ€์ด์Šค๋ฅผ ํ†ต๊ณผํ•˜๋Š”์ง€ ํ‰๊ฐ€.

์ฝ”๋“œ ์ƒ์„ฑ, ๋””๋ฒ„๊น… ๋ฐ ์ตœ์ ํ™”

์˜คํ”ˆAI์˜ ํ‰๊ฐ€ ์ง€ํ‘œ๋กœ, ์ฝ”๋“œ ์ƒ์„ฑ ๋ฐ ์ดํ•ด์˜ ์ „๋ฐ˜์  ๋Šฅ๋ ฅ์„ ๋น„๊ต ํ‰๊ฐ€ํ•˜๋Š” ๋ฐ ํ™œ์šฉ๋จ.

์ฃผ๋กœ ๊ธฐ์ดˆ ์ˆ˜์ค€์˜ ํŒŒ์ด์ฌ ํ”„๋กœ๊ทธ๋ž˜๋ฐ ๋ฌธ์ œ ๋ชจ์Œ์„ ํ†ตํ•ด ๋ชจ๋ธ์˜ ๊ธฐ๋ณธ ์ฝ”๋“œ ์ž‘์„ฑ ๋Šฅ๋ ฅ ํ‰๊ฐ€.

ํŒŒ์ด์ฌ ์ฝ”๋“œ ์ž‘์„ฑ, ๋ฌธ์ œ ํ•ด๊ฒฐ

๊ธฐ์ดˆ ๋ฌธ์ œ ์ค‘์‹ฌ์œผ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ์–ด, ๋ชจ๋ธ์˜ ๊ธฐ๋ณธ ํ”„๋กœ๊ทธ๋ž˜๋ฐ ๋Šฅ๋ ฅ์„ ์ ๊ฒ€ํ•˜๋Š” ๋ฐ ์ ํ•ฉํ•จ.

4. ์ง€์‹œ ์ดํ–‰ ๋ฒค์น˜๋งˆํฌ

๋ฒค์น˜๋งˆํฌ๋ช…
์„ค๋ช…
์ฃผ์š” ํ‰๊ฐ€ ๋Œ€์ƒ
ํŠน์ง• ๋ฐ ํ™œ์šฉ

๋ชจ๋ธ์ด ๋‹ค์–‘ํ•œ ์ง€์‹œ(Instruction)๋ฅผ ์ •ํ™•ํ•˜๊ฒŒ ์ดํ–‰ํ•˜๋Š” ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋ฒค์น˜๋งˆํฌ.

์ง€์‹œ ์ดํ–‰, ์‘๋‹ต์˜ ์ •ํ™•์„ฑ ๋ฐ ์ฐฝ์˜์„ฑ

๋ฏธ์„ธ์กฐ์ •(fine-tuning) ์—ฐ๊ตฌ์—์„œ ๋ชจ๋ธ์˜ ์ง€์‹œ ์ค€์ˆ˜ ๋Šฅ๋ ฅ์„ ์ ๊ฒ€ํ•˜๋Š” ๋ฐ ํ™œ์šฉ๋จ.

์ดˆ๊ธฐ ์†Œ๊ทœ๋ชจ seed instructions๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ GPT ๋ชจ๋ธ์ด ์Šค์Šค๋กœ ์ถ”๊ฐ€ ์ง€์‹œ๋ฅผ ์ƒ์„ฑํ•˜์—ฌ ๋งŒ๋“  ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ, ๋ชจ๋ธ์ด ๋‹ค์–‘ํ•œ ์ง€์‹œ ์ƒํ™ฉ์— ๋Œ€ํ•ด ์Šค์Šค๋กœ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•จ.

์ง€์‹œ ์ƒ์„ฑ ๋‹ค์–‘์„ฑ, ์ง€์‹œ ์ดํ–‰ ๋Šฅ๋ ฅ, ์‘๋‹ต ํ’ˆ์งˆ

๋ชจ๋ธ์ด ์Šค์Šค๋กœ ๋ฐ์ดํ„ฐ์…‹์„ ํ™•์žฅํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ๋” ๋‹ค์–‘ํ•œ ์ง€์‹œ ์ดํ–‰ ์ƒํ™ฉ์„ ๋ฐ˜์˜ํ•˜๋ฉฐ, ์—ฐ์‡„์  ์ž๊ธฐ ๊ฐœ์„ (self-improvement) ๊ณผ์ •์„ ์ด‰์ง„ํ•˜์—ฌ ์‹ค์ œ ํ™œ์šฉ ํ™˜๊ฒฝ์— ๊ฐ€๊นŒ์šด ํ‰๊ฐ€ ํ™˜๊ฒฝ์„ ์ œ๊ณตํ•จ.

1,600๊ฐœ ์ด์ƒ์˜ ๋‹ค์–‘ํ•œ ์ž‘์—…์— ๋Œ€ํ•œ ์ง€์‹œ-์‘๋‹ต ์Œ์„ ํฌํ•จํ•˜์—ฌ ๋ชจ๋ธ์˜ ๋ณต์žกํ•œ ์ง€์‹œ ์ดํ–‰ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•จ.

๋ณต์žกํ•œ ์ง€์‹œ ์ƒํ™ฉ, ๋‹ค๋„๋ฉ”์ธ ์‘๋‹ต ํ’ˆ์งˆ

๋ฐฉ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ์…‹๊ณผ ์„ ์–ธ์ (instructional) ์ง€์‹œ๋ฅผ ํ™œ์šฉํ•˜์—ฌ, ๋ชจ๋ธ์˜ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ๊ณผ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์—์„œ์˜ ์‘๋‹ต ์ƒ์„ฑ ๋ฐ ์ดํ•ด ๋Šฅ๋ ฅ์„ ์ •๋ฐ€ํ•˜๊ฒŒ ํ‰๊ฐ€ํ•จ.

5. ๋Œ€ํ™”ํ˜• ๋ฒค์น˜๋งˆํฌ

๋ฒค์น˜๋งˆํฌ๋ช…
์„ค๋ช…
์ฃผ์š” ํ‰๊ฐ€ ๋Œ€์ƒ
ํŠน์ง• ๋ฐ ํ™œ์šฉ

๋‹ค์ค‘ ํ„ด ๋Œ€ํ™”ํ˜• ์งˆ์˜์‘๋‹ต์„ ํ†ตํ•ด ๋ชจ๋ธ์˜ ๋ฌธ๋งฅ ์ดํ•ด ๋ฐ ์ž์—ฐ์Šค๋Ÿฌ์šด ๋Œ€ํ™” ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•จ.

๋Œ€ํ™” ํ๋ฆ„, ๋ฌธ๋งฅ ์œ ์ง€, ์‘๋‹ต ์ •ํ™•๋„

์ž์—ฐ์Šค๋Ÿฌ์šด ๋Œ€ํ™” ํ‰๊ฐ€์— ์‚ฌ์šฉ๋˜๋ฉฐ, ์งˆ๋ฌธ-์‘๋‹ต ์ฒด๊ณ„์˜ ์„ธ๋ฐ€ํ•œ ๊ฒ€์ฆ์ด ๊ฐ€๋Šฅํ•จ.

์—ฌ๋Ÿฌ ํ„ด์— ๊ฑธ์นœ ๋Œ€ํ™” ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ…์ŠคํŠธ์™€ ์ด๋ฏธ์ง€ ๋“ฑ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ƒํ˜ธ์ž‘์šฉ์„ ํ‰๊ฐ€ํ•จ.

๋‹ค์ค‘ ํ„ด ๋Œ€ํ™”, ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ƒํ˜ธ์ž‘์šฉ

ํ…์ŠคํŠธ๋ฟ ์•„๋‹ˆ๋ผ ์‹œ๊ฐ์  ์ •๋ณด๋„ ํฌํ•จํ•˜์—ฌ ๋Œ€ํ™”ํ˜• AI์˜ ํฌ๊ด„์  ์ƒํ˜ธ์ž‘์šฉ ๋Šฅ๋ ฅ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Œ.

์˜คํ”ˆ ์†Œ์Šค ๊ธฐ๋ฐ˜์˜ ๋Œ€ํ™”ํ˜• ์—์ด์ „ํŠธ๋ฅผ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ๋ฒค์น˜๋งˆํฌ๋กœ, ๋‹ค์–‘ํ•œ ์‚ฌ์šฉ์ž ์ธํ„ฐ๋ž™์…˜์„ ๋ฐ˜์˜ํ•จ.

๋Œ€ํ™” ์ž์—ฐ์Šค๋Ÿฌ์›€, ์‚ฌ์šฉ์„ฑ, ์‘๋‹ต ํ’ˆ์งˆ

์‹ค์ œ ์‚ฌ์šฉ์ž ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ํ‰๊ฐ€๋กœ ์˜คํ”ˆ ์†Œ์Šค ์—์ด์ „ํŠธ ๊ฐœ๋ฐœ ๋ฐ ๊ฐœ์„ ์— ํ™œ์šฉ๋จ.

์˜คํ”ˆ ์†Œ์Šค ์ฑ„ํŒ… ํ‰๊ฐ€ ํ”Œ๋žซํผ์œผ๋กœ, ๋‹ค์–‘ํ•œ LLM์˜ ๋ฉ€ํ‹ฐํ„ด ๋Œ€ํ™” ์„ฑ๋Šฅ๊ณผ ์‚ฌ์šฉ์ž ์„ ํ˜ธ ์ •๋ ฌ ์ •๋„๋ฅผ ์ธก์ •ํ•จ.

๋ฉ€ํ‹ฐํ„ด ๋Œ€ํ™”, ์‚ฌ์šฉ์ž ์„ ํ˜ธ๋„, ์‘๋‹ต ํ’ˆ์งˆ

๋Œ€๊ทœ๋ชจ ํฌ๋ผ์šฐ๋“œ์†Œ์‹ฑ ๋ฐ ์ž๋™ํ™” ํ‰๊ฐ€๋ฅผ ํ†ตํ•ด ์‹ ์†ํ•˜๊ณ  ํ™•์žฅ ๊ฐ€๋Šฅํ•œ ํ‰๊ฐ€๋ฅผ ์ง€์›ํ•จ.

์‚ฌ์ „ ํ›ˆ๋ จ๋œ ๊ฐ•๋ ฅํ•œ LLM(์˜ˆ: GPTโ€‘4)์„ ํ™œ์šฉํ•˜์—ฌ, ๋‹ค์ค‘ ํ„ด ๋Œ€ํ™”์—์„œ ์ƒ์„ฑ๋˜๋Š” ์‘๋‹ต๋“ค์˜ ์ผ๊ด€์„ฑ, ์‘์ง‘๋ ฅ, ๋ฌธ๋งฅ ์ ํ•ฉ์„ฑ ๋“ฑ์„ inโ€‘context metaโ€‘evaluation ๋ฐฉ์‹์œผ๋กœ ํ‰๊ฐ€ํ•˜๋Š” ๋ฒค์น˜๋งˆํฌ.

๋‹ค์ค‘ ํ„ด ๋Œ€ํ™”, ์‘๋‹ต ์ผ๊ด€์„ฑ, ๋ฌธ๋งฅ ์œ ์ง€ ๋ฐ ์ƒํ˜ธ์ž‘์šฉ ํ’ˆ์งˆ

chainโ€‘ofโ€‘thought ๋ฐ ๋ฉ”ํƒ€ ํ‰๊ฐ€ ๊ธฐ๋ฒ•์„ ํ™œ์šฉํ•˜์—ฌ, ์ธ๊ฐ„ ํ‰๊ฐ€์— ๊ทผ์ ‘ํ•˜๋ฉด์„œ๋„ ํŽธํ–ฅ์„ ์ค„์ธ ์ž๋™ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•์„ ์ œ๊ณตํ•˜๋ฉฐ, ํ™•์žฅ์„ฑ๊ณผ ๋น„์šฉ ํšจ์œจ์„ฑ์„ ํ™•๋ณดํ•จ.

3. Human evaluation techniques


3.1. ์ธ๊ฐ„ ํ‰๊ฐ€๋ž€?

์ธ๊ฐ„ ํ‰๊ฐ€๋Š” ๋ชจ๋ธ ์ถœ๋ ฅ๋ฌผ์— ๋Œ€ํ•ด ์‚ฌ๋žŒ์ด ์ง์ ‘ ํ‰๊ฐ€ํ•˜๋Š” ๊ณผ์ •. ์ž๋™ํ™”๋œ ์ง€ํ‘œ๋กœ๋Š” ์ธก์ •ํ•˜๊ธฐ ์–ด๋ ค์šด ํ’ˆ์งˆ, ์ ํ•ฉ์„ฑ, ์•ˆ์ „์„ฑ ๋“ฑ์„ ํŒ๋‹จํ•  ๋•Œ ์ค‘์š”ํ•จ.

3.2. ์ธ๊ฐ„ ํ‰๊ฐ€ ์ˆ˜ํ–‰ ์‹œ๊ธฐ์™€ ๋ฐฉ๋ฒ•

  • ์ƒ˜ํ”Œ๋ง: ๋ชจ๋“  ์ถœ๋ ฅ๋ฌผ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์–ด๋ ค์šฐ๋ฏ€๋กœ, ๋Œ€ํ‘œ์„ฑ ์žˆ๋Š” ์ƒ˜ํ”Œ(์˜ˆ: 500๊ฐœ ์งˆ๋ฌธ-๋‹ต๋ณ€ ์Œ)๋งŒ ์„ ๋ณ„ํ•ด ํ‰๊ฐ€.

  • ๋Œ€ํ‘œ ๋ฐ์ดํ„ฐ ์‚ฌ์šฉ: ๊ฐœ๋ฐœ์— ์‚ฌ์šฉํ•˜์ง€ ์•Š์€ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ(held-out dataset)๋ฅผ ํ‰๊ฐ€ํ•˜์—ฌ ํŽธํ–ฅ ์—†๋Š” ๊ฒฐ๊ณผ๋ฅผ ์–ป์Œ.

  • ํฌ๋ผ์šฐ๋“œ์†Œ์‹ฑ: Amazon Mechanical Turk, Appen, Scale AI ๊ฐ™์€ ํ”Œ๋žซํผ์—์„œ ๋‹ค์ˆ˜ ํ‰๊ฐ€์ž๋ฅผ ํ†ตํ•ด ํ‰๊ฐ€๋ฅผ ๋ฐ›์Œ. ๋ณดํ†ต 3~5๋ช…์ด ๊ฐ ํ•ญ๋ชฉ์„ ํ‰๊ฐ€ํ•ด ๋‹ค์ˆ˜๊ฒฐ ๋˜๋Š” ํ‰๊ท  ์ ์ˆ˜ ์‚ฐ์ถœ.

  • ์ „๋ฌธ๊ฐ€ ํ‰๊ฐ€: ์˜๋ฃŒ, ๋ฒ•๋ฅ  ๋“ฑ ํŠน์ˆ˜ ๋ถ„์•ผ๋Š” ์ „๋ฌธ๊ฐ€๊ฐ€ ํ‰๊ฐ€ํ•ด์•ผ ํ•˜๋ฉฐ ๋น„์šฉ๊ณผ ์‹œ๊ฐ„์ด ๋งŽ์ด ์†Œ์š”๋จ.

  • ๋ ˆ๋“œํŒ€ ํ‰๊ฐ€: ์ „๋ฌธ๊ฐ€๊ฐ€ ๋ชจ๋ธ์˜ ์ทจ์•ฝ์ ์„ ์ฐพ์•„๋‚ด๋Š” ๋ฐฉ์‹์œผ๋กœ, ์•ˆ์ „์„ฑ ๊ฒ€์ฆ์— ์“ฐ์ž„.

3.3. ํ‰๊ฐ€ ํ”„๋กœํ† ์ฝœ

  • ๋ช…ํ™•ํ•œ ํ‰๊ฐ€ ๊ธฐ์ค€(๋ฃจ๋ธŒ๋ฆญ)์„ ์ •ํ•ด์•ผ ํ•จ. ์˜ˆ: โ€œ๋” ์ •ํ™•ํ•œ ๋‹ต๋ณ€โ€, โ€œ๋” ๊ณต์†ํ•œ ๋‹ต๋ณ€โ€ ๋“ฑ ๋‹ค์ฐจ์› ํ‰๊ฐ€ ๊ฐ€๋Šฅ.

  • ๋ธ”๋ผ์ธ๋“œ ํ‰๊ฐ€๋ฅผ ํ†ตํ•ด ํ‰๊ฐ€์ž์˜ ํŽธํ–ฅ์„ ์ค„์ž„. ์˜ˆ: ๋ชจ๋ธ A, B๋ฅผ ๋ฌด์ž‘์œ„๋กœ ์„ž์–ด ํ‰๊ฐ€.

  • ํ‰๊ฐ€ ๊ฒฐ๊ณผ๋Š” ์„ ํ˜ธ์œจ, ํ‰๊ท  ์ ์ˆ˜, ํ‰๊ฐ€์ž ๊ฐ„ ์ผ์น˜๋„(Cohenโ€™s kappa, Krippendorffโ€™s alpha ๋“ฑ)๋กœ ์ง‘๊ณ„.

3.4. ์ฃผ์š” ๋„์ „ ๊ณผ์ œ

๋„์ „ ๊ณผ์ œ
์„ค๋ช…

๋น„์šฉ ๋ฐ ํ™•์žฅ์„ฑ

์ธ๊ฐ„ ํ‰๊ฐ€๋Š” ๋น„์šฉ์ด ๋งŽ์ด ๋“ค๊ณ  ๋ชจ๋“  ๋ชจ๋ธ ๋ณ€๊ฒฝ ์‹œ๋งˆ๋‹ค ์ ์šฉํ•˜๊ธฐ ์–ด๋ ค์›Œ, ์ฃผ๋กœ ์ฃผ์š” ๋น„๊ต๋‚˜ ์ฃผ๊ธฐ์  ์ ๊ฒ€์— ์‚ฌ์šฉ๋จ.

์‹œ๊ฐ„ ์ง€์—ฐ

ํ‰๊ฐ€ ์ค€๋น„, ์‹คํ–‰, ๊ฒฐ๊ณผ ์ •๋ฆฌ๊นŒ์ง€ ์ˆ˜์ผ~์ˆ˜์ฃผ๊ฐ€ ๊ฑธ๋ ค ๋ชจ๋ธ ๊ฐœ์„  ์‚ฌ์ดํด์ด ๋А๋ ค์งˆ ์ˆ˜ ์žˆ์Œ.

ํ’ˆ์งˆ ๊ด€๋ฆฌ

ํฌ๋ผ์šฐ๋“œ์†Œ์‹ฑ ์‹œ ํ‰๊ฐ€์ž๊ฐ€ ์ง€์นจ์„ ์˜คํ•ดํ•˜๊ฑฐ๋‚˜ ๋ถ€์‹ค ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ์–ด, ํ…Œ์ŠคํŠธ ๋ฌธ์ œ๋กœ ํ’ˆ์งˆ ๊ฒ€์ฆ ํ•„์š”.

์ฃผ๊ด€์„ฑ

์ฐฝ์˜์„ฑ ๊ฐ™์€ ์ฃผ๊ด€์  ํ‰๊ฐ€ ๊ธฐ์ค€์€ ํ‰๊ฐ€์ž ๊ฐ„ ์˜๊ฒฌ ์ฐจ์ด๊ฐ€ ํฌ๋ฏ€๋กœ, ๊ฐ๊ด€์  ์งˆ๋ฌธ์ด๋‚˜ ๋Œ€๋Ÿ‰ ์ƒ˜ํ”Œ๋กœ ํ‰๊ท ํ™” ํ•„์š”.

ํ‰๊ฐ€์ž ํŽธํ–ฅ

ํ‰๊ฐ€์ž ์ถœ์‹  ๋ฌธํ™”, ์–ธ์–ด ๋“ฑ์— ๋”ฐ๋ผ ํ‰๊ฐ€๊ฐ€ ๋‹ฌ๋ผ์งˆ ์ˆ˜ ์žˆ์–ด, ๋‹ค์–‘์„ฑ์„ ํ™•๋ณดํ•˜๋Š” ๊ฒƒ์ด ๋ฐ”๋žŒ์งํ•จ.

์ž‘์—… ํ”„๋ ˆ์ด๋ฐ

ํ‰๊ฐ€ ๋ฌธ๊ตฌ๊ฐ€ ํ‰๊ฐ€์ž ํŒ๋‹จ์— ์˜ํ–ฅ์„ ์ค„ ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ ์ค‘๋ฆฝ์ ์ด๊ณ  ๋ช…ํ™•ํ•œ ์ง€์นจ ์ œ๊ณต์ด ์ค‘์š”ํ•จ.

3.5. ์‹ค์ œ ํ™œ์šฉ

  • ์ž๋™ํ™” ์ง€ํ‘œ์™€ ๋ณ‘ํ–‰ํ•˜์—ฌ ์‚ฌ์šฉํ•˜๋ฉฐ, ์ž๋™ํ™” ์ง€ํ‘œ๋Š” ์ง€์† ๋ชจ๋‹ˆํ„ฐ๋ง, ์ธ๊ฐ„ ํ‰๊ฐ€๋Š” ์ฃผ์š” ๋งˆ์ผ์Šคํ†ค์—์„œ ๊ฒ€์ฆ์šฉ์œผ๋กœ ํ™œ์šฉ.

  • RLHF(์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ์„ ํ†ตํ•œ ๊ฐ•ํ™”ํ•™์Šต)์ฒ˜๋Ÿผ ๊ฐœ๋ฐœ ๊ณผ์ •์—์„œ๋„ ์ธ๊ฐ„ ํ‰๊ฐ€๊ฐ€ ์ง์ ‘ ๋ชจ๋ธ ๊ฐœ์„ ์— ํ™œ์šฉ๋จ.

  • ์œค๋ฆฌ์  ๊ณ ๋ ค๋„ ํ•„์ˆ˜: ํฌ๋ผ์šฐ๋“œ์›Œ์ปค๊ฐ€ ์œ ํ•ด ์ฝ˜ํ…์ธ ์— ๋…ธ์ถœ๋˜์ง€ ์•Š๋„๋ก ์ฃผ์˜ํ•ด์•ผ ํ•˜๋ฉฐ, ์‚ฌ์ „ ๊ฒฝ๊ณ ์™€ ์„ ํƒ๊ถŒ ์ œ๊ณต ํ•„์š”.

4. LLM-as-a-judge ์ ‘๊ทผ๋ฒ•๊ณผ ํ•œ๊ณ„


์ž‘๋™ ์›๋ฆฌ

  • ํ‰๊ฐ€์ž LLM์— ์›๋ณธ ์งˆ๋ฌธ๊ณผ ๋‘ ๋‹ต๋ณ€(๋˜๋Š” ๋‹ต๋ณ€ ํ•˜๋‚˜์™€ ๊ธฐ์ค€ ๋‹ต๋ณ€)์„ ์ฃผ๊ณ  ์–ด๋А ์ชฝ์ด ๋” ๋‚˜์€์ง€ ์„ ํƒํ•˜๊ฑฐ๋‚˜ ์ ์ˆ˜๋ฅผ ๋งค๊ธฐ๋„๋ก ์š”์ฒญ

  • ์ข‹์€ ํ”„๋กฌํ”„ํŠธ ์„ค๊ณ„๊ฐ€ ์ค‘์š”ํ•˜๋ฉฐ, ์˜ˆ๋ฅผ ๋“ค์–ด "์ด์ƒ์ ์ธ ๋‹ต๋ณ€์€ ์‚ฌ์‹ค์— ๊ทผ๊ฑฐํ•˜๊ณ , ๊ฐ„๊ฒฐํ•˜๋ฉฐ, ๊ณต์†ํ•ด์•ผ ํ•œ๋‹ค"๋Š” ๊ธฐ์ค€ ํฌํ•จ ๊ฐ€๋Šฅ.

  • ์ถœ๋ ฅ์€ ๋‹จ์ˆœ ์„ ํƒ(A ๋˜๋Š” B), ์ ์ˆ˜(1~10), ํ˜น์€ ์ž์„ธํ•œ ์„ค๋ช…์ผ ์ˆ˜ ์žˆ์Œ.

  • ํŠนํžˆ Chain-of-thought prompting(๋‹จ๊ณ„๋ณ„ ์ถ”๋ก  ์œ ๋„)์ด ํ‰๊ฐ€ ํ’ˆ์งˆ์„ ๋†’์ด๋Š” ๋ฐ ํšจ๊ณผ์ ์ž„.

์žฅ์ 

์žฅ์ 
์„ค๋ช…

์ธ๊ฐ„ ์„ ํ˜ธ๋„ ๊ทผ์‚ฌ

๋ช…ํ™•ํ•œ ๊ธฐ์ค€์ด ์žˆ์„ ๋•Œ ์‚ฌ๋žŒ ์„ ํ˜ธ๋„์™€ ์œ ์‚ฌํ•œ ํ‰๊ฐ€ ๊ฐ€๋Šฅ

์ผ๊ด€์„ฑ

๊ฐ์ •์ด๋‚˜ ํ”ผ๋กœ ์—†์ด ์ผ๊ด€๋œ ๊ธฐ์ค€ ์ ์šฉ

์†๋„ ๋ฐ ๋น„์šฉ ํšจ์œจ

ํ•œ ๋ฒˆ ๋ชจ๋ธ์ด ์žˆ์œผ๋ฉด ์ˆ˜์ฒœ ์Œ๋„ ๋น ๋ฅด๊ณ  ์ €๋ ดํ•˜๊ฒŒ ํ‰๊ฐ€ ๊ฐ€๋Šฅ

ํ•œ๊ณ„ ๋ฐ ๋ฌธ์ œ์ 

ํ•œ๊ณ„
์„ค๋ช…

๋ถˆ์•ˆ์ •์„ฑ ๋ฐ ํ”„๋กฌํ”„ํŠธ ๋ฏผ๊ฐ๋„

ํ‰๊ฐ€ ํ”„๋กฌํ”„ํŠธ์˜ ์ž‘์€ ๋ณ€ํ™”์—๋„ ๊ฒฐ๊ณผ๊ฐ€ ๋‹ฌ๋ผ์งˆ ์ˆ˜ ์žˆ์Œ

ํŽธํ–ฅ ๋ฌธ์ œ

ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์™€ ์‚ฌ๋žŒ์˜ ํŽธํ–ฅ์„ ๋ฐ˜์˜, ํ˜•์‹์ ์ด๊ณ  ์žฅํ™ฉํ•œ ๋‹ต๋ณ€ ์„ ํ˜ธ ๊ฐ€๋Šฅ

์„ค๋ช… ์‹ ๋ขฐ์„ฑ ๋ฌธ์ œ

LLM์ด ์ œ์‹œํ•˜๋Š” ์ด์œ ๊ฐ€ ์‹ค์ œ ํŒ๋‹จ ๊ทผ๊ฑฐ์™€ ๋‹ค๋ฅผ ์ˆ˜ ์žˆ์Œ

์ ์ˆ˜ ๋งค๊ธฐ๊ธฐ vs ์ˆœ์œ„ ๋งค๊ธฐ๊ธฐ

์ ˆ๋Œ€ ์ ์ˆ˜๋ณด๋‹ค๋Š” ๋‘ ๋‹ต๋ณ€ ์ค‘ ๋” ๋‚˜์€ ์ชฝ์„ ๊ณ ๋ฅด๋Š” ์Œ๋ณ„ ๋น„๊ต๊ฐ€ ๋” ์•ˆ์ •์ 

์ž๊ธฐ ํ‰๊ฐ€ ๋ฌธ์ œ

๊ฐ™์€ ๋ชจ๋ธ์ด ์ž๊ธฐ ์ถœ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋ฉด ๊ด€๋Œ€ํ•˜๊ฑฐ๋‚˜ ์˜ค๋ฅ˜๋ฅผ ์ธ์ง€ ๋ชปํ•จ

์†์ž„์ˆ˜ ์œ„ํ—˜

๊ถŒ์œ„์  ์–ด์กฐ๋‚˜ ๊ฐ€์งœ ์ฐธ๊ณ ๋ฌธํ—Œ ๋“ฑ์œผ๋กœ ์ž˜๋ชป๋œ ๋‹ต๋ณ€์ด ์„ ํ˜ธ๋  ์ˆ˜ ์žˆ์Œ

๋Œ€์‘ ๋ฐฉ์•ˆ ๋ฐ ๊ฐœ์„  ์‹œ๋„

  • ์†Œ์ˆ˜์˜ ์ธ๊ฐ„ ํ‰๊ฐ€ ์˜ˆ์‹œ๋กœ LLM์„ ๋ณด์ •(few-shot prompting ๋˜๋Š” ๋ฏธ์„ธ ์กฐ์ •)

  • ์—ฌ๋Ÿฌ LLM ํ‰๊ฐ€์ž์˜ ํ•ฉ์˜ ๊ฒ€์ฆ(majority agreement)

  • ๋‹ต๋ณ€ ์ˆœ์„œ ๋ฌด์ž‘์œ„ํ™” ๋“ฑ ์œ„์น˜ ํŽธํ–ฅ ๊ฐ์†Œ

  • ๊ตฌ์กฐํ™”๋œ ์งˆ๋ฌธ์œผ๋กœ ํ‰๊ฐ€๋ฅผ ์„ธ๋ถ„ํ™”ํ•˜์—ฌ ์ตœ์ข… ํŒ๋‹จ์— ๋ฐ˜์˜

5. Hybrid evaluation methods


์ž๋™ ํ‰๊ฐ€(Automated evaluation)์™€ ์ธ๊ฐ„ ํ‰๊ฐ€(Human evaluation)์˜ ์žฅ๋‹จ์ ์„ ๋ณด์™„ํ•˜๊ธฐ ์œ„ํ•ด ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ํ‰๊ฐ€ ๋ฐฉ๋ฒ•์ด ๋งŽ์ด ํ™œ์šฉ๋˜๋ฉฐ, ๋Œ€๋ถ€๋ถ„์˜ LLM ํ‰๊ฐ€ ์ฒด๊ณ„๋Š” ์–ด๋А ์ •๋„ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋ฐฉ์‹์„ ์ฑ„ํƒํ•˜๊ณ  ์žˆ์Œ.

5.1. ์ฃผ์š” ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ํ‰๊ฐ€ ๋ฐฉ์‹

๋ฐฉ์‹
์„ค๋ช…
์˜ˆ์‹œ ๋ฐ ํšจ๊ณผ

ํœด๋จผ-์ธ-๋ฃจํ”„ + ์ž๋™ํ™”

์ž๋™ํ™” ๋„๊ตฌ๋‚˜ LLM ์‹ฌํŒ์ด ๋จผ์ € ๊ฒฐ๊ณผ๋ฅผ ์„ ๋ณ„ยท์ˆœ์œ„ ๋งค๊น€ โ†’ ์ธ๊ฐ„์ด ์–ด๋ ค์šด ์‚ฌ๋ก€ ์ง‘์ค‘ ํ‰๊ฐ€

์˜ˆ: 1,000๊ฐœ ์ถœ๋ ฅ ์ค‘ ๋…์„ฑ ์ž๋™๊ฒ€์ถœ โ†’ LLM ์‹ฌํŒ์ด coherence ์ ์ˆ˜ ๋งค๊น€ โ†’ ํ•˜์œ„ 100๊ฐœ + ์ผ๋ถ€ ๋ฌด์ž‘์œ„ ์ƒ˜ํ”Œ์„ ์ธ๊ฐ„ ํ‰๊ฐ€๋กœ ๊ฒ€ํ† . ํšจ์œจ์„ฑ ๊ทน๋Œ€ํ™”

์ •์„ฑ์  + ์ •๋Ÿ‰์  ํ˜ผํ•ฉ

์ž๋™ ์ ์ˆ˜(BLEU ๋“ฑ)์™€ ์ธ๊ฐ„ ํ‰๊ฐ€ ๊ฒฐ๊ณผ๋ฅผ ํ•จ๊ป˜ ์ œ์‹œํ•˜์—ฌ ์„ฑ๋Šฅ์„ ๋‹ค๊ฐ๋„๋กœ ๋ถ„์„

์˜ˆ: BLEU ์ ์ˆ˜๋Š” Model Y๊ฐ€ ๋” ๋†’์ง€๋งŒ ์ธ๊ฐ„ ํ‰๊ฐ€๋Š” Model X๊ฐ€ 55% ์„ ํ˜ธ. ์ธ๊ฐ„ ํ‰๊ฐ€๋Š” ์‚ฌ์‹ค์„ฑ ๋“ฑ ์งˆ์  ์š”์†Œ ๋ฐ˜์˜

LLM ๋ณด์กฐ ์ธ๊ฐ„ ํ‰๊ฐ€

๊ธด ํ…์ŠคํŠธ ํ‰๊ฐ€ ์‹œ LLM์ด ์š”์•ฝ, ๋ชจ์ˆœ ์ง€์  ๋“ฑ์œผ๋กœ ์ธ๊ฐ„ ํ‰๊ฐ€์ž ์ง€์›

์˜ˆ: 5ํŽ˜์ด์ง€ ์Šคํ† ๋ฆฌ์—์„œ LLM์ด ๋ฌธ์ œ ๊ตฌ๊ฐ„ ์•Œ๋ ค์ฃผ๋ฉด ์ธ๊ฐ„์ด ์ตœ์ข… ํŒ๋‹จ. ํ‰๊ฐ€ ์†๋„ ํ–ฅ์ƒ

๋ฐ˜๋ณต ํ‰๊ฐ€ ๋ฐ ๊ฐœ์„  ์‚ฌ์ดํด

๋ชจ๋ธ ๊ฐœ๋ฐœ ์‹œ ์ž๋™ ํ‰๊ฐ€ โ†’ LLM ๋น„๊ต โ†’ ์†Œ๊ทœ๋ชจ ์ธ๊ฐ„ ํ‰๊ฐ€ โ†’ ์†Œ๊ทœ๋ชจ ์‚ฌ์šฉ์ž ๋ฐฐํฌ โ†’ ์‹ค์‚ฌ์šฉ ํ”ผ๋“œ๋ฐฑ ๋ชจ๋‹ˆํ„ฐ๋ง ์ˆœ์œผ๋กœ ์ง„ํ–‰

๋‹จ๊ณ„๋ณ„ ํ‰๊ฐ€๋ฅผ ํ†ตํ•ด ๋ฌธ์ œ ์กฐ๊ธฐ ๋ฐœ๊ฒฌ ๋ฐ ๊ฐœ์„  ๊ฐ€๋Šฅ

์ง€์†์  ํ”ผ๋“œ๋ฐฑ ๋ฃจํ”„

์‚ฌ์šฉ์ž ํ‰๊ฐ€(์˜ˆ: ๋‹ต๋ณ€ ์œ ์šฉ์„ฑ ํ‰์ )๋ฅผ ์ž๋™ ๋ถ„์„ โ†’ ๋ฌธ์ œ ์œ ํ˜• ๋ถ„๋ฅ˜ โ†’ ๋‹ค์Œ ํ•™์Šต/ํŠœ๋‹์— ๋ฐ˜์˜

์˜ˆ: ๊ณ ๊ฐ ์„œ๋น„์Šค ์ฑ—๋ด‡์—์„œ ๋ถ€์ •์  ํ”ผ๋“œ๋ฐฑ ์ž๋™ ์ง‘๊ณ„ ๋ฐ ์ธ๊ฐ„/LLM์ด ๋ถ„์„ํ•˜์—ฌ ๊ฐœ์„ ์  ๋„์ถœ

ํ‰๊ฐ€์ž ์•™์ƒ๋ธ”

์—ฌ๋Ÿฌ ์ž๋™ยท์ธ๊ฐ„ ํ‰๊ฐ€ ๊ธฐ์ค€์„ ๊ฒฐํ•ฉํ•˜์—ฌ ์ข…ํ•ฉ ํ‰๊ฐ€ ์ˆ˜ํ–‰

์˜ˆ: ์ž๋™ ์ง€ํ‘œ ํ•˜๋‚˜๋ผ๋„ ๊ฐœ์„ ๋˜๊ณ , ์ธ๊ฐ„ ํ‰๊ฐ€๋„ ์„ ํ˜ธํ•˜๋Š” ๋ชจ๋ธ๋งŒ ์ฑ„ํƒ. ๋‹จ์ผ ์ง€ํ‘œ ์ตœ์ ํ™” ์œ„ํ—˜ ํšŒํ”ผ

๊ณผ์ œ ํŠนํ™” ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์ง€ํ‘œ

์—ฌ๋Ÿฌ ์ž๋™ ํ‰๊ฐ€ ์š”์†Œ(์˜ˆ: BERTScore, ๊ทœ์น™ ์œ„๋ฐ˜ ๊ฐ์ง€, ์˜ˆ์˜ ํ‘œํ˜„ ์ ์ˆ˜)๋ฅผ ์กฐํ•ฉํ•œ ๋ณตํ•ฉ ์ ์ˆ˜

์˜ˆ: ๋Œ€ํ™” ์‹œ์Šคํ…œ ํ‰๊ฐ€ ์‹œ ์ •ํ™•์„ฑ, ์•ˆ์ „์„ฑ, ์˜ˆ์˜์„ฑ ๋ชจ๋‘ ๋ฐ˜์˜ํ•˜๋Š” ์ ์ˆ˜ ์‚ฐ์ถœ

๋ฒค์น˜๋งˆํฌ + ์ธ๊ฐ„ ์ฐฝ์˜์„ฑ ๊ฒฐํ•ฉ

ํ‘œ์ค€ ๋ฒค์น˜๋งˆํฌ๋กœ ์•ฝ์  ์ง„๋‹จ โ†’ ์ธ๊ฐ„์ด ์ƒˆ๋กœ์šด ๋‚œ์ด๋„ ๋†’์€ ํ…Œ์ŠคํŠธ ์ผ€์ด์Šค ์ œ์ž‘

์˜ˆ: ์ˆ˜ํ•™ ๋ฌธ์ œ๋Š” ์ž˜ ํ’€์ง€๋งŒ, ์ธ๊ฐ„์ด ๋งŒ๋“  ๋ณต์žกํ•œ ํผ์ฆ ๋ฌธ์ œ ์ถ”๊ฐ€ํ•˜์—ฌ ํ‰๊ฐ€ ๊ฐ•ํ™”

5.2. ๊ตฌ์ฒด์  ์‚ฌ๋ก€: ์˜๋ฃŒ FAQ ๋ด‡ ํ‰๊ฐ€

  1. 100๊ฐœ ์˜๋ฃŒ Q&A ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•ด ์ž๋™ ์ •ํ™•๋„(F1, Exact Match) ์ธก์ •

  2. BERTScore ๊ฐ™์€ ์˜๋ฏธ ์œ ์‚ฌ๋„ ์ž๋™ ํ‰๊ฐ€

  3. ์˜๋ฃŒ ์ „๋ฌธ๊ฐ€๊ฐ€ 50๊ฐœ ๋‹ต๋ณ€ ์ง์ ‘ ๊ฒ€ํ†  (์ธ๊ฐ„ ํ‰๊ฐ€)

  4. GPT-4 ๊ฐ™์€ LLM์ด ์ „๋ฌธ๊ฐ€ ํ‰๊ฐ€ ๋ณด์กฐ (LLM ์‹ฌํŒ)

  5. ์ „๋ฌธ๊ฐ€์™€ LLM ํ‰๊ฐ€ ๊ฒฐ๊ณผ ๋น„๊ต, ์‹ ๋ขฐ๋„ ํ™•์ธ ํ›„ LLM์œผ๋กœ ์„ ๋ณ„ ํ™•๋Œ€

  6. ๋ฐฐํฌ ํ›„ ์‚ฌ์šฉ์ž ํ”ผ๋“œ๋ฐฑ ๋ชจ๋‹ˆํ„ฐ๋ง ๋ฐ ๋ฌธ์ œ ๋‹ต๋ณ€ ์žฌ๊ฒ€ํ† 

  7. ํ”ผ๋“œ๋ฐฑ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ ๊ฐœ์„  ๋ฐ ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ์…‹ ๋ณด์™„ (ํ”ผ๋“œ๋ฐฑ ๋ฃจํ”„ ์™„์„ฑ)

6. LLM Evaluation vs. LLM System Evaluation


6.1. LLM Standalone Evaluation

  • ์ •์˜: ๋ชจ๋ธ ์ž์ฒด์˜ ์ˆœ์ˆ˜ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๊ฒƒ. ์˜ˆ๋ฅผ ๋“ค์–ด, GPT-3์— ์งˆ๋ฌธ์„ ์ง์ ‘ ์ž…๋ ฅํ•˜๊ณ  ๋‹ต๋ณ€์˜ ์ •ํ™•๋„๋ฅผ ์ธก์ •.

  • ํŠน์ง•:

    • ์™ธ๋ถ€ ๋„๊ตฌ๋‚˜ ์ถ”๊ฐ€ ๊ตฌ์„ฑ ์š”์†Œ ์—†์ด ๋ชจ๋ธ๋งŒ ์‚ฌ์šฉ.

    • ํ‘œ์ค€ ๋ฒค์น˜๋งˆํฌ(์˜ˆ: GLUE, MMLU ๋“ฑ)์™€ ๋™์ผํ•œ ํ”„๋กฌํ”„ํŠธ ํ˜•์‹์œผ๋กœ ํ‰๊ฐ€.

    • ์ •ํ™•๋„, BLEU ๋“ฑ ์ง์ ‘์ ์ธ ์„ฑ๋Šฅ ์ง€ํ‘œ ์ธก์ •.

  • ๋ชฉ์ : ๋ชจ๋ธ ๊ฐ„ ์„ฑ๋Šฅ ๋น„๊ต, ๋ชจ๋ธ์˜ ๋‚ด์žฌ๋œ ์–ธ์–ด ์ดํ•ด ๋ฐ ์ƒ์„ฑ ๋Šฅ๋ ฅ ํŒŒ์•….

  • ์˜ˆ์‹œ ์งˆ๋ฌธ: "๋ชจ๋ธ X๊ฐ€ ๋ชจ๋ธ Y๋ณด๋‹ค ์ถ”๋ก  ๋Šฅ๋ ฅ์ด ๋›ฐ์–ด๋‚œ๊ฐ€?"

  • ์ค‘์š”์„ฑ: ์—ฐ๊ตฌ ๋‹จ๊ณ„์—์„œ ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜๋‚˜ ํ•™์Šต ๋ฐฉ๋ฒ• ๊ฐœ์„  ํšจ๊ณผ๋ฅผ ๊ฐ๊ด€์ ์œผ๋กœ ํ‰๊ฐ€ํ•  ๋•Œ ์‚ฌ์šฉ.

6.2. LLM System Evaluation

  • ์ •์˜: ๋ชจ๋ธ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ํ”„๋กฌํ”„ํŠธ, ๊ฒ€์ƒ‰ ๋ชจ๋“ˆ(RAG), ํ›„์ฒ˜๋ฆฌ, ์—์ด์ „ํŠธ ๋“ฑ ์‹œ์Šคํ…œ ์ „์ฒด๋ฅผ ํฌํ•จํ•ด ํ‰๊ฐ€. System Evaluation์€ RAG evaluation๊ณผ Agent evaluation์œผ๋กœ ๋ถ„ํ™”ํ•˜๊ธฐ๋„ ํ•จ.

  • ์‹œ์Šคํ…œ ๊ตฌ์„ฑ์š”์†Œ ์˜ˆ์‹œ:

    • ์ •๊ตํ•œ ํ”„๋กฌํ”„ํŠธ ์„ค๊ณ„

    • ๊ฒ€์ƒ‰ ๊ธฐ๋ฐ˜ ์ƒ์„ฑ(Retrieval-Augmented Generation, RAG)

    • ์ถœ๋ ฅ ํ›„์ฒ˜๋ฆฌ ๋ฐ ํ•„ํ„ฐ๋ง

    • ์‚ฌ์šฉ์ž ์ธํ„ฐ๋ž™์…˜(๋Œ€ํ™” ๊ธฐ๋ก ์œ ์ง€, ์™ธ๋ถ€ API ํ˜ธ์ถœ ๋“ฑ)

  • ํ‰๊ฐ€ ๋ฐฉ์‹:

    • ์‹ค์ œ ์‚ฌ์šฉ์ž ์‹œ๋‚˜๋ฆฌ์˜ค ๋˜๋Š” ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ํ™˜๊ฒฝ์—์„œ ํ‰๊ฐ€.

    • ํ”„๋กฌํ”„ํŠธ๋„ ์‹œ์Šคํ…œ์˜ ์ผ๋ถ€๋กœ ๊ฐ„์ฃผํ•˜์—ฌ ์ตœ์ ํ™”๋œ ํ”„๋กฌํ”„ํŠธ ์‚ฌ์šฉ.

    • ๊ฒ€์ƒ‰ ์„ฑ๋Šฅ(Recall@K ๋“ฑ), ์ตœ์ข… ๋‹ต๋ณ€์˜ ์ •ํ™•๋„, ์ถœ์ฒ˜ ์ธ์šฉ ์—ฌ๋ถ€ ๋“ฑ ๋ณตํ•ฉ ์ง€ํ‘œ ์‚ฌ์šฉ.

    • ๋Œ€ํ™” ์‹œ์Šคํ…œ์˜ ๊ฒฝ์šฐ ๋‹ค์ค‘ ํ„ด ๋Œ€ํ™” ์œ ์ง€ ๋Šฅ๋ ฅ, ์‘๋‹ต ์†๋„, ์ผ๊ด€์„ฑ ๋“ฑ UX ์ง€ํ‘œ ํฌํ•จ.

  • ๋ชฉ์ : ์ „์ฒด ์‹œ์Šคํ…œ์ด ์‹ค์ œ ์‚ฌ์šฉ์ž ๋ฌธ์ œ๋ฅผ ์–ผ๋งˆ๋‚˜ ํšจ๊ณผ์ ์œผ๋กœ ํ•ด๊ฒฐํ•˜๋Š”์ง€ ํ‰๊ฐ€.

  • ์˜ˆ์‹œ: ๋™์ผํ•œ ๋ชจ๋ธ์— ์›น ๊ฒ€์ƒ‰ ๊ธฐ๋Šฅ์„ ์ถ”๊ฐ€ํ•œ QA ์‹œ์Šคํ…œ์ด ๋‹จ๋… ๋ชจ๋ธ๋ณด๋‹ค ํ›จ์”ฌ ๋†’์€ ์ •ํ™•๋„๋ฅผ ๋ณด์ž„.

6.2.1. RAG Metrics

ํฌ๊ฒŒ ๊ฒ€์ƒ‰(retrieval) ํ’ˆ์งˆ, ์ตœ์ข… ๋‹ต๋ณ€ ํ’ˆ์งˆ๋กœ ๋ถ„๋ฅ˜. ๊ฒ€์ƒ‰๊ณผ ๋‹ต๋ณ€ ๋‘ ๋ถ€๋ถ„์„ ๋ณ„๋„๋กœ ๊ทธ๋ฆฌ๊ณ  ํ•จ๊ป˜ ํ‰๊ฐ€ํ•˜๋ฉฐ ํŠœ๋‹ํ•˜๋Š” ๊ฒƒ์ด ํšจ๊ณผ์ž„.

ํ‰๊ฐ€ ํ•ญ๋ชฉ
์„ค๋ช…

๊ฒ€์ƒ‰ ๊ด€๋ จ์„ฑ (Recall@k / Precision@k)

์งˆ๋ฌธ์— ๋‹ตํ•  ์ˆ˜ ์žˆ๋Š” ๋ฌธ์„œ๊ฐ€ ์žˆ๋‹ค๋ฉด, ์ƒ์œ„ k๊ฐœ์˜ ๊ฒ€์ƒ‰ ๊ฒฐ๊ณผ ์•ˆ์— ๊ทธ ๋ฌธ์„œ๊ฐ€ ํฌํ•จ๋˜์—ˆ๋Š”์ง€ ํ‰๊ฐ€.

์ปจํ…์ŠคํŠธ ๊ด€๋ จ์„ฑ (Context relevance)

๊ฒ€์ƒ‰๋œ ๋ฌธ์„œ๊ฐ€ ์งˆ๋ฌธ๊ณผ ์–ผ๋งˆ๋‚˜ ๊ด€๋ จ ์žˆ๋Š”์ง€ ํ‰๊ฐ€. ๊ด€๋ จ์„ฑ์ด ๋‚ฎ์œผ๋ฉด ๊ฒ€์ƒ‰์ด ์‹คํŒจํ–ˆ์„ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’๊ณ , ๋‹ต๋ณ€ ํ’ˆ์งˆ๋„ ๋‚˜๋น ์ง.

Context completeness

๊ฒ€์ƒ‰๋œ ๋ฌธ์„œ๋“ค์ด ์งˆ๋ฌธ์— ํ•„์š”ํ•œ ๋ชจ๋“  ์ •๋ณด๋ฅผ ํฌํ•จํ•˜๋Š”์ง€ ํ‰๊ฐ€ํ•จ. ์—ฌ๋Ÿฌ ๋ถ€๋ถ„์œผ๋กœ ๋œ ์งˆ๋ฌธ์— ๋Œ€ํ•ด ์ผ๋ถ€ ์ •๋ณด๋งŒ ์žˆ์œผ๋ฉด ๋‹ต๋ณ€์ด ๋ถˆ์™„์ „ํ•  ์ˆ˜ ์žˆ์Œ.

๋‹ต๋ณ€์˜ ๋ฌธ์„œ ์ถฉ์‹ค๋„ (Faithfulness)

๋‹ต๋ณ€์ด ์ œ๊ณต๋œ ๋ฌธ์„œ์˜ ์‚ฌ์‹ค์— ๊ทผ๊ฑฐํ–ˆ๋Š”์ง€ ํ‰๊ฐ€. ๋ฌธ์„œ์— ์—†๋Š” ์ •๋ณด๊ฐ€ ๋‹ต๋ณ€์— ํฌํ•จ๋˜๋ฉด 'ํ™˜๊ฐ(hallucination)'์œผ๋กœ ๊ฐ„์ฃผํ•จ.

์ข…ํ•ฉ ์ •ํ™•๋„ (End-to-end accuracy)

์ตœ์ข… ๋‹ต๋ณ€์ด ์ •ํ™•ํ•œ์ง€ ํ‰๊ฐ€ํ•จ. ๊ฒ€์ƒ‰์ด ์‹คํŒจํ•ด๋„ ๋ชจ๋ธ์ด ๋งž์ถœ ์ˆ˜ ์žˆ์ง€๋งŒ ๋“œ๋ฌผ๋ฉฐ, ๊ฒ€์ƒ‰ ์„ฑ๊ณต ํ›„์—๋„ ๋‹ต๋ณ€์ด ํ‹€๋ฆด ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋น„RAG ๋ชจ๋ธ๊ณผ ๋™์ผํ•˜๊ฒŒ ์ •ํ™•๋„, ROUGE, F1 ์ ์ˆ˜ ๋“ฑ์œผ๋กœ ํ‰๊ฐ€ํ•จ.

์œ ์Šค์ผ€์ด์Šค๋ณ„ ์ง€ํ‘œ

์˜ˆ๋ฅผ ๋“ค์–ด ๊ณ ๊ฐ์ง€์›์šฉ RAG ์ฑ—๋ด‡์€ 'ํ•ด๊ฒฐ๋ฅ (knowledge base๋กœ ์ œ๋Œ€๋กœ ๋‹ต๋ณ€ํ•œ ๋น„์œจ)', 'ํšŒํ”ผ์œจ(๋ชจ๋ฆ„์„ ๋‹ตํ•œ ๋น„์œจ)'์„ ๋ณผ ์ˆ˜ ์žˆ์Œ. ๊ฒ€์ƒ‰ QA ์‹œ์Šคํ…œ์€ ๋‹ต๋ณ€ ์ •ํ™•๋„์™€ ํ•จ๊ป˜ ์ปจํ…์ŠคํŠธ์—์„œ ์‚ฌ์šฉ๋œ ํ† ํฐ ์ˆ˜๋ฅผ ํ‰๊ฐ€ํ•ด ๋ชจ๋ธ์ด ๋ฌธ์„œ๋ฅผ ์ž˜ ํ™œ์šฉํ•˜๋Š”์ง€ ํŒ๋‹จํ•จ.

6.2.2. Chatbot and dialogue metrics

์ฑ—๋ด‡, ํŠนํžˆ ChatGPT ์Šคํƒ€์ผ์˜ ์˜คํ”ˆ ๋„๋ฉ”์ธ ์ฑ—๋ด‡์€ ๋‹ค์ค‘ ํ„ด ๋Œ€ํ™”์™€ ์‚ฌ์šฉ์ž ๊ฒฝํ—˜์ด ์ค‘์š”ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ํ‰๊ฐ€๊ฐ€ ๋ณต์žกํ•จ.

ํ‰๊ฐ€ ์ง€ํ‘œ
์„ค๋ช…

Conversation Success/ Task completion

์ฑ—๋ด‡์ด ํŠน์ • ๋ชฉ์ (์˜ˆ: ํ‹ฐ์ผ“ ์˜ˆ์•ฝ, ๋ฌธ์ œ ํ•ด๊ฒฐ)์„ ์–ผ๋งˆ๋‚˜ ์ž˜ ๋‹ฌ์„ฑํ•˜๋Š”์ง€ ํ‰๊ฐ€ํ•จ. ์„ฑ๊ณต ๊ธฐ์ค€์€ ๋Œ€ํ™” ์ข…๋ฃŒ ์‹œ ์‚ฌ์šฉ์ž๊ฐ€ โ€œ๊ฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค, ๋‹ต๋ณ€์ด ๋˜์—ˆ์–ด์š”โ€ ๊ฐ™์€ ํ‘œํ˜„

ํ„ด๋ณ„ ํ’ˆ์งˆ (Turn-level quality)

๊ฐ ์‘๋‹ต์˜ ์ ์ ˆ์„ฑ๊ณผ ์ฃผ์ œ ์ผ๊ด€์„ฑ์„ ํ™•์ธํ•จ. ์˜ˆ๋ฅผ ๋“ค์–ด, โ€˜Next Utterance Relevanceโ€™๋Š” ์‘๋‹ต๊ณผ ๋Œ€ํ™” ๋งฅ๋ฝ ๊ฐ„ ์ž„๋ฒ ๋”ฉ ์œ ์‚ฌ๋„๋กœ ์ธก์ •ํ•ด ์ฃผ์ œ ์ผ๊ด€์„ฑ ํ™•์ธ.

์ฐธ์—ฌ๋„ (Engagement)

์‚ฌ์šฉ์ž๊ฐ€ ๋Œ€ํ™”์— ์–ผ๋งˆ๋‚˜ ์˜ค๋ž˜ ๋จธ๋ฌด๋ฅด๋Š”์ง€, ํ‰๊ท  ํ„ด ์ˆ˜๋กœ ๊ฐ„์ ‘ ์ธก์ •. ๋งŒ์•ฝ ์‚ฌ์šฉ์ž๊ฐ€ ํ•œ๋‘ ๋งˆ๋””๋งŒ ํ•˜๊ณ  ๋– ๋‚œ๋‹ค๋ฉด, ์ฑ—๋ด‡ ์‘๋‹ต์ด ํฅ๋ฏธ๋กญ์ง€ ์•Š๊ฑฐ๋‚˜ ์ฐธ์—ฌ๋ฅผ ์œ ๋„ํ•˜์ง€ ๋ชปํ•˜๋Š” ์‹ ํ˜ธ์ผ ์ˆ˜ ์žˆ์Œ.

Safety in dialogue

๋…์„ฑ ๋ฐœ์–ธ, ๊ฐœ์ธ์ •๋ณด ๋…ธ์ถœ, ๊ณต๊ฒฉ ๋Œ€์‘ ๋“ฑ ์•ˆ์ „์„ฑ ๋ฌธ์ œ ํ‰๊ฐ€. ํŠนํžˆ, ํ”„๋กฌํ”„ํŠธ ์ธ์ ์…˜ ๊ฐ™์€ ๊ณต๊ฒฉ์— ๋Œ€ํ•ด ์ฑ—๋ด‡์ด ์ ์ ˆํžˆ ๋Œ€์‘ํ•˜๋Š”์ง€ ํ…Œ์ŠคํŠธํ•˜๋ฉฐ, ์ž๋™ํ™”๋œ ๋…์„ฑ ์ฒดํฌ ๋„๊ตฌ(W&B Toxicity checker ๋“ฑ)๋ฅผ ํ™œ์šฉํ•จ.

Persona & Consistency

์ฑ—๋ด‡์ด ํŠน์ • ํŽ˜๋ฅด์†Œ๋‚˜๋‚˜ ์Šคํƒ€์ผ์„ ๊ฐ€์ง„ ๊ฒฝ์šฐ, ๋Œ€ํ™” ๋‚ด๋‚ด ์ผ๊ด€๋œ ํ†ค๊ณผ ์‚ฌ์‹ค์„ ์œ ์ง€ํ•˜๋Š”์ง€ ํ‰๊ฐ€ํ•จ. ๋ณดํ†ต ์—ฐ๊ตฌ์—์„œ๋Š” โ€˜Consistent Personaโ€™๋ผ๋Š” ์ง€ํ‘œ๋กœ ๋ณด๊ณ  ์žˆ์Œ.

Human Evaluation

์‹ค์ œ ์‚ฌ์šฉ์ž๊ฐ€ ์ฑ—๋ด‡ ๊ฒฝํ—˜์„ ์ง์ ‘ ๋น„๊ตํ•˜๋Š” ๊ฐ€์žฅ ์‹ ๋ขฐ์„ฑ ๋†’์€ ๋ฐฉ๋ฒ•์œผ๋กœ ์‚ฌ๋žŒ๋“ค์ด ์—ฌ๋Ÿฌ ์ฑ—๋ด‡๊ณผ ๋Œ€ํ™”ํ•œ ํ›„ ๋ฌด์ž‘์œ„๋กœ ํ‰๊ฐ€ํ•˜๊ฑฐ๋‚˜ ์„ ํ˜ธ๋„ ์„ ํƒ

6.2.3. Code generation metrics

  • ์‚ฌ์šฉ์ž ์—ฐ๊ตฌ์—์„œ๋Š” AI๊ฐ€ ์ƒ์„ฑํ•œ ์ฝ”๋“œ ์ดํ›„ ์‚ฌ์šฉ์ž๊ฐ€ ์–ผ๋งˆ๋‚˜ ์ˆ˜์ •์„ ํ–ˆ๋Š”์ง€, ํžŒํŠธ๊ฐ€ ์–ผ๋งˆ๋‚˜ ํ•„์š”ํ–ˆ๋Š”์ง€๋„ ์ธก์ •.

  • ๋ฌธ๋ฒ•์ ์œผ๋กœ ์™„๋ฒฝํ•ด๋„ ๋…ผ๋ฆฌ์ ์œผ๋กœ ํ‹€๋ฆฐ ์ฝ”๋“œ๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ, ์‹คํ–‰ ๋ฐ ๋…ผ๋ฆฌ ํ…Œ์ŠคํŠธ๊ฐ€ ํ•ต์‹ฌ. ๊ฐ€๋Šฅํ•œ ๊ฒฝ์šฐ ์‹คํ–‰ ๊ธฐ๋ฐ˜ ํ‰๊ฐ€(์ฝ”๋“œ๊ฐ€ ์‹ค์ œ๋กœ ๋™์ž‘ํ•˜๋Š”์ง€ ํ…Œ์ŠคํŠธ ์ž๋™ํ™”)๋ฅผ ๋ฐ˜๋“œ์‹œ ์‚ฌ์šฉํ•ด์•ผ ํ•จ.

ํ‰๊ฐ€ ํ•ญ๋ชฉ
์„ค๋ช…
์ƒ์„ธ ๋‚ด์šฉ ๋ฐ ์˜ˆ์‹œ

๊ธฐ๋Šฅ์  ์ •ํ™•์„ฑ (Pass@k)

์ƒ์„ฑ๋œ ์ฝ”๋“œ๊ฐ€ ์‹ค์ œ๋กœ ์ž‘๋™ํ•˜๋Š”์ง€(์ปดํŒŒ์ผ ๋˜๋Š”์ง€, ํ…Œ์ŠคํŠธ๋ฅผ ํ†ต๊ณผํ•˜๋Š”์ง€)๋ฅผ ํ‰๊ฐ€ํ•จ. Pass@k๋Š” k๊ฐœ์˜ ์ƒ˜ํ”Œ ์ค‘ ์ ์–ด๋„ ํ•˜๋‚˜๊ฐ€ ๋งž์„ ํ™•๋ฅ ์„ ์˜๋ฏธํ•จ.

- Pass@1: ์ฒซ ์‹œ๋„ ์ฝ”๋“œ๊ฐ€ ๋งž๋Š”์ง€ - Pass@5: 5๊ฐœ ์‹œ๋„ ์ค‘ ํ•˜๋‚˜๋ผ๋„ ๋งž์œผ๋ฉด ์„ฑ๊ณต๋น„๊ฒฐ์ •์„ฑ(๋žœ๋ค์„ฑ)์ด ์žˆ๋Š” ๊ฒฝ์šฐ ์œ ์šฉํ•จ.

์˜ค๋ฅ˜์œจ (Error Rate)

์‚ฌ์šฉ์ž๊ฐ€ ์ฝ”๋“œ๋ฅผ ์–ผ๋งˆ๋‚˜ ๋งŽ์ด ์ˆ˜์ •ํ•ด์•ผ ํ–ˆ๋Š”์ง€, ๋ชจ๋ธ์ด ๋ช‡ ๋ฒˆ ์žฌ์‹œ๋„ํ–ˆ๋Š”์ง€๋ฅผ ์ธก์ •. ๋‚ฎ์€ ์˜ค๋ฅ˜์œจ์€ ์ฒ˜์Œ๋ถ€ํ„ฐ ์ •ํ™•ํ•œ ์ฝ”๋“œ๋ฅผ ์˜๋ฏธํ•จ.

- ํŽธ์ง‘ ๊ฑฐ๋ฆฌ(Edit distance)๋ฅผ ์‚ฌ์šฉํ•ด ๋ชจ๋ธ ์ถœ๋ ฅ๊ณผ ์ˆ˜์ •๋œ ์ฝ”๋“œ ๊ฐ„ ์ฐจ์ด๋ฅผ ์ธก์ • - ์ธํ„ฐ๋ž™ํ‹ฐ๋ธŒ ํ™˜๊ฒฝ์—์„œ ์ค‘์š”ํ•จ.

์ฝ”๋“œ ํ’ˆ์งˆ ๋ฐ ์Šคํƒ€์ผ

์ฝ”๋“œ๊ฐ€ ๊น”๋”ํ•˜๊ณ  ๊ตฌ์กฐ์ ์œผ๋กœ ์˜ฌ๋ฐ”๋ฅธ์ง€ ํ‰๊ฐ€. ์ฃผ๊ด€์ ์ด์ง€๋งŒ, ๋ฆฐํ„ฐ(linter)๋‚˜ ํฌ๋งคํ„ฐ(formatter)๋ฅผ ์‚ฌ์šฉํ•ด ๋Œ€๋žต์ ์ธ ํ‰๊ฐ€๊ฐ€ ๊ฐ€๋Šฅํ•จ.

- ์˜ˆ: ํŒŒ์ด์ฌ PEP8 ์Šคํƒ€์ผ ๊ฒ€์‚ฌ - ๋ณต์žก๋„ ์ธก์ •: ์ฝ”๋“œ ๋ผ์ธ ์ˆ˜, ์‚ฌ์ดํด๋กœ๋งคํ‹ฑ ๋ณต์žก๋„ ๋“ฑ์œผ๋กœ ๊ณผ๋„ํ•œ ๋ณต์žก์„ฑ ํ‰๊ฐ€

์ฃผ์„ ๋ฐ ๋ฌธ์„œํ™”

๋ฌธ์„œํ™” ์ž‘์—…์ด ํฌํ•จ๋œ ๊ฒฝ์šฐ, ์ฃผ์„ ๋ฐ€๋„๋‚˜ docstring ์™„์„ฑ๋„ ํ‰๊ฐ€. ์„ค๋ช…์˜ ์ •ํ™•์„ฑ๋„ ํ…์ŠคํŠธ ํ‰๊ฐ€ ์ง€ํ‘œ๋กœ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Œ.

- ์ฝ”๋“œ์™€ ํ•จ๊ป˜ ์„ค๋ช…์„ ์ƒ์„ฑํ•˜๋Š” ๊ณผ์ œ์—์„œ ์ค‘์š” - ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ํ‰๊ฐ€ ์ง€ํ‘œ ํ™œ์šฉ ๊ฐ€๋Šฅ(ex. ์ •ํ™•์„ฑ, ์™„์ „์„ฑ)

๋ณด์•ˆ ๋ฐ ์•ˆ์ „์„ฑ

์‹ค์ œ ์‹œ์Šคํ…œ์— ์ ์šฉํ•  ์ฝ”๋“œ๋ผ๋ฉด ๋ณด์•ˆ ์ทจ์•ฝ์  ์—ฌ๋ถ€๋ฅผ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ์ •์  ๋ถ„์„ ๋„๊ตฌ(static analysis)๋ฅผ ์‚ฌ์šฉํ•ด AI ์ƒ์„ฑ ์ฝ”๋“œ์˜ ๋ฌธ์ œ์ ์„ ํƒ์ง€.

- ์ทจ์•ฝ์  ํƒ์ง€ ์—ฐ๊ตฌ ์ง„ํ–‰ ์ค‘ - ์ฝ”๋“œ ์‹คํ–‰ ์ „ ๋ณด์•ˆ ์ ๊ฒ€ ํ•„์ˆ˜

6.3. ์ฃผ์š” ์ฐจ์ด์  ์ •๋ฆฌ

๊ตฌ๋ถ„
LLM ํ‰๊ฐ€
LLM ์‹œ์Šคํ…œ ํ‰๊ฐ€

ํ‰๊ฐ€ ๋Œ€์ƒ

๊ธฐ๋ณธ LLM ๋ชจ๋ธ ๋‹จ๋…

๋ชจ๋ธ + ํ”„๋กฌํ”„ํŠธ + ๊ฒ€์ƒ‰ + ํ›„์ฒ˜๋ฆฌ ๋“ฑ ์‹œ์Šคํ…œ ์ „์ฒด

ํ‰๊ฐ€ ํ™˜๊ฒฝ

ํ†ต์ œ๋œ ํ‘œ์ค€ ๋ฒค์น˜๋งˆํฌ ๋ฐ ํ”„๋กฌํ”„ํŠธ

์‹ค์ œ ์‚ฌ์šฉ์ž ์‹œ๋‚˜๋ฆฌ์˜ค, ์ธํ„ฐ๋ž™ํ‹ฐ๋ธŒ ํ™˜๊ฒฝ

ํ”„๋กฌํ”„ํŠธ ์‚ฌ์šฉ

๋™์ผํ•œ ํ”„๋กฌํ”„ํŠธ ์ผ๊ด„ ์ ์šฉ

๊ฐ ์‹œ์Šคํ…œ์— ์ตœ์ ํ™”๋œ ํ”„๋กฌํ”„ํŠธ ์‚ฌ์šฉ

์„ฑ๋Šฅ ์ง€ํ‘œ

์ •ํ™•๋„, BLEU ๋“ฑ ๋ชจ๋ธ ์ถœ๋ ฅ ์ค‘์‹ฌ

๊ฒ€์ƒ‰ ์ •ํ™•๋„, ๋‹ต๋ณ€ ์ •ํ™•๋„, ์ถœ์ฒ˜ ์ธ์šฉ, UX ์ง€ํ‘œ ๋“ฑ ๋ณตํ•ฉ์ 

ํ‰๊ฐ€ ๋ชฉ์ 

๋ชจ๋ธ ๋‚ด์žฌ ๋Šฅ๋ ฅ ๋น„๊ต ๋ฐ ๊ฐœ์„ 

์‚ฌ์šฉ์ž ๋ฌธ์ œ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ ๋ฐ ์‹œ์Šคํ…œ ํ’ˆ์งˆ ํ‰๊ฐ€

ํ‰๊ฐ€ ๋ฐฉ์‹

๋ชจ๋ธ ๋‹จ๋… ์ž…๋ ฅ โ†’ ์ถœ๋ ฅ ํ‰๊ฐ€

์ž…๋ ฅ๋ถ€ํ„ฐ ์ตœ์ข… ์ถœ๋ ฅ๊นŒ์ง€ ์ „์ฒด ํŒŒ์ดํ”„๋ผ์ธ ํ‰๊ฐ€

7. ์˜จ๋ผ์ธ ํ‰๊ฐ€ vs ์˜คํ”„๋ผ์ธ ํ‰๊ฐ€


7.1. ์˜คํ”„๋ผ์ธ ํ‰๊ฐ€ (์‚ฌ์ „ ๋ฆด๋ฆฌ์Šค, ํ†ต์ œ๋œ ํ…Œ์ŠคํŠธ)

ํŠน์ง•

  • ๊ณผ๊ฑฐ ๋ฐ์ดํ„ฐ๋‚˜ ํŠน๋ณ„ํžˆ ์ค€๋น„๋œ ๋ฐ์ดํ„ฐ์…‹ ์‚ฌ์šฉ

  • ํ™˜๊ฒฝ์ด ํ†ต์ œ๋จ (์ž…๋ ฅ๊ณผ ํ‰๊ฐ€ ๊ธฐ์ค€์ด ๋ฏธ๋ฆฌ ์ •ํ•ด์ง)

  • ์‚ฌ์šฉ์ž์™€์˜ ์‹ค์‹œ๊ฐ„ ์ƒํ˜ธ์ž‘์šฉ ์—†์Œ (์ž…๋ ฅ โ†’ ์ถœ๋ ฅ ๊ด€์ฐฐ โ†’ ์ •๋‹ต๊ณผ ๋น„๊ต)

์žฅ์ 

์žฅ์ 
์„ค๋ช…

์•ˆ์ „์„ฑ ๋ฐ ์œ„ํ—˜ ์™„ํ™”

๋ฏธ๊ฒ€์ฆ ๋ชจ๋ธ์ด ์‹ค์‚ฌ์šฉ์ž์—๊ฒŒ ํ”ผํ•ด๋ฅผ ์ฃผ๋Š” ๊ฒƒ์„ ๋ฐฉ์ง€ (์˜ˆ: ๋ถ€์ ์ ˆํ•œ ๋‹ต๋ณ€ ์ฐจ๋‹จ)

์žฌํ˜„์„ฑ

๋™์ผ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ๋ฐ˜๋ณต ํ‰๊ฐ€ ๊ฐ€๋Šฅ, ๊ณต์ •ํ•œ ๋น„๊ต์™€ ํ†ต๊ณ„ ๋ถ„์„ ์šฉ์ด

์‹ฌ์ธต ๋ถ„์„ ๊ฐ€๋Šฅ

ํฌ๊ท€ ์‚ฌ๋ก€, ๊ธด ์ž…๋ ฅ ๋“ฑ ๋‹ค์–‘ํ•œ ์‹œ๋‚˜๋ฆฌ์˜ค๋ฅผ ํฌํ•จํ•ด ๋ชจ๋ธ์„ ์ฒ ์ €ํžˆ ์‹œํ—˜ ๊ฐ€๋Šฅ

์ปค๋ฒ„๋ฆฌ์ง€ ํ™•๋ณด

์ค‘์š”ํ•˜์ง€๋งŒ ๋“œ๋ฌธ ์ž…๋ ฅ ์œ ํ˜•๋„ ํฌํ•จํ•ด ํ…Œ์ŠคํŠธ ๊ฐ€๋Šฅ (์˜ˆ: ์˜๋ฃŒ ์ƒ๋‹ด ์งˆ๋ฌธ)

๋ฐ˜๋ณต์  ๊ฐœ๋ฐœ ์ง€์›

์—ฌ๋Ÿฌ ๋ชจ๋ธ ๋ณ€ํ˜•์„ ๋™์‹œ์— ๋น ๋ฅด๊ฒŒ ์‹œํ—˜ํ•ด ์ตœ์  ๋ชจ๋ธ ์„ ๋ณ„ ๊ฐ€๋Šฅ

ํ•œ๊ณ„ ๋ฐ ๋‹จ์ 

๋‹จ์ 
์„ค๋ช…

ํ˜„์‹ค ๋ฐ˜์˜ ๋ถ€์กฑ

์‹ค์ œ ์‚ฌ์šฉ์ž ์ฟผ๋ฆฌ์˜ ๋‹ค์–‘์„ฑ๊ณผ ๋ถ„ํฌ๋ฅผ ์™„๋ฒฝํžˆ ๋ฐ˜์˜ํ•˜์ง€ ๋ชปํ•จ (์˜ˆ: ์†์–ด ๋ฏธํฌํ•จ)

์ •์  ํ‰๊ฐ€

์ƒํ˜ธ์ž‘์šฉ ๋ฐ ๋Œ€ํ™” ํ๋ฆ„ ์žฌ๊ตฌ์„ฑ ๋ถˆ๊ฐ€๋Šฅ, ๋‹จ๋ฐฉํ–ฅ ํ‰๊ฐ€์— ํ•œ์ •

ํ‰๊ฐ€์šฉ ๊ณผ์ ํ•ฉ ์œ„ํ—˜

ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ์…‹์— ๋งž์ถฐ ํŠœ๋‹ํ•˜๋ฉด ์‹ค์ œ ์„ฑ๋Šฅ ์ €ํ•˜ ๊ฐ€๋Šฅ์„ฑ ์กด์žฌ

์‚ฌ์šฉ์ž ํŒ๋‹จ ๋ฐ˜์˜ ๋ถ€์กฑ

์ •ํ™•๋„๋Š” ๋†’์•„๋„ ์‚ฌ์šฉ์ž ์„ ํ˜ธ๋‚˜ ๋งŒ์กฑ๋„ ๋ฐ˜์˜ ์–ด๋ ค์›€

์˜ˆ์‹œ

  • XSum ์š”์•ฝ ๋ฐ์ดํ„ฐ์…‹์— ๋ชจ๋ธ ์ ์šฉ ํ›„ ROUGE ์ ์ˆ˜ ๊ณ„์‚ฐ

  • 1,000๊ฐœ ์„ ์ •๋œ ํ”„๋กฌํ”„ํŠธ๋กœ ๋‚ด๋ถ€ ํ‰๊ฐ€ํŒ€์˜ ์ธ๊ฐ„ ํ‰๊ฐ€ ๋น„๊ต

  • ๊ณ ์˜์ ์œผ๋กœ ๋ฌธ์ œ๋ฅผ ์ผ์œผํ‚ค๋Š” ์งˆ๋ฌธ ๋ชฉ๋ก์œผ๋กœ ์ ๋Œ€์  ํ…Œ์ŠคํŠธ ์ˆ˜ํ–‰

  • EleutherAI, HuggingFace ํ‰๊ฐ€ ๋„๊ตฌ๋ฅผ ํ™œ์šฉํ•œ ๋ฒค์น˜๋งˆํฌ ํ…Œ์ŠคํŠธ

7.2. ์˜จ๋ผ์ธ ํ‰๊ฐ€ (์‹ค์‹œ๊ฐ„ ๋ฐฐํฌ ๋ฐ ์‚ฌ์šฉ์ž ํ”ผ๋“œ๋ฐฑ)

ํŠน์ง•

  • ์‹ค์ œ ์‚ฌ์šฉ์ž ๋˜๋Š” ๋ผ์ด๋ธŒ ๋ฐ์ดํ„ฐ ์ŠคํŠธ๋ฆผ์—์„œ ์ง„ํ–‰

  • ์‚ฌ์šฉ์ž ํ–‰๋™ ๋ฐ ํ”ผ๋“œ๋ฐฑ(ํด๋ฆญ, ํ‰์ , ์ „ํ™˜์œจ ๋“ฑ)์„ ํ‰๊ฐ€ ๊ธฐ์ค€์œผ๋กœ ์‚ฌ์šฉ

  • ์ง€์†์ ์œผ๋กœ ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๊ฐ€๋Šฅ

์žฅ์ 

์žฅ์ 
์„ค๋ช…

์‹ค์ œ ํ™˜๊ฒฝ ๊ฒ€์ฆ

์‹ค์ œ ์‚ฌ์šฉ์ž์˜ ์ฟผ๋ฆฌ ๋ถ„ํฌ์™€ ๋งฅ๋ฝ์„ ๋ฐ˜์˜ํ•ด ๋ชจ๋ธ์ด ์‚ฌ์šฉ์ž ๊ฒฝํ—˜์„ ๊ฐœ์„ ํ•˜๋Š”์ง€ ํ™•์ธ

๋ฏธ์ฒ˜ ๋ชฐ๋ž๋˜ ๋ฌธ์ œ ๋ฐœ๊ฒฌ

์˜ˆ์ƒ์น˜ ๋ชปํ•œ ์ž…๋ ฅ ์œ ํ˜•์ด๋‚˜ ์‹คํŒจ ์‚ฌ๋ก€๋ฅผ ์‹ค์‹œ๊ฐ„์œผ๋กœ ํƒ์ง€ ๊ฐ€๋Šฅ

๋น„์ฆˆ๋‹ˆ์Šค ์ง€ํ‘œ ์ธก์ •

์‚ฌ์šฉ์ž ์œ ์ง€์œจ, ๊ณ ๊ฐ ๋งŒ์กฑ๋„, ๋งค์ถœ ๋“ฑ ์‹ค์งˆ์  ์„ฑ๊ณผ์™€ ์—ฐ๊ณ„ ๊ฐ€๋Šฅ

์ง€์†์  ๊ฐœ์„ 

์‚ฌ์šฉ์ž ๋กœ๊ทธ๋ฅผ ํ™œ์šฉํ•ด ๋ชจ๋ธ์„ ์ •๊ธฐ์ ์œผ๋กœ ์žฌํ•™์Šต ๋ฐ ๊ฐœ์„  ๊ฐ€๋Šฅ

๋‹จ์  ๋ฐ ์–ด๋ ค์›€

๋‹จ์ 
์„ค๋ช…

์œ„ํ—˜ ๋ถ€๋‹ด

๋ฏธ๊ฒ€์ฆ ๋ชจ๋ธ ๋ฐฐํฌ ์‹œ ๋ถ€์ ์ ˆ ๋‹ต๋ณ€ ๋“ฑ ์‚ฌ์šฉ์ž ํ”ผํ•ด ๊ฐ€๋Šฅ์„ฑ ์กด์žฌ

๋…ธ์ด์ฆˆ ๋ฐ ๋ณ€๋™์„ฑ

์™ธ๋ถ€ ์š”์ธ์œผ๋กœ ์ธํ•œ ์‚ฌ์šฉ์ž ํ–‰๋™ ๋ณ€ํ™”๊ฐ€ ๊ฒฐ๊ณผ ํ•ด์„์„ ์–ด๋ ต๊ฒŒ ํ•จ

ํ”ผ๋“œ๋ฐฑ ์ง€์—ฐ ๋ฐ ์•”๋ฌต์ 

๋ช…ํ™•ํ•œ ํ‰๊ฐ€ ์ ์ˆ˜ ๋Œ€์‹  ๊ฐ„์ ‘ ์‹ ํ˜ธ(์žฌ์งˆ๋ฌธ, ์ดํƒˆ ๋“ฑ) ํ•ด์„ ํ•„์š”

๋ถ„ํฌ ๋ณ€ํ™” ์ง€์†

์‚ฌ์šฉ์ž ์ฟผ๋ฆฌ ํŠน์„ฑ ๋ณ€ํ™”์— ๋”ฐ๋ผ ๋ชจ๋ธ ์„ฑ๋Šฅ ์ €ํ•˜ ๊ฐ€๋Šฅ, ์ง€์† ๋ชจ๋‹ˆํ„ฐ๋ง ํ•„์ˆ˜

๊ฐœ์ธ์ •๋ณด ๋ฐ ์œค๋ฆฌ ๋ฌธ์ œ

์‚ฌ์šฉ์ž ๋ฐ์ดํ„ฐ ํ™œ์šฉ ์‹œ ํ”„๋ผ์ด๋ฒ„์‹œ ๋ณดํ˜ธ ๋ฐ ์œค๋ฆฌ์  ๊ณ ๋ ค ํ•„์š”

์ฃผ์š” ๋ฐฉ๋ฒ•

  • A/B ํ…Œ์ŠคํŠธ: ์‚ฌ์šฉ์ž ๊ทธ๋ฃน์„ ๋ฌด์ž‘์œ„ ๋ถ„ํ• ํ•ด ๋ชจ๋ธ A, B ๋ฒ„์ „์„ ๋น„๊ต

  • ์—ฐ์† ๋ชจ๋‹ˆํ„ฐ๋ง: ์‘๋‹ต ๊ธธ์ด, ์žฌ์งˆ๋ฌธ ๋น„์œจ, ์‚ฌ์šฉ์ž ํ‰์ , ์ž๋™ ํ•„ํ„ฐ๋ง ๋นˆ๋„ ๋“ฑ ์ง€ํ‘œ ์‹ค์‹œ๊ฐ„ ๊ฐ์‹œ

  • ๋‹จ๊ณ„์  ๋ฐฐํฌ: ์†Œ๊ทœ๋ชจ ์‚ฌ์šฉ์ž๋ถ€ํ„ฐ ์ ์ง„ ํ™•๋Œ€, ๋ฌธ์ œ ๋ฐœ์ƒ ์‹œ ์ฆ‰์‹œ ๋กค๋ฐฑ ๊ฐ€๋Šฅ

  • ์‰๋„์šฐ ๋ชจ๋“œ: ์ƒˆ ๋ชจ๋ธ์„ ๋ฐฑ๊ทธ๋ผ์šด๋“œ์—์„œ ์‹คํ–‰ํ•ด ๊ฒฐ๊ณผ๋งŒ ๊ธฐ๋ก, ์‚ฌ์šฉ์ž์— ์˜ํ–ฅ ์—†์ด ํ‰๊ฐ€

7.3. ์˜คํ”„๋ผ์ธ vs ์˜จ๋ผ์ธ ํ‰๊ฐ€์˜ ์ƒํ˜ธ๋ณด์™„์  ๊ด€๊ณ„

ํ‰๊ฐ€ ์œ ํ˜•
์žฅ์ 
๋‹จ์ 

์˜คํ”„๋ผ์ธ

์•ˆ์ „, ๋น ๋ฅธ ๋ฐ˜๋ณต, ๋น„์šฉ ์ €๋ ด

ํ˜„์‹ค ๋ฐ˜์˜ ํ•œ๊ณ„, ์‚ฌ์šฉ์ž ํ”ผ๋“œ๋ฐฑ ๋ถ€์กฑ

์˜จ๋ผ์ธ

์‹ค์ œ ์‚ฌ์šฉ์ž ๋ฐ˜์˜, ๋น„์ฆˆ๋‹ˆ์Šค ์„ฑ๊ณผ ์ธก์ •

์œ„ํ—˜, ๋ณต์žก์„ฑ, ๊ฒฐ๊ณผ ๋„์ถœ ์ง€์—ฐ

์ด์ƒ์ ์ธ ํ‰๊ฐ€ ์ „๋žต์€ ์˜คํ”„๋ผ์ธ์—์„œ ์ถฉ๋ถ„ํžˆ ๊ฒ€์ฆ ํ›„, ์˜จ๋ผ์ธ์—์„œ ์‹ค์‚ฌ์šฉ์ž ๋ฐ˜์‘ ํ™•์ธ ๋ฐ ์ถ”๊ฐ€ ๋ฌธ์ œ ๋ฐœ๊ฒฌ โ†’ ๊ฐœ์„  ๋ฐ˜๋ณต

8.1. ์–ธ์ œ ์–ด๋–ค ์ง€ํ‘œ๋ฅผ ์‚ฌ์šฉํ• ๊นŒ: ์ ์ ˆํ•œ ํ‰๊ฐ€ ์ง€ํ‘œ ์„ ํƒํ•˜๊ธฐ

๋ชจ๋ธ ํ‰๊ฐ€์—๋Š” ๋‹ค์–‘ํ•œ ์ง€ํ‘œ๊ฐ€ ์žˆ์ง€๋งŒ, ์‹ค์ œ๋กœ๋Š” 3~5๊ฐœ ์ •๋„์˜ ํ•ต์‹ฌ ์ง€ํ‘œ๋ฅผ ์„ ํƒํ•ด ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์„ ๊ถŒ์žฅํ•จ.

์ž‘์—… ์œ ํ˜•
์ถ”์ฒœ ์ง€ํ‘œ
์„ค๋ช… ๋ฐ ์ฐธ๊ณ  ์‚ฌํ•ญ

์ •๋ณด ์ œ๊ณตํ˜• (QA, ์–ด์‹œ์Šคํ„ดํŠธ)

์ •ํ™•์„ฑ / ์‚ฌ์‹ค์„ฑ + ๋„์›€์ด ๋˜๋Š” ์ •๋„ + ์•ˆ์ „์„ฑ ์ง€ํ‘œ

๋‹ต๋ณ€์˜ ์ •ํ™•์„ฑ(accuracy)๊ณผ ์‚ฌ์‹ค์„ฑ(factuality)์„ ์ธก์ •ํ•˜๊ณ , ์‚ฌ์šฉ์ž ํ‰๊ฐ€๋ฅผ ํ†ตํ•ด ๋„์›€ ์ •๋„๋ฅผ ํ™•์ธํ•ฉ๋‹ˆ๋‹ค. ์ž๋™ํ™”๋œ ๋…์„ฑ(Toxicity)์ด๋‚˜ ๊ฐœ์ธ์ •๋ณด ์‹๋ณ„(PII) ํƒ์ง€ ๊ฐ™์€ ์•ˆ์ „์„ฑ ์ง€ํ‘œ๋„ ํ•„์ˆ˜์ž…๋‹ˆ๋‹ค.

์ฐฝ์˜์  ์ž‘์—… (์Šคํ† ๋ฆฌ ์ƒ์„ฑ, ์ž์œ  ๋Œ€ํ™”)

ํ’ˆ์งˆ ์ง€ํ‘œ(์ผ๊ด€์„ฑ, ์œ ์ฐฝ์„ฑ) + ๋ถ„ํฌ ์ง€ํ‘œ(MAUVE) ๋˜๋Š” ์ธ๊ฐ„ ์„ ํ˜ธ๋„

ํ…์ŠคํŠธ์˜ ์ผ๊ด€์„ฑ๊ณผ ์ž์—ฐ์Šค๋Ÿฌ์›€์„ ํ‰๊ฐ€ํ•˜๊ณ , MAUVE ๊ฐ™์€ ๋ถ„ํฌ ๊ธฐ๋ฐ˜ ์ง€ํ‘œ๋‚˜ ์ธ๊ฐ„ ํ‰๊ฐ€๋ฅผ ํ†ตํ•ด ์–ด๋А ๋ชจ๋ธ์ด ๋” ๋งค๋ ฅ์ ์ธ์ง€ ํŒ๋‹จํ•ฉ๋‹ˆ๋‹ค. ๊ณต๊ณต์šฉ์ด๋ผ๋ฉด ์•ˆ์ „์„ฑ ์ง€ํ‘œ๋„ ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค.

๋ณ€ํ™˜ ์ž‘์—… (๋ฒˆ์—ญ, ์š”์•ฝ)

์ฐธ์กฐ ๊ธฐ๋ฐ˜ ์ง€ํ‘œ(BLEU, ROUGE, BERTScore) + ์ธ๊ฐ„ ํ‰๊ฐ€ + ์‚ฌ์‹ค์„ฑ ์ ๊ฒ€

BLEU, ROUGE ๋“ฑ ์ž๋™ ์ง€ํ‘œ๋กœ ๋น ๋ฅด๊ฒŒ ํ™•์ธํ•˜๋˜, ์ธ๊ฐ„ ํ‰๊ฐ€๋ฅผ ํ†ตํ•ด ์˜๋ฏธ ์ „๋‹ฌ(adequacy)๊ณผ ์œ ์ฐฝ์„ฑ(fluency)์„ ๋ณด์™„ํ•ฉ๋‹ˆ๋‹ค. ์š”์•ฝ์˜ ๊ฒฝ์šฐ ์‚ฌ์‹ค์„ฑ(faithfulness) ๊ฒ€์ฆ๋„ ํ•„์š”ํ•˜๋ฉฐ, ์ž๋™ํ™”๋œ ์‚ฌ์‹ค์„ฑ ํ‰๊ฐ€๊ธฐ๋ฅผ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ฝ”๋“œ ๊ด€๋ จ ์ž‘์—…

๊ธฐ๋Šฅ ํ…Œ์ŠคํŠธ + ํŽธ์ง‘ ๊ฑฐ๋ฆฌ(edit distance) + pass@k

์ฝ”๋“œ๊ฐ€ ์ œ๋Œ€๋กœ ์ž‘๋™ํ•˜๋Š”์ง€ ๊ธฐ๋Šฅ ํ…Œ์ŠคํŠธ๋ฅผ ์ตœ์šฐ์„ ์œผ๋กœ ํ•˜๋ฉฐ, ์ •๋‹ต๊ณผ์˜ ํŽธ์ง‘ ๊ฑฐ๋ฆฌ๋„ ์ธก์ •ํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๋Ÿฌ ์ถœ๋ ฅ์ด ๊ฐ€๋Šฅํ•  ๊ฒฝ์šฐ pass@k ์ง€ํ‘œ๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

RAG(๊ฒ€์ƒ‰ ๊ธฐ๋ฐ˜ ์ƒ์„ฑ) ์‹œ์Šคํ…œ

๊ฒ€์ƒ‰ ํ’ˆ์งˆ + ์ตœ์ข… ๋‹ต๋ณ€ ํ’ˆ์งˆ(์ •ํ™•์„ฑ, ์‚ฌ์‹ค์„ฑ, ์ถฉ์‹ค์„ฑ)

๊ฒ€์ƒ‰ ๋‹จ๊ณ„์™€ ์ƒ์„ฑ ๋‹จ๊ณ„๋ฅผ ๋ณ„๋„๋กœ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. W&B์˜ Faithfulness scorer ๊ฐ™์€ ๋„๊ตฌ๋กœ ๋‹ต๋ณ€์˜ ์‚ฌ์‹ค์„ฑ์„ ์ธก์ •ํ•ด ๋ณ‘๋ชฉ ๊ตฌ๊ฐ„์„ ํŒŒ์•…ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๊ณตํ†ต ์‚ฌํ•ญ

์•ˆ์ „์„ฑ ์ง€ํ‘œ(๋…์„ฑ, ํŽธํ–ฅ, PII)

๋ชจ๋ธ ๋ฐฐํฌ ์ „ ๋ฐ˜๋“œ์‹œ ์•ˆ์ „์„ฑ ์ง€ํ‘œ๋ฅผ ํ™•์ธํ•ด์•ผ ํž˜. ๊ด€๋ฆฌํ˜• "๊ฐ€๋“œ๋ ˆ์ผ(guardrail)" ์„œ๋น„์Šค๋„ ๋Ÿฐ์นญ๋˜์–ด ์žˆ์Œ.

์ฃผ์š” ๋ฐฉํ–ฅ
์„ค๋ช…

์„ธ๋ฐ€ํ•˜๊ณ  ๋™์ ์ธ ํ‰๊ฐ€

๋‹จ์ผ ์ ์ˆ˜ ๊ฐ™์€ ๊ฑฐ์นœ ํ‰๊ฐ€ ๋Œ€์‹ , ๋ชจ๋ธ์˜ ๊ฐ•์ ๊ณผ ์•ฝ์ ์„ ์—ฌ๋Ÿฌ ์ฐจ์›์—์„œ ์ž๋™์œผ๋กœ ๋ถ„์„ํ•˜๋Š” '๋Šฅ๋ ฅ ๋ณด๊ณ ์„œ' ์ƒ์„ฑ. ์˜ˆ: ๊ตฌ๊ธ€์˜ Eval++ ํ”„๋กœ์ ํŠธ. ๋ชจ๋ธ๋ผ๋ฆฌ ํ…Œ์ŠคํŠธ ๋ฌธ์ œ๋ฅผ ๋งŒ๋“ค์–ด๋‚ด ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ๋ฅผ ํ™•์žฅํ•˜๋Š” ๋ฐฉ์‹๋„ ์—ฐ๊ตฌ ์ค‘. ํ‰๊ฐ€๊ฐ€ ๋ชจ๋ธ ๋Šฅ๋ ฅ์— ๋งž์ถฐ ๋‚œ์ด๋„๋ฅผ ์กฐ์ ˆํ•˜๋Š” ๋™์  ํ‰๊ฐ€๋„ ๊ธฐ๋Œ€๋จ.

AI ๋ณด์กฐ ํ‰๊ฐ€ ๋ฐ ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ

LLM์„ ํ‰๊ฐ€์ž๋กœ ํ™œ์šฉ, ๋‹จ์ˆœ ์ ์ˆ˜๋ฟ ์•„๋‹ˆ๋ผ ๋…ผ๋ฆฌ์  ์˜ค๋ฅ˜, ํŽธํ–ฅ ํƒ์ง€๊นŒ์ง€ ๊ฐ€๋Šฅํ•˜๋„๋ก ์—ฐ๊ตฌ ์ค‘. โ€˜๋ฒ”์šฉ ํ‰๊ฐ€์ž ๋ชจ๋ธโ€™ ๊ฐœ๋ฐœ๋กœ ์ธ๊ฐ„ ์ „๋ฌธ๊ฐ€์™€ ์œ ์‚ฌํ•œ ์ƒ์„ธ ํ‰๊ฐ€ ๊ฐ€๋Šฅ์„ฑ.

์—ฐ์†์ ยท์‹ค์‹œ๊ฐ„ ํ‰๊ฐ€

๋ชจ๋ธ ์—…๋ฐ์ดํŠธ๊ฐ€ ์žฆ์•„์ง์— ๋”ฐ๋ผ ์‹ค์‹œ๊ฐ„์œผ๋กœ ์„ฑ๋Šฅ์„ ๋ชจ๋‹ˆํ„ฐ๋งํ•˜๋Š” ํ‰๊ฐ€ ์‹œ์Šคํ…œ ํ•„์š”. ์˜ˆ: ์ฑ—๋ด‡ ๋Œ€ํ™” ์ค‘ ๋งŒ์กฑ๋„ ์ ์ˆ˜ ์‹ค์‹œ๊ฐ„ ๊ฐฑ์‹ , ์ด์ƒ์น˜ ํƒ์ง€๋กœ ๋ฌธ์ œ ์กฐ๊ธฐ ๊ฒฝ๊ณ . MLOps์™€ ์—ฐ๊ณ„.

์‚ฌ์šฉ์ž ์ค‘์‹ฌยท์ƒํ™ฉ๋ณ„ ํ‰๊ฐ€

์‚ฌ์šฉ์ž ๊ทธ๋ฃน๋ณ„ ๋งž์ถค ํ‰๊ฐ€, ๊ธด ๋ฌธ๋งฅ ์ฒ˜๋ฆฌ ๋Šฅ๋ ฅ, ํ†ค ์กฐ์ ˆ ์ ์‘๋ ฅ ๋“ฑ ์‹ค์ œ ์‚ฌ์šฉ ๋งฅ๋ฝ ๋ฐ˜์˜ ํ‰๊ฐ€ ํ•„์š”.

๋ฒค์น˜๋งˆํฌ ์ง„ํ™” ๋ฐ ๋ฉ”ํƒ€ ํ‰๊ฐ€

์ˆ˜ํ•™, ์ถ”๋ก , ์ƒ์‹, ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ดํ•ด ๋“ฑ ๋‹ค์–‘ํ•œ ๋ฒค์น˜๋งˆํฌ ๊ฐœ๋ฐœ๊ณผ ๋™์‹œ์— ํ‰๊ฐ€ ๋ฐฉ๋ฒ• ์ž์ฒด์˜ ์‹ ๋ขฐ๋„(์ธ๊ฐ„ ํ‰๊ฐ€์™€์˜ ์ƒ๊ด€๊ด€๊ณ„) ์—ฐ๊ตฌ. Dynabench, HuggingFace Eval Harnesses ๊ฐ™์€ ์ปค๋ฎค๋‹ˆํ‹ฐ ๊ธฐ๋ฐ˜ ํ”Œ๋žซํผ ํ™œ์„ฑํ™”.

ํ•ด์„ ๊ฐ€๋Šฅ ํ‰๊ฐ€ ๋ฐ ๋ชจ๋ธ ์ดํ•ด

๋ชจ๋ธ ๋‚ด๋ถ€ ์ƒํƒœ(ํ™œ์„ฑํ™”, ์ž„๋ฒ ๋”ฉ ๋“ฑ)๋ฅผ ํ†ตํ•œ ์˜ค๋ฅ˜ ์˜ˆ์ธก, ์ถ”๋ก  ๊ฒฝ๋กœ ์ผ๊ด€์„ฑ ํ‰๊ฐ€ ๋“ฑ ํ•ด์„ ๋„๊ตฌ ํ™œ์šฉ. ์•ˆ์ „์„ฑ ํ‰๊ฐ€์— ์ค‘์š”.

๊ฐ•์ธ์„ฑ ๋ฐ ์ ๋Œ€์  ํ…Œ์ŠคํŠธ

์ ๋Œ€์  ๊ณต๊ฒฉ์„ ํ†ตํ•ด ๋ชจ๋ธ์˜ ์ทจ์•ฝ์  ํ‰๊ฐ€. Anthropic์˜ ์ ๋Œ€์  ํ›ˆ๋ จ, CLOUDS ํ”„๋ ˆ์ž„์›Œํฌ ๋“ฑ์ด ์˜ˆ.

์œค๋ฆฌ ๋ฐ ๊ทœ์ œ ํ‰๊ฐ€

๊ฐœ์ธ์ •๋ณด ๋…ธ์ถœ, ํŽธํ–ฅ์„ฑ, ๊ณต์ •์„ฑ ํ‰๊ฐ€๊ฐ€ ๋ฒ•์  ์š”๊ตฌ์‚ฌํ•ญ์œผ๋กœ ์ž๋ฆฌ์žก์Œ. ์˜๋ฃŒ AI์˜ FDA ์Šน์ธ๊ณผ ์œ ์‚ฌํ•œ ํ‰๊ฐ€ ์ ˆ์ฐจ ์˜ˆ์ƒ. ํ‰๊ฐ€ ๊ฒฐ๊ณผ์˜ ํˆฌ๋ช…์„ฑ ๊ฐ•ํ™”.

์ธ๊ฐ„-AI ํ˜‘์—… ํ‰๊ฐ€

AI๊ฐ€ ์ธ๊ฐ„๊ณผ ํ˜‘๋ ฅํ•  ๋•Œ ํŒ€ ์„ฑ๊ณผ ํ‰๊ฐ€. ์˜ˆ: ์˜๋ฃŒ์ง„๊ณผ LLM ํ˜‘์—… ์‹œ ์ •ํ™•๋„, ์†๋„, ์˜คํ•ด ๊ฐ€๋Šฅ์„ฑ ํ‰๊ฐ€. HCI(์ธ๊ฐ„-์ปดํ“จํ„ฐ ์ƒํ˜ธ์ž‘์šฉ) ์—ฐ๊ตฌ์™€ ์—ฐ๊ณ„.

ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ ํ™œ์šฉ ํ‰๊ฐ€

LLM์ด ์ง์ ‘ ํ‰๊ฐ€์šฉ ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•ด ๋ฐ์ดํ„ฐ ๋ถ€์กฑ ๋ฌธ์ œ ์™„ํ™”. ํŽธํ–ฅ๊ณผ ์˜ค๋ฅ˜ ์ฃผ์˜ ํ•„์š”ํ•˜๋ฉฐ, ์ธ๊ฐ„ ๊ฒ€ํ†  ๋˜๋Š” ๋‹ค๋ฅธ ๋ชจ๋ธ ํ•„ํ„ฐ๋ง ๋ณ‘ํ–‰.

๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ฐ ์ž„๋ฒ ๋””๋“œ ํ‰๊ฐ€

์ด๋ฏธ์ง€, ์˜์ƒ, ๋กœ๋ด‡ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ชจ๋‹ฌ๋ฆฌํ‹ฐ ๊ฒฐํ•ฉ ๋ชจ๋ธ ํ‰๊ฐ€. ์˜ˆ: ์‹œ๊ฐ์งˆ๋ฌธ์‘๋‹ต(VQA), ๊ฐ€์ƒํ™˜๊ฒฝ ๋‚ด AI ์—์ด์ „ํŠธ ํ‰๊ฐ€.

๋ฒค์น˜๋งˆํฌ ํ”ผ๋กœ๋„ ๋ฐ ์ƒˆ๋กœ์šด ํ‰๊ฐ€ ํŒจ๋Ÿฌ๋‹ค์ž„

๊ธฐ์กด ๋ฒค์น˜๋งˆํฌ ํ•œ๊ณ„ ๊ทน๋ณต ์œ„ํ•ด ๋Œ€ํ™”ํ˜•, ํ™•๋ฅ ์  ํ‰๊ฐ€ ๋„์ž…. ์˜ˆ: ๋ชจ๋ธ ๋‹ต๋ณ€์— ๋”ฐ๋ผ ์งˆ๋ฌธ์ด ๋‹ฌ๋ผ์ง€๋Š” ์ธํ„ฐ๋ž™ํ‹ฐ๋ธŒ ํ‰๊ฐ€, ์ถœ๋ ฅ ๋‹ค์–‘์„ฑ ๋ฐ ์‹คํŒจ ํ™•๋ฅ  ์ธก์ •.

์ปค๋ฎค๋‹ˆํ‹ฐ ๋ฐ ํฌ๋ผ์šฐ๋“œ์†Œ์‹ฑ ํ‰๊ฐ€

์‚ฌ์šฉ์ž๋“ค์ด ๋ชจ๋ธ์„ ์‹œํ—˜ํ•ด ์‹คํŒจ ์‚ฌ๋ก€๋ฅผ ์ˆ˜์ง‘, ๋ฒค์น˜๋งˆํฌ์— ๋ฐ˜์˜ํ•˜๋Š” ๋™์  ํ‰๊ฐ€.

์„ค๋ช… ๊ฐ€๋Šฅ์„ฑ ํ‰๊ฐ€

๋ชจ๋ธ ๋‹ต๋ณ€๋ฟ ์•„๋‹ˆ๋ผ ๋‹ต๋ณ€ ๊ทผ๊ฑฐ ์„ค๋ช…์˜ ์งˆ๋„ ํ‰๊ฐ€. ๋…ผ๋ฆฌ์  ์ผ๊ด€์„ฑ, ์œ ์šฉ์„ฑ ๋“ฑ ์ธก์ •.

References

Last updated