Overview
https://wandb.ai/onlineinference/genai-research/reports/LLM-evaluation-Metrics-frameworks-and-best-practices--VmlldzoxMTMxNjQ4NA#w&b-weave-in-llm-evaluation ์ ๋ด์ฉ์ ๊ธฐ๋ฐ์ผ๋ก LLM ํ๊ฐ ๊ฐ์ ์์ฑ
0. Background: ํ๊ฐ์ ์ค์์ฑ
Road to Production: Evaluation-driven LLMOps

ํ๊ฐ ๋ฐฉ๋ฒ๊ณผ ์์
๋ณดํต LLM์ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์ ์ ๋ชจ๋ ์์ ์ ๋ํด ์ ๋ก์ท ๋๋ ํจ์ท์ผ๋ก ์คํํ๊ณ , ์ ํ๋๋ F1 ์ ์ ๋ฑ ์งํ๋ฅผ ๊ณ์ฐํจ.
์๋ํ๋ ๋ฒค์น๋งํฌ๋ ํ์คํ๋๊ณ ๊ฐ๊ด์ ์ด๋ฉฐ, ์ฌ๋ฌ ๋ชจ๋ธ์ ์ง์ ๋น๊ตํ ์ ์์.
์๊ฐ์ด ์ง๋จ์ ๋ฐ๋ผ ๋ชจ๋ธ ์ฑ๋ฅ ํฅ์์ ์ถ์ ํ ์ ์๊ณ , ๊ธฐ์ด์ ์ธ ์ธ์ด ์ดํด ๋ฅ๋ ฅ ์ฌ๋ถ๋ฅผ ํ๋จํ๋ ๋ฐ ํ์
๋ฃจ๋ธ๋ฆญ(Rubric)
๋ฃจ๋ธ๋ฆญ์ ํ๊ฐ๋ฅผ ์ํ ๊ฐ์ด๋๋ผ์ธ/๊ธฐ์คํ๋ก ๊ฐ ํญ๋ชฉ๋ณ๋ก ๋ฌด์์ด ์ข์ ์ฑ๊ณผ์ด๊ณ , ๋ฌด์์ด ๋ถ์กฑํ ์ฑ๊ณผ์ธ์ง ๋ช ํํ๊ฒ ์ ์ํจ. ํ๊ต์์ ์ ์๋์ด ํ์๋ค์ ๊ณผ์ ๋ฅผ ์ฑ์ ํ ๋ ์ฌ์ฉํ๋ ์ฑ์ ํ๋ก ๋น์ ํ ์ ์์
์: ์ด๋ฑํ๊ต์์ '๋ด๊ฐ ์ข์ํ๋ ๋๋ฌผ' ๋ฐํ๋ฅผ ํ ๋ ์ ์๋์ ๋ค์๊ณผ ๊ฐ์ ๋ฃจ๋ธ๋ฆญ์ ๋ง๋ค ์ ์์.
๋ฐํ ๋ด์ฉ (30์ )
์ฐ์(30์ ): ๋๋ฌผ์ ๋ํ ์ฌ์ค์ด 5๊ฐ ์ด์, ๋ชจ๋ ์ ํํจ
๋ณดํต(20์ ): ๋๋ฌผ์ ๋ํ ์ฌ์ค์ด 3-4๊ฐ, ๋๋ถ๋ถ ์ ํํจ
๋ฏธํก(10์ ): ๋๋ฌผ์ ๋ํ ์ฌ์ค์ด 2๊ฐ ์ดํ, ๋ถ์ ํํ ์ ๋ณด ํฌํจ
๋ฐํ ํ๋ (20์ )
์ฐ์(20์ ): ๋ชฉ์๋ฆฌ๊ฐ ํฌ๊ณ ๋ช ํํ๋ฉฐ, ์ฒญ์ค๊ณผ ๋ ๋ง์ถค ์ ์ง
๋ณดํต(10์ ): ๋ชฉ์๋ฆฌ๋ ๋ค๋ฆฌ์ง๋ง ๊ฐ๋ ์์์ง, ์ผ๋ถ ๋ ๋ง์ถค
๋ฏธํก(5์ ): ๋ชฉ์๋ฆฌ๊ฐ ๋๋ฌด ์๊ณ , ๋ ๋ง์ถค ๊ฑฐ์ ์์
LLM ํ๊ฐ์์์ ๋ฃจ๋ธ๋ฆญ์ AI ๋ชจ๋ธ์ด ์ฌ์ฉ์์ ๋ํํ ๋ ์์ฑํ๋ ์๋ต์ ํ๊ฐํ๊ธฐ ์ํ ๊ธฐ์คํ๋ก ์ฝ๊ฒ ๋งํด์, "์ด AI์ ๋๋ต์ด ํฉ๊ฒฉ์ธ์ง ๋ถํฉ๊ฒฉ์ธ์ง ์ด๋ป๊ฒ ํ๋จํ ๊น?"์ ๋ํ ๋ช ํํ ๊ธฐ์ค์ ์ ํด๋ ๊ฒ์.
์๋ฅผ ๋ค์ด "Tool Call" ๋ฃจ๋ธ๋ฆญ์์๋:
AI๊ฐ ์ฌ๋ฐ๋ฅธ ๊ธฐ๋ฅ์ ์ ํํ๋๊ฐ?
ํ์ํ ์ ๋ณด๋ฅผ ์ ํํ ์ถ์ถํ๋๊ฐ?
์ฌ์ฉ์๊ฐ ๋งํ์ง ์์ ์ ๋ณด๋ฅผ ๋ง์๋๋ก ๋ง๋ค์ด๋ด์ง๋ ์์๋๊ฐ?
๋ฃจ๋ธ๋ฆญ์ด ์ค์ํ ์ด์ :
๊ฐ๊ด์ฑ: ์ฌ๋ฌ ํ๊ฐ์๊ฐ ๋์ผํ ๊ธฐ์ค์ผ๋ก ํ๊ฐํ ์ ์์
์ผ๊ด์ฑ: ๋ชจ๋ AI ๋ชจ๋ธ์ ๊ฐ์ ๊ธฐ์ค์ผ๋ก ํ๊ฐํ ์ ์์
๋ช ํ์ฑ: ์ด๋ค ๋ถ๋ถ์ด ์ํ๊ณ , ์ด๋ค ๋ถ๋ถ์ด ๊ฐ์ ์ด ํ์ํ์ง ์ ํํ ์ ์ ์์
ํผ๋๋ฐฑ: AI ๊ฐ๋ฐ์๋ค์๊ฒ ๊ตฌ์ฒด์ ์ธ ๊ฐ์ ๋ฐฉํฅ์ ์ ์ํ ์ ์์
๊ณผ์ ํฉ ๋ฌธ์ : ๊ณต๊ฐ๋ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ๊ฐ ํ์ต ๋ฐ์ดํฐ์ ํฌํจ๋๋ฉด ์ ์๊ฐ ๋ถํ๋ ค์ง ์ ์์.
ํ์ค ์ธ๊ณ ์ฑ๋ฅ๊ณผ์ ๊ดด๋ฆฌ: ๋ฒค์น๋งํฌ์์ ๋์ ์ ์๋ฅผ ๋ฐ์๋ ์ค์ ๋ํ๋ ์์ฉ์์ ์ค์๋ฅผ ํ ์ ์์.
๊ตฟํํธ ๋ฒ์น(Goodhart's Law): ๋ฒค์น๋งํฌ๊ฐ ๋ชฉํ๊ฐ ๋๋ฉด ๋ชจ๋ธ์ด ๋ฒค์น๋งํฌ ํน์ฑ์ ๋ง์ถฐ ์ต์ ํ๋์ด ์ง์ ํ ๋ฅ๋ ฅ๊ณผ๋ ๋ค๋ฅผ ์ ์์.
๋ฐ๋ผ์ ์๋กญ๊ณ ๋ค์ํ ํ๊ฐ ๋ฐฉ๋ฒ์ ์ง์์ ์ผ๋ก ๊ฐ๋ฐํ ํ์๊ฐ ์์.
1. Key metrics for LLM evaluation
1.1. Traditional Statistical Metrics
Accuracy/Precision/Recall/F1/Exact Match โ did the model get the correct answer or complete the task?
Perplexity โ how well does the model predict text?
N-gram overlap metrics (bleu, rouge, etc.) โ how much does output match a reference text?
Perplexity
์ธ์ด ๋ชจ๋ธ์ด ์ฃผ์ด์ง ๋ฐ์ดํฐ๋ฅผ ์ผ๋ง๋ ์ ์์ธกํ๋์ง ํ๊ฐํ๋ ์งํ๋ก, ํ ์คํธ ๋ฐ์ดํฐ์ ํ๊ท ์์ ๋ก๊ทธ ๊ฐ๋ฅ๋์ ์ง์๊ฐ. ๊ฐ์ด ๋ฎ์์๋ก ๋ชจ๋ธ์ด ๋ฐ์ดํฐ๋ฅผ ๋ โ๋๋๊ฒโ ์ฌ๊ฒจ ๋ ์ข์ ์ ํฉ๋๋ฅผ ์๋ฏธ๋ฏธํจ. ์๋ฅผ ๋ค์ด, perplexity๊ฐ 20์ด๋ฉด ํ๊ท ์ ์ผ๋ก ๋จ์ด๋ฅผ 20๊ฐ์ง ์ค ํ๋๋ฅผ ๊ณ ๋ฅด๋ ๊ฒ๋งํผ ๋ถํ์คํ๋ค๋ ๋ฏ์.
- ํ์ต ์ค์ด๋ ๋ชจ๋ธ ๊ฐ ๋น๊ต์ ์ฃผ๋ก ์ฌ์ฉ - ๋ฎ์์๋ก ์ข์ - ๋ฌธ๋ฒ์ /์๋ฏธ์ ์ ํ์ฑ ํ๊ฐ ๋ถ๊ฐ - ์ค์ ์ ์ฉ์ฑ ํ๋จ ๋ถ๊ฐ
BLEU (Bilingual Evaluation Understudy)
๊ธฐ๊ณ ๋ฒ์ญ ํ๊ฐ์ ๊ฐ๋ฐ๋ ์ ๋ฐ๋ ๊ธฐ๋ฐ ์งํ๋ก, ์์ฑ ๋ฌธ์ฅ๊ณผ ํ๋ ์ด์์ ๊ธฐ์ค ๋ฌธ์ ๊ฐ n-๊ทธ๋จ(์ฐ์๋ n๊ฐ์ ๋จ์ด) ๊ฒน์นจ ์ ๋๋ฅผ ์ธก์ . BLEU ์ ์๊ฐ ๋์ผ๋ฉด ๊ธฐ์ค ๋ฌธ์ฅ๊ณผ ์ ์ฌํ ๊ตฌ๋ฌธ์ ๋ง์ด ํฌํจํ ๊ฒ์ผ๋ก ๊ฐ์ฃผํจ.
- ํน์ ๊ธฐ์ค ๋ฌธ์ฅ๊ณผ ๋น๊ต์ ํจ๊ณผ์ - ์ฐฝ์์ ์ฌ๊ตฌ์ฑ์ด๋ ๋ค์ํ ํํ์ ๋ถ๋ฆฌ - ๋จ์ผ ์ ๋ต์ด ์๋ ์์ ์์ฑ์๋ ์ ํฉํ์ง ์์
ROUGE (Recall-Oriented Understudy for Gisting Evaluation)
์ฃผ๋ก ์์ฝ ํ๊ฐ์ ์ฌ์ฉ๋๋ ์งํ๋ก, ๊ธฐ์ค ๋ฌธ์์ n-๊ทธ๋จ ์ค ์์ฑ ๋ฌธ์ฅ์ ํฌํจ๋ ๋น์จ(์ฌํ์จ) ์ธก์ . ROUGE-L์ ๊ฐ์ฅ ๊ธด ๊ณตํต ๋ถ๋ถ์์ด(Longest Common Subsequence)์ ํตํด ๋ฌธ์ฅ ๊ตฌ์กฐ ์ ์ฌ์ฑ ํ๊ฐ
- ์์ฝ์์ ์ ๋ณด ํฌ์ฐฉ ์ ๋ ํ๊ฐ์ ์ ํฉ - ๊ณ์ฐ์ด ๊ฐ๋จํ๊ณ ๊ธฐ์ค ๋ฌธ์ ํ์ - ๋ฌธ๋งฅ ์ผ๊ด์ฑ, ์ฌ์ค ์ ํ์ฑ ํ๊ฐ ๋ถ๊ฐ
METEOR (Metric for Evaluation of Translation with Explicit ORdering)
BLEU์ ํ๊ณ๋ฅผ ๋ณด์ํ๊ธฐ ์ํด ๊ณ ์๋ ์งํ๋ก, ์ด๊ฐ(stem)๊ณผ ๋์์ด(synonym)๋ฅผ ํฌํจํด ์ ์ฐํ๊ฒ ๋จ์ด๋ฅผ ๋งค์นญํจ. ์ ๋ฐ๋์ ์ฌํ์จ์ ๋ชจ๋ ๊ณ ๋ คํ๋ฉฐ, ๋จ์ด ์์ ์ฐจ์ด์ ํ๋ํฐ๋ฅผ ๋ถ๊ณผํจ.
- BLEU๋ณด๋ค ์ธ๊ฐ ํ๊ฐ์ ์๊ด๊ด๊ณ๊ฐ ๋์ - 0~1(๋๋ 0~100%) ์ ์๋ก ํํ - ๋ค์ํ ํํ ์ธ์
ํ๊ณ์
๊ธฐ์ค ๋ฌธ์ ํ์์ฑ: ๋๋ถ๋ถ ์ฐธ์กฐ ๋ต์(ground truth)์ด ์์ด์ผ ํ๊ฐ ๊ฐ๋ฅ. ์์ ๋ก์ด ๋ํ๋ ์ฐฝ์์ ์์ฑ์๋ ์ ์ฉ ์ด๋ ค์
ํ๋ฉด์ ์ ์ฌ์ฑ ํ๊ฐ: ์๋ฏธ๋ ๊ฐ์ง๋ง ๋ค๋ฅธ ํํ์ ๋ฎ๊ฒ ํ๊ฐํ๊ฑฐ๋, ๊ธฐ์ค ๋ฌธ์ฅ์ ๊ทธ๋๋ก ๋ณต๋ถํด๋ ๋์ ์ ์ ํ๋ ๊ฐ๋ฅ
์ฌ์ค์ฑยท๋ ผ๋ฆฌ์ฑ ๋ฏธ๋ฐ์: ๋ฌธ๋ฒ์ ๋ง์๋ ์ฌ์ค์ด ํ๋ฆฌ๋ฉด ์ ์๊ฐ ๋์ ์ ์์
๊ณผ์ต์ ํ ์ํ: ์งํ์ ๋ง์ถ๊ธฐ ์ํ โ๊ฒ์โ ํ์ต ์ ๋ ๊ฐ๋ฅ
1.2. Model-based Evaluation metrics
๊ธฐ์กด์ ๋จ์ํ overlap ๊ธฐ๋ฐ ํ๊ฐ ์งํ(์: BLEU, ROUGE)๋ ํ ์คํธ์ ์๋ฏธ๋ฅผ ์ถฉ๋ถํ ๋ฐ์ํ์ง ๋ชปํ๋ ํ๊ณ๊ฐ ์์. ์ด๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด, LLM ๊ธฐ๋ฐ ํ๊ฐ๋ฅผ ํ์ฉํด ์ถ๋ ฅ ๊ฒฐ๊ณผ์ ํ์ง์ ๋ ์ ๊ตํ๊ฒ ํ๋จํจ.
BERTScore
BERT์ ์ฌ์ ํ์ต๋ ์๋ฒ ๋ฉ์ ํ์ฉํด ํ๋ณด ๋ฌธ์ฅ๊ณผ ๊ธฐ์ค(reference) ๋ฌธ์ฅ ๊ฐ ์๋ฏธ์ ์ ์ฌ์ฑ์ ํ๊ฐ
๋จ์ด ๊ฐ ๋ฒกํฐ ์ ์ฌ๋ ๊ธฐ๋ฐ ์ ๋ฐ๋, ์ฌํ์จ, F1 ์ ์ ์ฐ์ถ. ์๋ฏธ ๊ธฐ๋ฐ ํ๊ฐ๋ก BLEU/ROUGE๋ณด๋ค ์ธ๊ฐ ํ๊ฐ์ ์๊ด๊ด๊ณ๊ฐ ๋์
COMET
Unbabel์์ ๊ฐ๋ฐํ ๊ธฐ๊ณ๋ฒ์ญ(MT) ํ๊ฐ์ฉ ์ ๊ฒฝ๋ง ๋ชจ๋ธ
์๋ฌธ, ๋ฒ์ญ, ๊ธฐ์ค ๋ฒ์ญ์ ์ ๋ ฅ๋ฐ์ ์ธ๊ฐ ํ๊ฐ์ ์ ์ฌํ ํ์ง ์ ์๋ฅผ ์์ธก. ์ค์ญ ๋ฑ ๋จ์ ๊ฒน์นจ ์งํ๊ฐ ๋์น๋ ์ค๋ฅ ํฌ์ฐฉ ๊ฐ๋ฅ
BLEURT, PRISM, BARTScore
๋ค์ํ ์ฌ์ ํ์ต ๋ชจ๋ธ์ ํ์ฉํ ํ์ต ๊ธฐ๋ฐ ํ๊ฐ ์งํ๋ค
BLEURT๋ BERT ๋ฏธ์ธ์กฐ์ , PRISM์ ๋ค๊ตญ์ด ๋ชจ๋ธ, BARTScore๋ BART ๊ธฐ๋ฐ ์ฌ๊ตฌ์ฑ ํ๋ฅ ์ด์ฉ. ๋ชจ๋ ์๋ฏธ์ ํ๊ฐ ๊ฐํ
GPT Score / LLM ๊ธฐ๋ฐ ํ๊ฐ
GPT-3, GPT-4 ๊ฐ์ ๋ํ ์ธ์ด ๋ชจ๋ธ์ ์ง์ ํ๊ฐ์๋ก ํ์ฉ
GPT-4์ ํ๊ฐ ๊ธฐ์ค๊ณผ ์ฒด์ธ ์ค๋ธ ์ฌ๊ณ (chain-of-thought) ์ค๋ช ์ ํฌํจํ ํ๋กฌํํธ๋ฅผ ์ค ์ ์ ๋ฐ ์ด์ ๋ฅผ ์ฐ์ถ. ์ธ๊ฐ ํ๊ฐ์ ๋์ ์ผ์น์จ
BERTScore๋ ๋จ์ด์ ์ ํํ ์ผ์น๊ฐ ์๋๋ผ ์๋ฏธ์ ์ผ๋ก ์ ์ฌํ ๋จ์ด๋ฅผ ์ฐพ์ ์ ์ ๋ถ์ฌ. ์๋ฅผ ๋ค์ด, "์๋์ฐจ"์ "์ฐจ"๋ ๋ค๋ฅด์ง๋ง ๋น์ทํ ์๋ฏธ์ด๋ฏ๋ก ๋์ ์ ์๋ฅผ ๋ฐ์ ์ ์์.
COMET์ ๊ธฐ๊ณ๋ฒ์ญ ํ์ง ํ๊ฐ๋ฅผ ์ํด ์ธ๊ฐ ํ๊ฐ ๋ฐ์ดํฐ๋ฅผ ํ์ตํด, ๋จ์ ๊ฒน์นจ์ด ์๋ ๋ฌธ๋งฅ๊ณผ ๋ฒ์ญ ์ค๋ฅ๊น์ง ํ๊ฐ
BLEURT, PRISM, BARTScore ๋ฑ์ ๋ค์ํ ์ฌ์ ํ์ต ๋ชจ๋ธ์ ํ์ฉํด ํ ์คํธ ํ์ง์ ํ๊ฐํ๋ฉฐ, ๊ฐ๊ธฐ ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ก ์ผ๋ก ์๋ฏธ์ ์ ํฉ์ฑ, ๋ฌธ๋ฒ, ์ ์ฐฝ์ฑ ๋ฑ์ ๋ฐ์.
GPT Score / LLM ๊ธฐ๋ฐ ํ๊ฐ๋ GPT-4 ๊ฐ์ ๊ฐ๋ ฅํ ์ธ์ด ๋ชจ๋ธ์ ํ๊ฐ์๋ก ์ฌ์ฉํ์ฌ, ๋ฌธ์ฅ ๋ ผ๋ฆฌ์ฑ, ๋ช ํ์ฑ, ์ ํฉ์ฑ ๋ฑ์ ์ฌ๋์ด ์ง์ ํ๊ฐํ๋ฏ ํ๋จํจ.
์ฅ์ ๋ฐ ํ๊ณ
์๋ฏธ์ ์ ํฉ์ฑ, ์ ์ฐฝ์ฑ, ๋ฌธ๋งฅ ์ดํด ๋ฐ์ ๊ฐ๋ฅ
์ธ๊ฐ ํ๊ฐ์ ๋์ ์๊ด๊ด๊ณ
๋จ์ ํค์๋ ๊ฒน์นจ์ ๋๋ ํ๊ฐ ๊ฐ๋ฅ
๋ชจ๋ธ ์์ฒด์ ํธํฅ(bias) ๋ฐ์ ๊ฐ๋ฅ
ํ๊ฐ ํ๋กฌํํธ ์ค๊ณ์ ๋ฏผ๊ฐ
ํ๊ฐ ๋ชจ๋ธ์ ์ต์ ํ๋ ๋ต๋ณ ์์ฑ ์ํ
๋ฐ๋์ ์ธ๊ฐ ํ๊ฐ์ ๋ณํ ํ์
๋ชจ๋ธ ๊ธฐ๋ฐ ํ๊ฐ ์งํ๋ค์ ๊ธฐ์กด BLEU, ROUGE ๊ฐ์ ๋จ์ ๊ฒน์นจ ์งํ๋ณด๋ค ๋ฌธ์ฅ ์๋ฏธ, ๋ฌธ๋งฅ, ์ค๋ฅ ์ ํ์ ๋ ์ ๋ฐ์ํ์ฌ ์์ฐ์ด ์์ฑ(NLG) ํ์ง์ ํ๊ฐํ๋ ๋ฐ ์ ์ฉํจ. ํนํ GPT-4์ ๊ฐ์ LLM์ ํ์ฉํ ํ๊ฐ ๋ฐฉ์์ ํ๊ฐ ๊ทผ๊ฑฐ๋ฅผ ์ค๋ช ํ ์ ์์ด ์ ๋ขฐ๋๊ฐ ๋์์ง๊ณ ์์. ๋ค๋ง, ํ๊ฐ ๋ชจ๋ธ์ ํ๊ณ์ ํธํฅ์ ๊ณ ๋ คํด ์ ์คํ๊ฒ ์ฌ์ฉํด์ผ ํ๋ฉฐ, ์ต์ข ๊ฒ์ฆ์ ํญ์ ์ธ๊ฐ ํ๊ฐ๊ฐ ํ์ํจ.
1.3. Human-Evaluated Methods
์๋ ํ๊ฐ ์งํ์ ํ๊ณ๋ก ์ธํด, LLM ํ๊ฐ์์ ์ธ๊ฐ ํ๊ฐ๊ฐ ๋งค์ฐ ์ค์. ์ธ๊ฐ ํ๊ฐ๋ฅผ ํตํด ๋์๋จ(helpfulness), ์ง์ค์ฑ(truthfulness), ์์ฐ์ค๋ฌ์(naturalness), ์ ํธ๋(preference), ์ฐฝ์์ฑ, ์ค๋ฆฌ์ฑ ํ๊ฐ ๊ฐ์ ์๋ํ ์งํ๋ก ์ธก์ ํ๊ธฐ ์ด๋ ค์ด ํ์ง์ ์ง์ ํ๋จํ ์ ์์. ํ๊ฐ์ ๊ฐ ํธ์ฐจ ๋ฐ ํธํฅ, ๋น์ฉ ๋ฐ ์๊ฐ ๋ฑ์ ๋์ ๊ฐ ์์ง๋ง ์ฅ์ ์ด ๋ง๊ธฐ์ ์ธ๊ฐ ํ๊ฐ๋ฅผ ํตํด ์๋ ์งํ๋ฅผ ๋ณด์ ํ๋ ๊ฒ์ด ์ข์.
์ฃผ์ ์ธ๊ฐ ํ๊ฐ ๋ฐฉ๋ฒ
์ ํธ๋ ํ ์คํธ (Preference Tests, Pairwise Comparison)
๋ ๋ชจ๋ธ์ ์ถ๋ ฅ(๋๋ ๋ชจ๋ธ๊ณผ ๊ธฐ์ค ๋ต๋ณ)์ ๋น๊ตํด ์ด๋ ์ชฝ์ด ๋ ์ข์์ง ์ ํ
ํ๊ฐ์๊ฐ ์ ๋ ์ ์๋ณด๋ค ์๋์ ์ ํธ๋ฅผ ํ๋จํ๊ธฐ ์ฌ์, ๋ชจ๋ธ ๊ฐ ์ฑ๋ฅ ๋น๊ต์ ํจ๊ณผ์
OpenAI, DeepMind ๋ฑ์์ RLHF(์ธ๊ฐ ํผ๋๋ฐฑ ๊ฐํํ์ต)์ ํ์ฉ. GPT-4๊ฐ GPT-3.5๋ณด๋ค ์ ํธ๋๋์ง ํ๊ฐํ ๋ ์ฌ์ฉ
๋ผ์ด์ปคํธ ์ฒ๋ ํ๊ฐ (Likert Scale Ratings)
1~5 ๋๋ 1~7 ๋ฑ ๊ณ ์ ์ฒ๋๋ก ์ฌ๋ฌ ๊ธฐ์ค(ํ์ง, ์ ์ต์ฑ, ํด๋ก์ ๋ฑ) ํ๊ฐ
์ธ๋ฐํ ๋ค์ฐจ์ ํ๊ฐ ๊ฐ๋ฅ, ํ๊ท ๊ณผ ๋ถํฌ๋ก ๋ชจ๋ธ ์ํ ํ์ ๊ฐ๋ฅ
์ฑ๋ด ํ๊ฐ์์ ๋ง์กฑ๋, ์ ํ์ฑ, ๊ณต์ํจ ๋ฑ ๋ค์ค ์งํ ํ๊ฐ์ ์ฌ์ฉ
์ค์นผ๋ผ ๋๋ ์์ ์ ์ (Scalar or Ranked Outputs)
0~10, 0~100 ๋ฑ ์ ์ ๋ถ์ฌ ๋๋ ์ฌ๋ฌ ์ถ๋ ฅ ์์ ๋งค๊น
๋ผ์ด์ปคํธ ์ฒ๋๋ณด๋ค ์์ ๋ก์ด ์ ์ ๋ถ์ฌ ๊ฐ๋ฅ
๊ธด ์์ฝ๋ฌธ ๊ฐ๋ ์ฑ ํ๊ฐ ๋ฑ์์ ํ์ฉ
A/B ํ ์คํธ (A/B Testing with End Users)
์ค์ ์ฌ์ฉ์์๊ฒ ๋ ๋ชจ๋ธ์ ๋ฐฐํฌํด ํด๋ฆญ๋ฅ , ๋ง์กฑ๋ ๋ฑ ์ค์ฌ์ฉ ๋ฐ์ดํฐ๋ก ํ๊ฐ
๋๊ท๋ชจ ์ค์ฌ์ฉ ํ๊ฐ ๊ฐ๋ฅ, ํ์ค์ ์ฑ๊ณต ๊ธฐ์ค ์ธก์
๊ฒ์ ์ง์ ์๋ต ๋ชจ๋ธ ์ ๊ตฌ ๋ฒ์ ๋น๊ต, ์ฌ์ฉ์ ํ๋ ๊ธฐ๋ฐ ํ๊ฐ
ํ๊ฐ ๋์ ์ฃผ์ ํญ๋ชฉ
์ ํ์ฑ(Accuracy/Correctness): ์ฌ์ค ์ค๋ฅ ์ฌ๋ถ
๊ด๋ จ์ฑ(Relevance): ์ง๋ฌธ๊ณผ ์ฃผ์ ์ ํฉ์ฑ
์ ์ฐฝ์ฑ(Fluency/Naturalness): ๋ฌธ๋ฒ, ์์ฐ์ค๋ฌ์ด ๋ฌธ์ฅ ๊ตฌ์ฑ
์ผ๊ด์ฑ(Coherence): ๋ ผ๋ฆฌ์ ํ๋ฆ, ์ด์ผ๊ธฐ ์ ๊ฐ
์ ์ฉ์ฑ(Usefulness): ๋ต๋ณ์ ์ค์ง์ ๋์ ์ฌ๋ถ
ํด๋ก์/์ ํด์ฑ(Harmfulness/Toxicity): ๊ณต๊ฒฉ์ , ๋ถ์ ์ ํ ๋ด์ฉ ํฌํจ ์ฌ๋ถ
๊ณต์ ์ฑ(Fairness): ํธํฅ, ๊ณ ์ ๊ด๋ ํฌํจ ์ฌ๋ถ
์ธ๊ฐ ํ๊ฐ์ ํ๊ณ ๋ฐ ๊ณผ์
๋น์ฉ๊ณผ ์๊ฐ: ๋๋ ํ๊ฐ๊ฐ ์ด๋ ต๊ณ ๋น์ฉ์ด ๋ง์ด ๋ฆ
ํ๊ฐ์ ๊ฐ ํธ์ฐจ: ์ฃผ๊ด์ ์ฐจ์ด ์กด์ฌ, ๋ค์ ์๊ฒฌ ์๋ ด ๋ฐ ํต๊ณ์ ๋ถ์ ํ์
ํ๊ฐ์ ํธํฅ: ์ ํธ๋, ์๊ฒฉ์ฑ ์ฐจ์ด ๋ฑ ํธํฅ ๋ฌธ์ , ๋ค์ํ ํ๊ฐ์ ํ์ฉ ๊ถ์ฅ
์ค์ผ์ผ ๋ฌธ์ : ๋ฐ๋ณต์ ๋ชจ๋ธ ์ ๋ฐ์ดํธ ์ ๋๊ท๋ชจ ํ๊ฐ๊ฐ ๋นํจ์จ์
1.4. Custom task-specific metrics
LLM(๋ํ ์ธ์ด ๋ชจ๋ธ)์ ํน์ ์ฉ๋์ ๋ง๊ฒ ํ๊ฐํ๊ธฐ ์ํด, ์ผ๋ฐ์ ์ธ ํ๊ฐ ์งํ๋ก๋ ๋ค๋ฃจ๊ธฐ ์ด๋ ค์ด ํน์ํ ๋ชฉํ๋ฅผ ๋ฐ์ํ ๋ง์ถคํ ์งํ๋ฅผ ๊ฐ๋ฐํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์.
์ฌ์ค ์ ํ๋(Factual Accuracy)
๋ชจ๋ธ ์ถ๋ ฅ์ด ์ค์ ์ฌ์ค๊ณผ ์ผ๋ง๋ ์ผ์นํ๋์ง๋ฅผ ํ๊ฐํ์ฌ ํ์ ์ ๋ณด(ํ๊ฐ)๋ฅผ ์ก์๋. ๋จ๋ตํ ์ง๋ฌธ์ ์ ๋ต ์ผ์น์จ๋ถํฐ, ์ง์ ๊ทธ๋ํ ๊ธฐ๋ฐ ์ ๋ฐ๋/์ฌํ์จ, ์์ฝ๋ฌธ๊ณผ ์๋ฌธ ๊ฐ ์ฌ์ค ์ผ๊ด์ฑ ๊ฒ์ฌ(FactCC, Qยฒ) ๋ฑ์ด ์์.
์ผ๊ด์ฑ ๋ฐ ์์ง๋ ฅ(Coherence and Consistency)
๊ธด ํ ์คํธ์ ๋ ผ๋ฆฌ์ ์ฐ๊ฒฐ์ฑ(์์ง์ฑ)๊ณผ ๋ชจ์ ์ฌ๋ถ(์ผ๊ด์ฑ)๋ฅผ ํ๊ฐํฉ๋๋ค. ์๋ฅผ ๋ค์ด ์ด์ผ๊ธฐ ๋ด ์บ๋ฆญํฐ ๋ฌ์ฌ๊ฐ ์๋ค๋ก ๋ฌ๋ผ์ง๋์ง, ๋ํ ์ค ๋ต๋ณ์ด ์๋ก ๋ชจ์๋๋์ง ๊ฒ์ฌ
ํน์ด์ฑ ๋ฐ ๊ด๋ จ์ฑ(Specificity / Relevance)
๋ํ ์๋ต์ด ์ง๋ฌธ์ ๊ตฌ์ฒด์ ์ด๊ณ ์ ์ ํ์ง ํ์ธ. USR(Unsupervised and Reference-free evaluation) ์งํ๋ ์ฐธ์กฐ ์์ด๋ ๋ต๋ณ์ ํน์ด์ฑ๊ณผ ๊ด๋ จ์ฑ์ ํ๊ฐํ๋ฉฐ ์๋ฒ ๋ฉ ์ ์ฌ๋ ๋น๊ต๋ ํ์ฉํจ.
๊ธธ์ด ๊ธฐ๋ฐ ํ๊ฐ(Length-based Metrics)
๋ต๋ณ์ด๋ ์์ฑ๋ฌผ์ด ์๊ตฌํ๋ ๊ธธ์ด ์กฐ๊ฑด(๊ฐ๊ฒฐ์ฑ ๋๋ ์์ธํจ)์ ๋ถํฉํ๋์ง ํ๊ฐ. ์: ์์ฝ์ ์์ถ๋ฅ , ์ฝ๋ ์์ฑ ์ ์ฌ๋ฐ๋ฅธ ์ฝ๋ ๋ผ์ธ ์ ๋ฑ
์ฌ์ฉ์ ์ฐธ์ฌ๋(User Engagement)
๋ํํ ์์คํ ์์ ์ค์ ์ฌ์ฉ์ ํ๋์ ํตํ ๊ฐ์ ์งํ์ ๋๋ค. ์: ์ฑ๋ด์ด ์ฌ๋ ๊ฐ์ ์์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ๋น์จ(Containment rate), ํด๊ฒฐ ์๊ฐ, ์ฌ์ฉ์ ๋ง์กฑ๋ ๋ฑ
์์ ์ฑ(Safety Metrics)
์ ํดํ๊ฑฐ๋ ํธํฅ๋ ์ถ๋ ฅ ๋น์จ ์ธก์ . ์: ๋ ์ฑ ํ์ง๊ธฐ ์ฌ์ฉ, ๋ฏผ๊ฐํ ์ง๋ฌธ์ ๋ํ ํธํฅ ๋ถ์ ๋ฑ
์ฝ๋ ํนํ ํ๊ฐ(Code-specific Metrics)
์ฝ๋ ์์ฑ ๋ชจ๋ธ ํ๊ฐ์ ์ฌ์ฉ. ๋จ์ ํ ์คํธ ํต๊ณผ์จ, ํ๋ก๊ทธ๋๋ฐ ๋ฌธ์ ํด๊ฒฐ๋ฅ (LeetCode, Codeforces) ๋ฑ์ด ๋ํ์ ์.
- LeetCode - Codeforces
๋ง์ถคํ ์งํ์ ์ค์์ฑ
๋ชฉํ ์ ๋ ฌ์ฑ: ์ผ๋ฐ ์งํ(BLEU, ROUGE ๋ฑ)๋ ๋ฌธ๋ฒ์ด๋ ํ๋ฉด์ ์ ์ฌ์ฑ ์ค์ฌ์ด์ง๋ง, ๋ง์ถคํ ์งํ๋ ์ค์ ์์คํ ๋ชฉํ(๋ ผ๋ฆฌ์ ์ผ๊ด์ฑ, ์ฌ์ค์ฑ ๋ฑ)๋ฅผ ์ง์ ์ธก์
๋๋ฉ์ธ ์ง์ ํ์ฉ: ํน์ ๋ถ์ผ๋ ์์ ์ ํนํ๋ ํ๊ฐ๊ฐ ๊ฐ๋ฅํ๋ฉฐ, ์ถ๊ฐ ๋๊ตฌ(๋ถ๋ฅ๊ธฐ, ํ ์คํธ ํ๋์ค ๋ฑ)๋ฅผ ๊ตฌ์ถํด์ผ ํ ์๋ ์์.
๊ฒ์ฆ ํ์์ฑ: ๋ง์ถคํ ์งํ๋ ํ์ค ์งํ๋งํผ ์๊ฒฉํ๊ฒ ๊ฒ์ฆ๋์ง ์์ ๊ฒฝ์ฐ๊ฐ ๋ง์, ์ํ ์ถ๋ ฅ์ ๋ํ ์๋ ๊ฒํ ๊ฐ ๋ณํ๋จ.
์ข ํฉ ํ๊ฐ: ์ผ๋ฐ ์งํ์ ๋ง์ถคํ ์งํ๋ฅผ ํจ๊ป ์ฐ๋ฉด ํ๊ฐ์ ์ ๋ขฐ์ฑ๊ณผ ํฌ๊ด์ฑ์ด ๋์์ง.
2. LLM Benchmark Dataset
2.1. ๋ฒค์น๋งํฌ ์ ํ
ํต์ฌ ์ง์ ๋ฒค์น๋งํฌ (Core-knowledge)
LLM์ ๊ธฐ๋ณธ ์ง์ ๋ฐ ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ ํ๊ฐ
์งง์ ์ ๋ต, ์ ํํ ๋ฌธ์
์ ๋ต ๋งค์นญ ๋ฐ ์๋ ๊ฒ์ฆ
MMLU, HellaSwag, ARC, GSM8K, AGIEval ๋ฑ
์ง์ ์ดํ ๋ฒค์น๋งํฌ (Instruction-following)
๋ค์ํ ์ง์ ์ฌํญ ์ดํ ๋ฅ๋ ฅ ํ๊ฐ
์ง์์ฌํญ ์ค์, ์๋ต ๋ค์์ฑ
์ง์ ๊ธฐ๋ฐ ์๋ต ํ๊ฐ
Flan, Self-instruct, NaturalInstructions ๋ฑ
๋ํํ ๋ฒค์น๋งํฌ (Conversational)
๋ฉํฐํด ๋ํ์์์ ์ํธ์์ฉ ๋ฐ ๋ํ ํ๋ฆ ํ๊ฐ
๋ํ ์์ฐ์ค๋ฌ์, ์ ์ฉ์ฑ, ๋ฌธ๋งฅ ์ ์ง
๋ํ ๊ธฐ๋ก ๋ฐ ์ฌ์ฉ์ ํ๊ฐ
CoQA, MMDialog, OpenAssistant, G-Eval ๋ฑ
์ถ์ฒ: https://arxiv.org/pdf/2306.05685
2.2. ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์
1. ์ผ๋ฐ ์ธ์ด ์ดํด ๋ฐ ์ถ๋ก ๋ฒค์น๋งํฌ
์์ฐ์ด ์ดํด์ ๊ธฐ์ด ๋ฅ๋ ฅ์ ํ๊ฐํ๊ธฐ ์ํ ๋ฒค์น๋งํฌ. SuperGLUE๋ GLUE๋ณด๋ค ์ด๋ ค์ด ๋ฌธ์ ๋ฅผ ํฌํจํ์ฌ ๋ชจ๋ธ์ ์ฌํ ์ดํด๋ ฅ์ ์ ๊ฒํจ.
๊ฐ์ฑ ๋ถ์, ์ง๋ฌธ ์๋ต, ๋ฌธ์ฅ ์ ์ฌ๋ ๋ฑ
GPT-3 ์ด์์ ๋ชจ๋ธ์ ์ธ๊ฐ ์์ค์ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ฉฐ, ๊ธฐ์ด ๋ฅ๋ ฅ ์ ๊ฒ ๋ฐ ์ฐ๊ตฌ ๊ฐ๋ฐ์ ์ ์ฉํจ.
๋ชจ๋ธ์ ์ ํ๋, ๊ฐ๊ฑด์ฑ, ๊ณต์ ์ฑ, ํธํฅ, ๋ ์ฑ, ํจ์จ์ฑ ๋ฑ ๋ค์ฐจ์ ํ๊ฐ ํ๋ ์์ํฌ ์ ๊ณต.
๋ค๊ฐ์ ํ๊ฐ (์ ํ๋, ์์ ์ฑ, ์ค๋ฆฌ์ ์ธก๋ฉด ๋ฑ)
๋ชจ๋ธ์ ์ ๋ฐ์ ํ์ง์ ํฌ๊ด์ ์ผ๋ก ํ๊ฐํ๊ธฐ ์ํด ์ฐ๊ตฌ์ ์ค์ ์์ฉ ์ฌ์ด์ ๊ฐญ์ ๋ฉ์ฐ๋๋ฐ ํ์ฉ๋จ.
์ํคํผ๋์ ๊ธฐ๋ฐ์ ๋ฌธ์์์ ์ฃผ์ด์ง ์ง๋ฌธ์ ๋ํด ์ ํํ ๋ต์ ๋์ถํ๋์ง ํ๊ฐ.
๋ฌธ์ ์ดํด ๋ฐ ์ ํํ ๋ต ์์ฑ
์์ฐ์ด ์ง์์๋ต ์์คํ ์ ์ฑ๋ฅ ํ๊ฐ์ ๋๋ฆฌ ์ฌ์ฉ๋จ.
๊ธฐ๊ณ ๋ฒ์ญ ํ์ง ํ๊ฐ๋ฅผ ์ํ ๊ตญ์ ๊ณต๋ชจ์ ๋ฐ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์ .
๋ฒ์ญ ์ ํ๋, ์์ฐ์ค๋ฌ์ ๋ฐ ์ ์ฐฝ์ฑ
๊ธฐ๊ณ ๋ฒ์ญ ์ฐ๊ตฌ์ ํ์ค ๋ฒค์น๋งํฌ๋ก, ๋ฒ์ญ ์์คํ ํ๊ฐ ๋ฐ ๊ฐ์ ์ ํ์ฉ๋จ.
2. ๋ค์ค ์ ํ ๋ฐ ์ ๋ฌธ/์ถ๋ก ๋ฅ๋ ฅ ํ๊ฐ ๋ฒค์น๋งํฌ
57๊ฐ ๋ค์ํ ์ฃผ์ ์ ๋ค์ค ์ ํ ๋ฌธ์ ๋ฅผ ํตํด ๊ด๋ฒ์ํ ์์, ์ ๋ฌธ ์ง์ ๋ฐ ์ถ๋ก ๋ฅ๋ ฅ ํ๊ฐ.
์ญ์ฌ, ๋ฌธํ, ์ํ, ์๋ฌผํ ๋ฑ
GPT-4์ ๋์ ์ ์๊ฐ ๋ชจ๋ธ์ ๊ด๋ฒ์ํ ์ง์ ๋ฐ ์ถ๋ก ๋ฅ๋ ฅ์ ์ฆ๋ช ํ๋ ์งํ๋ก ํ์ฉ๋จ.
MMLU๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ ๋ฌธ ๋ถ์ผ ๋ฐ ์ค๋ฌด ์ค์ฌ ๋ฌธ์ ๋ฅผ ์ถ๊ฐํ์ฌ ํ๊ฐ.
์ ๋ฌธ ์ง์ ๋ฐ ์ค๋ฌด ์ ์ฉ ๋ฅ๋ ฅ
์ค๋ฌด ๋ฐ ์ ๋ฌธ ๋ถ์ผ ๋ฌธ์ ๋ฅผ ํฌํจํ์ฌ ๋ชจ๋ธ์ ์ค์ ์ ๋ฌด ํ์ฉ ๊ฐ๋ฅ์ฑ์ ํ๊ฐํ๋ ๋ฐ ์ ์ฉํจ.
์์ ๋ฐ ๋ ผ๋ฆฌ ์ถ๋ก ๋ฌธ์ ๋ฅผ ํตํด ์ผ์์ ์ถ๋ก ๋ฐ ๋ฌธ๋งฅ ํด์ ๋ฅ๋ ฅ ํ๊ฐ.
์ด์ผ๊ธฐ ์ด์ด๊ฐ๊ธฐ, ๋ฌผ๋ฆฌ ์์, ๋๋ช ์ฌ ํด์ ๋ฑ
ํนํ ๋ํ ๋ชจ๋ธ์์ ์ฑ๋ฅ์ด ์ ์ฐจ ๊ฐ์ ๋๋ ์ถ์ธ์ด๋ฉฐ, ์์ ์ถ๋ก ํ ์คํธ๋ก ์์ฃผ ํ์ฉ๋จ.
200์ฌ ๊ฐ์ ์ฐฝ์์ , ๋์ ์ ๊ณผ์ ๋ฅผ ํฌํจํ ๋งค์ฐ ๋ค์ํ ํ๊ฐ ํญ๋ชฉ ์ ๊ณต.
์ํ, ๋ ผ๋ฆฌ, ๊ณ ๋ ์ธ์ด ๋ฒ์ญ ๋ฑ
๊ธฐ์กด ๋ฒค์น๋งํฌ๋ก ํ๊ฐํ๊ธฐ ์ด๋ ค์ด ๋ค์ฑ๋ก์ด ๋ฅ๋ ฅ(์ฐฝ์์ฑ, ์ถ๋ก ๋ฑ)์ ํ์ํ๋ ๋ฐ ์ ํฉํจ.
BIG-bench ๋ด ์ด๋ ค์ด ๋ฌธ์ ๋ค์ ์ ๋ณํ์ฌ, ๊ณ ๋๋ ์ถ๋ก ๋ฐ ๋ค๋จ๊ณ ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ ํ๊ฐ.
๋ณต์กํ ์ถ๋ก , ๋ค๋จ๊ณ ๋ฌธ์
MMLU๋ณด๋ค ๋ ์ด๋ ค์ด ๋ฌธ์ ๋ค์ ํฌํจ, ๊ณ ๋๋ ์ถ๋ก ๋ฅ๋ ฅ ํ๊ฐ์ ํนํ๋จ.
๊ธด ์ง๋ฌธ์์ ์ซ์, ๋ ผ๋ฆฌ ๋ฐ ๋ณตํฉ์ ๊ด๊ณ๋ฅผ ํ์ ํด ์๋ฆฌ์ ์ถ๋ก ์ ์๊ตฌํ๋ ๋ฌธ์ ๋ค ์ ๊ณต.
ํ ์คํธ ๋ด ์๋ฆฌ์ ์ถ๋ก ๋ฐ ๊ณ์ฐ ๋ฌธ์
์ซ์ ์ถ์ถ๊ณผ ๊ณ์ฐ, ๋ ผ๋ฆฌ์ ์ฌ๊ณ ๋ฅผ ๋์์ ํ๊ฐํ ์ ์์ด ๋ณตํฉ ์ถ๋ก ๋ฅ๋ ฅ ์ธก์ ์ ์ ์ฉํจ.
์ด๋ฑํ๊ต ์์ค์ 8,000๊ฐ ์ํ ๋ฌธ์ ๋ฅผ ํตํด ๋จ๊ณ๋ณ ํ์ด ๋ฐ ์ถ๋ก ๊ณผ์ ์ ํ๊ฐํจ.
์ํ ๋ฌธ์ ํด๊ฒฐ, ๋ ผ๋ฆฌ์ ์ถ๋ก
๋จ๊ณ๋ณ ํ์ด ์๊ตฌ๋ฅผ ํตํด ๋ชจ๋ธ์ ์ํ์ ์ถ๋ก ๋ฐ ๊ณ์ฐ ๋ฅ๋ ฅ์ ์ ๋ฐํ๊ฒ ํ๊ฐํ ์ ์์.
๋ชจ๋ธ์ด ์ฌ์ค๊ณผ ํ์ ์ ๋ณด๋ฅผ ๊ตฌ๋ถํ๊ณ ์ง์ค์ฑ ์๋ ๋ต๋ณ์ ์์ฑํ๋์ง ํ๊ฐ.
์ฌ์ค ์ ํ์ฑ, ํธํฅ ๋ฐ ์ค๋ฅ ํ์ง
๋ชจ๋ธ์ด ํ์ ์ ๋ณด๋ฅผ ํผํ๊ณ , ์ง์ค์ ๊ธฐ๋ฐํ ๋ต๋ณ์ ๋ด๋๋์ง ํ๊ฐํ๋ ๋ฐ ์ค์ ์ ๋ .
3. ์ฝ๋ ์์ฑ ๋ฐ ํ๋ก๊ทธ๋๋ฐ ๋ฅ๋ ฅ ํ๊ฐ ๋ฒค์น๋งํฌ
์์ฐ์ด ์ค๋ช ์ ๊ธฐ๋ฐ์ผ๋ก ์ฝ๋๋ฅผ ์์ฑํ๊ณ , ํ ์คํธ ์ผ์ด์ค๋ฅผ ํต๊ณผํ๋์ง ํ๊ฐ.
์ฝ๋ ์์ฑ, ๋๋ฒ๊น ๋ฐ ์ต์ ํ
์คํAI์ ํ๊ฐ ์งํ๋ก, ์ฝ๋ ์์ฑ ๋ฐ ์ดํด์ ์ ๋ฐ์ ๋ฅ๋ ฅ์ ๋น๊ต ํ๊ฐํ๋ ๋ฐ ํ์ฉ๋จ.
์ฃผ๋ก ๊ธฐ์ด ์์ค์ ํ์ด์ฌ ํ๋ก๊ทธ๋๋ฐ ๋ฌธ์ ๋ชจ์์ ํตํด ๋ชจ๋ธ์ ๊ธฐ๋ณธ ์ฝ๋ ์์ฑ ๋ฅ๋ ฅ ํ๊ฐ.
ํ์ด์ฌ ์ฝ๋ ์์ฑ, ๋ฌธ์ ํด๊ฒฐ
๊ธฐ์ด ๋ฌธ์ ์ค์ฌ์ผ๋ก ๊ตฌ์ฑ๋์ด ์์ด, ๋ชจ๋ธ์ ๊ธฐ๋ณธ ํ๋ก๊ทธ๋๋ฐ ๋ฅ๋ ฅ์ ์ ๊ฒํ๋ ๋ฐ ์ ํฉํจ.
4. ์ง์ ์ดํ ๋ฒค์น๋งํฌ
๋ชจ๋ธ์ด ๋ค์ํ ์ง์(Instruction)๋ฅผ ์ ํํ๊ฒ ์ดํํ๋ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ๋ฒค์น๋งํฌ.
์ง์ ์ดํ, ์๋ต์ ์ ํ์ฑ ๋ฐ ์ฐฝ์์ฑ
๋ฏธ์ธ์กฐ์ (fine-tuning) ์ฐ๊ตฌ์์ ๋ชจ๋ธ์ ์ง์ ์ค์ ๋ฅ๋ ฅ์ ์ ๊ฒํ๋ ๋ฐ ํ์ฉ๋จ.
์ด๊ธฐ ์๊ท๋ชจ seed instructions๋ฅผ ๋ฐํ์ผ๋ก GPT ๋ชจ๋ธ์ด ์ค์ค๋ก ์ถ๊ฐ ์ง์๋ฅผ ์์ฑํ์ฌ ๋ง๋ ๋ฐ์ดํฐ์ ์ผ๋ก, ๋ชจ๋ธ์ด ๋ค์ํ ์ง์ ์ํฉ์ ๋ํด ์ค์ค๋ก ํ์ตํ ์ ์๋ ๋ฅ๋ ฅ์ ํ๊ฐํจ.
์ง์ ์์ฑ ๋ค์์ฑ, ์ง์ ์ดํ ๋ฅ๋ ฅ, ์๋ต ํ์ง
๋ชจ๋ธ์ด ์ค์ค๋ก ๋ฐ์ดํฐ์ ์ ํ์ฅํ๋ ๋ฐฉ์์ผ๋ก ๋ ๋ค์ํ ์ง์ ์ดํ ์ํฉ์ ๋ฐ์ํ๋ฉฐ, ์ฐ์์ ์๊ธฐ ๊ฐ์ (self-improvement) ๊ณผ์ ์ ์ด์งํ์ฌ ์ค์ ํ์ฉ ํ๊ฒฝ์ ๊ฐ๊น์ด ํ๊ฐ ํ๊ฒฝ์ ์ ๊ณตํจ.
1,600๊ฐ ์ด์์ ๋ค์ํ ์์ ์ ๋ํ ์ง์-์๋ต ์์ ํฌํจํ์ฌ ๋ชจ๋ธ์ ๋ณต์กํ ์ง์ ์ดํ ๋ฅ๋ ฅ์ ํ๊ฐํจ.
๋ณต์กํ ์ง์ ์ํฉ, ๋ค๋๋ฉ์ธ ์๋ต ํ์ง
๋ฐฉ๋ํ ๋ฐ์ดํฐ์ ๊ณผ ์ ์ธ์ (instructional) ์ง์๋ฅผ ํ์ฉํ์ฌ, ๋ชจ๋ธ์ ์ผ๋ฐํ ๋ฅ๋ ฅ๊ณผ ๋ค์ํ ๋ถ์ผ์์์ ์๋ต ์์ฑ ๋ฐ ์ดํด ๋ฅ๋ ฅ์ ์ ๋ฐํ๊ฒ ํ๊ฐํจ.
5. ๋ํํ ๋ฒค์น๋งํฌ
๋ค์ค ํด ๋ํํ ์ง์์๋ต์ ํตํด ๋ชจ๋ธ์ ๋ฌธ๋งฅ ์ดํด ๋ฐ ์์ฐ์ค๋ฌ์ด ๋ํ ๋ฅ๋ ฅ์ ํ๊ฐํจ.
๋ํ ํ๋ฆ, ๋ฌธ๋งฅ ์ ์ง, ์๋ต ์ ํ๋
์์ฐ์ค๋ฌ์ด ๋ํ ํ๊ฐ์ ์ฌ์ฉ๋๋ฉฐ, ์ง๋ฌธ-์๋ต ์ฒด๊ณ์ ์ธ๋ฐํ ๊ฒ์ฆ์ด ๊ฐ๋ฅํจ.
์ฌ๋ฌ ํด์ ๊ฑธ์น ๋ํ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ์คํธ์ ์ด๋ฏธ์ง ๋ฑ ๋ฉํฐ๋ชจ๋ฌ ์ํธ์์ฉ์ ํ๊ฐํจ.
๋ค์ค ํด ๋ํ, ๋ฉํฐ๋ชจ๋ฌ ์ํธ์์ฉ
ํ ์คํธ๋ฟ ์๋๋ผ ์๊ฐ์ ์ ๋ณด๋ ํฌํจํ์ฌ ๋ํํ AI์ ํฌ๊ด์ ์ํธ์์ฉ ๋ฅ๋ ฅ์ ํ์ธํ ์ ์์.
์คํ ์์ค ๊ธฐ๋ฐ์ ๋ํํ ์์ด์ ํธ๋ฅผ ํ๊ฐํ๊ธฐ ์ํ ๋ฒค์น๋งํฌ๋ก, ๋ค์ํ ์ฌ์ฉ์ ์ธํฐ๋์ ์ ๋ฐ์ํจ.
๋ํ ์์ฐ์ค๋ฌ์, ์ฌ์ฉ์ฑ, ์๋ต ํ์ง
์ค์ ์ฌ์ฉ์ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ํ๊ฐ๋ก ์คํ ์์ค ์์ด์ ํธ ๊ฐ๋ฐ ๋ฐ ๊ฐ์ ์ ํ์ฉ๋จ.
์คํ ์์ค ์ฑํ ํ๊ฐ ํ๋ซํผ์ผ๋ก, ๋ค์ํ LLM์ ๋ฉํฐํด ๋ํ ์ฑ๋ฅ๊ณผ ์ฌ์ฉ์ ์ ํธ ์ ๋ ฌ ์ ๋๋ฅผ ์ธก์ ํจ.
๋ฉํฐํด ๋ํ, ์ฌ์ฉ์ ์ ํธ๋, ์๋ต ํ์ง
๋๊ท๋ชจ ํฌ๋ผ์ฐ๋์์ฑ ๋ฐ ์๋ํ ํ๊ฐ๋ฅผ ํตํด ์ ์ํ๊ณ ํ์ฅ ๊ฐ๋ฅํ ํ๊ฐ๋ฅผ ์ง์ํจ.
์ฌ์ ํ๋ จ๋ ๊ฐ๋ ฅํ LLM(์: GPTโ4)์ ํ์ฉํ์ฌ, ๋ค์ค ํด ๋ํ์์ ์์ฑ๋๋ ์๋ต๋ค์ ์ผ๊ด์ฑ, ์์ง๋ ฅ, ๋ฌธ๋งฅ ์ ํฉ์ฑ ๋ฑ์ inโcontext metaโevaluation ๋ฐฉ์์ผ๋ก ํ๊ฐํ๋ ๋ฒค์น๋งํฌ.
๋ค์ค ํด ๋ํ, ์๋ต ์ผ๊ด์ฑ, ๋ฌธ๋งฅ ์ ์ง ๋ฐ ์ํธ์์ฉ ํ์ง
chainโofโthought ๋ฐ ๋ฉํ ํ๊ฐ ๊ธฐ๋ฒ์ ํ์ฉํ์ฌ, ์ธ๊ฐ ํ๊ฐ์ ๊ทผ์ ํ๋ฉด์๋ ํธํฅ์ ์ค์ธ ์๋ ํ๊ฐ ๋ฐฉ๋ฒ์ ์ ๊ณตํ๋ฉฐ, ํ์ฅ์ฑ๊ณผ ๋น์ฉ ํจ์จ์ฑ์ ํ๋ณดํจ.
3. Human evaluation techniques
3.1. ์ธ๊ฐ ํ๊ฐ๋?
์ธ๊ฐ ํ๊ฐ๋ ๋ชจ๋ธ ์ถ๋ ฅ๋ฌผ์ ๋ํด ์ฌ๋์ด ์ง์ ํ๊ฐํ๋ ๊ณผ์ . ์๋ํ๋ ์งํ๋ก๋ ์ธก์ ํ๊ธฐ ์ด๋ ค์ด ํ์ง, ์ ํฉ์ฑ, ์์ ์ฑ ๋ฑ์ ํ๋จํ ๋ ์ค์ํจ.
3.2. ์ธ๊ฐ ํ๊ฐ ์ํ ์๊ธฐ์ ๋ฐฉ๋ฒ
์ํ๋ง: ๋ชจ๋ ์ถ๋ ฅ๋ฌผ์ ํ๊ฐํ๊ธฐ ์ด๋ ค์ฐ๋ฏ๋ก, ๋ํ์ฑ ์๋ ์ํ(์: 500๊ฐ ์ง๋ฌธ-๋ต๋ณ ์)๋ง ์ ๋ณํด ํ๊ฐ.
๋ํ ๋ฐ์ดํฐ ์ฌ์ฉ: ๊ฐ๋ฐ์ ์ฌ์ฉํ์ง ์์ ์๋ก์ด ๋ฐ์ดํฐ(held-out dataset)๋ฅผ ํ๊ฐํ์ฌ ํธํฅ ์๋ ๊ฒฐ๊ณผ๋ฅผ ์ป์.
ํฌ๋ผ์ฐ๋์์ฑ: Amazon Mechanical Turk, Appen, Scale AI ๊ฐ์ ํ๋ซํผ์์ ๋ค์ ํ๊ฐ์๋ฅผ ํตํด ํ๊ฐ๋ฅผ ๋ฐ์. ๋ณดํต 3~5๋ช ์ด ๊ฐ ํญ๋ชฉ์ ํ๊ฐํด ๋ค์๊ฒฐ ๋๋ ํ๊ท ์ ์ ์ฐ์ถ.
์ ๋ฌธ๊ฐ ํ๊ฐ: ์๋ฃ, ๋ฒ๋ฅ ๋ฑ ํน์ ๋ถ์ผ๋ ์ ๋ฌธ๊ฐ๊ฐ ํ๊ฐํด์ผ ํ๋ฉฐ ๋น์ฉ๊ณผ ์๊ฐ์ด ๋ง์ด ์์๋จ.
๋ ๋ํ ํ๊ฐ: ์ ๋ฌธ๊ฐ๊ฐ ๋ชจ๋ธ์ ์ทจ์ฝ์ ์ ์ฐพ์๋ด๋ ๋ฐฉ์์ผ๋ก, ์์ ์ฑ ๊ฒ์ฆ์ ์ฐ์.
3.3. ํ๊ฐ ํ๋กํ ์ฝ
๋ช ํํ ํ๊ฐ ๊ธฐ์ค(๋ฃจ๋ธ๋ฆญ)์ ์ ํด์ผ ํจ. ์: โ๋ ์ ํํ ๋ต๋ณโ, โ๋ ๊ณต์ํ ๋ต๋ณโ ๋ฑ ๋ค์ฐจ์ ํ๊ฐ ๊ฐ๋ฅ.
๋ธ๋ผ์ธ๋ ํ๊ฐ๋ฅผ ํตํด ํ๊ฐ์์ ํธํฅ์ ์ค์. ์: ๋ชจ๋ธ A, B๋ฅผ ๋ฌด์์๋ก ์์ด ํ๊ฐ.
ํ๊ฐ ๊ฒฐ๊ณผ๋ ์ ํธ์จ, ํ๊ท ์ ์, ํ๊ฐ์ ๊ฐ ์ผ์น๋(Cohenโs kappa, Krippendorffโs alpha ๋ฑ)๋ก ์ง๊ณ.
3.4. ์ฃผ์ ๋์ ๊ณผ์
๋น์ฉ ๋ฐ ํ์ฅ์ฑ
์ธ๊ฐ ํ๊ฐ๋ ๋น์ฉ์ด ๋ง์ด ๋ค๊ณ ๋ชจ๋ ๋ชจ๋ธ ๋ณ๊ฒฝ ์๋ง๋ค ์ ์ฉํ๊ธฐ ์ด๋ ค์, ์ฃผ๋ก ์ฃผ์ ๋น๊ต๋ ์ฃผ๊ธฐ์ ์ ๊ฒ์ ์ฌ์ฉ๋จ.
์๊ฐ ์ง์ฐ
ํ๊ฐ ์ค๋น, ์คํ, ๊ฒฐ๊ณผ ์ ๋ฆฌ๊น์ง ์์ผ~์์ฃผ๊ฐ ๊ฑธ๋ ค ๋ชจ๋ธ ๊ฐ์ ์ฌ์ดํด์ด ๋๋ ค์ง ์ ์์.
ํ์ง ๊ด๋ฆฌ
ํฌ๋ผ์ฐ๋์์ฑ ์ ํ๊ฐ์๊ฐ ์ง์นจ์ ์คํดํ๊ฑฐ๋ ๋ถ์ค ํ๊ฐํ ์ ์์ด, ํ ์คํธ ๋ฌธ์ ๋ก ํ์ง ๊ฒ์ฆ ํ์.
์ฃผ๊ด์ฑ
์ฐฝ์์ฑ ๊ฐ์ ์ฃผ๊ด์ ํ๊ฐ ๊ธฐ์ค์ ํ๊ฐ์ ๊ฐ ์๊ฒฌ ์ฐจ์ด๊ฐ ํฌ๋ฏ๋ก, ๊ฐ๊ด์ ์ง๋ฌธ์ด๋ ๋๋ ์ํ๋ก ํ๊ท ํ ํ์.
ํ๊ฐ์ ํธํฅ
ํ๊ฐ์ ์ถ์ ๋ฌธํ, ์ธ์ด ๋ฑ์ ๋ฐ๋ผ ํ๊ฐ๊ฐ ๋ฌ๋ผ์ง ์ ์์ด, ๋ค์์ฑ์ ํ๋ณดํ๋ ๊ฒ์ด ๋ฐ๋์งํจ.
์์ ํ๋ ์ด๋ฐ
ํ๊ฐ ๋ฌธ๊ตฌ๊ฐ ํ๊ฐ์ ํ๋จ์ ์ํฅ์ ์ค ์ ์์ผ๋ฏ๋ก ์ค๋ฆฝ์ ์ด๊ณ ๋ช ํํ ์ง์นจ ์ ๊ณต์ด ์ค์ํจ.
3.5. ์ค์ ํ์ฉ
์๋ํ ์งํ์ ๋ณํํ์ฌ ์ฌ์ฉํ๋ฉฐ, ์๋ํ ์งํ๋ ์ง์ ๋ชจ๋ํฐ๋ง, ์ธ๊ฐ ํ๊ฐ๋ ์ฃผ์ ๋ง์ผ์คํค์์ ๊ฒ์ฆ์ฉ์ผ๋ก ํ์ฉ.
RLHF(์ธ๊ฐ ํผ๋๋ฐฑ์ ํตํ ๊ฐํํ์ต)์ฒ๋ผ ๊ฐ๋ฐ ๊ณผ์ ์์๋ ์ธ๊ฐ ํ๊ฐ๊ฐ ์ง์ ๋ชจ๋ธ ๊ฐ์ ์ ํ์ฉ๋จ.
์ค๋ฆฌ์ ๊ณ ๋ ค๋ ํ์: ํฌ๋ผ์ฐ๋์์ปค๊ฐ ์ ํด ์ฝํ ์ธ ์ ๋ ธ์ถ๋์ง ์๋๋ก ์ฃผ์ํด์ผ ํ๋ฉฐ, ์ฌ์ ๊ฒฝ๊ณ ์ ์ ํ๊ถ ์ ๊ณต ํ์.
4. LLM-as-a-judge ์ ๊ทผ๋ฒ๊ณผ ํ๊ณ
์๋ ์๋ฆฌ
ํ๊ฐ์ LLM์ ์๋ณธ ์ง๋ฌธ๊ณผ ๋ ๋ต๋ณ(๋๋ ๋ต๋ณ ํ๋์ ๊ธฐ์ค ๋ต๋ณ)์ ์ฃผ๊ณ ์ด๋ ์ชฝ์ด ๋ ๋์์ง ์ ํํ๊ฑฐ๋ ์ ์๋ฅผ ๋งค๊ธฐ๋๋ก ์์ฒญ
์ข์ ํ๋กฌํํธ ์ค๊ณ๊ฐ ์ค์ํ๋ฉฐ, ์๋ฅผ ๋ค์ด "์ด์์ ์ธ ๋ต๋ณ์ ์ฌ์ค์ ๊ทผ๊ฑฐํ๊ณ , ๊ฐ๊ฒฐํ๋ฉฐ, ๊ณต์ํด์ผ ํ๋ค"๋ ๊ธฐ์ค ํฌํจ ๊ฐ๋ฅ.
์ถ๋ ฅ์ ๋จ์ ์ ํ(A ๋๋ B), ์ ์(1~10), ํน์ ์์ธํ ์ค๋ช ์ผ ์ ์์.
ํนํ Chain-of-thought prompting(๋จ๊ณ๋ณ ์ถ๋ก ์ ๋)์ด ํ๊ฐ ํ์ง์ ๋์ด๋ ๋ฐ ํจ๊ณผ์ ์.
์ฅ์
์ธ๊ฐ ์ ํธ๋ ๊ทผ์ฌ
๋ช ํํ ๊ธฐ์ค์ด ์์ ๋ ์ฌ๋ ์ ํธ๋์ ์ ์ฌํ ํ๊ฐ ๊ฐ๋ฅ
์ผ๊ด์ฑ
๊ฐ์ ์ด๋ ํผ๋ก ์์ด ์ผ๊ด๋ ๊ธฐ์ค ์ ์ฉ
์๋ ๋ฐ ๋น์ฉ ํจ์จ
ํ ๋ฒ ๋ชจ๋ธ์ด ์์ผ๋ฉด ์์ฒ ์๋ ๋น ๋ฅด๊ณ ์ ๋ ดํ๊ฒ ํ๊ฐ ๊ฐ๋ฅ
ํ๊ณ ๋ฐ ๋ฌธ์ ์
๋ถ์์ ์ฑ ๋ฐ ํ๋กฌํํธ ๋ฏผ๊ฐ๋
ํ๊ฐ ํ๋กฌํํธ์ ์์ ๋ณํ์๋ ๊ฒฐ๊ณผ๊ฐ ๋ฌ๋ผ์ง ์ ์์
ํธํฅ ๋ฌธ์
ํ๋ จ ๋ฐ์ดํฐ์ ์ฌ๋์ ํธํฅ์ ๋ฐ์, ํ์์ ์ด๊ณ ์ฅํฉํ ๋ต๋ณ ์ ํธ ๊ฐ๋ฅ
์ค๋ช ์ ๋ขฐ์ฑ ๋ฌธ์
LLM์ด ์ ์ํ๋ ์ด์ ๊ฐ ์ค์ ํ๋จ ๊ทผ๊ฑฐ์ ๋ค๋ฅผ ์ ์์
์ ์ ๋งค๊ธฐ๊ธฐ vs ์์ ๋งค๊ธฐ๊ธฐ
์ ๋ ์ ์๋ณด๋ค๋ ๋ ๋ต๋ณ ์ค ๋ ๋์ ์ชฝ์ ๊ณ ๋ฅด๋ ์๋ณ ๋น๊ต๊ฐ ๋ ์์ ์
์๊ธฐ ํ๊ฐ ๋ฌธ์
๊ฐ์ ๋ชจ๋ธ์ด ์๊ธฐ ์ถ๋ ฅ์ ํ๊ฐํ๋ฉด ๊ด๋ํ๊ฑฐ๋ ์ค๋ฅ๋ฅผ ์ธ์ง ๋ชปํจ
์์์ ์ํ
๊ถ์์ ์ด์กฐ๋ ๊ฐ์ง ์ฐธ๊ณ ๋ฌธํ ๋ฑ์ผ๋ก ์๋ชป๋ ๋ต๋ณ์ด ์ ํธ๋ ์ ์์
๋์ ๋ฐฉ์ ๋ฐ ๊ฐ์ ์๋
์์์ ์ธ๊ฐ ํ๊ฐ ์์๋ก LLM์ ๋ณด์ (few-shot prompting ๋๋ ๋ฏธ์ธ ์กฐ์ )
์ฌ๋ฌ LLM ํ๊ฐ์์ ํฉ์ ๊ฒ์ฆ(majority agreement)
๋ต๋ณ ์์ ๋ฌด์์ํ ๋ฑ ์์น ํธํฅ ๊ฐ์
๊ตฌ์กฐํ๋ ์ง๋ฌธ์ผ๋ก ํ๊ฐ๋ฅผ ์ธ๋ถํํ์ฌ ์ต์ข ํ๋จ์ ๋ฐ์
5. Hybrid evaluation methods
์๋ ํ๊ฐ(Automated evaluation)์ ์ธ๊ฐ ํ๊ฐ(Human evaluation)์ ์ฅ๋จ์ ์ ๋ณด์ํ๊ธฐ ์ํด ํ์ด๋ธ๋ฆฌ๋ ํ๊ฐ ๋ฐฉ๋ฒ์ด ๋ง์ด ํ์ฉ๋๋ฉฐ, ๋๋ถ๋ถ์ LLM ํ๊ฐ ์ฒด๊ณ๋ ์ด๋ ์ ๋ ํ์ด๋ธ๋ฆฌ๋ ๋ฐฉ์์ ์ฑํํ๊ณ ์์.
5.1. ์ฃผ์ ํ์ด๋ธ๋ฆฌ๋ ํ๊ฐ ๋ฐฉ์
ํด๋จผ-์ธ-๋ฃจํ + ์๋ํ
์๋ํ ๋๊ตฌ๋ LLM ์ฌํ์ด ๋จผ์ ๊ฒฐ๊ณผ๋ฅผ ์ ๋ณยท์์ ๋งค๊น โ ์ธ๊ฐ์ด ์ด๋ ค์ด ์ฌ๋ก ์ง์ค ํ๊ฐ
์: 1,000๊ฐ ์ถ๋ ฅ ์ค ๋ ์ฑ ์๋๊ฒ์ถ โ LLM ์ฌํ์ด coherence ์ ์ ๋งค๊น โ ํ์ 100๊ฐ + ์ผ๋ถ ๋ฌด์์ ์ํ์ ์ธ๊ฐ ํ๊ฐ๋ก ๊ฒํ . ํจ์จ์ฑ ๊ทน๋ํ
์ ์ฑ์ + ์ ๋์ ํผํฉ
์๋ ์ ์(BLEU ๋ฑ)์ ์ธ๊ฐ ํ๊ฐ ๊ฒฐ๊ณผ๋ฅผ ํจ๊ป ์ ์ํ์ฌ ์ฑ๋ฅ์ ๋ค๊ฐ๋๋ก ๋ถ์
์: BLEU ์ ์๋ Model Y๊ฐ ๋ ๋์ง๋ง ์ธ๊ฐ ํ๊ฐ๋ Model X๊ฐ 55% ์ ํธ. ์ธ๊ฐ ํ๊ฐ๋ ์ฌ์ค์ฑ ๋ฑ ์ง์ ์์ ๋ฐ์
LLM ๋ณด์กฐ ์ธ๊ฐ ํ๊ฐ
๊ธด ํ ์คํธ ํ๊ฐ ์ LLM์ด ์์ฝ, ๋ชจ์ ์ง์ ๋ฑ์ผ๋ก ์ธ๊ฐ ํ๊ฐ์ ์ง์
์: 5ํ์ด์ง ์คํ ๋ฆฌ์์ LLM์ด ๋ฌธ์ ๊ตฌ๊ฐ ์๋ ค์ฃผ๋ฉด ์ธ๊ฐ์ด ์ต์ข ํ๋จ. ํ๊ฐ ์๋ ํฅ์
๋ฐ๋ณต ํ๊ฐ ๋ฐ ๊ฐ์ ์ฌ์ดํด
๋ชจ๋ธ ๊ฐ๋ฐ ์ ์๋ ํ๊ฐ โ LLM ๋น๊ต โ ์๊ท๋ชจ ์ธ๊ฐ ํ๊ฐ โ ์๊ท๋ชจ ์ฌ์ฉ์ ๋ฐฐํฌ โ ์ค์ฌ์ฉ ํผ๋๋ฐฑ ๋ชจ๋ํฐ๋ง ์์ผ๋ก ์งํ
๋จ๊ณ๋ณ ํ๊ฐ๋ฅผ ํตํด ๋ฌธ์ ์กฐ๊ธฐ ๋ฐ๊ฒฌ ๋ฐ ๊ฐ์ ๊ฐ๋ฅ
์ง์์ ํผ๋๋ฐฑ ๋ฃจํ
์ฌ์ฉ์ ํ๊ฐ(์: ๋ต๋ณ ์ ์ฉ์ฑ ํ์ )๋ฅผ ์๋ ๋ถ์ โ ๋ฌธ์ ์ ํ ๋ถ๋ฅ โ ๋ค์ ํ์ต/ํ๋์ ๋ฐ์
์: ๊ณ ๊ฐ ์๋น์ค ์ฑ๋ด์์ ๋ถ์ ์ ํผ๋๋ฐฑ ์๋ ์ง๊ณ ๋ฐ ์ธ๊ฐ/LLM์ด ๋ถ์ํ์ฌ ๊ฐ์ ์ ๋์ถ
ํ๊ฐ์ ์์๋ธ
์ฌ๋ฌ ์๋ยท์ธ๊ฐ ํ๊ฐ ๊ธฐ์ค์ ๊ฒฐํฉํ์ฌ ์ข ํฉ ํ๊ฐ ์ํ
์: ์๋ ์งํ ํ๋๋ผ๋ ๊ฐ์ ๋๊ณ , ์ธ๊ฐ ํ๊ฐ๋ ์ ํธํ๋ ๋ชจ๋ธ๋ง ์ฑํ. ๋จ์ผ ์งํ ์ต์ ํ ์ํ ํํผ
๊ณผ์ ํนํ ํ์ด๋ธ๋ฆฌ๋ ์งํ
์ฌ๋ฌ ์๋ ํ๊ฐ ์์(์: BERTScore, ๊ท์น ์๋ฐ ๊ฐ์ง, ์์ ํํ ์ ์)๋ฅผ ์กฐํฉํ ๋ณตํฉ ์ ์
์: ๋ํ ์์คํ ํ๊ฐ ์ ์ ํ์ฑ, ์์ ์ฑ, ์์์ฑ ๋ชจ๋ ๋ฐ์ํ๋ ์ ์ ์ฐ์ถ
๋ฒค์น๋งํฌ + ์ธ๊ฐ ์ฐฝ์์ฑ ๊ฒฐํฉ
ํ์ค ๋ฒค์น๋งํฌ๋ก ์ฝ์ ์ง๋จ โ ์ธ๊ฐ์ด ์๋ก์ด ๋์ด๋ ๋์ ํ ์คํธ ์ผ์ด์ค ์ ์
์: ์ํ ๋ฌธ์ ๋ ์ ํ์ง๋ง, ์ธ๊ฐ์ด ๋ง๋ ๋ณต์กํ ํผ์ฆ ๋ฌธ์ ์ถ๊ฐํ์ฌ ํ๊ฐ ๊ฐํ
5.2. ๊ตฌ์ฒด์ ์ฌ๋ก: ์๋ฃ FAQ ๋ด ํ๊ฐ
100๊ฐ ์๋ฃ Q&A ๋ฐ์ดํฐ์ ์ ๋ํด ์๋ ์ ํ๋(F1, Exact Match) ์ธก์
BERTScore ๊ฐ์ ์๋ฏธ ์ ์ฌ๋ ์๋ ํ๊ฐ
์๋ฃ ์ ๋ฌธ๊ฐ๊ฐ 50๊ฐ ๋ต๋ณ ์ง์ ๊ฒํ (์ธ๊ฐ ํ๊ฐ)
GPT-4 ๊ฐ์ LLM์ด ์ ๋ฌธ๊ฐ ํ๊ฐ ๋ณด์กฐ (LLM ์ฌํ)
์ ๋ฌธ๊ฐ์ LLM ํ๊ฐ ๊ฒฐ๊ณผ ๋น๊ต, ์ ๋ขฐ๋ ํ์ธ ํ LLM์ผ๋ก ์ ๋ณ ํ๋
๋ฐฐํฌ ํ ์ฌ์ฉ์ ํผ๋๋ฐฑ ๋ชจ๋ํฐ๋ง ๋ฐ ๋ฌธ์ ๋ต๋ณ ์ฌ๊ฒํ
ํผ๋๋ฐฑ ๊ธฐ๋ฐ ๋ชจ๋ธ ๊ฐ์ ๋ฐ ํ๊ฐ ๋ฐ์ดํฐ์ ๋ณด์ (ํผ๋๋ฐฑ ๋ฃจํ ์์ฑ)
6. LLM Evaluation vs. LLM System Evaluation
๋ชจ๋ธ ํ๊ฐ๋ ์ฐ๊ตฌ ๋ฐ ๋ชจ๋ธ ๊ฐ์ ์ฉ, ์์คํ ํ๊ฐ๋ ์ค์ ์๋น์ค ํ์ง ํ์ธ์ฉ.
6.1. LLM Standalone Evaluation
์ ์: ๋ชจ๋ธ ์์ฒด์ ์์ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ๊ฒ. ์๋ฅผ ๋ค์ด, GPT-3์ ์ง๋ฌธ์ ์ง์ ์ ๋ ฅํ๊ณ ๋ต๋ณ์ ์ ํ๋๋ฅผ ์ธก์ .
ํน์ง:
์ธ๋ถ ๋๊ตฌ๋ ์ถ๊ฐ ๊ตฌ์ฑ ์์ ์์ด ๋ชจ๋ธ๋ง ์ฌ์ฉ.
ํ์ค ๋ฒค์น๋งํฌ(์: GLUE, MMLU ๋ฑ)์ ๋์ผํ ํ๋กฌํํธ ํ์์ผ๋ก ํ๊ฐ.
์ ํ๋, BLEU ๋ฑ ์ง์ ์ ์ธ ์ฑ๋ฅ ์งํ ์ธก์ .
๋ชฉ์ : ๋ชจ๋ธ ๊ฐ ์ฑ๋ฅ ๋น๊ต, ๋ชจ๋ธ์ ๋ด์ฌ๋ ์ธ์ด ์ดํด ๋ฐ ์์ฑ ๋ฅ๋ ฅ ํ์ .
์์ ์ง๋ฌธ: "๋ชจ๋ธ X๊ฐ ๋ชจ๋ธ Y๋ณด๋ค ์ถ๋ก ๋ฅ๋ ฅ์ด ๋ฐ์ด๋๊ฐ?"
์ค์์ฑ: ์ฐ๊ตฌ ๋จ๊ณ์์ ๋ชจ๋ธ ์ํคํ ์ฒ๋ ํ์ต ๋ฐฉ๋ฒ ๊ฐ์ ํจ๊ณผ๋ฅผ ๊ฐ๊ด์ ์ผ๋ก ํ๊ฐํ ๋ ์ฌ์ฉ.
6.2. LLM System Evaluation
์ ์: ๋ชจ๋ธ๋ฟ๋ง ์๋๋ผ ํ๋กฌํํธ, ๊ฒ์ ๋ชจ๋(RAG), ํ์ฒ๋ฆฌ, ์์ด์ ํธ ๋ฑ ์์คํ ์ ์ฒด๋ฅผ ํฌํจํด ํ๊ฐ. System Evaluation์ RAG evaluation๊ณผ Agent evaluation์ผ๋ก ๋ถํํ๊ธฐ๋ ํจ.
์์คํ ๊ตฌ์ฑ์์ ์์:
์ ๊ตํ ํ๋กฌํํธ ์ค๊ณ
๊ฒ์ ๊ธฐ๋ฐ ์์ฑ(Retrieval-Augmented Generation, RAG)
์ถ๋ ฅ ํ์ฒ๋ฆฌ ๋ฐ ํํฐ๋ง
์ฌ์ฉ์ ์ธํฐ๋์ (๋ํ ๊ธฐ๋ก ์ ์ง, ์ธ๋ถ API ํธ์ถ ๋ฑ)
ํ๊ฐ ๋ฐฉ์:
์ค์ ์ฌ์ฉ์ ์๋๋ฆฌ์ค ๋๋ ์๋ฎฌ๋ ์ด์ ํ๊ฒฝ์์ ํ๊ฐ.
ํ๋กฌํํธ๋ ์์คํ ์ ์ผ๋ถ๋ก ๊ฐ์ฃผํ์ฌ ์ต์ ํ๋ ํ๋กฌํํธ ์ฌ์ฉ.
๊ฒ์ ์ฑ๋ฅ(Recall@K ๋ฑ), ์ต์ข ๋ต๋ณ์ ์ ํ๋, ์ถ์ฒ ์ธ์ฉ ์ฌ๋ถ ๋ฑ ๋ณตํฉ ์งํ ์ฌ์ฉ.
๋ํ ์์คํ ์ ๊ฒฝ์ฐ ๋ค์ค ํด ๋ํ ์ ์ง ๋ฅ๋ ฅ, ์๋ต ์๋, ์ผ๊ด์ฑ ๋ฑ UX ์งํ ํฌํจ.
๋ชฉ์ : ์ ์ฒด ์์คํ ์ด ์ค์ ์ฌ์ฉ์ ๋ฌธ์ ๋ฅผ ์ผ๋ง๋ ํจ๊ณผ์ ์ผ๋ก ํด๊ฒฐํ๋์ง ํ๊ฐ.
์์: ๋์ผํ ๋ชจ๋ธ์ ์น ๊ฒ์ ๊ธฐ๋ฅ์ ์ถ๊ฐํ QA ์์คํ ์ด ๋จ๋ ๋ชจ๋ธ๋ณด๋ค ํจ์ฌ ๋์ ์ ํ๋๋ฅผ ๋ณด์.
6.2.1. RAG Metrics
ํฌ๊ฒ ๊ฒ์(retrieval) ํ์ง, ์ต์ข ๋ต๋ณ ํ์ง๋ก ๋ถ๋ฅ. ๊ฒ์๊ณผ ๋ต๋ณ ๋ ๋ถ๋ถ์ ๋ณ๋๋ก ๊ทธ๋ฆฌ๊ณ ํจ๊ป ํ๊ฐํ๋ฉฐ ํ๋ํ๋ ๊ฒ์ด ํจ๊ณผ์.
๊ฒ์ ๊ด๋ จ์ฑ (Recall@k / Precision@k)
์ง๋ฌธ์ ๋ตํ ์ ์๋ ๋ฌธ์๊ฐ ์๋ค๋ฉด, ์์ k๊ฐ์ ๊ฒ์ ๊ฒฐ๊ณผ ์์ ๊ทธ ๋ฌธ์๊ฐ ํฌํจ๋์๋์ง ํ๊ฐ.
์ปจํ ์คํธ ๊ด๋ จ์ฑ (Context relevance)
๊ฒ์๋ ๋ฌธ์๊ฐ ์ง๋ฌธ๊ณผ ์ผ๋ง๋ ๊ด๋ จ ์๋์ง ํ๊ฐ. ๊ด๋ จ์ฑ์ด ๋ฎ์ผ๋ฉด ๊ฒ์์ด ์คํจํ์ ๊ฐ๋ฅ์ฑ์ด ๋๊ณ , ๋ต๋ณ ํ์ง๋ ๋๋น ์ง.
Context completeness
๊ฒ์๋ ๋ฌธ์๋ค์ด ์ง๋ฌธ์ ํ์ํ ๋ชจ๋ ์ ๋ณด๋ฅผ ํฌํจํ๋์ง ํ๊ฐํจ. ์ฌ๋ฌ ๋ถ๋ถ์ผ๋ก ๋ ์ง๋ฌธ์ ๋ํด ์ผ๋ถ ์ ๋ณด๋ง ์์ผ๋ฉด ๋ต๋ณ์ด ๋ถ์์ ํ ์ ์์.
๋ต๋ณ์ ๋ฌธ์ ์ถฉ์ค๋ (Faithfulness)
๋ต๋ณ์ด ์ ๊ณต๋ ๋ฌธ์์ ์ฌ์ค์ ๊ทผ๊ฑฐํ๋์ง ํ๊ฐ. ๋ฌธ์์ ์๋ ์ ๋ณด๊ฐ ๋ต๋ณ์ ํฌํจ๋๋ฉด 'ํ๊ฐ(hallucination)'์ผ๋ก ๊ฐ์ฃผํจ.
์ข ํฉ ์ ํ๋ (End-to-end accuracy)
์ต์ข ๋ต๋ณ์ด ์ ํํ์ง ํ๊ฐํจ. ๊ฒ์์ด ์คํจํด๋ ๋ชจ๋ธ์ด ๋ง์ถ ์ ์์ง๋ง ๋๋ฌผ๋ฉฐ, ๊ฒ์ ์ฑ๊ณต ํ์๋ ๋ต๋ณ์ด ํ๋ฆด ์ ์์ต๋๋ค. ๋นRAG ๋ชจ๋ธ๊ณผ ๋์ผํ๊ฒ ์ ํ๋, ROUGE, F1 ์ ์ ๋ฑ์ผ๋ก ํ๊ฐํจ.
์ ์ค์ผ์ด์ค๋ณ ์งํ
์๋ฅผ ๋ค์ด ๊ณ ๊ฐ์ง์์ฉ RAG ์ฑ๋ด์ 'ํด๊ฒฐ๋ฅ (knowledge base๋ก ์ ๋๋ก ๋ต๋ณํ ๋น์จ)', 'ํํผ์จ(๋ชจ๋ฆ์ ๋ตํ ๋น์จ)'์ ๋ณผ ์ ์์. ๊ฒ์ QA ์์คํ ์ ๋ต๋ณ ์ ํ๋์ ํจ๊ป ์ปจํ ์คํธ์์ ์ฌ์ฉ๋ ํ ํฐ ์๋ฅผ ํ๊ฐํด ๋ชจ๋ธ์ด ๋ฌธ์๋ฅผ ์ ํ์ฉํ๋์ง ํ๋จํจ.
6.2.2. Chatbot and dialogue metrics
์ฑ๋ด, ํนํ ChatGPT ์คํ์ผ์ ์คํ ๋๋ฉ์ธ ์ฑ๋ด์ ๋ค์ค ํด ๋ํ์ ์ฌ์ฉ์ ๊ฒฝํ์ด ์ค์ํ๊ธฐ ๋๋ฌธ์ ํ๊ฐ๊ฐ ๋ณต์กํจ.
Conversation Success/ Task completion
์ฑ๋ด์ด ํน์ ๋ชฉ์ (์: ํฐ์ผ ์์ฝ, ๋ฌธ์ ํด๊ฒฐ)์ ์ผ๋ง๋ ์ ๋ฌ์ฑํ๋์ง ํ๊ฐํจ. ์ฑ๊ณต ๊ธฐ์ค์ ๋ํ ์ข ๋ฃ ์ ์ฌ์ฉ์๊ฐ โ๊ฐ์ฌํฉ๋๋ค, ๋ต๋ณ์ด ๋์์ด์โ ๊ฐ์ ํํ
ํด๋ณ ํ์ง (Turn-level quality)
๊ฐ ์๋ต์ ์ ์ ์ฑ๊ณผ ์ฃผ์ ์ผ๊ด์ฑ์ ํ์ธํจ. ์๋ฅผ ๋ค์ด, โNext Utterance Relevanceโ๋ ์๋ต๊ณผ ๋ํ ๋งฅ๋ฝ ๊ฐ ์๋ฒ ๋ฉ ์ ์ฌ๋๋ก ์ธก์ ํด ์ฃผ์ ์ผ๊ด์ฑ ํ์ธ.
์ฐธ์ฌ๋ (Engagement)
์ฌ์ฉ์๊ฐ ๋ํ์ ์ผ๋ง๋ ์ค๋ ๋จธ๋ฌด๋ฅด๋์ง, ํ๊ท ํด ์๋ก ๊ฐ์ ์ธก์ . ๋ง์ฝ ์ฌ์ฉ์๊ฐ ํ๋ ๋ง๋๋ง ํ๊ณ ๋ ๋๋ค๋ฉด, ์ฑ๋ด ์๋ต์ด ํฅ๋ฏธ๋กญ์ง ์๊ฑฐ๋ ์ฐธ์ฌ๋ฅผ ์ ๋ํ์ง ๋ชปํ๋ ์ ํธ์ผ ์ ์์.
Safety in dialogue
๋ ์ฑ ๋ฐ์ธ, ๊ฐ์ธ์ ๋ณด ๋ ธ์ถ, ๊ณต๊ฒฉ ๋์ ๋ฑ ์์ ์ฑ ๋ฌธ์ ํ๊ฐ. ํนํ, ํ๋กฌํํธ ์ธ์ ์ ๊ฐ์ ๊ณต๊ฒฉ์ ๋ํด ์ฑ๋ด์ด ์ ์ ํ ๋์ํ๋์ง ํ ์คํธํ๋ฉฐ, ์๋ํ๋ ๋ ์ฑ ์ฒดํฌ ๋๊ตฌ(W&B Toxicity checker ๋ฑ)๋ฅผ ํ์ฉํจ.
Persona & Consistency
์ฑ๋ด์ด ํน์ ํ๋ฅด์๋๋ ์คํ์ผ์ ๊ฐ์ง ๊ฒฝ์ฐ, ๋ํ ๋ด๋ด ์ผ๊ด๋ ํค๊ณผ ์ฌ์ค์ ์ ์งํ๋์ง ํ๊ฐํจ. ๋ณดํต ์ฐ๊ตฌ์์๋ โConsistent Personaโ๋ผ๋ ์งํ๋ก ๋ณด๊ณ ์์.
Human Evaluation
์ค์ ์ฌ์ฉ์๊ฐ ์ฑ๋ด ๊ฒฝํ์ ์ง์ ๋น๊ตํ๋ ๊ฐ์ฅ ์ ๋ขฐ์ฑ ๋์ ๋ฐฉ๋ฒ์ผ๋ก ์ฌ๋๋ค์ด ์ฌ๋ฌ ์ฑ๋ด๊ณผ ๋ํํ ํ ๋ฌด์์๋ก ํ๊ฐํ๊ฑฐ๋ ์ ํธ๋ ์ ํ
6.2.3. Code generation metrics
์ฌ์ฉ์ ์ฐ๊ตฌ์์๋ AI๊ฐ ์์ฑํ ์ฝ๋ ์ดํ ์ฌ์ฉ์๊ฐ ์ผ๋ง๋ ์์ ์ ํ๋์ง, ํํธ๊ฐ ์ผ๋ง๋ ํ์ํ๋์ง๋ ์ธก์ .
๋ฌธ๋ฒ์ ์ผ๋ก ์๋ฒฝํด๋ ๋ ผ๋ฆฌ์ ์ผ๋ก ํ๋ฆฐ ์ฝ๋๋ฅผ ์์ฑํ ์ ์์ผ๋ฏ๋ก, ์คํ ๋ฐ ๋ ผ๋ฆฌ ํ ์คํธ๊ฐ ํต์ฌ. ๊ฐ๋ฅํ ๊ฒฝ์ฐ ์คํ ๊ธฐ๋ฐ ํ๊ฐ(์ฝ๋๊ฐ ์ค์ ๋ก ๋์ํ๋์ง ํ ์คํธ ์๋ํ)๋ฅผ ๋ฐ๋์ ์ฌ์ฉํด์ผ ํจ.
๊ธฐ๋ฅ์ ์ ํ์ฑ (Pass@k)
์์ฑ๋ ์ฝ๋๊ฐ ์ค์ ๋ก ์๋ํ๋์ง(์ปดํ์ผ ๋๋์ง, ํ ์คํธ๋ฅผ ํต๊ณผํ๋์ง)๋ฅผ ํ๊ฐํจ. Pass@k๋ k๊ฐ์ ์ํ ์ค ์ ์ด๋ ํ๋๊ฐ ๋ง์ ํ๋ฅ ์ ์๋ฏธํจ.
- Pass@1: ์ฒซ ์๋ ์ฝ๋๊ฐ ๋ง๋์ง - Pass@5: 5๊ฐ ์๋ ์ค ํ๋๋ผ๋ ๋ง์ผ๋ฉด ์ฑ๊ณต๋น๊ฒฐ์ ์ฑ(๋๋ค์ฑ)์ด ์๋ ๊ฒฝ์ฐ ์ ์ฉํจ.
์ค๋ฅ์จ (Error Rate)
์ฌ์ฉ์๊ฐ ์ฝ๋๋ฅผ ์ผ๋ง๋ ๋ง์ด ์์ ํด์ผ ํ๋์ง, ๋ชจ๋ธ์ด ๋ช ๋ฒ ์ฌ์๋ํ๋์ง๋ฅผ ์ธก์ . ๋ฎ์ ์ค๋ฅ์จ์ ์ฒ์๋ถํฐ ์ ํํ ์ฝ๋๋ฅผ ์๋ฏธํจ.
- ํธ์ง ๊ฑฐ๋ฆฌ(Edit distance)๋ฅผ ์ฌ์ฉํด ๋ชจ๋ธ ์ถ๋ ฅ๊ณผ ์์ ๋ ์ฝ๋ ๊ฐ ์ฐจ์ด๋ฅผ ์ธก์ - ์ธํฐ๋ํฐ๋ธ ํ๊ฒฝ์์ ์ค์ํจ.
์ฝ๋ ํ์ง ๋ฐ ์คํ์ผ
์ฝ๋๊ฐ ๊น๋ํ๊ณ ๊ตฌ์กฐ์ ์ผ๋ก ์ฌ๋ฐ๋ฅธ์ง ํ๊ฐ. ์ฃผ๊ด์ ์ด์ง๋ง, ๋ฆฐํฐ(linter)๋ ํฌ๋งคํฐ(formatter)๋ฅผ ์ฌ์ฉํด ๋๋ต์ ์ธ ํ๊ฐ๊ฐ ๊ฐ๋ฅํจ.
- ์: ํ์ด์ฌ PEP8 ์คํ์ผ ๊ฒ์ฌ - ๋ณต์ก๋ ์ธก์ : ์ฝ๋ ๋ผ์ธ ์, ์ฌ์ดํด๋ก๋งคํฑ ๋ณต์ก๋ ๋ฑ์ผ๋ก ๊ณผ๋ํ ๋ณต์ก์ฑ ํ๊ฐ
์ฃผ์ ๋ฐ ๋ฌธ์ํ
๋ฌธ์ํ ์์ ์ด ํฌํจ๋ ๊ฒฝ์ฐ, ์ฃผ์ ๋ฐ๋๋ docstring ์์ฑ๋ ํ๊ฐ. ์ค๋ช ์ ์ ํ์ฑ๋ ํ ์คํธ ํ๊ฐ ์งํ๋ก ํ์ธํ ์ ์์.
- ์ฝ๋์ ํจ๊ป ์ค๋ช ์ ์์ฑํ๋ ๊ณผ์ ์์ ์ค์ - ์์ฐ์ด ์ฒ๋ฆฌ ํ๊ฐ ์งํ ํ์ฉ ๊ฐ๋ฅ(ex. ์ ํ์ฑ, ์์ ์ฑ)
๋ณด์ ๋ฐ ์์ ์ฑ
์ค์ ์์คํ ์ ์ ์ฉํ ์ฝ๋๋ผ๋ฉด ๋ณด์ ์ทจ์ฝ์ ์ฌ๋ถ๋ฅผ ํ๊ฐํฉ๋๋ค. ์ ์ ๋ถ์ ๋๊ตฌ(static analysis)๋ฅผ ์ฌ์ฉํด AI ์์ฑ ์ฝ๋์ ๋ฌธ์ ์ ์ ํ์ง.
- ์ทจ์ฝ์ ํ์ง ์ฐ๊ตฌ ์งํ ์ค - ์ฝ๋ ์คํ ์ ๋ณด์ ์ ๊ฒ ํ์
6.3. ์ฃผ์ ์ฐจ์ด์ ์ ๋ฆฌ
ํ๊ฐ ๋์
๊ธฐ๋ณธ LLM ๋ชจ๋ธ ๋จ๋
๋ชจ๋ธ + ํ๋กฌํํธ + ๊ฒ์ + ํ์ฒ๋ฆฌ ๋ฑ ์์คํ ์ ์ฒด
ํ๊ฐ ํ๊ฒฝ
ํต์ ๋ ํ์ค ๋ฒค์น๋งํฌ ๋ฐ ํ๋กฌํํธ
์ค์ ์ฌ์ฉ์ ์๋๋ฆฌ์ค, ์ธํฐ๋ํฐ๋ธ ํ๊ฒฝ
ํ๋กฌํํธ ์ฌ์ฉ
๋์ผํ ํ๋กฌํํธ ์ผ๊ด ์ ์ฉ
๊ฐ ์์คํ ์ ์ต์ ํ๋ ํ๋กฌํํธ ์ฌ์ฉ
์ฑ๋ฅ ์งํ
์ ํ๋, BLEU ๋ฑ ๋ชจ๋ธ ์ถ๋ ฅ ์ค์ฌ
๊ฒ์ ์ ํ๋, ๋ต๋ณ ์ ํ๋, ์ถ์ฒ ์ธ์ฉ, UX ์งํ ๋ฑ ๋ณตํฉ์
ํ๊ฐ ๋ชฉ์
๋ชจ๋ธ ๋ด์ฌ ๋ฅ๋ ฅ ๋น๊ต ๋ฐ ๊ฐ์
์ฌ์ฉ์ ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ ๋ฐ ์์คํ ํ์ง ํ๊ฐ
ํ๊ฐ ๋ฐฉ์
๋ชจ๋ธ ๋จ๋ ์ ๋ ฅ โ ์ถ๋ ฅ ํ๊ฐ
์ ๋ ฅ๋ถํฐ ์ต์ข ์ถ๋ ฅ๊น์ง ์ ์ฒด ํ์ดํ๋ผ์ธ ํ๊ฐ
7. ์จ๋ผ์ธ ํ๊ฐ vs ์คํ๋ผ์ธ ํ๊ฐ
์คํ๋ผ์ธ ํ๊ฐ: ํต์ ๋ ํ๊ฒฝ์์, ์ค์ ์ฌ์ฉ์ ์์ด ๊ณ ์ ๋ ๋ฐ์ดํฐ์ ์ด๋ ์๋ฎฌ๋ ์ด์ ์ผ๋ก ์งํํ๋ ๋ฐฉ์
์จ๋ผ์ธ ํ๊ฐ: ์ค์ ๋ผ์ด๋ธ ํ๊ฒฝ์์, ์ค์ ์ฌ์ฉ์์์ ์ํธ์์ฉ์ ํตํด ์ด๋ฃจ์ด์ง๋ ํ๊ฐ ๋ฐฉ์
7.1. ์คํ๋ผ์ธ ํ๊ฐ (์ฌ์ ๋ฆด๋ฆฌ์ค, ํต์ ๋ ํ
์คํธ)
ํน์ง
๊ณผ๊ฑฐ ๋ฐ์ดํฐ๋ ํน๋ณํ ์ค๋น๋ ๋ฐ์ดํฐ์ ์ฌ์ฉ
ํ๊ฒฝ์ด ํต์ ๋จ (์ ๋ ฅ๊ณผ ํ๊ฐ ๊ธฐ์ค์ด ๋ฏธ๋ฆฌ ์ ํด์ง)
์ฌ์ฉ์์์ ์ค์๊ฐ ์ํธ์์ฉ ์์ (์ ๋ ฅ โ ์ถ๋ ฅ ๊ด์ฐฐ โ ์ ๋ต๊ณผ ๋น๊ต)
์ฅ์
์์ ์ฑ ๋ฐ ์ํ ์ํ
๋ฏธ๊ฒ์ฆ ๋ชจ๋ธ์ด ์ค์ฌ์ฉ์์๊ฒ ํผํด๋ฅผ ์ฃผ๋ ๊ฒ์ ๋ฐฉ์ง (์: ๋ถ์ ์ ํ ๋ต๋ณ ์ฐจ๋จ)
์ฌํ์ฑ
๋์ผ ๋ฐ์ดํฐ์ ์ผ๋ก ๋ฐ๋ณต ํ๊ฐ ๊ฐ๋ฅ, ๊ณต์ ํ ๋น๊ต์ ํต๊ณ ๋ถ์ ์ฉ์ด
์ฌ์ธต ๋ถ์ ๊ฐ๋ฅ
ํฌ๊ท ์ฌ๋ก, ๊ธด ์ ๋ ฅ ๋ฑ ๋ค์ํ ์๋๋ฆฌ์ค๋ฅผ ํฌํจํด ๋ชจ๋ธ์ ์ฒ ์ ํ ์ํ ๊ฐ๋ฅ
์ปค๋ฒ๋ฆฌ์ง ํ๋ณด
์ค์ํ์ง๋ง ๋๋ฌธ ์ ๋ ฅ ์ ํ๋ ํฌํจํด ํ ์คํธ ๊ฐ๋ฅ (์: ์๋ฃ ์๋ด ์ง๋ฌธ)
๋ฐ๋ณต์ ๊ฐ๋ฐ ์ง์
์ฌ๋ฌ ๋ชจ๋ธ ๋ณํ์ ๋์์ ๋น ๋ฅด๊ฒ ์ํํด ์ต์ ๋ชจ๋ธ ์ ๋ณ ๊ฐ๋ฅ
ํ๊ณ ๋ฐ ๋จ์
ํ์ค ๋ฐ์ ๋ถ์กฑ
์ค์ ์ฌ์ฉ์ ์ฟผ๋ฆฌ์ ๋ค์์ฑ๊ณผ ๋ถํฌ๋ฅผ ์๋ฒฝํ ๋ฐ์ํ์ง ๋ชปํจ (์: ์์ด ๋ฏธํฌํจ)
์ ์ ํ๊ฐ
์ํธ์์ฉ ๋ฐ ๋ํ ํ๋ฆ ์ฌ๊ตฌ์ฑ ๋ถ๊ฐ๋ฅ, ๋จ๋ฐฉํฅ ํ๊ฐ์ ํ์
ํ๊ฐ์ฉ ๊ณผ์ ํฉ ์ํ
ํ๊ฐ ๋ฐ์ดํฐ์ ์ ๋ง์ถฐ ํ๋ํ๋ฉด ์ค์ ์ฑ๋ฅ ์ ํ ๊ฐ๋ฅ์ฑ ์กด์ฌ
์ฌ์ฉ์ ํ๋จ ๋ฐ์ ๋ถ์กฑ
์ ํ๋๋ ๋์๋ ์ฌ์ฉ์ ์ ํธ๋ ๋ง์กฑ๋ ๋ฐ์ ์ด๋ ค์
์์
XSum ์์ฝ ๋ฐ์ดํฐ์ ์ ๋ชจ๋ธ ์ ์ฉ ํ ROUGE ์ ์ ๊ณ์ฐ
1,000๊ฐ ์ ์ ๋ ํ๋กฌํํธ๋ก ๋ด๋ถ ํ๊ฐํ์ ์ธ๊ฐ ํ๊ฐ ๋น๊ต
๊ณ ์์ ์ผ๋ก ๋ฌธ์ ๋ฅผ ์ผ์ผํค๋ ์ง๋ฌธ ๋ชฉ๋ก์ผ๋ก ์ ๋์ ํ ์คํธ ์ํ
EleutherAI, HuggingFace ํ๊ฐ ๋๊ตฌ๋ฅผ ํ์ฉํ ๋ฒค์น๋งํฌ ํ ์คํธ
7.2. ์จ๋ผ์ธ ํ๊ฐ (์ค์๊ฐ ๋ฐฐํฌ ๋ฐ ์ฌ์ฉ์ ํผ๋๋ฐฑ)
ํน์ง
์ค์ ์ฌ์ฉ์ ๋๋ ๋ผ์ด๋ธ ๋ฐ์ดํฐ ์คํธ๋ฆผ์์ ์งํ
์ฌ์ฉ์ ํ๋ ๋ฐ ํผ๋๋ฐฑ(ํด๋ฆญ, ํ์ , ์ ํ์จ ๋ฑ)์ ํ๊ฐ ๊ธฐ์ค์ผ๋ก ์ฌ์ฉ
์ง์์ ์ผ๋ก ํ๊ฐ ๋ฐ์ดํฐ ์์ง ๊ฐ๋ฅ
์ฅ์
์ค์ ํ๊ฒฝ ๊ฒ์ฆ
์ค์ ์ฌ์ฉ์์ ์ฟผ๋ฆฌ ๋ถํฌ์ ๋งฅ๋ฝ์ ๋ฐ์ํด ๋ชจ๋ธ์ด ์ฌ์ฉ์ ๊ฒฝํ์ ๊ฐ์ ํ๋์ง ํ์ธ
๋ฏธ์ฒ ๋ชฐ๋๋ ๋ฌธ์ ๋ฐ๊ฒฌ
์์์น ๋ชปํ ์ ๋ ฅ ์ ํ์ด๋ ์คํจ ์ฌ๋ก๋ฅผ ์ค์๊ฐ์ผ๋ก ํ์ง ๊ฐ๋ฅ
๋น์ฆ๋์ค ์งํ ์ธก์
์ฌ์ฉ์ ์ ์ง์จ, ๊ณ ๊ฐ ๋ง์กฑ๋, ๋งค์ถ ๋ฑ ์ค์ง์ ์ฑ๊ณผ์ ์ฐ๊ณ ๊ฐ๋ฅ
์ง์์ ๊ฐ์
์ฌ์ฉ์ ๋ก๊ทธ๋ฅผ ํ์ฉํด ๋ชจ๋ธ์ ์ ๊ธฐ์ ์ผ๋ก ์ฌํ์ต ๋ฐ ๊ฐ์ ๊ฐ๋ฅ
๋จ์ ๋ฐ ์ด๋ ค์
์ํ ๋ถ๋ด
๋ฏธ๊ฒ์ฆ ๋ชจ๋ธ ๋ฐฐํฌ ์ ๋ถ์ ์ ๋ต๋ณ ๋ฑ ์ฌ์ฉ์ ํผํด ๊ฐ๋ฅ์ฑ ์กด์ฌ
๋ ธ์ด์ฆ ๋ฐ ๋ณ๋์ฑ
์ธ๋ถ ์์ธ์ผ๋ก ์ธํ ์ฌ์ฉ์ ํ๋ ๋ณํ๊ฐ ๊ฒฐ๊ณผ ํด์์ ์ด๋ ต๊ฒ ํจ
ํผ๋๋ฐฑ ์ง์ฐ ๋ฐ ์๋ฌต์
๋ช ํํ ํ๊ฐ ์ ์ ๋์ ๊ฐ์ ์ ํธ(์ฌ์ง๋ฌธ, ์ดํ ๋ฑ) ํด์ ํ์
๋ถํฌ ๋ณํ ์ง์
์ฌ์ฉ์ ์ฟผ๋ฆฌ ํน์ฑ ๋ณํ์ ๋ฐ๋ผ ๋ชจ๋ธ ์ฑ๋ฅ ์ ํ ๊ฐ๋ฅ, ์ง์ ๋ชจ๋ํฐ๋ง ํ์
๊ฐ์ธ์ ๋ณด ๋ฐ ์ค๋ฆฌ ๋ฌธ์
์ฌ์ฉ์ ๋ฐ์ดํฐ ํ์ฉ ์ ํ๋ผ์ด๋ฒ์ ๋ณดํธ ๋ฐ ์ค๋ฆฌ์ ๊ณ ๋ ค ํ์
์ฃผ์ ๋ฐฉ๋ฒ
A/B ํ ์คํธ: ์ฌ์ฉ์ ๊ทธ๋ฃน์ ๋ฌด์์ ๋ถํ ํด ๋ชจ๋ธ A, B ๋ฒ์ ์ ๋น๊ต
์ฐ์ ๋ชจ๋ํฐ๋ง: ์๋ต ๊ธธ์ด, ์ฌ์ง๋ฌธ ๋น์จ, ์ฌ์ฉ์ ํ์ , ์๋ ํํฐ๋ง ๋น๋ ๋ฑ ์งํ ์ค์๊ฐ ๊ฐ์
๋จ๊ณ์ ๋ฐฐํฌ: ์๊ท๋ชจ ์ฌ์ฉ์๋ถํฐ ์ ์ง ํ๋, ๋ฌธ์ ๋ฐ์ ์ ์ฆ์ ๋กค๋ฐฑ ๊ฐ๋ฅ
์๋์ฐ ๋ชจ๋: ์ ๋ชจ๋ธ์ ๋ฐฑ๊ทธ๋ผ์ด๋์์ ์คํํด ๊ฒฐ๊ณผ๋ง ๊ธฐ๋ก, ์ฌ์ฉ์์ ์ํฅ ์์ด ํ๊ฐ
7.3. ์คํ๋ผ์ธ vs ์จ๋ผ์ธ ํ๊ฐ์ ์ํธ๋ณด์์ ๊ด๊ณ
์คํ๋ผ์ธ
์์ , ๋น ๋ฅธ ๋ฐ๋ณต, ๋น์ฉ ์ ๋ ด
ํ์ค ๋ฐ์ ํ๊ณ, ์ฌ์ฉ์ ํผ๋๋ฐฑ ๋ถ์กฑ
์จ๋ผ์ธ
์ค์ ์ฌ์ฉ์ ๋ฐ์, ๋น์ฆ๋์ค ์ฑ๊ณผ ์ธก์
์ํ, ๋ณต์ก์ฑ, ๊ฒฐ๊ณผ ๋์ถ ์ง์ฐ
์ด์์ ์ธ ํ๊ฐ ์ ๋ต์ ์คํ๋ผ์ธ์์ ์ถฉ๋ถํ ๊ฒ์ฆ ํ, ์จ๋ผ์ธ์์ ์ค์ฌ์ฉ์ ๋ฐ์ ํ์ธ ๋ฐ ์ถ๊ฐ ๋ฌธ์ ๋ฐ๊ฒฌ โ ๊ฐ์ ๋ฐ๋ณต
8. Summary and Future trends
8.1. ์ธ์ ์ด๋ค ์งํ๋ฅผ ์ฌ์ฉํ ๊น: ์ ์ ํ ํ๊ฐ ์งํ ์ ํํ๊ธฐ
๋ชจ๋ธ ํ๊ฐ์๋ ๋ค์ํ ์งํ๊ฐ ์์ง๋ง, ์ค์ ๋ก๋ 3~5๊ฐ ์ ๋์ ํต์ฌ ์งํ๋ฅผ ์ ํํด ์ฌ์ฉํ๋ ๊ฒ์ ๊ถ์ฅํจ.
์ ๋ณด ์ ๊ณตํ (QA, ์ด์์คํดํธ)
์ ํ์ฑ / ์ฌ์ค์ฑ + ๋์์ด ๋๋ ์ ๋ + ์์ ์ฑ ์งํ
๋ต๋ณ์ ์ ํ์ฑ(accuracy)๊ณผ ์ฌ์ค์ฑ(factuality)์ ์ธก์ ํ๊ณ , ์ฌ์ฉ์ ํ๊ฐ๋ฅผ ํตํด ๋์ ์ ๋๋ฅผ ํ์ธํฉ๋๋ค. ์๋ํ๋ ๋ ์ฑ(Toxicity)์ด๋ ๊ฐ์ธ์ ๋ณด ์๋ณ(PII) ํ์ง ๊ฐ์ ์์ ์ฑ ์งํ๋ ํ์์ ๋๋ค.
์ฐฝ์์ ์์ (์คํ ๋ฆฌ ์์ฑ, ์์ ๋ํ)
ํ์ง ์งํ(์ผ๊ด์ฑ, ์ ์ฐฝ์ฑ) + ๋ถํฌ ์งํ(MAUVE) ๋๋ ์ธ๊ฐ ์ ํธ๋
ํ ์คํธ์ ์ผ๊ด์ฑ๊ณผ ์์ฐ์ค๋ฌ์์ ํ๊ฐํ๊ณ , MAUVE ๊ฐ์ ๋ถํฌ ๊ธฐ๋ฐ ์งํ๋ ์ธ๊ฐ ํ๊ฐ๋ฅผ ํตํด ์ด๋ ๋ชจ๋ธ์ด ๋ ๋งค๋ ฅ์ ์ธ์ง ํ๋จํฉ๋๋ค. ๊ณต๊ณต์ฉ์ด๋ผ๋ฉด ์์ ์ฑ ์งํ๋ ์ค์ํฉ๋๋ค.
๋ณํ ์์ (๋ฒ์ญ, ์์ฝ)
์ฐธ์กฐ ๊ธฐ๋ฐ ์งํ(BLEU, ROUGE, BERTScore) + ์ธ๊ฐ ํ๊ฐ + ์ฌ์ค์ฑ ์ ๊ฒ
BLEU, ROUGE ๋ฑ ์๋ ์งํ๋ก ๋น ๋ฅด๊ฒ ํ์ธํ๋, ์ธ๊ฐ ํ๊ฐ๋ฅผ ํตํด ์๋ฏธ ์ ๋ฌ(adequacy)๊ณผ ์ ์ฐฝ์ฑ(fluency)์ ๋ณด์ํฉ๋๋ค. ์์ฝ์ ๊ฒฝ์ฐ ์ฌ์ค์ฑ(faithfulness) ๊ฒ์ฆ๋ ํ์ํ๋ฉฐ, ์๋ํ๋ ์ฌ์ค์ฑ ํ๊ฐ๊ธฐ๋ฅผ ์ฌ์ฉํ ์ ์์ต๋๋ค.
์ฝ๋ ๊ด๋ จ ์์
๊ธฐ๋ฅ ํ ์คํธ + ํธ์ง ๊ฑฐ๋ฆฌ(edit distance) + pass@k
์ฝ๋๊ฐ ์ ๋๋ก ์๋ํ๋์ง ๊ธฐ๋ฅ ํ ์คํธ๋ฅผ ์ต์ฐ์ ์ผ๋ก ํ๋ฉฐ, ์ ๋ต๊ณผ์ ํธ์ง ๊ฑฐ๋ฆฌ๋ ์ธก์ ํฉ๋๋ค. ์ฌ๋ฌ ์ถ๋ ฅ์ด ๊ฐ๋ฅํ ๊ฒฝ์ฐ pass@k ์งํ๋ฅผ ์ฌ์ฉํฉ๋๋ค.
RAG(๊ฒ์ ๊ธฐ๋ฐ ์์ฑ) ์์คํ
๊ฒ์ ํ์ง + ์ต์ข ๋ต๋ณ ํ์ง(์ ํ์ฑ, ์ฌ์ค์ฑ, ์ถฉ์ค์ฑ)
๊ฒ์ ๋จ๊ณ์ ์์ฑ ๋จ๊ณ๋ฅผ ๋ณ๋๋ก ํ๊ฐํฉ๋๋ค. W&B์ Faithfulness scorer ๊ฐ์ ๋๊ตฌ๋ก ๋ต๋ณ์ ์ฌ์ค์ฑ์ ์ธก์ ํด ๋ณ๋ชฉ ๊ตฌ๊ฐ์ ํ์ ํ ์ ์์ต๋๋ค.
๊ณตํต ์ฌํญ
์์ ์ฑ ์งํ(๋ ์ฑ, ํธํฅ, PII)
๋ชจ๋ธ ๋ฐฐํฌ ์ ๋ฐ๋์ ์์ ์ฑ ์งํ๋ฅผ ํ์ธํด์ผ ํ. ๊ด๋ฆฌํ "๊ฐ๋๋ ์ผ(guardrail)" ์๋น์ค๋ ๋ฐ์นญ๋์ด ์์.
8.2. Future Trends
์ธ๋ฐํ๊ณ ๋์ ์ธ ํ๊ฐ
๋จ์ผ ์ ์ ๊ฐ์ ๊ฑฐ์น ํ๊ฐ ๋์ , ๋ชจ๋ธ์ ๊ฐ์ ๊ณผ ์ฝ์ ์ ์ฌ๋ฌ ์ฐจ์์์ ์๋์ผ๋ก ๋ถ์ํ๋ '๋ฅ๋ ฅ ๋ณด๊ณ ์' ์์ฑ. ์: ๊ตฌ๊ธ์ Eval++ ํ๋ก์ ํธ. ๋ชจ๋ธ๋ผ๋ฆฌ ํ ์คํธ ๋ฌธ์ ๋ฅผ ๋ง๋ค์ด๋ด ํ๊ฐ ๋ฐ์ดํฐ๋ฅผ ํ์ฅํ๋ ๋ฐฉ์๋ ์ฐ๊ตฌ ์ค. ํ๊ฐ๊ฐ ๋ชจ๋ธ ๋ฅ๋ ฅ์ ๋ง์ถฐ ๋์ด๋๋ฅผ ์กฐ์ ํ๋ ๋์ ํ๊ฐ๋ ๊ธฐ๋๋จ.
AI ๋ณด์กฐ ํ๊ฐ ๋ฐ ํด์ ๊ฐ๋ฅ์ฑ
LLM์ ํ๊ฐ์๋ก ํ์ฉ, ๋จ์ ์ ์๋ฟ ์๋๋ผ ๋ ผ๋ฆฌ์ ์ค๋ฅ, ํธํฅ ํ์ง๊น์ง ๊ฐ๋ฅํ๋๋ก ์ฐ๊ตฌ ์ค. โ๋ฒ์ฉ ํ๊ฐ์ ๋ชจ๋ธโ ๊ฐ๋ฐ๋ก ์ธ๊ฐ ์ ๋ฌธ๊ฐ์ ์ ์ฌํ ์์ธ ํ๊ฐ ๊ฐ๋ฅ์ฑ.
์ฐ์์ ยท์ค์๊ฐ ํ๊ฐ
๋ชจ๋ธ ์ ๋ฐ์ดํธ๊ฐ ์ฆ์์ง์ ๋ฐ๋ผ ์ค์๊ฐ์ผ๋ก ์ฑ๋ฅ์ ๋ชจ๋ํฐ๋งํ๋ ํ๊ฐ ์์คํ ํ์. ์: ์ฑ๋ด ๋ํ ์ค ๋ง์กฑ๋ ์ ์ ์ค์๊ฐ ๊ฐฑ์ , ์ด์์น ํ์ง๋ก ๋ฌธ์ ์กฐ๊ธฐ ๊ฒฝ๊ณ . MLOps์ ์ฐ๊ณ.
์ฌ์ฉ์ ์ค์ฌยท์ํฉ๋ณ ํ๊ฐ
์ฌ์ฉ์ ๊ทธ๋ฃน๋ณ ๋ง์ถค ํ๊ฐ, ๊ธด ๋ฌธ๋งฅ ์ฒ๋ฆฌ ๋ฅ๋ ฅ, ํค ์กฐ์ ์ ์๋ ฅ ๋ฑ ์ค์ ์ฌ์ฉ ๋งฅ๋ฝ ๋ฐ์ ํ๊ฐ ํ์.
๋ฒค์น๋งํฌ ์งํ ๋ฐ ๋ฉํ ํ๊ฐ
์ํ, ์ถ๋ก , ์์, ๋ฉํฐ๋ชจ๋ฌ ์ดํด ๋ฑ ๋ค์ํ ๋ฒค์น๋งํฌ ๊ฐ๋ฐ๊ณผ ๋์์ ํ๊ฐ ๋ฐฉ๋ฒ ์์ฒด์ ์ ๋ขฐ๋(์ธ๊ฐ ํ๊ฐ์์ ์๊ด๊ด๊ณ) ์ฐ๊ตฌ. Dynabench, HuggingFace Eval Harnesses ๊ฐ์ ์ปค๋ฎค๋ํฐ ๊ธฐ๋ฐ ํ๋ซํผ ํ์ฑํ.
ํด์ ๊ฐ๋ฅ ํ๊ฐ ๋ฐ ๋ชจ๋ธ ์ดํด
๋ชจ๋ธ ๋ด๋ถ ์ํ(ํ์ฑํ, ์๋ฒ ๋ฉ ๋ฑ)๋ฅผ ํตํ ์ค๋ฅ ์์ธก, ์ถ๋ก ๊ฒฝ๋ก ์ผ๊ด์ฑ ํ๊ฐ ๋ฑ ํด์ ๋๊ตฌ ํ์ฉ. ์์ ์ฑ ํ๊ฐ์ ์ค์.
๊ฐ์ธ์ฑ ๋ฐ ์ ๋์ ํ ์คํธ
์ ๋์ ๊ณต๊ฒฉ์ ํตํด ๋ชจ๋ธ์ ์ทจ์ฝ์ ํ๊ฐ. Anthropic์ ์ ๋์ ํ๋ จ, CLOUDS ํ๋ ์์ํฌ ๋ฑ์ด ์.
์ค๋ฆฌ ๋ฐ ๊ท์ ํ๊ฐ
๊ฐ์ธ์ ๋ณด ๋ ธ์ถ, ํธํฅ์ฑ, ๊ณต์ ์ฑ ํ๊ฐ๊ฐ ๋ฒ์ ์๊ตฌ์ฌํญ์ผ๋ก ์๋ฆฌ์ก์. ์๋ฃ AI์ FDA ์น์ธ๊ณผ ์ ์ฌํ ํ๊ฐ ์ ์ฐจ ์์. ํ๊ฐ ๊ฒฐ๊ณผ์ ํฌ๋ช ์ฑ ๊ฐํ.
์ธ๊ฐ-AI ํ์ ํ๊ฐ
AI๊ฐ ์ธ๊ฐ๊ณผ ํ๋ ฅํ ๋ ํ ์ฑ๊ณผ ํ๊ฐ. ์: ์๋ฃ์ง๊ณผ LLM ํ์ ์ ์ ํ๋, ์๋, ์คํด ๊ฐ๋ฅ์ฑ ํ๊ฐ. HCI(์ธ๊ฐ-์ปดํจํฐ ์ํธ์์ฉ) ์ฐ๊ตฌ์ ์ฐ๊ณ.
ํฉ์ฑ ๋ฐ์ดํฐ ํ์ฉ ํ๊ฐ
LLM์ด ์ง์ ํ๊ฐ์ฉ ํ ์คํธ ๋ฐ์ดํฐ๋ฅผ ์์ฑํด ๋ฐ์ดํฐ ๋ถ์กฑ ๋ฌธ์ ์ํ. ํธํฅ๊ณผ ์ค๋ฅ ์ฃผ์ ํ์ํ๋ฉฐ, ์ธ๊ฐ ๊ฒํ ๋๋ ๋ค๋ฅธ ๋ชจ๋ธ ํํฐ๋ง ๋ณํ.
๋ฉํฐ๋ชจ๋ฌ ๋ฐ ์๋ฒ ๋๋ ํ๊ฐ
์ด๋ฏธ์ง, ์์, ๋ก๋ด ๋ฑ ๋ค์ํ ๋ชจ๋ฌ๋ฆฌํฐ ๊ฒฐํฉ ๋ชจ๋ธ ํ๊ฐ. ์: ์๊ฐ์ง๋ฌธ์๋ต(VQA), ๊ฐ์ํ๊ฒฝ ๋ด AI ์์ด์ ํธ ํ๊ฐ.
๋ฒค์น๋งํฌ ํผ๋ก๋ ๋ฐ ์๋ก์ด ํ๊ฐ ํจ๋ฌ๋ค์
๊ธฐ์กด ๋ฒค์น๋งํฌ ํ๊ณ ๊ทน๋ณต ์ํด ๋ํํ, ํ๋ฅ ์ ํ๊ฐ ๋์ . ์: ๋ชจ๋ธ ๋ต๋ณ์ ๋ฐ๋ผ ์ง๋ฌธ์ด ๋ฌ๋ผ์ง๋ ์ธํฐ๋ํฐ๋ธ ํ๊ฐ, ์ถ๋ ฅ ๋ค์์ฑ ๋ฐ ์คํจ ํ๋ฅ ์ธก์ .
์ปค๋ฎค๋ํฐ ๋ฐ ํฌ๋ผ์ฐ๋์์ฑ ํ๊ฐ
์ฌ์ฉ์๋ค์ด ๋ชจ๋ธ์ ์ํํด ์คํจ ์ฌ๋ก๋ฅผ ์์ง, ๋ฒค์น๋งํฌ์ ๋ฐ์ํ๋ ๋์ ํ๊ฐ.
์ค๋ช ๊ฐ๋ฅ์ฑ ํ๊ฐ
๋ชจ๋ธ ๋ต๋ณ๋ฟ ์๋๋ผ ๋ต๋ณ ๊ทผ๊ฑฐ ์ค๋ช ์ ์ง๋ ํ๊ฐ. ๋ ผ๋ฆฌ์ ์ผ๊ด์ฑ, ์ ์ฉ์ฑ ๋ฑ ์ธก์ .
References
Last updated