한국어 LLM 평가의 난제

이전에 TFC Summit에서 발표한 내용과 LLM Evaluation Overview 내용을 기반으로 한국어 Evaluation의 난제를 정리하였음/

1. Challenges

1.1. 언어적 특성으로 인한 어려움

형태론적 복잡성

교착어적 특성: 한국어는 어근에 다양한 접사가 결합되어 의미가 변화하므로, 정확한 분석이 어려움
불규칙 활용: 용언의 불규칙 활용 패턴이 많아 정확한 형태소 분석과 품사 태깅이 복잡
복합어 처리: 복합어의 경계 설정과 의미 파악이 어려움

문법적 특성

어순의 자유도: SOV 기본 어순이지만 문맥에 따라 어순이 바뀔 수 있어 구문 분석이 복잡
조사 시스템: 다양한 조사의 의미적 기능과 생략 현상으로 인한 해석의 어려움
높임법: 화자와 청자, 주체와 객체의 관계에 따른 복잡한 경어법 체계

의미론적 특성

맥락 의존성: 한국어는 맥락에 크게 의존하므로 단순한 표면적 분석으로는 정확한 평가 어려움
생략 현상: 주어, 목적어 등의 생략이 빈번하여 의미 파악에 추가적인 추론 필요
중의성: 동일한 표현이 문맥에 따라 다른 의미를 가질 수 있음

1.2. Evaluation Dataset

데이터셋

절대적 규모 부족: 영어 대비 한국어 평가용 데이터셋의 양적 부족
도메인 편중: 특정 도메인(뉴스, 문학 등)에 편중된 데이터로 인한 일반화 한계
품질 문제: 크라우드소싱 기반 데이터의 품질 관리 어려움

다양성 부족

장르 다양성: 구어체, 문어체, 방언, 신조어 등 다양한 언어 변종 부족
주제 다양성: 특정 주제에 편중된 데이터로 인한 평가의 편향성
난이도 분포: 쉬운 문제부터 어려운 문제까지 균등한 난이도 분포 부족. 특히 한국어의 경우 오히려 쉬운 문제를 더 어려워하는 현상도 종종 있음.

표준화 문제

평가 기준 불일치: 연구자마다 다른 평가 기준과 방법론 사용
데이터 포맷 비표준화: 일관된 데이터 포맷의 부재로 인한 재현성 문제
라벨링 일관성: 주관적 평가 요소가 많아 라벨링 일관성 확보 어려움

인간 평가의 한계

비용과 시간: 대규모 평가를 위한 높은 비용과 시간 소요
전문성 요구: 언어학적 전문 지식을 요구하는 평가 항목들

문화적 맥락 평가

문화적 뉘앙스: 한국 문화에 특화된 표현과 관용구의 이해도 평가 어려움
사회적 맥락: 한국 사회의 특수한 상황과 관습에 대한 이해 평가 복잡
시대적 변화: 빠르게 변화하는 언어 사용 패턴과 신조어에 대한 대응 어려움

1.3. 윤리적 고려 사항

편향성

성별 편향: 한국어 텍스트에 내재된 성별 편향 문제
지역 편향: 표준어 중심의 평가로 인한 지역 방언 소외
세대 편향: 특정 세대의 언어 사용 패턴에 편중된 평가

프라이버시

개인정보 보호: 평가 데이터에 포함된 개인정보 보호
동의 절차: 데이터 수집과 사용에 대한 적절한 동의 절차
데이터 보안: 평가 데이터의 안전한 관리와 보안

2. 향후 개선 방향 Ideation

2.1. 데이터 확충

다양한 도메인: 다양한 도메인의 고품질 데이터 구축
크라우드소싱: 효율적인 크라우드소싱 시스템 구축
자동 생성: 고품질 합성 데이터 생성 기술 개발

2.2. 평가 방법론 개선

다차원 평가: 종합적이고 다차원적인 평가 프레임워크 개발
적응적 평가: 모델의 특성에 맞는 적응적 평가 방법 개발
실시간 평가: 동적이고 실시간적인 평가 시스템 구축

2.3. 표준화 노력

평가 표준: 한국어 LLM 평가를 위한 표준 프레임워크 개발
벤치마크: 표준화된 벤치마크 데이터셋 구축
메트릭: 한국어 특성을 반영한 평가 메트릭 개발

PreviousOverview Next[Paper review] KMMLU/KMMLU-Redux/KMMLU-Pro Dataset

Last updated 7 months ago