Reference

고품질 데이터 구축 사례

고난도 설계에 기반한 주요 구축 사례를 알아보고 비즈니스에 도입하세요.

공통[모델 평가] 생성형 AI 정성평가 데이터셋

생성형 AI 정성평가 데이터셋


● 도메인 : 공통

● 구축 인원 : 초거대 AI 프로젝트 경력자 

● 데이터 구조 : 싱글턴 질의응답 데이터 

● 칼럼 구조 : 대분류, 중분류, 질문, 정답, 문항별 평가 가이드

● 데이터 상태 : 고객 맞춤형으로 가공 가능


[데이터 소개]

LLM의 성능을 정성적으로 평가하기 위해 수험서, 개론서, 시험 기출 문제 등을 활용해 구축한 한국어 특화 벤치마크 데이터셋으로, 한국어 이해력, 상식, 추론, 할루시네이션 대응, 수학적 사고력, 업무 상황 대처 등 다양한 영역에서의 성능을 종합적으로 평가할 수 있도록 18개 세부 유형의 질문셋으로 구성되어 있습니다.

각 질문은 '적합성', '안전성', '페르소나 적합성', '흥미성', '사실성' 등의 다각적 평가 지표를 통해 모델의 응답 품질을 세밀하게 분석할 수 있도록 설계되었습니다. 특히 한국 특화 정보와 문화적 맥락을 반영한 문항들을 포함하여 한국어 서비스 최적화에 유용한 평가 기준을 제공합니다.


[데이터 특징]

LLM의 한국어 이해 및 생성 능력을 평가하기 위한 7개 카테고리, 18개 세부 유형의 질문셋으로 구성하였습니다.

기본적인 언어 요소 처리부터 복잡한 추론 과정까지 단계적으로 평가할 수 있도록 설계하였으며, 한국어의 언어적 특성과 문화적 요소를 고려한 문항들을 포함합니다. 분야별 지식과 실무환경에서의 활용성을 함께 검증할 수 있고, AI 모델이 불명확한 정보나 잘못된 전제에 기반한 질문에 대응하는 방식을 평가하는 문항들을 통해 실제 서비스 환경에서의 안전성을 확인할 수 있습니다.

각 문항에 대해 적합성, 구체성, 안전성 등 다양한 평가 지표를 통해 모델의 성능을 종합적으로 분석하고 개선 방향을 도출합니다.


[샘플 데이터]

샘플 데이터 보기