생성형 AI 정성평가 데이터셋
● 도메인 : 공통
● 구축 인원 : 초거대 AI 프로젝트 경력자
● 데이터 구조 : 싱글턴 질의응답 데이터
● 칼럼 구조 : 대분류, 중분류, 질문, 정답, 문항별 평가 가이드
● 데이터 상태 : 고객 맞춤형으로 가공 가능
[데이터 소개]
LLM의 성능을 정성적으로 평가하기 위해 수험서, 개론서, 시험 기출 문제 등을 활용해 구축한 한국어 특화 벤치마크 데이터셋으로, 한국어 이해력, 상식, 추론, 할루시네이션 대응, 수학적 사고력, 업무 상황 대처 등 다양한 영역에서의 성능을 종합적으로 평가할 수 있도록 18개 세부 유형의 질문셋으로 구성되어 있습니다.
각 질문은 '적합성', '안전성', '페르소나 적합성', '흥미성', '사실성' 등의 다각적 평가 지표를 통해 모델의 응답 품질을 세밀하게 분석할 수 있도록 설계되었습니다. 특히 한국 특화 정보와 문화적 맥락을 반영한 문항들을 포함하여 한국어 서비스 최적화에 유용한 평가 기준을 제공합니다.
[데이터 특징]
LLM의 한국어 이해 및 생성 능력을 평가하기 위한 7개 카테고리, 18개 세부 유형의 질문셋으로 구성하였습니다.
기본적인 언어 요소 처리부터 복잡한 추론 과정까지 단계적으로 평가할 수 있도록 설계하였으며, 한국어의 언어적 특성과 문화적 요소를 고려한 문항들을 포함합니다. 분야별 지식과 실무환경에서의 활용성을 함께 검증할 수 있고, AI 모델이 불명확한 정보나 잘못된 전제에 기반한 질문에 대응하는 방식을 평가하는 문항들을 통해 실제 서비스 환경에서의 안전성을 확인할 수 있습니다.
각 문항에 대해 적합성, 구체성, 안전성 등 다양한 평가 지표를 통해 모델의 성능을 종합적으로 분석하고 개선 방향을 도출합니다.
[샘플 데이터]
▶ 샘플 데이터 보기
생성형 AI 정성평가 데이터셋
● 도메인 : 공통
● 구축 인원 : 초거대 AI 프로젝트 경력자
● 데이터 구조 : 싱글턴 질의응답 데이터
● 칼럼 구조 : 대분류, 중분류, 질문, 정답, 문항별 평가 가이드
● 데이터 상태 : 고객 맞춤형으로 가공 가능
[데이터 소개]
LLM의 성능을 정성적으로 평가하기 위해 수험서, 개론서, 시험 기출 문제 등을 활용해 구축한 한국어 특화 벤치마크 데이터셋으로, 한국어 이해력, 상식, 추론, 할루시네이션 대응, 수학적 사고력, 업무 상황 대처 등 다양한 영역에서의 성능을 종합적으로 평가할 수 있도록 18개 세부 유형의 질문셋으로 구성되어 있습니다.
각 질문은 '적합성', '안전성', '페르소나 적합성', '흥미성', '사실성' 등의 다각적 평가 지표를 통해 모델의 응답 품질을 세밀하게 분석할 수 있도록 설계되었습니다. 특히 한국 특화 정보와 문화적 맥락을 반영한 문항들을 포함하여 한국어 서비스 최적화에 유용한 평가 기준을 제공합니다.
[데이터 특징]
LLM의 한국어 이해 및 생성 능력을 평가하기 위한 7개 카테고리, 18개 세부 유형의 질문셋으로 구성하였습니다.
기본적인 언어 요소 처리부터 복잡한 추론 과정까지 단계적으로 평가할 수 있도록 설계하였으며, 한국어의 언어적 특성과 문화적 요소를 고려한 문항들을 포함합니다. 분야별 지식과 실무환경에서의 활용성을 함께 검증할 수 있고, AI 모델이 불명확한 정보나 잘못된 전제에 기반한 질문에 대응하는 방식을 평가하는 문항들을 통해 실제 서비스 환경에서의 안전성을 확인할 수 있습니다.
각 문항에 대해 적합성, 구체성, 안전성 등 다양한 평가 지표를 통해 모델의 성능을 종합적으로 분석하고 개선 방향을 도출합니다.
[샘플 데이터]
▶ 샘플 데이터 보기