LLM 종합 성능 평가 벤치마크 데이터셋
● 도메인 : 공통
● 구축 인원 : 초거대 AI 프로젝트 경력자 / 전문 번역가 / 언어학 학위 소유자
● 데이터 구조 : 싱글턴 질의응답 데이터
● 칼럼 구조 : 카테고리, 질문, 보기, 정답, 난이도 / 개별 칼럼은 데이터셋마다 상이함
● 데이터 상태 : 고객 맞춤형으로 가공 가능
[데이터 소개]
한국어 기반 LLM의 성능을 정량적으로 평가하기 위해 구축된 벤치마크 데이터셋으로, ARC, HellaSwag, MMLU, TruthfulQA 등 글로벌 표준으로 사용되는 벤치마크와 함께 WiC(단어 의미 식별), BoolQ(Y/N 질문), CoPA(인과 관계 추론) 등 다양한 평가 지표를 한국어 환경에 맞게 적용하였습니다.
단순 번역이 어려운 문화적 특수성이 있는 항목들은 한국 상황에 맞는 신규 문항으로 대체하여 한국어 LLM의 언어직 이해력과 추론 능력을 보다 정확하게 측정할 수 있도록 설계함으로써, 한국어 기반 LLM의 강점과 약점을 파악할 수 있는 객관적인 지표를 제공합니다.
[데이터 특징]
국내 환경에 맞춘 한국어 LLM 평가 체계로, 단순한 번역을 넘어 문화적 맥락을 반영한 벤치마크 데이터셋입니다. 번역 과정에서 단위 체계부터 지명, 인명, 관용구는 물론 정치 체제, 전문 용어에 이르기까지 한국적 맥락에 맞게 변환하였습니다.
특히, 원본 벤치마크에서 부족했던 한국 역사나 문화, 언어 관련 문항을 신규로 구축하는 등 한국 고유의 영역을 확장했습니다. 이러한 현지화 작업을 통해 한국어 기반 LLM의 성능을 보다 정확하게 측정할 수 있으며, 글로벌 벤치마크의 틀을 유지하면서 한국 특유의 언어적, 문화적 특성을 반영한 종합적인 평가가 가능합니다.
[샘플 데이터]
▶ 샘플 데이터 보기
LLM 종합 성능 평가 벤치마크 데이터셋
● 도메인 : 공통
● 구축 인원 : 초거대 AI 프로젝트 경력자 / 전문 번역가 / 언어학 학위 소유자
● 데이터 구조 : 싱글턴 질의응답 데이터
● 칼럼 구조 : 카테고리, 질문, 보기, 정답, 난이도 / 개별 칼럼은 데이터셋마다 상이함
● 데이터 상태 : 고객 맞춤형으로 가공 가능
[데이터 소개]
한국어 기반 LLM의 성능을 정량적으로 평가하기 위해 구축된 벤치마크 데이터셋으로, ARC, HellaSwag, MMLU, TruthfulQA 등 글로벌 표준으로 사용되는 벤치마크와 함께 WiC(단어 의미 식별), BoolQ(Y/N 질문), CoPA(인과 관계 추론) 등 다양한 평가 지표를 한국어 환경에 맞게 적용하였습니다.
단순 번역이 어려운 문화적 특수성이 있는 항목들은 한국 상황에 맞는 신규 문항으로 대체하여 한국어 LLM의 언어직 이해력과 추론 능력을 보다 정확하게 측정할 수 있도록 설계함으로써, 한국어 기반 LLM의 강점과 약점을 파악할 수 있는 객관적인 지표를 제공합니다.
[데이터 특징]
국내 환경에 맞춘 한국어 LLM 평가 체계로, 단순한 번역을 넘어 문화적 맥락을 반영한 벤치마크 데이터셋입니다. 번역 과정에서 단위 체계부터 지명, 인명, 관용구는 물론 정치 체제, 전문 용어에 이르기까지 한국적 맥락에 맞게 변환하였습니다.
특히, 원본 벤치마크에서 부족했던 한국 역사나 문화, 언어 관련 문항을 신규로 구축하는 등 한국 고유의 영역을 확장했습니다. 이러한 현지화 작업을 통해 한국어 기반 LLM의 성능을 보다 정확하게 측정할 수 있으며, 글로벌 벤치마크의 틀을 유지하면서 한국 특유의 언어적, 문화적 특성을 반영한 종합적인 평가가 가능합니다.
[샘플 데이터]
▶ 샘플 데이터 보기