Reference

고품질 데이터 구축 사례

고난도 설계에 기반한 주요 구축 사례를 알아보고 비즈니스에 도입하세요.

역사[도메인 학습] RAG 기반 디지털 휴먼 QA 데이터

RAG 기반 디지털 휴먼 QA 데이터


● 도메인 : 역사

● 구축 인원 : 근현대사 관련 학위 소유자

● 데이터 구조 : 싱글턴 질의응답 데이터 

● 칼럼 구조 : 데이터 정보 - 질의대상, 질의, 답변, 화행, 시나리오 주제, 민감 여부, 금지어 사용 여부, 수정 방향(사실 왜곡, 문장 표현)
                        : 사용자 정보 - 지역, 학교, 나이, 성별 

● 데이터 상태 : 고객 맞춤형으로 가공 가능


[데이터 소개]

생성형 AI 기반 디지털 휴먼 구현을 위해 RAG 방식을 활용한 보훈 인물 특화 질의응답 데이터셋입니다.

초중고 학생들의 실제 질문을 기반으로 구축하여 교육 현장에서의 생생한 수요를 반영하고 있으며, 역사적 사실과 인물의 서사를 충분히 담아내면서도 현대 학생들과 자연스러운 소통이 가능하도록 인물의 페르소나를 설계했습니다. 또한, 부적절한 질의에 대해 단순 회피가 아닌 다양한 대응방식을 구사하거나 다른 주제로 유도함으로써, 대화 흐름을 끊지 않고 상호작용이 가능하도록 구축하였습니다.


[데이터 특징]

사용자 질의를 역사적 사실, 가치 판단, 감정 표현, 불용주제 등 체계적으로 분류하여 각 유형에 적합한 응답 패턴을 구축했습니다. 특히 역사적 인물이 현대 사회에서 소통할 때 발생할 수 있는 시대적 간극을 고려하여 일관성 있는 캐릭터를 구현할 수 있도록 페르소나를 설계하였습니다.
RAG 기술을 활용해 생성한 답변은 전문가 검수를 통해 할루시네이션을 검증하여 정확성과 신뢰성을 확보합니다. 

특히 사실 왜곡과 표현 개선을 구분하여 라벨링함으로써 RAG 시스템의 검색 및 생성 단계별 성능 평가와 개선이 가능합니다. 불용질의에 대해서는 인물의 성격과 시대적 배경을 반영한 다양한 대응 방식을 구현하여, 학생들의 실제 궁금증과 정교한 페르소나 설계가 결합된 대화의 연속성을 유지합니다.


[샘플 데이터]

샘플 데이터 보기