Reference

고품질 데이터 구축 사례

고난도 설계에 기반한 주요 구축 사례를 알아보고 비즈니스에 도입하세요.

금융·보험[도메인 학습] RAG 기반 금융·보험 질의응답 데이터셋

RAG 기반 금융·보험 질의응답 데이터셋


● 도메인 : 금융·보험

● 구축 인원 : MBTI 유형별 2030대 남녀

● 데이터 구조 : 싱글턴 질의응답 데이터 

● 데이터 형태 : PQA(Passage-Question-Answer)

● 칼럼 구조 : 문서 제목, 파일명, 지문(passage), 질문(question), 답변(answer), 변형질문(paraphrased Q), 문서 외 질문(Impossible Q)

● 데이터 상태 : 고객 맞춤형으로 가공 가능


[데이터 소개]

생성형 AI에 활용하기 위해 보험 및 금융 도메인의 내부 문서를 디지털화하여 구축한 QA 데이터셋으로, 다양한 형식의 원본 문서에서 텍스트와 표를 추출하고 후처리 및 검수 과정을 거쳐 디지털 자산으로 변환하였습니다.

원본 문서에서 추출된 텍스트 및 표 형태의 정보를 기반으로 질문과 답변이 연결된 PQA(Passage-Question-Answer) 형태로 설계하였으며, 오답 생성을 방지하기 위해 문서에서 답을 찾을 수 없는 유사 질문을 추가 구축하였습니다.


[데이터 특징]

이 데이터셋은 금융 및 보험 분야의 정보 신뢰성과 정확성을 최우선으로 고려하여 구축되었습니다. 초기 구축한 QA 데이터셋을 학습시킨 후 LLM이 생성한 답변을 다시 검수하고 수정하는 품질 개선 과정을 거쳤고, 이 과정에서 발견된 오류나 개선점은 데이터셋에 반영되어 재학습이 이루어졌습니다.

또한 생성형 AI가 확실한 정보만을 제공하고 불확실하거나 문서 내에서 확인할 수 없는 내용에 대해서는 답변을 제한할 수 있도록, 문서와 관련은 있으나 해당 문서 내에서는 답변을 찾을 수 없는 질문 유형을 포함하였습니다.


[샘플 데이터]

샘플 데이터 보기