실사용자 기반 그룹사 지식 QA 데이터셋
● 도메인 : 사내 챗봇
● 구축 인원 : 데이터 분석 자격증 소유자
● 데이터 구조 : 싱글턴 질의응답 데이터
● 칼럼 구조 : 카테고리(기업/경쟁사), 질문(Q), 정답(TA), 오답(FA)
● 데이터 상태 : 고객 맞춤형으로 가공 가능
[데이터 소개]
사내 챗봇 시스템의 질의응답 성능 향상과 임직원의 업무 효율성 제고를 위해 구축한 QA 데이터셋으로, 챗봇 로그에서 추출한 실제 사용자 질문과 이에 대한 정확한 답변, 유사하지만 부정확한 답변으로 구성되어 있습니다.
기업, 계열사, 경쟁사, 시장 정보를 체계적으로 정리하여 임직원의 다양한 정보 요구에 효과적으로 대응할 수 있도록 설계되었으며, 각 답변은 기업, 계열사, 경쟁사 관련 공식 문서 및 신뢰할 수 있는 출처를 바탕으로 전문가가 직접 작성하여 정확성과 신뢰성을 보장합니다.
[데이터 특징]
실제 사내 챗봇 사용 로그에서 추출한 질문을 기반으로 하여 실무 현장의 정보 요구를 정확히 반영하며, 그룹사 간 클러스터링과 분석을 통해 조직 구조와 사업 영역별 특성을 구분하여 정보를 구조화했습니다. 또한 DART, ESG 경영보고서, 브로슈어, 홈페이지, 언론 보도, 위키 등 다양한 공신력 있는 출처에서 그룹사 및 경쟁사 관련 정보를 수집하여 데이터의 신뢰성을 확보합니다.
질문(Q), 정답(TA), 오답(FA)으로 구성된 세트로 구성되며, 다양한 문장 구조와 어휘 변형에 유연하게 대응할 수 있도록 다섯 가지 방식으로 패러프레이징되었습니다. 특히 정오답 반대 생성을 통한 교차 검증을 통해 데이터의 일관성과 정확성을 강화하였습니다.
[샘플 데이터]
▶ 샘플 데이터 보기
실사용자 기반 그룹사 지식 QA 데이터셋
● 도메인 : 사내 챗봇
● 구축 인원 : 데이터 분석 자격증 소유자
● 데이터 구조 : 싱글턴 질의응답 데이터
● 칼럼 구조 : 카테고리(기업/경쟁사), 질문(Q), 정답(TA), 오답(FA)
● 데이터 상태 : 고객 맞춤형으로 가공 가능
[데이터 소개]
사내 챗봇 시스템의 질의응답 성능 향상과 임직원의 업무 효율성 제고를 위해 구축한 QA 데이터셋으로, 챗봇 로그에서 추출한 실제 사용자 질문과 이에 대한 정확한 답변, 유사하지만 부정확한 답변으로 구성되어 있습니다.
기업, 계열사, 경쟁사, 시장 정보를 체계적으로 정리하여 임직원의 다양한 정보 요구에 효과적으로 대응할 수 있도록 설계되었으며, 각 답변은 기업, 계열사, 경쟁사 관련 공식 문서 및 신뢰할 수 있는 출처를 바탕으로 전문가가 직접 작성하여 정확성과 신뢰성을 보장합니다.
[데이터 특징]
실제 사내 챗봇 사용 로그에서 추출한 질문을 기반으로 하여 실무 현장의 정보 요구를 정확히 반영하며, 그룹사 간 클러스터링과 분석을 통해 조직 구조와 사업 영역별 특성을 구분하여 정보를 구조화했습니다. 또한 DART, ESG 경영보고서, 브로슈어, 홈페이지, 언론 보도, 위키 등 다양한 공신력 있는 출처에서 그룹사 및 경쟁사 관련 정보를 수집하여 데이터의 신뢰성을 확보합니다.
질문(Q), 정답(TA), 오답(FA)으로 구성된 세트로 구성되며, 다양한 문장 구조와 어휘 변형에 유연하게 대응할 수 있도록 다섯 가지 방식으로 패러프레이징되었습니다. 특히 정오답 반대 생성을 통한 교차 검증을 통해 데이터의 일관성과 정확성을 강화하였습니다.
[샘플 데이터]
▶ 샘플 데이터 보기