대기업, 금융기관, 공공기관 등 국내 AI 선도 고객사와 함께한 레퍼런스를 소개합니다.

RASA 엔진 사내 업무지원 챗봇 학습 데이터셋 구축기

조회수 680








싱글턴 대화 데이터 구축
RASA 엔진 사내 업무지원 챗봇 학습 데이터셋 구축기




고객사




산업분류데이터량가공난이도
공공기관데이터셋 
약 1만6천5백개





담당자






임소은, 김예슬, 오영환, 이승민





고객사의 고민

RASA 엔진을 활용하여 사내 업무지원 챗봇 개발을 연구하는 프로젝트였습니다. 해당 챗봇에 들어갈 인텐트/엔티티 설계 및 학습 데이터셋을 구축하는 것이 목표였습니다.

업무지원을 위한 매뉴얼 내용을 파악하여 인텐트 및 엔티티가 설계되어야 했고, 업무지원 NLU 학습을 위한 유사질문 데이터셋 구축량이 적어 인텐트당 15문장에서 30문장 이상으로 문장 수량 추가가 필요했습니다. 엑셀로 된 설계서를 RASA에서 사용할 수 있도록 변환하는 프로그램 개발도 필수적이었습니다.

문서 내용이 쉽지 않은 편이었고 겹치는 키워드가 많아서 학습데이터를 구축하는 데 충분한 고민이 필요했습니다. 또한 UI가 없는 챗봇의 데이터를 구축하다 보니 챗봇 정확도나 답변을 내보내는 방식을 알기가 어려워 설계와 데이터 구축 단계에서 어려움이 있었습니다. 엑셀 설계서를 변환하는 프로그램 개발 과정에서 오류가 계속 발생하기도 했습니다. 


TEXTNET의 솔루션

TEXTNET은 다양한 문장 구축보다는 겹치는 키워드 위주로 인텐트와 엔티티를 관리하며 챗봇의 답변 정확도를 높이는 방향으로 작업을 진행했습니다. 더불어 고객사와의 소통을 늘리고 꾸준한 질의를 통해 어려운 부분들을 해결해나갔습니다.

변환 프로그램 개발 과정에서는 설계서 버전 관리를 체계화하여 지속적인 중간 테스트로 오류를 줄여나가고, 데이터가 많아진 후에는 자동으로 놓친 부분을 확인할 수 있는 함수를 설정하여 검수 시간을 줄였습니다. PM과 기술진의 빠른 소통으로 설계 내용과 프로그램 사이의 이슈를 함께 관리하였습니다. 




TEXTNET은...

국문학, 언어학, 심리학 석·박사를 포함한 전문 인력으로 구성된 언어전문가 그룹으로서, 
고객사의 니즈에 부합하는 텍스트 데이터를 설계·가공·구축하고
내부 R&D를 통해 설계 방식을 지속적으로 개선하여 최적의 설계 방법을 제안합니다.
프로젝트 목적에 따라 적합한 숙련된 크루를 선별하여 투입하고,
체계적이고 효율적으로 고품질의 학습데이터를 생산합니다.


>> 서비스 문의하러 가기


사업자명. 주식회사 스피링크 | 대표자명. 고경민

E-mail. cs@textnet.kr

Addr. 서울시 용산구 한강대로 366 트윈시티 남산 오피스동 패스트파이브 서울역점 807호, 812호

Biz License. 827-86-00073