대기업, 금융기관, 공공기관 등 국내 AI 선도 고객사와 함께한 레퍼런스를 소개합니다.

초거대AI 모델을 위한 한국어 학습데이터 구축

조회수 1016








데이터 레이블링(Labeled corpus), 문장 생성
초거대AI 모델을 위한 한국어 학습데이터 구축




고객사




산업분류데이터량가공난이도
IT/공학데이터셋 8,000개





담당자






강민선, 김수진, 조아임, 현은진





고객사의 고민

고객사는 추론, 분류, 질답 등 다양한 자연어 작업에 활용할 수 있는 100억 개 이상의 파라미터를 가진 초대규모 한국어 모델을 개발했습니다. 이 모델은 전문성을 요하는 추가 작업 없이 비전문가들도 다양한 한국어 문장 처리에 적용할 수 있도록 제공될 예정이었습니다. 초거대 AI 모델의 효율적인 추론을 가능하게 하는 서빙 시스템도 보유하고 있지만 주 모델 언어가 영어였고 이를 변환, 번역해서 사용할 수 없었기에 한국어로 된 학습 데이터 구축이 필요했습니다.

영어 데이터를 번역해서 사용할 수 없었던 이유는 번역했을 때 데이터의 높은 품질을 기대할 수 없었기 때문입니다. 한국어의 특성을 고려한 데이터 구축이 필요했습니다.  


TEXTNET의 솔루션

데이터 구축 시 공통적으로 다양한 내용이 나올 수 있도록 주제, 문체 등을 설정하고 균일한 비율로 데이터 구축을 진행했습니다. 일상생활에서 자주 쓰는 단어 위주로 구축하기 위해 한국어의 다양한 동형어를 수집하여 사전으로 구축했습니다. 이를 활용한 문장에서는 동형어가 어떤 의미로 사용되었는지에 대한 라벨링이 함께 진행되었습니다.

넓은 범위의 맥락을 고려하여 핵심을 추론해낼 수 있는 데이터를 목표로 구축했습니다. 추론은 직접 생각하면서 답을 찾아가는 영역이기 때문에 다량의 저품질 데이터가 아닌 고품질 데이터를 구축하는 것이 관건입니다.

그래서 TEXTNET은 원문에서 핵심이 되면서 추론이 가능한 단어(이하 타겟 단어)를 지정했습니다. 핵심의 옳고 그름은 ‘빈 칸에 들어갈 말은?’과 같은 형태로 문제를 제시하였을 때 단일 정답이 나올 수 있는가를 통해 판단했습니다. 정답을 맞추는 과정에서 추론을 하게 되고, 그 결과로 올바른 정답이 나오는가로 추론 가능성을 판단한 것입니다.

더불어 추론 난이도를 상/중/하로 분류하여 단순한 추론부터 복잡한 추론까지 가능하도록 설계했습니다.

마지막으로 데이터에 반드시 필요한 성분이었기 때문에 문장이 다소 어색할 수 있음을 감안하고 대명사를 사용하여 문장을 생성했습니다. 단, 어색함을 최소화하기 위해 가이드라인을 제시해 관리했습니다.



TEXTNET은...

국문학, 언어학, 심리학 석·박사를 포함한 전문 인력으로 구성된 언어전문가 그룹으로서, 
고객사의 니즈에 부합하는 텍스트 데이터를 설계·가공·구축하고
내부 R&D를 통해 설계 방식을 지속적으로 개선하여 최적의 설계 방법을 제안합니다.
프로젝트 목적에 따라 적합한 숙련 작업자를 선별하여 투입하고,
체계적이고 효율적으로 고품질의 학습데이터를 생산합니다.


>> 서비스 문의하러 가기