초거대AI 모델을 위한 한국어 학습데이터 구축기

1일전
조회수 144








데이터 레이블링(Labeled corpus), 문장 생성
초거대AI 모델을 위한 한국어 학습데이터 구축기



고객사




산업분류데이터량가공난이도
IT/공학데이터셋 8,000개





담당자






강민선, 김수진, 조아임, 현은진





고객사의 고민

고객사는 추론, 분류, 질답 등 다양한 자연어 작업에 활용할 수 있는 100억 개 이상의 파라미터를 가진 초대규모 한국어 모델을 개발했습니다. 이 모델은 전문성을 요하는 추가 작업 없이 비전문가들도 다양한 한국어 문장 처리에 적용할 수 있도록 제공될 예정이었습니다. 초거대 AI 모델의 효율적인 추론을 가능하게 하는 서빙 시스템도 보유하고 있지만 주 모델 언어가 영어였고 이를 변환, 번역해서 사용할 수 없었기에 한국어로 된 학습 데이터 구축이 필요했습니다.

영어 데이터를 번역해서 사용할 수 없었던 이유는 번역했을 때 데이터의 높은 품질을 기대할 수 없었기 때문입니다. 아래와 같은 한국어의 특성을 고려한 데이터 구축이 필요했습니다. 

  1. 영어와 한국어는 언어체계가 근본적으로 다를 뿐 아니라 같은 상황이라도 다르게 표현하게 하는 인지구조의 차이가 분명하다.
  2. 한국어는 고맥락 문화권에 속한 언어이므로, 내용을 전달할 때 언어 보다는 맥락에 의존한다.
  3. 한국어는 문체가 다양하다.


TEXTNET의 솔루션

데이터 구축 시 공통적으로 다양한 내용이 나올 수 있도록 주제, 문체 등을 설정하고 균일한 비율로 데이터 구축을 진행했습니다. 일상생활에서 자주 쓰는 단어 위주로 구축하기 위해 고유어, 한자어, 외래어, 일반적으로 사용되는 줄임말 등을 포함하여 한국어의 다양한 동형어를 수집하여 사전으로 구축했습니다.(* 국립국어원 자료(2005) '한국어 어취 사용 빈도 조사' 자료를 기반으로, 사용 빈도가 높은 동형어 순으로 데이터 구축) 이를 활용한 문장에서는 동형어가 어떤 의미로 사용되었는지에 대한 라벨링이 함께 진행되었습니다.

  • 예시1)
    - 를 타러 항구로 가고 있어. (동일 의미)
    - 암석에 부딪혀 가 침몰하였다. (동일 의미)
  • 예시2)
    - 설계 구조를 조금 바꿔야 할지도 모르겠어요. (다른 의미)
    - 조난된 대원들을 모두 구조 완료하였습니다. (다른 의미)


넓은 범위의 맥락을 고려하여 핵심을 추론해낼 수 있는 데이터를 목표로 구축했습니다. 추론은 직접 생각하면서 답을 찾아가는 영역이기 때문에 다량의 저품질 데이터가 아닌 고품질 데이터를 구축하는 것이 관건입니다.

그래서 TEXTNET은 원문에서 핵심이 되면서 추론이 가능한 단어(이하 타겟 단어)를 지정했습니다. 핵심의 옳고 그름은 ‘빈 칸에 들어갈 말은?’과 같은 형태로 문제를 제시하였을 때 단일 정답이 나올 수 있는가를 통해 판단했습니다. 정답을 맞추는 과정에서 추론을 하게 되고, 그 결과로 올바른 정답이 나오는가로 추론 가능성을 판단한 것입니다.

  • 예시 (단일 정답) : ‘맥락’, ‘내용’, ‘발화’ 등이 타겟 단어 후보가 될 수 있지만 첫 단락 [맥락적인 특성을 분석하여 그 자료를 구축하고 한국어 교육에 활용하는 데에 도움을 주고자 하였다.]를 통해 '맥락'이 가장 적합한 타겟 단어임을 알 수 있음.

    "외국어 학습자들의 발화를 대상으로 맥락적인 특성을 분석하여 그 자료를 구축하고 한국어 교육에 활용하는 데에 도움을 주고자 하였다. 이를 위해 맥락의 구성 요소들을 상황적 요인, 형식적 요인, 내용적 요인으로 분류하여 설정하고 그에 따라 학습자들의 발화를 분석하였다. 상황적 요인에서는 공적 장면에서 담화 참여자와의 관계에서 친밀도가 낮을수록 장형 부정을 많이 사용하는 것을 확인할 수 있었다. 형식적 요인에서는 담화 유형 중 일상대화에서 그리고 비격식체 사용역에서 단형 부정을 많이 사용하는 것을 볼 수 있었다. 내용적 요인에서는 담화 의도나 담화 주제에 따라 장·단형 사용 차이를 보이나 담화 주제보다는 담화 유형에 더 큰 영향을 받는다는 _ _ 의 특성을 파악할 수 있었다."

  • 예시 (복수 정답)  : 타겟 단어는 ‘사람’, ‘인간’, ‘성질’ 등이 될 수 있으며 이 중 가장 적합한 단어가 없음.

    "인간은 유소년기, 청년기, 장년기, 중년기, 노년기, 사후 등등의 시간축을 통과하면서 이름에 의해 동일성을 유지하면서 생활하고 또 남에게 동일성을 지닌 인물로 기억된다. 한 인간의 본래 이름은 씨족공동체나 한 가정 속에서 직접 지시의 힘을 지닌 고유명사로, 성질 분석과 확정 기술을 초월한다. 하지만 인간은 성장하면서 자신의 여러 성질을 획득해나가다가, 성격, 위상, 지향 등의 성질을 개선하거나 변혁시킬 수 있다. 옛 사람들은 그 전환의 시기에 새로운 _ _ 으로서의 호를 스스로 짓거나 타인으로부터 지어 받았다."


더불어 추론 난이도를 상/중/하로 분류하여 단순한 추론부터 복잡한 추론까지 가능하도록 설계했습니다.

영어에서는 어순이 중요한 것처럼 한국어에서는 조사에 따라 문장의 의미가 달라지기도 합니다. 그래서 추론이 가능하게 하는 요건에는 한국어의 다양한 조사(격조사, 보조사 등)가 포함됩니다. 이들은 앞에 오는 단어의 문법적 의미를 더해주기 때문에 여러 내용이 혼재되어 있어 추론이 어려운 경우에도 조사를 힌트로 삼으면 충분히 추론이 가능합니다. 조사 뿐만 아니라 문장 내용만으로도 추론이 가능하도록 이를 뒷받침하는 근거(지식)를 포함했습니다.

마지막으로 데이터에 반드시 필요한 성분이었기 때문에 문장이 다소 어색할 수 있음을 감안하고 대명사를 사용하여 문장을 생성했습니다. 단, 어색함을 최소화하기 위해 가이드라인을 제시해 관리했습니다.



TEXTNET은...

국문학, 언어학, 심리학 석·박사를 포함한 전문 인력으로 구성된 언어전문가 그룹으로서, 
고객사의 니즈에 부합하는 텍스트 데이터를 설계·가공·구축하고
내부 R&D를 통해 설계 방식을 지속적으로 개선하여 최적의 설계 방법을 제안합니다.
프로젝트 목적에 따라 적합한 숙련 작업자를 선별하여 투입하고,
체계적이고 효율적으로 고품질의 학습데이터를 생산합니다.


>> 서비스 문의하러 가기


사업자명. 주식회사 스피링크 | 대표자명. 고경민

Tel. 02-477-3666 | E-mail. cs@textnet.kr

Addr. 서울시 용산구 한강대로 366 트윈시티 남산 오피스동 패스트파이브 서울역점 807호, 812호

Biz License. 827-86-00073