데이터 레이블링 서비스


엔진 개발 또는 성능 고도화를 위한 학습 데이터 전반을 다루며, 레이블링 데이터에서부터 고난도 문서 요약까지 고품질의 대량 데이터를 구축합니다.


MRC QA 데이터셋 구축

MRC엔진 성능 향상을 위한 QA 학습 데이터셋을 구축하는 서비스입니다. 단답형, 서술형, 객관식 추론형, YES/NO형 등 다양한 질문 패턴 및 답변 유형을 구성합니다. QA 문장의 문법 수준 및 문장 구조, 어투까지 가이드화하여 품질을 높입니다.

  • 뉴스, 논문, 특허, 법조문, 회의록 도메인별 백과문서 등 길고 전문적인 이해능력을 요구하는 텍스트의 경우, 정확한 QA를 추구하며 단락 텍스트 정보뿐 아니라 지식문서 내에 흔히 포함되는 테이블 정보도 함께 가공합니다.
  • 블로그, 댓글, SNS게시글 등 준구어 텍스트의 경우 드러난 핵심 내용을 선별하여 정확한 QA를 구축합니다. 산발적으로 기술된 정보, 생략된 의미 맥락, 신조어 및 유행어 사용 등을 고려하여 데이터를 체계적으로 가공합니다.



추출 요약 및 생성 요약 데이터셋 구축

AI 요약모델 성능 향상을 위한 학습 데이터셋을 구축하는 서비스로, 구축작업-전수검수-샘플링검수 등 총 3회에 걸친 꼼꼼한 검수과정을 통해 고품질의 데이터를 산출합니다. 자체 개발한 검수 보조 도구를 활용해 검수과정에 효율성을 더합니다. 원본 데이터의 구조 분석 수행 및 요약의 목적에 맞는 정보 구조를 산출하며, 인간의 사고과정과 유사한 요약을 위해 언어에 대한 심도있는 이해력을 지닌 전문인력을 투입합니다.



데이터 레이블링(Labeled corpus)

레이블링 설계 작업이 선행되며, 이를 통해 레이블링 데이터의 일관성을 확보합니다. 개체명인식(NER), 감정, 화행, 인텐트 등 데이터 구축 목적에 맞는 다양한 레이블링을 체계적으로 설계하며 각 도메인별로 적합한 레이블이 부착될 수 있도록 원천 데이터에 대한 정확한 이해와 분석을 선행합니다. 효율적인 레이블링 작업을 위해 구체적인 가이드를 작성하고, 수회에 걸친 꼼꼼한 검수를 수행합니다.

 


그 외 학습데이터

기계학습 모델의 성능 향상이라는 목적에 부합하도록 정교하게 설계된 고품질 학습 데이터를 제공합니다. 다국어 챗봇 및 기계번역을 위한 병렬 코퍼스 구축, 형태 주석 데이터 및 의존관계 주석 데이터 구축 등의 서비스가 있으며, 오류 사례 분석을 통해 가이드를 구축해 작업자에 상관없이 고른 품질의 데이터가 산출될 수 있도록 합니다. 숙련된 검수자의 체계적 검수를 통해 고품질의 데이터를 확보하고, 언어학, 국어학 분야의 전문 인력 투입으로 수준 높은 구축 작업을 수행합니다.


TEXTNET
작업기 보러가기


서비스 유형별 상세한 예시를 보실 수 있습니다.

작업기를 통해 실제 사례를 만나보세요.


사업자명. 주식회사 스피링크 | 대표자명. 고경민

E-mail. cs@textnet.kr

Addr. 서울시 용산구 한강대로 366 트윈시티 남산 오피스동 패스트파이브 서울역점 807호, 812호

Biz License. 827-86-00073