언어자원구축 서비스


초기 구축되는 엔진의 이해도와 정확도를 높이기 위하여, 언어학 전문가의 형태소 분석 설계와 도메인 기초 정보의 의미적 맥락을 반영한 초기 핵심 언어자원(질문 문장/단어/형태소 등)을 선별합니다.


비정형 데이터의 정형화

회의록, 보고서, 판결문 등 손 필기 되어 전산화가 어려운 비정형 데이터를 데이터화하거나 음성 파일을 전사하여 텍스트 파일로 제공합니다. 주로 문서인식 머신러닝을 위한 학습데이터로 사용됩니다. 학습, 평가에 사용될 수 없는 예외 케이스들에 대해 명확한 구축 지침을 수립해 데이터를 관리합니다.



음성 전사(Transcription)

담화, 연설, 인터뷰부터 방송프로그램까지 다양한 종류의 미디어를 음성 전사합니다. 주로 음성언어처리기술 개발 및 고도화를 위한 학습데이터로 사용됩니다. 발화 음성 데이터와 매치되는 정확한 전사 데이터 구축을 보장하며, 전사 데이터 내 민감한 이슈(개인정보, 특정인 비하, 정치적 견해, 성적 발언)포함 여부에 따라 체계적으로 데이터를 관리합니다.



윤문 : 엔진 성능 향상을 위한 기존 데이터 재가공

기수집, 구축된 텍스트 데이터를 문법적으로 완전한 고품질의 학습 데이터로 재가공합니다. 오탈자,띄어쓰기 오류, 비문 등을 교정하고 한국어 어문 규범, 데이터 활용 목적, 고객사의 니즈와 기호를 반영하여 문법과 표현, 어조와 어감을 조정합니다. 한자나 전문용어 사용이 많거나 통사 구조가 복잡해 이해하기 어려운 데이터도 재가공합니다.

 


다국어(한/중/일) 번역 : 번역 엔진 성능 향상을 위한 데이터 가공

한국어 텍스트 및 다국어 텍스트를 고품질의 번역 데이터로 산출, 가공하는 서비스입니다. 다국어 지원 서비스를 위해 번역이 필요한 챗봇 또는 도메인별 특수 용어로 인해 자동 번역에 실패하는 데이터를 수정합니다. 자동 번역 모델의 오류를 개선하고 정확도를 높일 수 있는 데이터로, 원문의 의미와 발화 뉘앙스까지 살린 데이터로 탈바꿈됩니다.



데이터 전처리(Text Preprocessing)

원시 데이터(Raw Data)를 원천데이터(Source Data)로 가공하는 서비스로, 전처리 자동화 모델 성능 개선에 기여하는 학습데이터로도 활용됩니다. 크롤링 직후 HTML 태그 등이 붙어있거나 문단과 문장 구분이 허술해 기술적 전처리가 어려운 데이터, 오탈자가 많아 추가적인 의미 식별이 필요한 데이터를 깔끔하게 정제하여 완성형 데이터로 만듭니다.

TEXTNET
작업기 보러가기


서비스 유형별 상세한 예시를 보실 수 있습니다.

작업기를 통해 실제 사례를 만나보세요.


사업자명. 주식회사 스피링크 | 대표자명. 고경민

E-mail. cs@textnet.kr

Addr. 서울시 용산구 한강대로 366 트윈시티 남산 오피스동 패스트파이브 서울역점 807호, 812호

Biz License. 827-86-00073