데이터 평가 및 정제

모델 사용성, 데이터 품질에 대한 명확한 기준을 수립하여

입체적 평가를 통해 문제점을 찾아내고 정제합니다.

데이터 평가 항목

느낌이나 주관적 판단이 아닌 엄격한 근거와 논리에 기반한 접근으로 데이터 평가를 수행합니다. 관련 레퍼런스 및 자체 연구 결과에 따라 명확하고 객관적인 기준, 체계적인 방법론을 수립하여 데이터를 정제함으로써 데이터 품질을 개선합니다.


관련 레퍼런스

gavel


윤리


비속어 등 혐오 표현, 차별적 표현, 개인정보 등 직관적으로 파악이 가능한 부분은 물론 불쾌감을 유발하는 맥락 차원에서의 문제 표현도 탐지합니다.

thumbs_up_down


RLHF

(Reinforcement Learning from Human Feedback)


편향을 해결하기 위한 인간 피드백 강화학습 데이터의 품질을 향상시키고 데이터의 개선 과정을 진행합니다. 무해성, 정확성, 유용성의 기준을 바탕으로 평가합니다.

point_scan


구문 정확성


언어 전문성을 바탕으로 띄어쓰기 및 오탈자, 문법, 문장 구조 오류, 비문, 격식에 맞지 않는 문장 등을 판별하고 윤문합니다.

warning


Hallucination


데이터에서 잘못된 정보, 사실과 다른 정보를 검출하고 제거함으로써 데이터의 신뢰성을 확보, 예측 정확도를 향상시킵니다. 

label


레이블링 일관성


데이터셋 내에서 레이블의 일관성을 확인하고 논리적 모순을 해결합니다. 레이블링 체계의 적정성을 검토하여 개선합니다.


모델 평가 및 성능 검증

사용성, 언어 능력, 시스템 성능 등의 기준을 바탕으로 언어 모델을 효과적으로 평가하고 개선함으로써 정확성과 신뢰성을 향상시킵니다. 

dataset


벤치마크 데이터셋 구축


언어 전문가 그룹으로서 한국어 언어 처리와 이해에 대한 독보적인 역량을 바탕으로 한국어 언어 모델의 성능을 정확하게 평가하는 데이터셋을 구축합니다. 다양한 스펙의 모델을 아우르는 신뢰성과 대표성을 지닌 벤치마크 데이터셋으로 인공지능 산업 및 학계에 기여합니다.

readiness_score


평가 지표 기획


도메인, End-user, 서비스 목적 및 형태 등 다양한 관점에서 모델을 평가하는 지표를 마련합니다. 고객의 니즈와 기호를 구조화하여 단어, 문장, 전체 맥락 단위에서 평가할 수 있도록 세밀하게 설계하며, 평가 후 적절한 개선 활동으로 이어지는 직관적인 지표를 지향합니다.

성공적인 AI Transformation,

TEXTNET과 함께 지금 바로 시작하세요!


LLM의 등장으로 새로운 시대를 맞이한 AI, 차이는 데이터가 만듭니다. 

이제는 대중화된 기술에 맞는 더 똑똑한 AI Transformation을 만나보세요.


Image by upklyak on Freepik


사업자명. 주식회사 스피링크 | 대표자명. 고경민

E-mail. cs@textnet.kr

Addr. 서울시 중구 서소문로 89, 17층(순화동, 순화빌딩) 이든비즈 아트앤스튜디오 시청점 D-1707, D-1708  (우)04516

Biz License. 827-86-00073


Copyright 2015-2024. Spirink. All rights reserved.