1. AI 데이터 셋의 구축 개요
1.1 AI 데이터 셋의 중요성
- AI 알고리즘 성능이 아무리 탁월해도 저 품질의 학습데이터를 입력하면 AI 서비스는 무용지물이 될 수 있음
- 인공지능 서비스 개발을 급히 진행하면서 저 품질의 데이터셋을 AI 서비스에 활용할 경우, 성능 및 상용화에 어려움을 겪어 데이터 수집부터 새로 시작을 해야 하는 경우가 다수 발생함
- 저 품질의 데이터셋 문제를 좀 더 일찍 발견한다고 하더라도, AI 모델 개발 진행에 혼동이 발생하여 개발 비용이 기하급수적으로 증가하는 상황이 발생할 수 있음
- 데이터 셋 구축 작업에는 많은 비용과 시간을 들여 작업한 데이터에 예상치 못한 품질 이슈가 발생한다면, 상기와 같은 여러가지 문제가 발생함. 하지만 데이터 가공(Annotation, Labeling)과 검수 단계에서의 관리 포인트를 챙기는 것만으로도, 이런 문제를 사전에 예방할 수 있음
1.2 AI 프로젝트에 소요되는 시간 비율
AI 서비스 개발 업무 | 업무 비율 | 구분 | 비고 |
AI 서비스 배포 | 02% | AI 기술 개발 (20%) |
|
AI 모델 조정 | 05% | 대부분 Pre-Trained Model 검토 기반 | |
AI 모델 학습 | 10% | 샘플 학습데이터를 제작하여 검토된 모델에 확인 | |
AI 알고리즘 개발 | 03% | "AI 모델 조정"과정에서 검토된 Pre-Trained AI모델에 응용분야의 샘플 학습데이터로 학습/인식 검증하고 검토된 모델을 최소 수정함 | |
데이터 증강 | 15% | 데이터 셋 구축 (80%) |
|
데이터 라벨링 | 25% | Annotation Tool 사용하여 1차, 2차 ... N차 Annotation | |
데이터 정제 | 25% | Annotation Tool 사용 or 크라우드 소싱 | |
데이터 수집 | 10% | 크라우드 소싱 | |
데이터 식별 | 05% |
1.3 데이터 셋 구축 개요
- 학습 데이터셋 구축의 개요는 다양한 “AI 서비스 개발 및 구축”에 있어서 매우 중요한 요소 기술 개발에 해당되는 것이고, 다양한 현장의 미디어(시각미디어, 청각미디어, 센싱미디어, etc.)로부터 학습에 필요 영역이 포함되어 있는 데이터를 추출하는 작업, 표시하는 작업, 주요 특징에 해당되는 내용을 기록하는 작업으로 많은 사람과 시간이 소요되는 작업임
- 이러한 데이터셋 구축 작업에 소요되는 시간 및 비용을 최소화하기 위해서는 다양한 실생활을 기록한 미디어에 대해서 AI 모델이 필요로 하는 주요 특징들을 기록할 수 있는 Annotation Tool 개발은 반드시 필요함
2. AI 학습용 데이터 셋 제작 및 저장 방안 (Labeling, Annotation)
2.1 데이터 저작도구의 활용
2.1.1 AI 학습용 미디어(동영상, 정지영상, 오디오, etc.) 데이터 저작도구
다양한 어노테이션 도구 : https://dev-sites.tistory.com/90
2.1.2 AI 데이터 구축을 위한 저작도구 구성 및 작성
- AI 학습용 데이터 구축을 위한 속성 부여를 위한 저작도구 구성
- 미디어(동영상, 정지영상, 오디오, etd.) 확인 창 및 메타데이터, 속성 정보를 확인할 수 있도록 구현
- 미디어(동영상, 정지영상, 오디오, etd.) 확인 영역에 나타나는 미디어를 객체 인식기술을 활용하여 선제적 태깅 구성
- 구성된 정보를 손쉽게 편집 저장할 수 있는 직관적인 저작도구로 구성
2.1.3 AI 학습데이터 어노테이션 및 검수 프로세스
- 데이터 품질 확보를 위해 2단계 정제 및 3단계 어노테이션과 2단계 데이터 전수 검수를 진행
- N차 검수는 품질 높은 학습데이터셋을 생성시키고, 고품질의 학습데이터 셋은 인식 품질이 좋은 AI 엔진을 만듬
2.2 데이터 어노테이션 포맷과 형식 정의
2.2.1 학습용 데이터 구축 인력 구성
- 원천데이터를 일반인/전문가 그룹 어노테이션 및 크라우드소싱 어노테이션 작업으로 데이터별 난이도에 맞는 AI 학습용 데이터 확보
2.2.2 학습용 데이터 제작 프로세스 4단계
학습용 데이터 제작 프로세스 | |||
1 단계 | AI 인식엔진의 카테고리 정의 및 속성 분류 항목 개발 | ||
2 단계 | 학습용 데이터 확보 : 저작권이 해결된 OOO만건 이상의 데이터 확보 | ||
3 단계 |
일반인/전문가 그룹 및 크라우드소싱 어노테이션 | ||
- 관련 전공 석박사(전문가그룹), 마이스터고(일반그룹), 크라우드소싱(일반그룹) 참여자 교육, 레이블, 평가 - 전문가그룹은 주관적 판단이 요구되는 어노테이션 업무 수행 (소요 시간, 정확성 모니터닝) - 정확한 판단이 어려운 데이터의 경우 여러 연구자가 동일한 작업을 수행하는 cross checking을 통해 합의 |
|||
4 단계 |
어노테이션 검수 | ||
- 1차 검수: 크라우드소싱 검수 - 2차 검수: 전문인력 검수 (데이터당 2명 중복 교차 검수) |
2.3 학습용 데이터 저장 프로세스
2.3.1 다양한 사업 수행을 통해 체계화된 프로세스를 통해 정확한 가올 작업을 수행하며 품질이 확보된 학습용 데이터셋 구축을 목표로 함
2.3.2 원천데이터 저장 방안
- 미디어 원천데이터의 속성에 따라 대문자로 구분하고 각 원천데이터의 메타데이터 입력(예-스타일: S, 아이템은: I)
- 원천데이터의 속성을 세분화하여 소문자로 구분 후 문서 아이디 생성
- 세부 폴더에 저장된 원천데이터는 작업자에게 저작도구를 통해 배분
- 작업자는 저작(가공)도구와 크라우드소싱 형태로 저작(가공) 도구를 통해서 어노테이션 작업 : 생성된 어노테이션 데이터는 가공 후 세부 폴더에 저장
2.3.3 MS-COCO Annotation 저장 포맷
- Instances json file의 첫 부분은 아래와 같이 information과 license의 종류에 대한 내용 나옴
- 다음은 아래와 같이 그림 파일에 대한 상세한 내용 나옴
- 다음은 아래와 같이 각 그림에 대한 annotation 정보가 나옴. Annotation이란 그림에 있는 사물/사람의 segmentation mask와 box 영역, 카테고리 등의 정보 의미함. 아래 예는 COCO API Demo에서 사용된 image인 324159 그림의 annot ation 중 일부임
- 마지막으로, 아래와 같이 category 리스트가 나옴
3. AI 프로젝트 20% 부분인 모델 개발의 개요
3.1 AI 알고리즘 개발 : 최적의 모델 찾기
-
서비스 개발 영역 결정
-
최신 논문(SOTA 등), 드랜드의 공개 기술 학습
-
입출력 레이어 수정
-
최소 데이터 셋 학습(Tranning)
-
Validation, AI 모델 개발은 거의 없음, 일부 수정, 최신의 기술이 적용된 최적의 AI 모델 선택
3.2 AI 모델 학습
- 선택된 몇 개의 대상 모델에 대해서 소량의 데이터 셋 학습
- Validation. 그 후, 대량의 데이터 셋 학습
- Validation
- Inference 결과 및 서비스 가능성 분석
3.3 AI 모델 조정
- 앙상블 작업(N개의 모델의 병합), 모델 일부 변경(히든 레이어 변경, Loss Function 변경, LR 스케줄러 추가, GPU 가속/멀티 GPU사용 등), 하이퍼파라미터 튜닝
- AI 모델 최적화를 위한 다양한 작업
3.4 AI 모델 서비스 배포
- Inference를 랩핑하여 REST API 기반 AI 서비스 Back-End 구축 및 서비스 배포
반응형
'IT-트랜드(XR, 안전, IoT ...)' 카테고리의 다른 글
[교육이론][연구 방법] 델파이(Delphi) 조사 (0) | 2022.03.20 |
---|---|
화상통신이 가능한 Metaverse Solution 개발 (1) | 2021.08.03 |
BIM(Building Infomation Model) Basic 강좌 모음 (1) | 2021.07.21 |
Open Source: BIM(Building Information Model) (2) | 2021.06.28 |
메타버스 (Metaverse) (10) | 2021.05.19 |