단순 분류 넘어 ‘장면 이해’로? 이미지 의미 분석 데이터셋 제작 방법

트렌드

2026-03-11

의미 분석 데이터셋이 일반 이미지 데이터셋과 다른 이유

이미지 의미 분석은 이미지 안의 객체를 분류 이상으로, 객체가 놓인 맥락과 장면 전체의 의미를 파악하는 것을 목표로 합니다. 객체 탐지 데이터셋은 바운딩 박스와 클래스 레이블만으로 구성할 수 있지만, 의미 분석 데이터셋은 객체 간 관계, 장면의 상황적 맥락, 행동의 의도, 공간 배치의 의미까지 어노테이션에 반영해야 합니다. 이미지 의미 분석 AI 모델은 이미지 내 모든 픽셀에 의미론적 레이블을 할당하는 시맨틱 세그멘테이션, 동일 클래스 내 개별 객체를 구분하는 인스턴스 세그멘테이션, 두 방식을 결합한 파놉틱 세그멘테이션 등 다양한 방식으로 발전해 왔습니다. 따라서 데이터셋 제작 단계에서 모델이 수행할 의미 분석의 수준과 방식을 먼저 정의해야 어노테이션 구조를 적절하게 설계할 수 있습니다.

‍

의미 분석 태스크별 어노테이션 구조 설계

‍

이미지 의미 분석 데이터셋의 어노테이션 구조는 수행할 태스크에 따라 다르게 설계해야 합니다. 시맨틱 세그멘테이션을 위한 데이터셋이라면 이미지 내 모든 픽셀에 클래스 레이블을 부여하는 픽셀 단위 어노테이션이 필요하고, 장면 그래프 이해를 목표로 한다면 객체 노드와 관계 엣지로 구성된 그래프 구조 어노테이션이 요구됩니다. 어노테이션 구조를 설계할 때 고려해야 할 항목은 다음과 같습니다.

‍

레이블 체계 설계: 클래스 계층 구조를 먼저 정의하고 상위 클래스와 하위 클래스의 관계를 명확히 합니다. 예를 들어 교통수단을 상위 클래스로 두고 승용차·버스·이륜차를 하위 클래스로 구분하는 방식입니다.
관계 레이블 정의: 객체 간 공간 관계(위에·옆에·안에), 행동 관계(들고 있다·앉아 있다), 소유 관계(착용하고 있다) 등을 어노테이션 항목으로 포함할지 결정합니다.
속성 레이블 범위: 색상·재질·상태·크기 등 객체 속성을 어느 수준까지 어노테이션할지 범위를 명시합니다.
경계 모호 처리 기준: 객체 경계가 불명확하거나 겹치는 경우의 처리 방식을 기준표에 사전 명시합니다.

‍

장면 그래프 기반 의미 분석 데이터셋의 구성 원리

장면 그래프는 이미지 내 객체를 노드로, 객체 간 관계를 엣지로 표현하는 구조로, 이미지의 의미를 그래프 형태로 기술합니다. 장면 그래프 기반 데이터셋은 단순한 객체 레이블을 넘어 이미지 안에서 무슨 일이 일어나고 있는지를 구조적으로 표현할 수 있어, 시각적 질문응답이나 이미지 검색, 로봇 내비게이션 등 고차원 이해가 필요한 모델 학습에 활용됩니다. 장면 그래프 어노테이션 데이터를 제작하려면 먼저 객체 탐지와 분류가 완료된 이미지에 관계 레이블을 추가로 부여하는 2단계 작업 구조를 설계해야 합니다. 객체 어노테이션과 관계 어노테이션을 동일 작업자가 연속으로 처리하면 오류가 누적될 수 있으므로, 객체 레이블링과 관계 레이블링을 별도 작업자가 순차적으로 담당하는 분리 구조가 품질 관리에 유리합니다.

‍

‍

의미 모호성 처리와 레이블 불일치 최소화 방법

이미지 의미 분석 데이터셋 제작에서 작업자 간 레이블 불일치는 어노테이션의 의미적 모호성에서 주로 발생합니다. 동일한 이미지를 두 작업자가 다른 클래스로 레이블링하거나, 같은 관계를 다른 레이블로 표현하는 경우가 이에 해당합니다. 이를 최소화하기 위한 방법은 다음과 같습니다.

‍

레이블 결정 트리 제공: 어떤 경우에 어떤 레이블을 부여할지 결정 흐름을 도식화하여 작업자에게 제공합니다.
경계 사례 예시 목록 구성: 실제 작업 중 발생 가능한 경계 사례를 예시 이미지와 함께 기준표에 포함합니다.
파일럿 배치 운영: 본 작업 전 소량의 파일럿 배치를 먼저 진행하여 작업자 간 일치도를 측정하고 기준표를 보완합니다.
중재자 검수 구조: 작업자 간 레이블이 불일치하는 경우 제3의 검수자가 최종 판단을 내리는 중재 구조를 파이프라인에 포함합니다.

‍

픽셀 단위 어노테이션의 효율화 방법

‍

시맨틱 세그멘테이션 데이터셋 제작에서 픽셀 단위 어노테이션은 정밀도가 높은 만큼 시간과 비용이 많이 소요됩니다. 딥러닝 모델을 사용하여 어노테이션을 자동으로 생성하고 작업자가 검토 및 수정하는 인간-인-루프 방식이 시간과 비용을 절감하면서 품질을 유지하는 방법으로 활용됩니다. 먼저 사전학습 세그멘테이션 모델로 초기 마스크를 자동 생성하고, 작업자가 오류 영역만 수정하는 방식입니다. 이 방식을 적용할 때는 자동 생성 마스크의 오류 유형을 분석하여 작업자가 집중적으로 검토해야 할 영역을 사전에 안내하는 체계를 갖추면 수정 작업의 효율이 높아집니다. 경계 영역의 픽셀 처리 기준을 기준표에 명확하게 명시하면 작업자마다 다르게 처리하는 경계 모호 문제를 줄일 수 있습니다.

‍

도메인 지식이 필요한 의미 분석 데이터셋 제작 방식

‍

의미 분석의 대상이 전문 도메인 이미지인 경우에는 일반 작업자만으로 어노테이션을 구성하기 어렵습니다. 의료 영상에서 병변의 의미를 분석하거나, 위성 이미지에서 토지 이용 유형을 구분하거나, 제조 공정 이미지에서 결함의 종류와 원인을 레이블링하는 작업은 해당 분야 전문가의 판단이 개입해야 정확한 어노테이션이 가능합니다. 이러한 데이터셋 제작에서는 전문가가 직접 어노테이션에 참여하는 방식과, 전문가가 기준표를 작성하고 교육받은 작업자가 실행하며 전문가가 검수하는 방식 중 프로젝트 규모와 예산에 맞는 구조를 선택해야 합니다. 전문가 참여 구조를 설계할 때는 전문가의 작업 시간을 최소화하면서도 판단이 필요한 경계 사례에 집중하도록 업무를 배분하는 것이 비용 효율을 높이는 방법입니다.

‍

데이터셋 규모보다 중요한 다양성 확보 전략

이미지 의미 분석 데이터셋에서 규모 못지않게 중요한 것이 데이터 다양성입니다. 동일한 클래스의 객체가 다양한 조명, 날씨, 시간대, 촬영 각도, 배경 조건에서 등장해야 모델이 실제 서비스 환경의 다양한 입력에 대응할 수 있습니다. 다양성 확보를 위한 수집 계획을 수립할 때는 수집 대상 이미지의 조건 변수 목록을 먼저 정의하고, 각 조건 조합에서 최소한의 데이터 수가 확보되도록 수집 할당량을 설계하는 방식이 효과적입니다. 실내와 실외, 낮과 밤, 맑은 날과 흐린 날, 정면과 측면처럼 의미 분석 결과에 영향을 미치는 조건 변수를 빠짐없이 포함하는 수집 계획이 데이터셋의 실질적인 커버리지를 결정합니다.

‍

평가 데이터셋 분리와 성능 측정 지표 설계

이미지 의미 분석 모델의 성능을 측정하려면 학습에 사용하지 않은 별도의 평가 데이터셋과 태스크에 맞는 성능 측정 지표가 필요합니다. 시맨틱 세그멘테이션 모델 평가에는 픽셀 단위 정확도와 클래스별 교집합 대 합집합 비율을 측정하는 mIoU 지표가 널리 사용됩니다. 평가 데이터셋은 학습 데이터와 이미지 출처를 달리하되, 실제 서비스 환경에서 모델이 마주칠 입력 분포를 반영하도록 구성해야 합니다. 평가 결과에서 특정 클래스나 조건에서 성능이 낮게 나타나면 해당 유형의 학습 데이터를 추가 구축하는 방향으로 데이터셋 제작 계획을 수정하고, 이 순환 구조를 통해 모델과 데이터셋이 함께 개선되도록 설계하는 것이 장기적으로 효과적입니다.

‍

또한 어노테이션 구조 설계, 레이블 체계 정의, 모호성 처리 기준 수립, 픽셀 단위 작업 효율화, 도메인 전문가 참여 구조 설계, 다양성 확보 전략, 평가 데이터셋 분리까지 전 과정이 하나의 설계 체계 안에서 연결되어야 합니다. 어노테이션 구조와 레이블 체계가 처음부터 명확하게 정의되어 있어야 작업 중간의 기준 변경으로 인한 재작업을 막을 수 있습니다. 데이터셋 제작 단계에서 정밀도를 높이는 투자는 모델이 이미지의 표면적 패턴이 아닌 의미를 이해하는 수준으로 나아가는 조건이 됩니다.

‍

목록보기