
같은 사진을 열 명에게 보여주면 열 가지 설명이 다르게 나올 수 있습니다. 어떤 사람은 사람부터 묘사하고 어떤 사람은 배경부터 시작합니다. 무엇을 포함하고 무엇을 생략할지, 얼마나 구체적으로 표현할지에 대한 판단이 사람마다 다르기 때문입니다. 이미지 설명 생성 AI 데이터셋 제작에서 이 문제는 그대로 품질 문제로 이어집니다. 설명문의 관점과 세밀도가 작업자마다 다르면 모델은 일관된 언어 패턴을 학습하지 못하고, 서비스 환경에서 예측하기 어려운 출력을 냅니다. 데이터셋 제작이 단순한 텍스트 입력 작업이 아닌 이유가 여기에 있습니다. 무엇을 어떻게 기록할지에 대한 명확한 기준이 먼저 설계되어야 하고, 그 기준 위에서 수집·작성·검수 전 과정이 운영되어야 합니다.
이미지 설명 생성 AI는 활용 목적에 따라 모델이 생성해야 하는 설명문의 성격이 완전히 달라집니다. 시각장애인을 위한 웹 접근성 서비스라면 이미지 내 정보를 빠짐없이 전달하는 완전한 설명이 필요하고, 전자상거래 상품 이미지라면 속성과 특징을 중심으로 간결하게 서술하는 방식이 적합합니다. 의료 영상 리포트 생성이라면 임상 전문가가 사용하는 용어와 서술 방식이 데이터셋에 그대로 반영되어야 합니다. 데이터셋 제작을 시작하기 전에 모델이 어떤 상황에서 누구에게 어떤 형태의 설명을 제공해야 하는지를 구체적으로 정의하는 작업이 선행되어야 합니다. 이 정의가 모호하면 기준표 작성도, 작업자 교육도, 품질 검수 기준도 전부 흔들리게 됩니다.

데이터셋의 품질은 어노테이션 단계만큼이나 이미지 수집 단계에서 결정됩니다. 어떤 이미지를 얼마나 다양하게 확보하느냐가 모델이 실제 서비스 환경에서 마주치는 입력의 범위를 커버하는지를 좌우합니다. 이미지 수집 시 고려해야 할 다양성 조건은 다음과 같습니다.

설명문을 어떤 방식으로 생성하느냐에 따라 데이터셋의 성격이 달라집니다. 데이터셋은 보유 중인 데이터를 활용하는 방법, 문서 이미지 데이터를 합성하는 방법, 공개 데이터셋을 사용하는 방법이 있으며, 보유 중인 데이터와 합성을 통해 만든 데이터셋은 어노테이션 정보가 없어도 모두 자기지도 학습을 이용한 사전학습에 사용될 수 있습니다. 사람이 직접 작성하는 수동 방식은 품질이 높지만 속도와 비용 측면에서 한계가 있고, 기존 모델이 자동 생성한 설명문을 사람이 검수하는 반자동 방식은 처리 속도는 빠르지만 자동 생성 오류를 걸러내는 검수 체계가 탄탄하게 갖춰져야 합니다. 두 방식을 혼합할 때는 용도에 따라 비율을 달리 설계하는 것이 효과적입니다. 정밀도가 중요한 도메인 특화 데이터는 수동 방식 비중을 높이고, 기본 언어 패턴 학습을 위한 대량 데이터는 반자동 방식으로 구성하는 구분이 필요합니다.

VLM은 대규모 데이터셋에 대해 사전학습되었기 때문에 사전학습 데이터에 포함된 도메인에 대해서는 소량의 데이터셋으로 파인튜닝하여 성능을 낼 수 있지만, 사전학습이 힘든 특수한 분야에 대해서는 일반적인 비전 모델과 비교하면 성능이 낮고 추가 학습에 필요한 공수도 많이 듭니다. 이 특성을 이해하면 데이터셋 제작 전략이 달라집니다. 일상적인 이미지 설명 생성이라면 공개 사전학습 모델을 기반으로 비교적 소량의 도메인 데이터셋을 제작하여 파인튜닝하는 방식으로도 충분한 성능을 낼 수 있습니다. 그러나 의료 영상이나 산업 설비 이미지처럼 사전학습 데이터에 거의 포함되지 않은 도메인은 도메인 전문가가 제작에 직접 참여하는 전용 데이터셋 구축이 필요합니다. 어떤 경로로 모델을 완성할 것인지에 따라 데이터셋 제작의 규모와 방식이 결정됩니다.
영어 기반 이미지 설명 생성 데이터셋을 한국어로 그대로 번역하여 활용하는 방식은 품질 면에서 한계가 있습니다. MS COCO 캡셔닝 데이터의 1차 한국어 기계번역 이후 기계번역 오류 수정 작업이 별도로 진행된 사례에서도 알 수 있듯이, 번역 기반 데이터셋은 번역 오류 검수라는 추가 작업이 필연적으로 발생합니다. 한국어 설명문을 처음부터 직접 제작할 때는 조사 선택, 어미 형식, 경어체 통일, 한국 고유 명칭 표기 기준을 기준표에 명확하게 명시해야 합니다. 동일한 이미지를 묘사하면서 "-있습니다"와 "-있어요"가 혼용되거나, 동일 객체에 대해 한자어와 순우리말 표현이 섞이면 모델이 언어 패턴을 일관되게 학습하기 어렵습니다. 한국어 설명문 데이터셋은 번역이 아닌 직접 제작을 기준으로 삼고, 언어 일관성 검수를 품질 관리 항목에 별도로 포함해야 합니다.
데이터셋 제작에서 검수는 완성 단계의 절차가 아니라 제작 전 과정에 걸쳐 작동해야 합니다. 작업 배치 단위로 중간 검수를 실시하고 오류 유형과 빈도를 기록하면, 기준표의 모호한 항목을 수정하고 작업자 교육을 보강하는 근거가 됩니다. 검수 항목은 이미지 내용과 설명문의 사실 일치 여부, 기준표 규칙 준수 여부, 언어 표현의 자연스러움, 누락 정보 여부로 구성하며, 각 항목별로 합격·수정·반려 기준을 사전에 명시해야 검수자마다 다른 판단이 내려지는 상황을 막을 수 있습니다. 오류 유형은 크게 사실 오류·누락 오류·표현 오류·기준 위반으로 분류하고, 유형별로 재작업 지시 방식을 달리 설계하는 것이 처리 효율을 높입니다.

이미지 설명 생성 AI가 시각장애인을 위한 접근성 서비스에 활용되는 경우, 데이터셋 제작 기준이 일반적인 캡셔닝 데이터셋과 다르게 설계되어야 합니다. 이미지 태깅을 통한 대량의 이미지 데이터셋 자동 생성과 검색 엔진 등에서의 이미지 문장 검색 서비스, 메타데이터를 함께 이용한 촬영 영상 설명 자동 저장 등 다양한 활용 목적에 따라 설명문의 구성 방식이 달라집니다. 접근성 목적의 설명문은 시각 정보를 텍스트로 완전하게 대체하는 것을 목표로 하기 때문에 이미지 내 텍스트, 색상, 위치 관계, 감정 표현까지 포함하는 상세한 서술이 요구됩니다. 반면 검색 최적화 목적의 설명문은 핵심 객체와 속성을 중심으로 간결하게 구성하는 방식이 적합합니다. 제작 전 단계에서 서비스 목적을 명확히 정의하고, 그에 맞는 설명문 작성 기준을 별도로 설계해야 합니다.

데이터셋 제작이 완료된 이후에는 납품 형식과 메타데이터 구조를 표준화해야 이후 모델 학습 파이프라인에 바로 투입할 수 있습니다. 이미지 파일명과 설명문 파일의 매핑 구조, JSON 어노테이션 파일의 키 구성, 훈련·검증·평가 세트 분리 비율, 메타데이터 기재 항목을 납품 기준서에 명시하고 구축 업체와 사전에 합의해야 합니다. AI 허브에서 제공하는 인공지능 학습용 데이터셋은 각 데이터의 구축년도, 명칭, 적용 분야, 데이터 유형, 데이터셋 소개 및 다운로드 링크 정보를 포함하는 형태로 구성되며, 이 구조를 참고하여 자체 데이터셋의 메타데이터 기재 항목을 설계하면 표준화 작업의 기준으로 삼을 수 있습니다. 납품 이후 오류가 발견될 경우의 수정 범위와 기간도 계약 단계에서 명시해야 납품 후 분쟁을 예방할 수 있습니다.
이미지 설명 생성 AI가 정확하고 자연스러운 설명을 생성하려면 그 모델을 학습시킨 데이터셋이 같은 수준의 정확성과 일관성을 갖추어야 합니다. 제작 목적 정의, 이미지 수집 다양성, 설명문 작성 방식 선택, 한국어 언어 일관성 관리, 검수 파이프라인 설계, 납품 형식 표준화까지 각 단계가 하나의 체계로 연결되어야 데이터셋이 모델의 실질적인 자산이 됩니다.
