
이미지 설명 생성 모델이 실제 서비스 환경에서 기대한 성능을 내지 못하는 경우, 그 원인은 대부분 학습 데이터 구축 단계에서 만들어집니다. 모델이 잘못된 객체를 주어로 설명하거나, 이미지 속 관계를 오해하거나, 문화적으로 어색한 표현을 반복하는 문제는 알고리즘 문제가 아닌 학습 데이터의 편향과 오류에서 비롯되는 경우가 많습니다. 이미지 인식 모델을 학습시키기 위해 이상적인 조건은 고품질의 데이터를 대량으로 수집하여 학습에 활용하는 것이며, 고품질 데이터란 이미지와 대응하는 라벨의 매핑 관계가 올바르고, 모델 학습에 유익한 관계를 형성하며, 다양한 상황을 포괄할 수 있는 데이터를 포함하는 것을 의미합니다. 이미지 설명 생성 모델은 시각 정보와 언어 표현이 동시에 연결되는 구조이기 때문에, 어느 한쪽에서 품질 문제가 발생해도 모델 전체의 신뢰도에 영향을 미칩니다.
이미지 설명 생성 모델은 비전 언어 모델(VLM) 구조를 기반으로 작동합니다. VLM은 시각 정보와 언어를 결합한 멀티모달 모델로, 다량의 이미지-텍스트 데이터를 학습해 시각과 언어 정보를 동시에 처리할 수 있으며, 이미지와 텍스트를 함께 입력받아 둘 사이의 관계를 학습함으로써 이미지를 보고 설명하거나 질문에 답변할 수 있습니다. 학습 데이터가 이 구조에서 담당하는 역할은 단순히 정답을 제공하는 것이 아니라, 시각 특징과 언어 표현 사이의 연결 패턴을 모델이 내재화할 수 있도록 충분한 사례를 제공하는 것입니다. 학습 데이터의 이미지-설명문 쌍에서 특정 시각 요소와 언어 표현이 반복적으로 올바르게 연결되어야 모델이 새로운 이미지에서도 적절한 설명을 생성할 수 있습니다.

오픈소스 VLM을 그대로 적용하면 일반적인 이미지 설명에는 어느 정도 대응할 수 있지만, 특정 산업 도메인에서는 성능이 급격히 낮아지는 경우가 있습니다. VLM은 대규모 데이터셋에 대해 사전학습되었기 때문에 사전학습 데이터에 포함된 도메인에 대해서는 소량의 데이터셋으로 파인튜닝하여 성능을 낼 수 있지만, 사전학습이 어려운 특수한 분야에 대해서는 일반적인 비전 모델과 비교하면 성능이 낮고 추가 학습에 필요한 공수도 많이 듭니다. 의료 영상, 제조 결함 이미지, 전문 도면 등 일반 사전학습 데이터에 포함되기 어려운 도메인은 해당 분야 전문가가 직접 작성한 설명문을 포함한 도메인 특화 학습 데이터를 별도로 구축해야 모델의 실제 활용 가능성이 높아집니다.


이미지 설명 생성 모델 학습 데이터 구축에서 주목해야 할 방향 전환이 있습니다. 모델 구조를 개선하는 모델 중심 접근법에서, 학습 데이터의 품질과 구성을 정교화하는 데이터 중심 AI 접근법으로 무게가 이동하고 있습니다. 각 데이터셋은 도메인의 특정 문제를 해결하기 위해 구축되며, 멀티모달 데이터와 고품질 라벨링을 포함하는 방식으로 설계됩니다. 이 관점에서 이미지 설명 생성 모델의 학습 데이터는 단순히 많은 양을 확보하는 것이 목적이 아니라, 모델이 풀어야 할 문제 유형을 충분히 포괄하는 방향으로 구성되어야 합니다. 데이터 구축 전략을 수립할 때 모델이 자주 오류를 범하는 상황 유형을 분석하고, 그 유형의 학습 사례를 집중적으로 확보하는 방식이 전체 데이터 구축 효율을 높입니다.

이미지 설명 생성 모델 학습 데이터에서 반복적으로 발생하는 설명문 오류 유형을 미리 파악하면 기준표 설계 단계에서 사전에 차단할 수 있습니다. 주요 오류 유형은 다음과 같습니다.
1. 객체 누락: 이미지 내 주요 객체를 설명문에 포함하지 않은 경우입니다. 기준표에 설명문에 반드시 포함해야 할 주요 요소 목록을 명시하면 예방할 수 있습니다.
2. 관계 오류: 이미지 내 객체 간 위치 관계나 행동 관계를 잘못 서술한 경우입니다. 공간 표현과 행동 표현의 기준 어휘를 기준표에 포함해야 합니다.
3. 과잉 해석: 이미지에 명확하게 드러나지 않은 내용을 추측하여 설명문에 포함하는 경우입니다. 이미지에서 직접 확인되는 사실만 서술하도록 기준을 명시해야 합니다.
4. 문화적 불일치: 서구권 데이터 기반으로 학습된 작업자가 한국 고유 객체를 부정확하게 묘사하는 경우입니다. 한국 고유 객체에 대한 표준 명칭 목록을 기준표에 포함해야 합니다.
5. 표현 불일치: 같은 상황을 서로 다른 어미나 문체로 서술하는 경우입니다. 문체와 어미 형식을 통일하는 기준이 필요합니다.

이미지 설명 생성 모델의 성능을 높이기 위해서는 학습 데이터 외에 모델 응답을 평가하는 품질 평가 데이터도 함께 구축해야 합니다. 명확한 응답 평가 지표를 제시하고 이를 기반으로 AI 응답 품질 평가 데이터를 구축하여 AI 응답 품질을 정량적으로 평가하고 개선하는 체계가 필요하며, 이러한 데이터는 생성형 모델의 강화학습에서 보상 모델로 활용될 수 있습니다. 이미지 설명 생성 모델에서 응답 품질 평가 데이터는 동일한 이미지에 대해 여러 수준의 설명문을 구성하고, 각 설명문의 정확성과 완성도를 평가한 결과를 포함하는 형태로 구축됩니다. 이 데이터를 활용하면 모델이 더 나은 설명문을 생성하도록 강화학습으로 추가 학습시키는 구조를 만들 수 있습니다.

대규모 이미지-설명문 쌍 데이터를 구축할 때는 품질이 낮은 데이터를 걸러내는 필터링 체계와 중복 데이터를 제거하는 절차가 필요합니다. 어노테이션 품질 및 입력 이미지 특성을 고려한 학습방법 설계와 함께, 모델 학습에 데이터를 선별하여 품질을 높이는 데이터 필터링 작업이 중요합니다. 중복 이미지가 학습 데이터에 포함되면 특정 패턴이 과대 학습되고 모델의 범용 성능이 낮아집니다. 해시값 비교 방식으로 중복 이미지를 자동 탐지하거나, 텍스트 유사도 분석으로 중복 설명문을 걸러내는 자동화 도구를 구축 파이프라인에 포함하면 수동 검수 부담을 줄이면서도 데이터 품질을 일정 수준 이상으로 유지할 수 있습니다.

이미지 설명 생성 모델은 서비스 환경이 변화하거나 새로운 도메인 요구가 생기면 학습 데이터를 갱신하고 모델을 재학습해야 합니다. 이 과정에서 데이터 버전 관리 체계를 갖추지 않으면 어떤 데이터로 어떤 버전의 모델이 학습되었는지 추적이 어려워지고, 성능 저하 원인을 파악하는 데 시간이 낭비됩니다. 한국지능정보사회진흥원은 AI 데이터 품질관리 가이드라인을 지속적으로 개정하여 데이터 구축 방법 및 절차를 공유하고 있으며, 생성형 AI 분야 데이터의 특징을 별도로 반영한 가이드를 제공하고 있습니다. 데이터셋 버전, 구축 일시, 검수 기준 변경 이력, 오류 수정 내역을 함께 기록하는 문서화 체계가 갖추어져야 학습 데이터가 모델 개선의 자산으로 축적됩니다.

학습 데이터 구축이 완료된 이후 모델 성능을 객관적으로 평가하려면 학습에 사용하지 않은 별도의 평가 데이터셋이 필요합니다. 학습 데이터와 동일한 출처에서 구성된 평가 데이터로는 모델이 실제 서비스 환경에서 접하는 다양한 입력에 얼마나 잘 대응하는지를 검증하기 어렵습니다. 훈련 데이터셋과 검증 데이터셋의 분리 원칙을 구축 단계부터 적용하고, 도메인이 다른 이미지로 구성된 외부 평가셋을 활용하여 모델의 일반화 성능을 함께 측정해야 합니다. 평가 결과에서 특정 이미지 유형이나 설명 패턴에서 성능이 낮게 나타나면, 해당 유형의 학습 데이터를 추가 구축하는 방향으로 구축 전략을 수정하는 순환 구조가 필요합니다.
이미지 설명 생성 모델 학습 데이터 구축은 기준표 설계, 오류 유형 사전 차단, 필터링과 중복 제거, 버전 관리, 평가 데이터 분리까지 전 과정이 정밀하게 설계되어야 합니다. 학습 데이터의 품질이 높을수록 모델 재학습 주기가 늘어나고 서비스 오류 대응 비용이 줄어드는 효과로 이어집니다. 한국지능정보사회진흥원의 AI 데이터 구축 가이드와 생성형 AI 데이터 품질관리 가이드는 AI 허브를 통해 공개되어 있어, 처음 구축을 시작하는 기업이 기준 체계를 설계하는 데 참고할 수 있습니다.
