“거대모델만으론 부족” 답은 VLM 파인튜닝 데이터셋

트렌드
2026-02-12

비전 언어 모델 개념



비전 언어 모델은 이미지와 텍스트를 통합적으로 이해하고 처리하는 모델입니다. 문서 인식과 이미지 설명 그리고 질의응답 등 다양한 작업에 활용되며 거대언어모델의 한계를 보완하는 핵심 기술로 주목받고 있습니다. 비전 언어 모델은 시각 정보와 언어 정보를 결합한 멀티모달 모델로 다량의 이미지 텍스트 데이터를 학습해 시각과 언어 정보를 동시에 처리할 수 있습니다. 전통적으로 분리되어 발전하던 컴퓨터 비전과 자연어 처리를 공통 표현 공간으로 연결해 시각적 맥락을 텍스트로 설명하거나 텍스트 조건을 바탕으로 시각 정보를 추론하는 등 다양한 과업을 수행합니다.

파인튜닝 필요성

비전 언어 모델을 처음부터 학습시키는 것은 리소스 집약적이고 비용이 많이 들 수 있습니다.

▷ 사전 학습 모델 활용: 사전 학습된 거대언어모델과 사전 학습된 비전 인코더 사용

▷ 매핑 네트워크: 이미지의 시각적 표현을 거대언어모델의 입력 공간에 정렬하거나 투영하는 매핑 네트워크 레이어 추가

▷ 도메인 특화: 특정 도메인이나 작업에 맞춘 파인튜닝으로 성능 향상

▷ 비용 절감: 처음부터 학습하는 것보다 적은 데이터와 계산 자원으로 효과 달성

사전 학습된 모델을 활용해서 비전 언어 모델을 구축할 수 있으며 이미지의 시각적 표현을 거대언어모델의 입력 공간에 정렬하거나 투영하는 매핑 네트워크 레이어가 추가됩니다.

데이터셋 구성 방식

비전 언어 모델의 경우 대량의 이미지 텍스트 데이터에 대해서 사전학습을 합니다.

▷ 이미지 텍스트 쌍: 이미지와 해당 이미지를 설명하는 텍스트가 쌍을 이루는 데이터

▷ 다국어 지원: 영어와 한국어 외의 언어에 대해서도 미리 사전학습 진행 가능

▷ 작업 커스터마이징: 이미지 캡셔닝과 차트 인식 등의 작업도 커스터마이징해 수행 가능

▷ 작업 범위 확장: 특화된 작업을 수행하는 비전 언어 모델을 개발하고 데이터를 수집하며 작업 범위를 늘려가는 방식으로 개발

비전 언어 모델로 다국어 인식을 수행할 수 있고 필요에 따라 이미지 캡셔닝과 차트 인식 등의 작업도 커스터마이징해 수행할 수 있습니다.

이미지 텍스트 쌍 학습



비전 언어 모델은 이미지 텍스트 쌍 데이터 세트를 학습해 일치하는 쌍의 임베딩 거리는 최소화하고 일치하지 않는 쌍의 임베딩 거리는 최대화하도록 훈련됩니다:

▷ 대조 학습: 두 인코더의 이미지와 텍스트 임베딩을 공동 또는 공유 임베딩 공간에 매핑

▷ 임베딩 정렬: 이미지 텍스트 쌍을 같은 공간으로 당기고 불일치 쌍은 밀어내는 방식

▷ 교차 어텐션: 언어 토큰이 시각 토큰을 참조하거나 그 반대로 교차 주의를 통해 정보 결합

▷ 어댑터 프로젝터: 시각 임베딩을 언어 모델이 수용 가능한 차원과 형식으로 변환하는 얇은 계층

대비 학습은 두 인코더의 이미지와 텍스트 임베딩을 공동 또는 공유 임베딩 공간에 매핑합니다.

데이터 수집 방법

데이터셋은 보유 중인 데이터를 활용하는 방법과 문서 이미지 데이터를 합성하는 방법 그리고 공개 데이터셋을 사용하는 방법이 있습니다.

▷ 보유 데이터 활용: 기업이나 기관이 보유한 이미지와 텍스트 데이터 활용

▷ 합성 데이터 생성: 문서 이미지 데이터를 인공적으로 합성해 생성

▷ 공개 데이터셋: 대규모 공개 데이터셋을 활용한 학습

▷ 자기지도학습: 주석 정보가 없어도 모두 자기지도학습을 이용한 사전학습에 사용 가능

보유 중인 데이터와 합성을 통해 만든 데이터셋은 주석 정보가 없어도 모두 자기지도학습을 이용한 사전학습에 사용될 수 있습니다.

지시 튜닝 데이터


사용자의 질의 방식에 맞춘 프롬프트 응답 데이터를 통해 멀티모달 대화 능력을 강화합니다.

▷ 대화형 데이터: 멀티턴 대화와 정답 근거를 포함하는 고품질 데이터

▷ 질의응답 형식: 이미지와 관련된 질문에 대한 응답 쌍

▷ 지시 따르기: 모델이 수행해야 할 작업에 대한 정보를 지시 형태로 제공

▷ 실제 활용도: 고품질 멀티턴 대화와 정답 근거를 포함하면 실제 활용도가 높아짐

고품질 멀티턴 대화와 정답 근거를 포함하는 지시 튜닝 데이터를 사용하면 실제 활용도가 높아집니다.

공개 데이터셋 활용

비전 언어 모델을 위한 고품질 학습 데이터를 수집하는 것은 번거로운 일일 수도 있지만 기존 데이터 세트를 사용해 보다 구체적인 다운스트림 작업을 위한 사전 학습과 최적화 및 미세 조정을 수행할 수 있습니다:

▷ 이미지 주석 데이터: 주석이 달린 이미지가 포함된 대규모 데이터셋

▷ 객체 감지 데이터: 대규모 캡션과 객체 감지 및 세분화를 위한 레이블이 지정된 이미지

▷ 다국어 쌍 데이터: 수십억 개의 다국어 이미지 텍스트 쌍으로 구성된 데이터셋

▷ 질의응답 데이터: 시각 질의응답과 추론을 위한 데이터셋

기존 데이터 세트를 사용해 보다 구체적인 다운스트림 작업을 위한 사전 학습과 최적화 및 미세 조정을 수행할 수 있습니다.

작업 특화 파인튜닝

시각 질의응답과 문자 인식 그리고 차트와 문서 이해 그리고 의료 영상 등 도메인 데이터를 사용해 성능을 정교화합니다.

▷ 시각 질의응답: 이미지 내용에 대한 질문에 답변하는 능력 향상

▷ 문서 이해: 문자 인식과 문서 레이아웃 이해 성능 개선

▷ 차트 분석: 차트와 그래프에서 정보를 추출하고 해석하는 능력

▷ 의료 영상: 의료 도메인의 영상 데이터 이해와 분석

작업 특화 파인튜닝을 통해 시각 질의응답과 문자 인식 그리고 차트와 문서 이해 그리고 의료 영상 등 도메인 데이터를 사용해 성능을 정교화합니다.

멀티모달 문서 처리

비전 언어 모델은 텍스트와 이미지 정보를 결합해 문서의 맥락과 구조를 심층적으로 이해함으로써 기존 문자 인식 기술의 한계를 뛰어넘습니다.

▷ 복합 데이터 이해: 이미지 내 표와 그래프 그리고 아이콘 등을 인지하고 이들의 개념적 의미를 정확히 해석

▷ 비정형 문서 처리: 다양한 문서 형식과 템플릿에 상관없이 핵심 정보를 정확히 추출

▷ 구조적 맥락 유지: 문서 내 요소들의 계층적 관계를 인식해 핵심 정보와 부차 정보를 명확히 구분

▷ 즉시 적용 가능: 별도의 복잡한 전처리 과정 없이 업무 현장에 즉시 적용 가능한 문서 이해 기술

비전 언어 모델 문자 인식은 텍스트와 이미지 정보를 결합해 문서의 맥락과 구조를 심층적으로 이해합니다.

합성 데이터 활용



스몰 비전 언어 모델은 합성 데이터를 활용해 파인튜닝된 버전을 제공합니다.

▷ 데이터 다양성: 대형 모델로 합성 데이터를 생성해 데이터 다양성 확대

▷ 비용 효율성: 실제 데이터 수집의 어려움과 비용을 줄이면서 학습 데이터 확보

▷ 도메인 적용: 특정 도메인에 맞춰 합성 데이터 생성으로 성능 향상

▷ 품질 관리: 합성 데이터의 품질을 관리해 모델 성능 보장

합성 데이터를 활용한 파인튜닝은 실제 데이터 수집의 어려움을 극복하고 모델 성능을 향상시킵니다.

교차 어텐션 메커니즘

교차 어텐션 기술을 통해 이미지와 텍스트 정보 간 상호작용을 촉진해 더 정확한 추론이 가능합니다.

▷ 정보 결합: 시각 토큰과 언어 토큰 간의 상호 참조로 정보 통합

▷ 맥락 이해: 이미지의 시각적 맥락과 텍스트의 의미를 함께 고려

▷ 정확도 향상: 단순 문자 인식을 넘어 문서의 의미와 구조 파악

▷ 추론 능력: 이미지와 텍스트를 결합한 복잡한 추론 수행

교차 어텐션 기술을 통해 이미지와 텍스트 정보 간 상호작용을 촉진해 더 정확한 추론이 가능합니다.

데이터 파이프라인 구축

입력 파이프라인은 해상도와 비율 정규화 그리고 타일링과 크롭 전략 그리고 캡션 품질 관리를 포함합니다.

▷ 해상도 정규화: 다양한 크기의 이미지를 표준 해상도로 조정

▷ 비율 처리: 이미지 비율을 유지하거나 조정해 모델 입력에 맞춤

▷ 타일링 전략: 큰 이미지를 작은 타일로 나눠 처리

▷ 캡션 품질: 이미지와 텍스트 쌍의 품질을 관리하고 검증

입력 파이프라인은 해상도와 비율 정규화 그리고 타일링과 크롭 전략 그리고 캡션 품질 관리를 포함합니다.

경량 어댑터 활용

경량 어댑터로 거대언어모델과 시각 인코더를 연동하면 비용 대비 성능이 우수합니다.

▷ 프로젝터 레이어: 경량 프로젝터나 어댑터로 두 모델 연결

▷ 파라미터 효율성: 전체 모델을 학습하는 것보다 적은 파라미터로 효과 달성

▷ 로라 튜닝: 로라 튜닝 기법으로 메모리 효율적인 파인튜닝 수행

▷ 성능 최적화: 비용 대비 성능이 우수한 어댑터 구조 설계

경량 어댑터로 거대언어모델과 시각 인코더를 연동하면 비용 대비 성능이 우수합니다.

평가 벤치마크

비전 언어 모델을 평가하는 다양한 벤치마크가 존재합니다.

▷ 멀티모달 이해: 대학 수준의 과목 지식과 추론을 평가하는 포괄적 벤치마크

▷ 다양한 기술: 문자 인식과 객체 위치 파악 등 다양한 기술 평가

▷ 동적 벤치마크: 매월 자동으로 업데이트되는 동적 벤치마크로 이전에 본 적이 없는 질문과 이미지 사용

▷ 검증 필요성: 인공지능 환각에 취약할 수 있어 모델 결과 검증이 중요한 단계

비전 언어 모델을 평가하는 다양한 벤치마크를 통해 모델 성능을 측정하고 개선합니다.

향후 발전 방향

비전 언어 모델 기술은 지속적으로 발전하고 있습니다. 거대언어모델들이 멀티모달 능력을 갖추면서 이미지나 음성까지 이해하고 생성하는 종합 인공지능 모델로 진화하는 추세이며 비전 언어 모델 연구는 더 똑똑하고 더 안전하고 더 빠르고 더 많은 정보를 다룰 수 있는 방향으로 급속히 발전하고 있습니다. 복잡한 다단계 시각 추론과 수리와 도표 해석 등에서 여전히 한계가 존재하지만 개인정보와 저작권 이슈 그리고 민감 이미지 처리 등 윤리와 거버넌스 고려를 통해 지속 가능한 발전이 기대됩니다.

이전글
이전글
다음글
다음글
목록보기