
비전 언어 모델은 이미지와 텍스트를 통합적으로 이해하고 처리하는 모델입니다. 문서 인식과 이미지 설명 그리고 질의응답 등 다양한 작업에 활용되며 거대언어모델의 한계를 보완하는 핵심 기술로 주목받고 있습니다. 비전 언어 모델은 시각 정보와 언어 정보를 결합한 멀티모달 모델로 다량의 이미지 텍스트 데이터를 학습해 시각과 언어 정보를 동시에 처리할 수 있습니다. 전통적으로 분리되어 발전하던 컴퓨터 비전과 자연어 처리를 공통 표현 공간으로 연결해 시각적 맥락을 텍스트로 설명하거나 텍스트 조건을 바탕으로 시각 정보를 추론하는 등 다양한 과업을 수행합니다.
비전 언어 모델을 처음부터 학습시키는 것은 리소스 집약적이고 비용이 많이 들 수 있습니다.
사전 학습된 모델을 활용해서 비전 언어 모델을 구축할 수 있으며 이미지의 시각적 표현을 거대언어모델의 입력 공간에 정렬하거나 투영하는 매핑 네트워크 레이어가 추가됩니다.
비전 언어 모델의 경우 대량의 이미지 텍스트 데이터에 대해서 사전학습을 합니다.
비전 언어 모델로 다국어 인식을 수행할 수 있고 필요에 따라 이미지 캡셔닝과 차트 인식 등의 작업도 커스터마이징해 수행할 수 있습니다.

비전 언어 모델은 이미지 텍스트 쌍 데이터 세트를 학습해 일치하는 쌍의 임베딩 거리는 최소화하고 일치하지 않는 쌍의 임베딩 거리는 최대화하도록 훈련됩니다:
대비 학습은 두 인코더의 이미지와 텍스트 임베딩을 공동 또는 공유 임베딩 공간에 매핑합니다.
데이터셋은 보유 중인 데이터를 활용하는 방법과 문서 이미지 데이터를 합성하는 방법 그리고 공개 데이터셋을 사용하는 방법이 있습니다.
보유 중인 데이터와 합성을 통해 만든 데이터셋은 주석 정보가 없어도 모두 자기지도학습을 이용한 사전학습에 사용될 수 있습니다.

사용자의 질의 방식에 맞춘 프롬프트 응답 데이터를 통해 멀티모달 대화 능력을 강화합니다.
고품질 멀티턴 대화와 정답 근거를 포함하는 지시 튜닝 데이터를 사용하면 실제 활용도가 높아집니다.
비전 언어 모델을 위한 고품질 학습 데이터를 수집하는 것은 번거로운 일일 수도 있지만 기존 데이터 세트를 사용해 보다 구체적인 다운스트림 작업을 위한 사전 학습과 최적화 및 미세 조정을 수행할 수 있습니다:
기존 데이터 세트를 사용해 보다 구체적인 다운스트림 작업을 위한 사전 학습과 최적화 및 미세 조정을 수행할 수 있습니다.


시각 질의응답과 문자 인식 그리고 차트와 문서 이해 그리고 의료 영상 등 도메인 데이터를 사용해 성능을 정교화합니다.
작업 특화 파인튜닝을 통해 시각 질의응답과 문자 인식 그리고 차트와 문서 이해 그리고 의료 영상 등 도메인 데이터를 사용해 성능을 정교화합니다.
비전 언어 모델은 텍스트와 이미지 정보를 결합해 문서의 맥락과 구조를 심층적으로 이해함으로써 기존 문자 인식 기술의 한계를 뛰어넘습니다.
비전 언어 모델 문자 인식은 텍스트와 이미지 정보를 결합해 문서의 맥락과 구조를 심층적으로 이해합니다.

스몰 비전 언어 모델은 합성 데이터를 활용해 파인튜닝된 버전을 제공합니다.
합성 데이터를 활용한 파인튜닝은 실제 데이터 수집의 어려움을 극복하고 모델 성능을 향상시킵니다.
교차 어텐션 기술을 통해 이미지와 텍스트 정보 간 상호작용을 촉진해 더 정확한 추론이 가능합니다.
교차 어텐션 기술을 통해 이미지와 텍스트 정보 간 상호작용을 촉진해 더 정확한 추론이 가능합니다.
입력 파이프라인은 해상도와 비율 정규화 그리고 타일링과 크롭 전략 그리고 캡션 품질 관리를 포함합니다.
입력 파이프라인은 해상도와 비율 정규화 그리고 타일링과 크롭 전략 그리고 캡션 품질 관리를 포함합니다.
경량 어댑터로 거대언어모델과 시각 인코더를 연동하면 비용 대비 성능이 우수합니다.
경량 어댑터로 거대언어모델과 시각 인코더를 연동하면 비용 대비 성능이 우수합니다.
비전 언어 모델을 평가하는 다양한 벤치마크가 존재합니다.
비전 언어 모델을 평가하는 다양한 벤치마크를 통해 모델 성능을 측정하고 개선합니다.
비전 언어 모델 기술은 지속적으로 발전하고 있습니다. 거대언어모델들이 멀티모달 능력을 갖추면서 이미지나 음성까지 이해하고 생성하는 종합 인공지능 모델로 진화하는 추세이며 비전 언어 모델 연구는 더 똑똑하고 더 안전하고 더 빠르고 더 많은 정보를 다룰 수 있는 방향으로 급속히 발전하고 있습니다. 복잡한 다단계 시각 추론과 수리와 도표 해석 등에서 여전히 한계가 존재하지만 개인정보와 저작권 이슈 그리고 민감 이미지 처리 등 윤리와 거버넌스 고려를 통해 지속 가능한 발전이 기대됩니다.
