AI 성능 40% 끌어올린다? 대세는 멀티모달 학습용 데이터

트렌드
2026-02-09

사전학습 데이터의 규모



멀티모달 AI 모델을 만들려면 엄청난 양의 학습 데이터가 필요합니다. 단일 모달리티 모델보다 훨씬 많은 데이터를 요구합니다. OpenAI의 CLIP 모델은 웹에서 수집한 4억 개 이상의 이미지-텍스트 쌍으로 사전학습되었습니다. 이렇게 대규모 데이터로 학습해야 모델이 다양한 상황에서 일반화 능력을 갖추게 됩니다. 최근 공개된 멀티모달 모델들도 비슷한 규모의 데이터셋을 활용합니다. Google의 Gemini는 텍스트와 이미지, 오디오, 비디오까지 포함한 방대한 데이터로 훈련되었습니다. 충분한 데이터가 없으면 모델이 특정 도메인에서만 작동하고 새로운 상황에 제대로 대응하지 못합니다.

데이터 수집 방법과 출처

웹 크롤링으로 공개된 이미지와 텍스트를 대량으로 수집하는 방법이 가장 일반적입니다. 소셜 미디어와 뉴스 사이트, 위키피디아에서 이미지와 설명문을 함께 가져옵니다. 유튜브 같은 동영상 플랫폼에서는 영상과 자막, 댓글을 수집합니다. 하지만 웹 데이터는 저작권 문제가 있을 수 있어 신중한 접근이 필요합니다. 공개 데이터셋을 활용하는 방법도 있습니다. COCO나 ImageNet 같은 이미지 데이터셋에 캡션을 추가로 작성해 멀티모달 데이터로 만듭니다. 음성 데이터는 LibriSpeech 같은 공개 말뭉치를 사용하거나 직접 녹음해서 구축합니다.

한국형 데이터 구축의 필요성

서구권 데이터로 학습한 모델은 한국 문화를 완벽하게 이해하기 어렵습니다. 예를 들어  '한옥'이나 '한복', '경복궁' 같은 개념을 학습하려면 한국적 이미지와 설명이 필요합니다. 정부는 AI Hub 플랫폼을 통해 한국형 멀티모달 데이터를 공개하고 있습니다. 한국지능정보사회진흥원이 주관하는 초거대 AI 확산 생태계 조성사업으로 다양한 데이터셋이 구축되었습니다. '한국적 영상 이해 데이터' 프로젝트에서는 4만여 장의 이미지와 20만여 개의 캡션을 국문과 영문으로 제작했습니다. 가을 단풍이 물든 궁궐 같은 한국 특유의 풍경을 AI가 정확히 인식하도록 만드는 것이 목표입니다.

페어 데이터 구성 전략



이미지와 텍스트를 모으기만 하는 것으로는 부족합니다. 두 데이터가 의미상 정확히 대응되어야 합니다. 사진 속 물체와 설명문의 단어가 서로 일치해야 모델이 올바른 관계를 학습합니다. 자동 수집된 웹 데이터는 이미지와 주변 텍스트가 실제로는 관련 없는 경우가 많으며 광고 이미지와 기사 본문이 함께 크롤링되어 잘못된 쌍을 만들기도 합니다. 따라서 수집 후 검증 작업이 반드시 필요합니다. 사람이 직접 확인하거나 자동 필터링 시스템으로 부적절한 쌍을 제거합니다.

데이터 정제와 품질 관리

원시 데이터를 그대로 학습에 사용하면 모델 성능이 저하될 수 있습니다. 중복된 이미지를 제거하고 저화질 사진을 걸러내고 텍스트에서 오타와 문법 오류를 수정합니다. 음성 데이터는 잡음을 제거하고 음량을 정규화합니다. 부적절한 콘텐츠나 편향된 표현도 걸러내야 합니다. 데이터셋에 특정 인종이나 성별이 과도하게 많으면 모델이 편향성을 학습하게 됩니다. 균형잡힌 데이터 분포를 만들기 위해 샘플링 전략을 조정합니다. 품질 점수를 매겨서 일정 기준 이하 데이터는 제외하는 방법도 사용됩니다.

메타데이터 구축과 의미 정보

영상 데이터는 단순히 동영상 파일만으로는 충분하지 않습니다. 각 장면의 의미를 담은 메타데이터가 필요합니다. 등장 인물의 감정 상태를 8종으로 분류해 수치화합니다. 기쁨과 슬픔, 분노, 놀람, 공포, 경멸, 혐오, 중립 각각에 대해 1에서 10 사이 점수를 부여합니다. 인물의 성별과 연령대, 발화 내용도 스크립트로 기록합니다. 화면에 나오는 객체 정보와 등장인물 간 관계, 전체 상황 설명을 문장으로 작성합니다. AI Hub의 멀티모달 영상 데이터는 110시간 분량에 이런 의미 정보를 모두 부착했습니다.

사전학습과 파인튜닝 데이터 구분

멀티모달 AI 개발은 두 단계로 진행됩니다. 먼저 대규모 일반 데이터로 사전학습을 수행합니다. 이 단계에서는 데이터 양이 가장 중요합니다. 모델이 세상의 일반적인 지식을 습득하도록 만듭니다. 다음으로 특정 작업에 맞는 데이터로 파인튜닝을 진행합니다. 의료 AI를 만든다면 의료 영상과 진단 기록으로 추가 학습시킵니다. 파인튜닝 데이터는 사전학습보다 양이 적어도 되지만 품질이 매우 중요합니다. 도메인 전문가가 직접 검수한 고품질 데이터를 사용해야 정확한 결과를 얻을 수 있습니다.

데이터 증강 기법 활용



수집한 데이터만으로 부족하면 인위적으로 데이터를 늘립니다. 이미지 데이터 증강은 원본 사진을 회전하거나 확대 축소, 색상 변경하는 방식입니다. 같은 이미지로 여러 변형본을 만들어 학습 데이터를 확장합니다. 텍스트는 동의어로 바꾸거나 문장 순서를 조정합니다. 역번역 기법으로 한국어를 영어로 번역한 뒤 다시 한국어로 번역하면 원문과 비슷하지만 다른 표현의 문장이 만들어집니다. 음성 데이터는 속도를 조절하거나 노이즈를 추가해 다양한 환경을 시뮬레이션합니다. 이런 증강 기법으로 모델의 강건성을 높일 수 있습니다.

데이터 저장과 관리 체계

멀티모달 데이터는 용량이 방대해서 효율적인 저장 시스템이 필요합니다. 이미지와 영상 파일은 클라우드 스토리지에 보관합니다. 메타데이터와 주석 정보는 데이터베이스에 구조화해서 저장합니다. BigQuery 같은 대규모 데이터 처리 플랫폼을 활용합니다. 데이터 버전 관리도 중요합니다. 데이터셋이 업데이트될 때마다 버전을 기록해 언제든 이전 버전으로 돌아갈 수 있게 만듭니다. 접근 권한 관리로 민감한 데이터를 보호합니다. 연구자들이 필요한 데이터를 쉽게 찾고 다운로드할 수 있도록 검색 기능과 API를 제공합니다.

공개 데이터셋 활용과 결합

처음부터 모든 데이터를 직접 만들 필요는 없습니다. 이미 공개된 양질의 데이터셋을 활용합니다. COCO와 Visual Genome, Conceptual Captions 같은 이미지-텍스트 데이터셋이 많이 공개되어 있습니다. 자사의 내부 데이터와 공개 데이터를 적절히 섞어서 학습합니다. 공개 데이터로 기본 성능을 확보하고 내부 데이터로 특화 기능을 개발하는 전략입니다. 서로 다른 출처의 데이터를 결합할 때는 형식을 통일해야 합니다. 주석 스키마가 다르면 변환 작업이 필요합니다. 멀티태스크 학습으로 여러 데이터셋을 동시에 활용하면 모델의 일반화 능력이 향상됩니다.

데이터 편향성 측정과 완화

학습 데이터에 편향이 있으면 AI 모델도 편향된 결과를 낼 가능성이 높습니다. 데이터셋의 인구통계학적 분포를 분석합니다. 특정 성별이나 연령대, 인종이 과대 또는 과소 표현되는지 확인합니다. 직업이나 역할에 대한 고정관념이 데이터에 반영되어 있는지 점검합니다. 편향을 발견하면 부족한 카테고리의 데이터를 추가 수집합니다. 가중치를 조정해 소수 그룹의 데이터에 더 높은 중요도를 부여하기도 합니다. 공정성 지표로 모델 출력을 평가하고 문제가 있으면 데이터를 재구성합니다.

데이터 구축 비용과 효율화

고품질 멀티모달 데이터를 만드는 비용은 매우 높습니다. 전문 작업자를 고용해 수개월 동안 주석 작업을 진행해야 합니다. 비용을 줄이려면 자동화 수준을 높여야 합니다. 사전 학습된 모델로 초벌 작업을 하고 사람은 검수만 담당하는 방식입니다. 크라우드소싱 플랫폼으로 작업을 분산시켜 단가를 낮춥니다. 능동 학습으로 모델이 가장 학습 효과가 큰 데이터만 선택적으로 주석을 요청합니다. 합성 데이터 생성 기술도 발전하고 있습니다. 실제 데이터 대신 컴퓨터로 만든 가상 데이터를 활용하면 비용을 크게 절감할 수 있습니다.

이전글
이전글
다음글
다음글
목록보기