
AI 모델을 훈련하기 위해서는 대량의 현실 데이터가 필요합니다. 하지만 현실 데이터 수집은 매우 비용이 큽니다. 센서 구축, 데이터 수집, 라벨링, 데이터 정제에 드는 비용이 모두 합산되면, 프로젝트의 상당 부분을 차지합니다. 특히 위험하거나 접근하기 어려운 환경의 데이터를 수집하려면 비용이 기하급수적으로 증가합니다.
또한 현실 데이터의 편향 문제도 있습니다. 특정 시간대, 특정 환경, 특정 제품에서만 데이터를 수집하면, 모델은 그 조건에만 맞춘 편향된 학습을 하게 됩니다. 다양한 조건의 데이터를 수집하려면 수집 기간을 길게 해야 하고, 그만큼 비용도 증가합니다.
비용 절감 AI 학습은 이런 딜레마를 해결하는 방법입니다. 제한된 현실 데이터로도 효과적인 모델을 훈련할 수 있다면, 프로젝트의 경제성이 크게 향상됩니다. 이를 위해서는 데이터의 효율적 활용, 합성 데이터의 활용, 전이 학습 등의 기법이 필요합니다.

합성 데이터는 컴퓨터로 생성한 데이터입니다. 시뮬레이션을 통해 원하는 상황의 데이터를 원하는 만큼 생성할 수 있습니다. 합성 데이터는 현실 데이터 수집 비용의 극히 일부만 들고도 대량을 확보할 수 있습니다.
하지만 합성 데이터만으로는 부족합니다. 시뮬레이션은 현실의 모든 복잡성을 완벽하게 모의할 수 없기 때문입니다. 따라서 효과적인 전략은 합성 데이터와 현실 데이터를 결합하는 것입니다. 합성 데이터로 기본 패턴을 학습하고, 현실 데이터로 세밀한 부분을 보정합니다.
이 조합의 장점은 시너지입니다. 합성 데이터의 다양성과 현실 데이터의 정확성을 모두 활용하면, 비용을 크게 줄이면서도 모델의 품질을 유지할 수 있습니다. 예를 들어 합성 데이터로 90%의 성능을 달성하고, 현실 데이터로 나머지 10%를 개선하는 식입니다.

이 과정을 통해 최소 비용으로 최대 효과를 내는 학습 데이터 구성이 완성됩니다.

도메인 적응은 한 환경에서 훈련한 모델을 다른 환경에 적응시키는 기법입니다. 합성 데이터로 훈련한 모델이 현실 데이터에서도 잘 작동하도록 조정합니다.
도메인 적응의 중심은 특징 공간의 정렬입니다. 합성 데이터와 현실 데이터로부터 추출한 고수준의 특징들이 최대한 겹치도록 모델을 조정합니다. 이를 통해 모델은 합성과 현실의 차이를 무시하고, 실질적인 문제 해결에만 집중할 수 있게 됩니다.
전이 학습은 한 작업에서 학습한 지식을 다른 작업에 활용하는 방법입니다. 예를 들어 일반적인 물체 인식으로 훈련한 모델을 특정 산업의 장비 인식에 적용할 수 있습니다. 이렇게 하면, 산업 특화 모델을 처음부터 훈련할 때보다 훨씬 적은 현실 데이터로 원하는 성능을 달성할 수 있습니다.
능동 학습은 모델이 스스로 어떤 데이터가 필요한지 판단하는 기법입니다. 모델이 확신할 수 없는 샘플을 식별하고, 그런 샘플을 우선적으로 라벨링합니다.
능동 학습의 과정은 반복적입니다. 먼저 작은 초기 데이터셋으로 모델을 훈련합니다. 그 다음 미라벨 데이터에서 모델이 가장 불확실해 하는 샘플을 선택하고, 그 샘플만 라벨링합니다. 이렇게 라벨링된 새로운 샘플을 훈련 데이터에 추가하고 모델을 재훈련합니다. 이 과정을 반복하면, 최소한의 라벨링으로 원하는 성능을 달성할 수 있습니다.
또한 다양성 기반 선택도 있습니다. 모델의 불확실성뿐 아니라, 데이터의 다양성도 고려하여 샘플을 선택합니다. 이렇게 하면 모델이 데이터 공간의 모든 영역을 고르게 학습할 수 있습니다.

라벨링은 높은 비용이 듭니다. 전문가가 정확하게 라벨링하려면 시간과 비용이 많이 들기 때문입니다. 약한 라벨링은 정확도는 약간 떨어지지만, 비용을 크게 줄일 수 있는 방법입니다.
약한 라벨링의 예로는 여럿이서 빠르게 라벨링하는 크라우드소싱, 대략적인 범위만 표시하는 느슨한 주석, 자동화된 도구로 생성한 초기 라벨 등이 있습니다. 이런 약한 라벨링도 여러 개를 합치면 꽤 신뢰할 수 있는 신호가 됩니다.
준지도 학습은 라벨이 없는 데이터도 활용하는 방법입니다. 일부 데이터만 라벨링하고, 나머지 데이터는 라벨 없이 모델 훈련에 활용합니다. 모델이 라벨 없는 데이터에서 데이터의 기본 구조를 학습하면, 라벨된 데이터로부터의 학습이 더 효과적이 됩니다.
과거에 수집된 데이터도 새로운 모델 훈련에 활용할 수 있습니다. 예를 들어 과거 프로젝트에서 수집한 센서 데이터나 카메라 영상을 다시 라벨링하여 새로운 모델 훈련에 사용할 수 있습니다.
데이터 재활용의 중심은 메타데이터의 체계적 관리입니다. 언제, 어디서, 어떤 조건에서 수집했는지를 명확히 기록해두면, 나중에 이 데이터가 새로운 작업에 적합한지 판단할 수 있습니다. 또한 데이터를 표준화된 형식으로 저장하면, 서로 다른 프로젝트의 데이터를 쉽게 통합할 수 있습니다.
또한 데이터 수집의 누적 효과도 있습니다. 첫 번째 프로젝트에서 1000개의 데이터를 수집했다면, 두 번째 프로젝트에서는 그 1000개를 기초로 추가 수집하면 됩니다. 이렇게 하면 각 프로젝트는 이전 프로젝트의 노산을 활용하여, 증분적으로 필요한 데이터만 새로 수집할 수 있습니다.

일부 라벨링은 자동화할 수 있습니다. 규칙 기반의 휴리스틱이나 기존 모델을 사용하여 초기 라벨을 생성할 수 있습니다.
예를 들어 보수적인 기존 모델로 데이터를 분류하고, 그 결과를 초기 라벨로 사용할 수 있습니다. 이 자동 라벨이 완벽하지는 않지만, 인간 라벨러의 출발점을 제공합니다. 인간 라벨러는 자동 라벨을 검토하고 필요한 부분만 수정하면 되므로, 라벨링 시간을 크게 줄일 수 있습니다.
또한 규칙 기반 휴리스틱(Heuristic)도 활용할 수 있습니다. 예를 들어 물류 데이터에서 "상자의 색이 빨간색이고 크기가 크면 고가 제품"이라는 규칙을 정의하면, 이 규칙에 기반한 초기 분류를 할 수 있습니다. 이 휴리스틱이 완벽하지 않아도, 더 정확한 모델이 학습하기 위한 출발점이 됩니다.
모든 데이터가 동일한 가치를 가지는 것은 아닙니다. 어떤 샘플은 모델 성능을 크게 향상시키지만, 어떤 샘플은 거의 기여하지 않을 수 있습니다. 데이터 수집 비용을 절감하려면, 가치 있는 데이터를 우선적으로 수집해야 합니다.
데이터 가치 평가는 여러 방식이 있습니다. 정보 이론 기반 평가는 데이터가 모델에 얼마나 새로운 정보를 제공하는지를 측정합니다. 오류 감소 기반 평가는 데이터를 추가했을 때 모델의 오류가 얼마나 줄어드는지를 직접 측정합니다. 다양성 기반 평가는 기존 데이터와 얼마나 다른지를 평가합니다.
또한 비용 대비 효과도 고려해야 합니다. 수집하기 어려운 환경의 데이터는 가치가 높아도, 비용이 너무 크면 경제성이 없을 수 있습니다. 데이터 수집 비용과 모델 성능 향상의 관계를 분석하여, 최적의 데이터 포트폴리오를 구성합니다.
데이터 수집을 시작하면 비용은 계속 증가합니다. 따라서 지속적으로 비용 대비 효과를 모니터링하고, 필요하면 전략을 조정해야 합니다. 효과적인 모니터링은 메트릭 추적입니다. 수집한 데이터양, 수집 비용, 모델 성능을 모두 기록하고, 시간에 따른 추이를 분석합니다. 만약 추가 데이터 수집에도 모델 성능이 증가하지 않는 구간이 나타나면, 그 시점에서 수집을 중단하고 모델 개선에 집중할 수 있습니다.
또한 비용 절감 기법의 효과도 평가합니다. 합성 데이터 활용으로 얼마나 비용을 절감했는가, 능동 학습으로 얼마나 적은 데이터로 목표 성능을 달성했는가를 측정합니다. 이런 정량적 평가를 통해, 향후 프로젝트에서 어떤 전략을 우선적으로 적용할지를 결정할 수 있습니다.
