
Liveness Detection 모델을 적절히 훈련하기 위해서는 단순히 수천 개의 이미지가 아닌 수백만 개의 고품질 데이터가 요구됩니다. 그러나 이 정도 규모의 데이터를 수집하고 관리하는 과정은 매우 복잡한 과제입니다.
첫 번째 도전은 수집의 비용입니다. 실제 사람의 얼굴을 수집하려면 참여자들을 모아 카메라 앞에서 다양한 행동을 수행하도록 해야 합니다. 이를 위해 기업들은 여러 국가에서 촬영 스튜디오를 운영하거나 크라우드소싱 플랫폼을 통해 글로벌 사용자로부터 데이터를 수집합니다. 또한 마스크, 사진, 비디오 같은 위조물도 직접 제작하거나 수집해야 하므로 상당한 자원이 필요합니다.
두 번째 도전은 프라이버시입니다. 외국인의 얼굴 영상은 개인정보 중 가장 민감한 정보에 해당합니다. 따라서 명확한 동의 하에 수집되어야 하고 사용 목적을 투명하게 설명해야 합니다. 수집된 데이터는 엄격하게 보호되어야 하며 규제 요구사항을 충족해야 합니다.
세 번째 도전은 품질입니다. 수집된 영상이 Liveness Detection 훈련에 실제로 유용한지를 판단해야 합니다. 과도하게 흐릿하거나 얼굴이 작거나 조명이 극단적인 영상은 모델 훈련에 충분한 가치를 제공하기 어렵습니다. 따라서 엄격한 품질 관리가 필수적입니다.
Liveness Detection 데이터를 수집하는 방식은 여러 가지이며 각 방식은 고유한 장단점을 가집니다. 일반적으로 기업들은 여러 채널을 조합하여 활용합니다.
스튜디오 촬영은 통제된 환경에서의 수집을 의미합니다. 전문 촬영 스튜디오에서 다양한 배경, 조명, 카메라를 활용하여 촬영합니다. 이 접근 방식은 높은 영상 품질과 일관성 있는 라벨링이 가능하지만 비용이 상당하고 실제 환경이 아닌 인공적인 환경이라는 한계가 있습니다.
모바일 앱 기반 수집은 광범위한 참여를 가능하게 합니다. 기업이 "얼굴을 촬영하면 보상을 제공한다"는 앱을 만들어 전 세계 사용자가 자신의 휴대폰으로 촬영한 영상을 제공하도록 합니다. 이 방식은 비용이 상대적으로 낮고 자연스러운 환경에서의 대규모 데이터 수집을 가능하게 하지만 영상 품질이 불균등하고 라벨링이 어려우며 프라이버시 관리가 복잡합니다.
기존 플랫폼 데이터의 활용은 실제 사용 환경의 데이터를 제공합니다. 은행이나 결제 서비스가 이미 수집한 고객의 얼굴 영상을 활용하면 실제 사용 상황의 데이터를 확보할 수 있습니다. 다만 데이터 규모가 제한적일 수 있으며 인종별 분포에 불균형이 있을 가능성이 있습니다.
공개 데이터베이스의 활용도 선택지입니다. 학술 기관이나 연구 조직이 공개한 Liveness Detection 데이터셋을 사용하면 비용 없이 이미 라벨링된 데이터로 연구를 진행할 수 있습니다. 다만 사용 가능한 데이터가 제한적이고 실제 배포 환경과 차이가 있을 수 있습니다.

Liveness Detection 모델이 실제 환경에서 안정적으로 작동하기 위해서는 훈련 데이터가 실제 환경의 다양한 조건을 충분히 반영해야 합니다.
조명 환경의 다양성은 매우 중요합니다. 실내 형광등, 실내 LED, 시간대에 따라 변하는 자연광, 야외의 밝은 햇빛, 저조도 환경, 역광 상황 등을 모두 고려해야 합니다. 기업은 이러한 모든 조건에서 촬영하거나 이미지 처리를 통해 조건을 시뮬레이션합니다.
배경의 다양성도 마찬가지입니다. 제어된 단색 배경, 사무실 배경, 가정 내 배경, 야외 배경, 복잡한 패턴의 배경까지 포함되어야 합니다.
카메라와 기기의 다양성도 고려됩니다. 다양한 해상도(480p부터 4K까지), 저가 스마트폰부터 고급 스마트폰까지의 카메라 품질, 광각부터 망원까지의 렌즈, 웹캠과 DSLR, 액션캠 등 다양한 기기를 포함해야 합니다.
사용자의 다양성도 필수적입니다. 다양한 피부색과 인종, 어린이부터 고령자까지의 나이대, 성별의 다양성, 안경 착용 여부, 수염이나 화장과 헤어스타일의 차이까지 모두 반영되어야 합니다.


수집된 영상을 어떻게 라벨링할 것인가는 모델의 정확도에 직접적인 영향을 미칩니다. 라벨링이 부정확하면 모델도 부정확해질 가능성이 높습니다.
기본적인 라벨링은 이진 분류입니다. Live(실제 사람)는 카메라 앞의 실제 생명체를, Spoof(위조)는 사진, 비디오, 마스크 등의 위조물을 나타냅니다.
더 상세한 라벨링도 필요합니다. 위조 유형으로는 인쇄된 사진, 디지털 화면의 사진, 비디오, 다양한 마스크(실리콘, 3D, 종이), Deepfake 등을 구분합니다. 위조 품질은 저품질, 중품질, 고품질로 분류하며 위조 크기는 얼굴이 화면의 얼마나 차지하는지를 기록합니다. 위조 이동은 정적인 위조물과 동적인 위조물을 구분합니다.
얼굴의 속성도 라벨링합니다. 인종, 나이대, 성별, 안경 착용 여부, 얼굴 방향, 얼굴 크기 같은 정보를 기록합니다.
라벨링 일관성을 보장하기 위해서는 명확한 가이드라인을 작성하고 라벨러를 충분히 교육해야 합니다. 여러 라벨러가 같은 이미지에 대해 일치하는지 검증(rater reliability)하고 정기적으로 라벨링 품질을 점검합니다.

Liveness Detection을 효과적으로 훈련하기 위해서는 실제 위조 공격 데이터를 수집하는 것이 매우 중요합니다.
사진 공격 데이터에는 다양한 종이 품질과 해상도의 인쇄 사진, 스마트폰 화면에 띄운 사진, 노트북 모니터에 띄운 사진, 프로젝터로 벽에 투영한 사진이 포함됩니다.
비디오 공격 데이터는 스마트폰 화면에서 재생하는 비디오, 노트북 모니터에서의 비디오, 대형 TV 화면의 비디오, 다양한 재생 속도의 비디오를 포함합니다.
마스크 공격 데이터에는 고품질과 저품질의 실리콘 마스크, 다양한 재질과 정확도의 3D 프린팅 마스크, 종이 마스크, 부분 마스크(눈 부분만, 입 부분만)가 포함됩니다.
이러한 위조 공격은 직접 제작하거나 공개된 공격 데이터를 활용합니다. 모든 가능한 공격을 수집할 수는 없으므로 가장 현실적이고 빈번한 공격에 초점을 맞춥니다.
수집된 데이터를 분석하면 일반적으로 특정 그룹이 과도하게 많고 다른 그룹은 부족한 불균형이 관찰됩니다. 예를 들어 인종별로는 동아시아인이 50%, 유럽인이 30%, 아프리카인이 10%, 기타가 10%일 수 있습니다. 나이별로는 20~40대가 80%, 어린이와 고령자가 20%일 수 있으며 성별로는 여성이 60%, 남성이 40%일 수 있습니다. 조명 환경에서도 밝은 실내가 70%, 저조도가 20%, 야외가 10%일 수 있습니다.
이러한 불균형은 모델의 성능 편향을 초래할 수 있습니다. 예를 들어 특정 인종의 데이터가 부족하면 모델이 그 인종의 얼굴을 정확히 인식하지 못할 가능성이 있습니다.
불균형을 완화하기 위해서는 데이터 수집 시 목표 비율을 설정(각 인종 15% 이상)하고 부족한 그룹의 데이터를 우선적으로 수집합니다. 데이터 증강을 통해 기존 이미지를 조작하여 새로운 데이터를 생성할 수 있으며 훈련 시 부족한 그룹의 데이터에 더 높은 가중치를 부여할 수 있습니다.

수집된 얼굴 데이터는 개인을 식별할 수 있는 민감한 정보이므로 엄격한 프라이버시 보호가 필수적입니다. 익명화 방법으로는 얼굴 자동 감지 후 저해상도 변환, 얼굴의 특정 부분 픽셀화, 전체 얼굴에 가우시안 블러 적용, 안경이나 모자 같은 요소의 추가 등이 있습니다.
그러나 완전한 익명화는 Liveness Detection 훈련에 부정적인 영향을 미칠 수 있습니다. 모델이 미세한 생체 신호를 감지해야 하는데 과도한 익명화는 이러한 신호를 손상시킬 가능성이 있습니다.
따라서 실무에서는 다음과 같은 절충책을 사용합니다. 훈련 단계에서는 원본 고해상도 영상을 사용하되 강화된 접근 제어 아래에서 관리합니다. 라벨링 단계에서는 익명화된 영상을 사용하여 라벨러가 개인을 특정할 수 없도록 합니다. 배포 단계에서는 처리된 영상만 저장하고 원본은 즉시 삭제합니다.
모델을 배포한 후에도 새로운 데이터를 수집하고 모델을 업데이트할 필요가 있습니다. 공격자들이 계속해서 새로운 위조 방법을 개발하기 때문입니다.
지속적 데이터 수집의 소스로는 모델이 오판한 실패 사례, 실제 환경에서 발견되는 새로운 공격 기법, 새로 출시되는 스마트폰이나 새로운 조명 기술 같은 새로운 기기와 환경, 새로운 국가나 문화권의 사용자가 포함됩니다.
기업은 이러한 새로운 데이터를 정기적으로 수집하고 모델을 재훈련합니다. 다만 과거 데이터와 새 데이터 사이의 균형을 유지해야 합니다. 오래된 데이터를 완전히 제거하면 기존에 잘 작동했던 기능이 손상될 수 있기 때문입니다.
Liveness Detection 데이터셋이 실제로 효과적인 모델을 만들 수 있는지 평가하는 것이 중요합니다. 평가 방법으로는 데이터의 20%를 분리하여 훈련에 사용하지 않는 홀드아웃 테스트, 데이터를 여러 부분으로 나누어 각각을 테스트 세트로 사용하는 교차 검증, 각 그룹별 성능의 균등성을 확인하는 인종별/나이별 분석이 있습니다.
성능 지표로는 Live 정확도(실제 사람을 올바르게 인식하는 비율), Spoof 탐지율(위조물을 올바르게 탐지하는 비율), 두 지표의 균형성, 특정 인종에 대한 성능 편차 등을 사용합니다.
외부 벤치마크와의 비교도 의미가 있을 수 있습니다. 학술 기관이나 국제 표준화 기구가 주기적으로 Liveness Detection 성능 평가를 개최하므로 기업의 모델이 이러한 평가에서 양호한 결과를 보이면 시장의 신뢰도 향상에 도움이 될 수 있습니다.
