음성, 얼굴, 행동을 종합 분석하는 외국인 딥페이크 금융사기 탐지 데이터 모델

생성형 AI가 만든 새로운 금융 위협

생성형 AI 기술의 발전으로 딥페이크(deepfake)라는 새로운 금융 위협이 대두되었습니다. 딥페이크는 AI가 생성한 가짜 얼굴, 음성, 비디오를 의미합니다. 과거에는 고급 전문 기술이었지만 현재는 스마트폰 앱으로 쉽게 제작할 수 있게 되었습니다.

‍

금융범죄자들은 딥페이크를 악용하여 타인의 신원을 모방하고 거래를 수행합니다. 예를 들어 외국인 A의 얼굴을 딥페이크로 제작하여 외국인 A의 은행 앱에서 생체 인증을 우회하려고 시도할 수 있습니다. 과거에는 마스크나 사진으로 생체 인증을 속이는 것이 가능했지만 최신의 Liveness Detection 기술이 이를 효과적으로 차단했습니다. 그러나 고품질 딥페이크는 이러한 Liveness Detection 기술도 우회할 가능성이 있습니다.

‍

음성 딥페이크도 상당한 위협입니다. 금융기관이 음성 통화로 "송금을 확인하시겠습니까?"라고 최종 확인할 때 사기꾼이 피해자의 음성을 딥페이크로 제작하여 송금을 지시하거나 피해자가 아닌 다른 사람의 목소리를 피해자의 음성으로 조작할 수 있습니다.

‍

딥페이크의 기술적 진화와 탐지 난제

‍

딥페이크 기술이 점진적으로 정교해지면서 탐지가 더욱 어려워지고 있습니다. 이는 공격자와 방어자 사이의 지속적인 기술 경쟁을 의미합니다.

‍

초기 딥페이크는 상대적으로 탐지하기 수월했습니다. 눈의 깜빡임이 부자연스럽거나 입 가장자리가 약간 번지거나 얼굴의 경계가 부자연스러웠으며 이마의 주름이나 눈가의 잔주름이 없었습니다. AI 모델이 이러한 미세한 불완전성을 감지함으로써 탐지가 가능했습니다.

‍

그러나 최신 딥페이크는 이러한 문제를 상당히 해결했습니다. GAN(생성적 적대 신경망) 기술이 진화하면서 거의 구분할 수 없는 수준의 얼굴 생성이 가능해졌습니다. 심지어 심장 박동에 따른 혈류 변화까지 시뮬레이션하는 고급 딥페이크도 등장했습니다.

‍

음성 딥페이크도 마찬가지로 진화했습니다. 과거에는 음성의 톤이나 발음이 어색했지만 현재는 개인의 고유한 음성 특성(목소리의 높이, 음성 속도, 특유의 표현)을 상당히 재현할 수 있게 되었습니다. 배경음(카페 소음, 자동차 소음) 같은 환경음도 자연스럽게 추가할 수 있게 되었습니다.

‍

다층적 신호 분석을 통한 멀티모달 탐지

얼굴 이미지만 분석해서는 딥페이크를 효과적으로 탐지하기 어렵습니다. 따라서 금융기관은 얼굴, 음성, 행동, 거래 맥락 등 다양한 신호를 동시에 분석하는 멀티모달 모델을 구축했습니다.

‍

얼굴의 물리적 특성이 첫 번째 신호입니다. 고급 딥페이크도 완벽히 복제하기 어려운 특성들이 있습니다. 홍채의 혈관 패턴, 피부의 모공 패턴, 눈동자의 반사 각도 같은 정보들은 매우 개인화되어 있고 복제가 어렵습니다. 모델은 이러한 미세한 생물학적 특성을 확대하여 분석하고 원본과 비교합니다.

‍

얼굴의 움직임이 두 번째 신호입니다. 딥페이크가 아무리 정교해도 자연스러운 3차원 움직임을 완벽히 재현하기는 어렵습니다. 시선 방향의 변화, 눈썹의 움직임, 입술의 미세한 움직임 같은 요소들이 있습니다. 모델은 움직임의 각속도, 가속도, 부드러움 같은 물리적 특성을 분석합니다.

‍

음성이 세 번째 신호입니다. 얼굴 영상과 음성을 동시에 분석하면 불일치를 발견할 수 있습니다. 입이 "아"라고 움직이는데 음성은 "이"라고 들리거나 음성과 입 움직임의 타이밍이 어긋나거나 음성의 음압과 얼굴의 움직임이 일치하지 않으면 딥페이크일 가능성이 높습니다.

‍

행동의 일관성이 네 번째 신호입니다. 사람은 말할 때 반복되는 고유한 행동 패턴을 가집니다. 특정 단어를 말할 때 특정 손짓을 하거나 일정 시간마다 눈을 깜빡이는 식입니다. 모델이 이러한 개인화된 행동 패턴을 학습하면 딥페이크의 부자연스러운 행동을 감지할 수 있습니다.

얼굴 생체 신호의 미세 변화 추적

‍

딥페이크 탐지에서 가장 강력한 신호는 얼굴의 미세한 생체 신호입니다. 딥페이크도 이를 완벽히 복제하기는 어렵습니다.

‍

혈류 신호가 첫 번째 신호입니다. 심장이 뛰면서 얼굴의 혈액 순환이 변합니다. 이로 인해 피부색이 매우 미묘하게 변하는데 이를 **원격 광학맥파신호(Remote Photoplethysmography, rPPG)**라고 부릅니다. AI 카메라는 이러한 혈류 신호를 감지하여 심장 박동 수를 측정할 수 있습니다. 딥페이크는 이 신호를 정확하게 흉내내기 어렵습니다. 최신 고급 딥페이크도 완벽하게 재현하지 못하므로 모델이 신호의 미세한 불규칙성을 감지하면 딥페이크를 판정할 수 있습니다.

‍

조명 반사가 두 번째 신호입니다. 눈동자에 조명이 반사되는 방식은 매우 물리적이고 환경에 따라 결정됩니다. 카메라의 위치, 조명의 각도, 피부의 표면 특성 등이 모두 영향을 미칩니다. 딥페이크 생성 과정에서 이러한 복잡한 물리를 모두 정확하게 시뮬레이션하기는 어렵습니다. 따라서 눈동자의 조명 반사의 미묘한 불일치를 감지할 수 있습니다.

‍

피부 색감의 시간적 변화가 세 번째 신호입니다. 사람의 피부색은 호흡, 혈류, 감정 변화 등에 따라 시간이 지나면서 변합니다. 이러한 변화는 매우 개인화되어 있고 예측하기 어렵습니다. 모델이 개인의 정상적인 피부 색감 변화 패턴을 학습하면 딥페이크의 부자연스러운 색감 변화를 감지할 수 있습니다.

‍

음성 딥페이크의 독립적 검증

‍

‍
음성 딥페이크는 얼굴 딥페이크만큼 진화했으므로 음성도 독립적으로 검증해야 합니다.

‍

음성의 스펙트럼이 첫 번째 신호입니다. 각 사람의 음성은 고유한 주파수 특성을 가집니다. 저음, 중음, 고음 대역의 에너지 분포가 개인화되어 있습니다. 모델이 개인의 정상적인 음성 스펙트럼을 학습하면 음성 딥페이크의 약간의 차이를 감지할 수 있습니다.

‍

음성의 시간적 특성이 두 번째 신호입니다. 사람마다 말하는 속도, 일시 정지의 패턴, 음절 간의 간격이 다릅니다. 이를 프로소디(prosody)라고 부릅니다. 음성 딥페이크가 음성을 재합성할 때 이러한 프로소디가 원본과 약간 다를 수 있습니다.

‍

배경음이 세 번째 신호입니다. 실제 환경에서 녹음한 음성에는 배경음(자동차음, 에어컨 소음, 주변 음성)이 포함됩니다. 모델은 배경음의 일관성을 확인합니다. 예를 들어 배경음이 자동차 엔진음인데 긴 문장을 말한다면 배경음이 지나치게 일관되게 들릴 수 있습니다. 실제 환경의 배경음은 지속적으로 변하기 때문입니다.

‍

얼굴과 음성 동기화의 불일치 탐지

‍

음성과 얼굴이 완벽하게 동기화되는 것도 자연스러워 보이면서도 탐지 신호가 될 수 있습니다.

‍

실제 사람이 말할 때 음성과 입 움직임의 타이밍은 완벽하게 일치하지 않습니다. 약간의 지연(보통 100~300밀리초)이 있습니다. 이는 뇌에서 명령이 근육에 전달되는 데 걸리는 신경 전달 시간 때문입니다. 반대로 딥페이크는 입 움직임과 음성을 동시에 생성하기 때문에 지연이 다르거나 완벽하게 동기화되는 경향을 보입니다.

‍

음성의 강도와 입 움직임의 크기도 분석됩니다. 음성이 크면 입이 더 크게 벌어져야 합니다. 이 관계가 비례하지 않으면 딥페이크일 가능성이 높습니다.

‍

특정 음소(음운)를 발음할 때의 얼굴 움직임도 분석됩니다. 예를 들어 "ㅍ" 또는 "ㅂ" 음을 발음할 때 입술이 만나야 합니다. 만약 입술이 떨어져 있는데 이 음이 나온다면 음성이 조작되었을 가능성이 있습니다.

‍

개인화된 기준선의 구축

딥페이크 탐지에서 매우 중요한 것은 각 외국인의 정상적인 얼굴과 음성의 기준선을 구축하는 것입니다.

‍

금융기관은 외국인이 계좌를 개설할 때 얼굴과 음성 영상을 녹화합니다. 이를 통해 개인의 혈류 신호의 정상 패턴, 얼굴 움직임 패턴, 음성 스펙트럼 특성, 음성 속도와 프로소디, 음소 발음 특성 같은 정보를 학습합니다. 이후 매 거래 시 생체 인증을 수행할 때 수집된 데이터를 이 기준선과 비교하여 딥페이크 여부를 판정합니다.

‍

거래 맥락의 종합적 분석

‍

딥페이크 탐지는 얼굴과 음성만으로는 충분하지 않습니다. 거래의 맥락도 분석해야 합니다. 외국인이 "갑자기 큰 거래를 하려고 합니다"라고 했는데 얼굴 표정이 매우 차분하고 감정 변화가 없다면 이는 의심스러울 수 있습니다. 정상적으로라면 중요한 거래에 긴장감이 드러날 것이기 때문입니다.

‍

음성의 억양도 중요합니다. 중요한 결정을 할 때 음성 톤이 변합니다. 만약 음성 톤이 거래 중요도와 무관하게 일정하다면 딥페이크일 가능성이 높습니다. 거래의 비정상성도 고려됩니다. 외국인이 "평소와 다른 규모의 거래를 하려고 합니다"라고 했다면 모델은 더욱 높은 딥페이크 탐지 기준을 적용합니다.

‍

생성 기술의 추적과 대응 메커니즘

‍

금융기관은 딥페이크 공격에 사용되는 기술을 추적합니다. 어떤 생성 모델(GAN, 확산 모델 등)이 사용되었는지를 파악하면 그 모델의 특정 "지문(fingerprint)"을 감지할 수 있습니다.

‍

특정 버전의 얼굴 교환 기술이 사용되면 그 기술만의 독특한 시각적 오류 패턴이 나타납니다. 모델이 이러한 특정 지문을 학습하면 같은 도구로 만든 다른 딥페이크도 탐지할 수 있습니다. 딥페이크 생성에 사용된 원본 영상도 추적할 수 있습니다. 모델이 "이 딥페이크는 특정 연예인의 영상으로부터 생성되었다"는 것을 파악할 수 있습니다. 그러면 실제 거래자가 그 연예인과 어떤 관련이 있는가를 확인하는 식으로 추가 검증을 수행할 수 있습니다.

‍