
금융사기의 많은 사례에서 거래자는 시각적 증거(거짓 영수증, 위조된 송금 화면, 변조된 신분증)를 사용하여 사기를 정당화하려고 시도합니다. 기존의 텍스트 기반 거래 데이터 분석만으로는 이러한 시각적 사기 신호를 감지하기 어려울 수 있으며, Vision Language Model(VLM)의 등장으로 이미지와 텍스트를 함께 분석할 수 있는 기술이 가능해졌습니다.
은행과 결제 기관의 온라인 거래 시스템에서 발생하는 사기는 단순히 거래 금액이나 빈도의 이상 신호만으로 감지되지 않습니다. 거래자가 제출하는 영수증, 계약서, 신분증 사진 같은 시각 정보가 실제인지 위조인지를 판단해야 하고, 이를 위해 인간의 시각적 판단력을 시뮬레이션할 수 있는 AI가 필수적입니다.
또한 거래 맥락(context)도 중요합니다. 동일한 영수증이라도, 거래자의 거래 이력, 소비 패턴, 그리고 현재 제시된 이미지의 내용이 일관성 있는지를 종합적으로 평가해야 합니다. VLM은 이미지의 세부 내용을 텍스트로 해석하면서 동시에 거래 데이터베이스의 정보와 교차 검증할 수 있으므로, 이러한 맥락적 판단이 가능합니다.
Vision Language Model은 이미지와 텍스트 정보를 동시에 처리하고 이해할 수 있도록 훈련된 신경망입니다. 이러한 멀티모달 특성은 금융 거래 사기 탐지에 매우 적합합니다.
먼저 VLM은 이미지로부터 텍스트 정보를 추출합니다. 영수증의 상호명, 거래 금액, 거래 일시 같은 텍스트를 자동으로 읽고, OCR(광학 문자 인식) 오류 없이 의미 있게 해석합니다. 기존의 OCR 기술은 텍스트 추출에만 집중하지만, VLM은 추출된 텍스트의 의미를 이해하면서 동시에 이미지의 레이아웃, 디자인, 위조 가능성까지 평가할 수 있습니다.
다음으로 VLM은 이미지의 시각적 특징을 분석합니다. 영수증의 종이 질감, 인쇄 품질, 해상도 일관성 같은 물리적 특징으로부터 진위를 판단할 수 있으며, 이를 텍스트 정보와 함께 평가합니다. 예를 들어 텍스트 내용은 정상이지만 인쇄 해상도가 부자연스럽다면, 전체적으로 위조 가능성이 높다고 평가할 수 있습니다.
또한 VLM은 다양한 형식의 금융 이미지를 처리할 수 있습니다. 종이 영수증, 모바일 앱 스크린샷, 전자 청구서 PDF 화면, 신분증 사진 등 형식이 다양해도 통일된 방식으로 분석할 수 있으므로, 시스템의 유연성과 확장성이 높습니다.

VLM 기반 사기 탐지 시스템이 작동하려면, 먼저 충분한 금융 거래 이미지 데이터가 필요합니다. 이 단계에서 데이터의 품질과 개인정보 보호가 모두 중요합니다.
금융 기관은 온라인 거래 시 거래자가 제출하는 증명 이미지(영수증, 송금 확인 화면, 신분증)를 수집합니다. 다만 이러한 이미지는 개인의 민감한 정보(계좌번호, 신분증 번호, 주소)를 포함하므로, 수집 단계에서부터 접근 제어가 필요합니다. 데이터 저장소는 암호화되어야 하고, 접근 권한은 사기 탐지 목적으로만 제한되어야 합니다.
입수된 이미지는 정제 과정을 거칩니다. 해상도가 극도로 낮거나 손상된 이미지는 VLM 분석의 정확도를 떨어뜨리므로 제외됩니다. 또한 개인정보 보호를 위해 이미지의 민감한 부분(계좌번호, 신분증 전체)을 마스킹할지 결정해야 하는데, 마스킹이 과도하면 VLM의 판단력이 떨어질 수 있으므로, 기관별로 기준을 정해야 합니다.
라벨링 단계에서는 실제 사기 이미지와 정상 이미지를 구분합니다. 알려진 사기 사례로부터 수집된 위조 영수증, 변조된 송금 화면, 조작된 신분증 사진은 사기 라벨로 표시됩니다. 다만 일부 사기는 적발되지 않은 상태로 데이터셋에 포함될 수 있으므로, 라벨링의 신뢰도를 완벽히 보장할 수 없다는 한계가 있습니다.
VLM이 금융 이미지를 분석할 때, 여러 계층의 분석이 병렬로 이루어집니다.
첫 번째 계층은 텍스트 추출 및 해석입니다. 영수증의 상호명, 거래 금액, 거래 시간, 결제 수단을 자동으로 추출합니다. 이 단계에서 VLM은 단순히 OCR이 아니라, 추출된 텍스트의 의미를 이해하고 거래 맥락과의 일관성을 평가합니다. 예를 들어 거래 금액이 "10,000원"으로 표시되어 있으면, 이것이 실제로 거래자가 주장하는 금액과 일치하는지 확인합니다.
두 번째 계층은 이미지 진위성 판단입니다. VLM은 다음과 같은 시각적 신호를 감지합니다. 인쇄 품질의 일관성(글씨 굵기, 색상), 이미지 해상도(스크린샷의 경우 픽셀 품질), 레이아웃 논리성(영수증 항목의 정렬, 텍스트 위치) 등입니다. 이러한 특징들은 개별적으로는 약한 신호이지만, 종합하면 위조 가능성을 상당히 높은 신뢰도로 평가할 수 있습니다.
세 번째 계층은 거래 맥락과의 일관성 검증입니다. 영수증에 표시된 가맹점이 실제로 존재하는 곳인지, 거래 금액이 거래자의 평상시 소비 수준과 일치하는지, 거래 시간이 거래자의 평상시 활동 패턴과 맞는지 등을 평가합니다. VLM이 이미지 내용을 텍스트로 이해하므로, 이러한 정보를 거래 데이터베이스와 교차 비교할 수 있습니다.
네 번째 계층은 거래자의 행동 일관성 평가입니다. 동일 거래자가 과거에 제출한 이미지들과 현재 제출 이미지를 비교하여, 제출 방식, 이미지 품질, 거래 유형의 변화를 감지합니다. 급격한 변화는 거짓 정보 제출의 신호일 수 있습니다.

은행과 결제 기관의 온라인 거래 시스템에 VLM을 통합할 때는 실시간 성능과 운영 효율성을 고려해야 합니다.
실시간 거래 검증 시나리오에서는 거래자가 이미지를 제출하면, VLM이 수 초 내에 분석을 완료하고 거래 승인/거부 여부를 결정해야 합니다. 이를 위해 사전 훈련된 VLM 모델을 캐싱하고, 고성능 GPU 서버에 배포하여 지연 시간을 최소화할 수 있습니다. 다만 완벽한 분석을 위해서는 더 오래 걸릴 수 있으므로, 신뢰도별 처리 방식을 구분할 수 있습니다.
고신뢰도 판정(신뢰도 95% 이상의 위조 감지 또는 정상 인증)은 자동으로 즉시 처리됩니다. 위조 이미지로 판정되면 거래를 차단하고, 정상 이미지로 판정되면 거래를 진행합니다.
중간 신뢰도 판정(신뢰도 70~94%)은 인간 검수자의 재검토가 필요할 수 있습니다. VLM의 판단이 완벽하지 않으므로, 의심 사항을 명확히 하기 위해 전문가가 개입합니다. 이 단계에서 거래는 임시 보류 상태로 유지되어, 사기 손실을 최소화하면서도 정상 거래를 지나치게 지연시키지 않습니다.
저신뢰도 판정(신뢰도 70% 이하)은 추가 정보 요청을 유도합니다. 거래자에게 다른 형태의 증명(예: 추가 신분증 이미지, 전자 영수증 링크)을 제출하도록 요청하거나, 일시적으로 거래를 거부할 수 있습니다.
VLM이 이미지를 분석하는 과정에서 추출한 정보는 거래 시스템의 다른 데이터와 교차 검증되어야 합니다.
먼저 VLM이 추출한 가맹점 정보(상호명, 위치)는 금융감독당국 공시 데이터나 신용카드사의 가맹점 데이터베이스와 비교됩니다. 존재하지 않는 가맹점이면 위조 가능성이 높습니다. 또한 가맹점의 업종이 거래자의 평상시 소비 패턴과 맞는지 확인합니다.
거래 금액은 여러 각도에서 검증됩니다. 이미지에 표시된 금액이 거래 신청 금액과 일치하는지, 거래자의 평상시 거래 규모와 비교하여 이상한 수준인지, 그리고 동일 가맹점에서의 과거 거래 금액과 비교하여 합리적인지 평가합니다.
거래 시간도 검증됩니다. 영수증이나 송금 확인 화면에 표시된 시간이 거래 신청 시간과 일치하는지, 그리고 거래자의 평상시 활동 시간대(예: 야간 근무자 vs 일반 직장인)와 부합하는지 확인합니다.

VLM의 금융 거래 사기 탐지는 단순한 영수증 검증을 넘어 더 복잡한 위조 문서 탐지도 포함할 수 있습니다.
위조 신분증 탐지에서 VLM은 신분증의 물리적 특징을 분석합니다. 홀로그램의 반사, 인쇄 선명도, 신분증 번호와 개인정보의 폰트 일관성, 사진과 기타 정보의 위치 정확성 등을 평가합니다. 이러한 특징들은 숙련된 위조자도 완벽히 복제하기 어렵기 때문에, VLM의 분석이 상당한 신뢰도를 가질 수 있습니다.
다만 극도로 정교한 위조 신분증은 VLM도 감지하기 어려울 수 있으며, 이 경우 생체 인증(얼굴 인식)과의 조합이 필요할 수 있습니다. 신분증 사진과 실시간 촬영 이미지를 비교하면, 위조 신분증을 사용하는 타인은 감지될 가능성이 높습니다.
가짜 계약서나 위조 송금 증명서 탐지도 유사한 방식으로 이루어집니다. 문서의 레이아웃, 로고의 선명도, 서명란의 필체, 그리고 문서에 포함된 정보의 논리성을 VLM이 종합적으로 평가합니다.
모든 AI 시스템과 마찬가지로, VLM의 판단도 오류를 일으킬 수 있습니다. 시스템의 성능을 최적화하려면, VLM의 신뢰도 평가와 임계값 설정이 매우 중요합니다.
먼저 VLM 모델 자체의 성능을 평가해야 합니다. 실제 사기 사례를 포함한 테스트 데이터셋으로 모델을 검증하여, 정상 이미지를 정상으로 판정하는 정확도(진정성 positive rate)와 사기 이미지를 사기로 판정하는 정확도(사기 detection rate)를 측정합니다. 이상적으로는 두 정확도가 모두 높아야 하지만, 실무에서는 임계값 조정을 통해 우선순위를 정할 수 있습니다.
사기 탐지 시스템에서는 일반적으로 거짓 음성(실제 사기를 정상으로 판정)의 비용이 거짓 양성(정상을 사기로 판정)의 비용보다 훨씬 큽니다. 사기가 통과되면 금전 손실이 발생하지만 정상 거래가 거부되면 고객 불만이 발생할 수 있기 때문입니다. 따라서 임계값을 낮게 설정하여 의심 거래를 보수적으로 처리하는 방식이 일반적입니다.
다만 임계값을 지나치게 낮추면 정상 거래가 과도하게 거부되어 고객 경험이 심각하게 악화될 수 있습니다. 따라서 거짓 양성 비율과 고객 만족도 사이의 균형을 정기적으로 모니터링하고, 임계값을 동적으로 조정할 수 있어야 합니다.

동일한 이미지라도 거래자의 행동 패턴에 따라 위험도 평가가 달라질 수 있습니다. VLM의 판단을 거래자별 프로필과 결합하면 분석의 정확도를 높일 수 있습니다.
신규 거래자의 경우, 거래 이력이 없으므로 VLM의 판단에만 의존해야 합니다. 이 경우 신뢰도 기준을 높게 설정하여 극도로 의심스러운 이미지만 거부하는 방식을 사용할 수 있습니다. 또는 신규 거래자의 모든 거래에 대해 인간 검수를 요구할 수도 있습니다.
한편 기존 거래자의 경우, 과거 거래 이력으로부터 행동 프로필을 구축할 수 있습니다. 평상시 온라인 거래를 거의 하지 않던 거래자가 갑자기 대액 거래를 신청하면서 영수증을 제출한다면, VLM의 판단이 정상이어도 행동 변화 신호로 인해 추가 검증이 필요할 수 있습니다.
또한 거래자 세그먼트별로 VLM의 기준을 조정할 수 있습니다. 고위험 업종 종사자(현금 집약적 사업, 수입 불명확한 직업)와 저위험 업종 종사자(공무원, 대기업 정규직)에 대해 서로 다른 검증 기준을 적용할 수 있습니다.
