
많은 금융기관들이 AI 서비스 도입을 시도했지만 성공하지 못한 사례들이 있습니다. 기술이 부족해서라기보다는 대부분 데이터 준비 단계에서의 문제로 인한 것입니다. AI 모델의 성능은 학습에 사용되는 데이터의 품질과 양에 거의 전적으로 의존합니다. 낮은 품질의 데이터로 학습한 모델은 실무에서 신뢰할 수 없는 결과를 제공합니다. 불충분한 양의 데이터로 학습하면 특정 상황에서만 잘 작동하는 편협한 모델이 됩니다. 데이터 편향이 심하면 특정 고객층이나 거래 유형에 대해 차별적인 결과를 제공합니다. 이러한 문제들은 기술 도입 후에 발견되면 해결이 매우 어렵습니다. 따라서 AI 서비스 도입을 결정하기 전에 데이터 준비 상태를 철저히 점검해야 합니다.
AI 서비스를 위한 데이터 준비의 첫 단계는 현황 파악입니다. 금융기관 내에 어떤 데이터가 있고 어느 정도의 양이 있으며 어떤 형식으로 저장되어 있는지를 파악해야 합니다. 온라인 뱅킹 시스템, 모바일 앱, 지점 시스템, 콜센터 시스템 등 여러 곳에 데이터가 분산되어 있을 수 있습니다. 각 시스템의 데이터베이스 구조, 데이터 정의, 저장 형식을 문서화해야 합니다. 데이터의 이력도 파악해야 합니다. 얼마나 오래 전부터 데이터를 보관하고 있는지, 과거 데이터의 품질은 어떠한지를 확인합니다. AI 모델 학습에는 일반적으로 최소 수년치의 데이터가 필요합니다. 너무 오래되거나 현재와 맥락이 다른 데이터는 학습 효과가 낮을 수 있으므로 적절한 시간 범위를 설정해야 합니다. 외부 데이터 소스의 추가도 검토합니다. 공개 금융 데이터, 시장 지표, 고객 행동 정보 같은 외부 정보가 도움이 될 수 있습니다.

금융데이터는 민감한 개인정보를 포함하고 있으므로 보호가 필수적입니다. AI 학습 데이터로 사용하기 전에 개인정보를 제거하거나 익명화해야 합니다. 고객 이름, 계좌번호, 주민번호 같은 직접 식별자는 완전히 제거합니다. 나이, 거주지, 직업 같은 간접 식별자도 일반화하거나 범주화합니다. 구체적인 거래 금액은 범위로 변환합니다. 예를 들어 "1000만 원 송금"이라는 구체적 정보 대신 "대액 송금" 같은 범주 정보로 변환합니다. 거래 시간도 정확한 시각 대신 시간대로 일반화합니다. 특수한 상황을 나타내는 정보도 주의해야 합니다. 특정 의료 정보, 정치적 성향, 종교 정보 같은 것들은 법적으로 보호되는 정보입니다. 이러한 정보가 데이터에 포함되어 있다면 제거하거나 매우 신중하게 처리해야 합니다. 데이터 주체(고객)의 동의도 필수적입니다. 개인정보를 AI 학습에 사용할 것임을 고객에게 알리고 동의를 받아야 합니다.

수집한 원본 데이터는 많은 오류와 불일치를 포함하고 있습니다. 이를 AI 학습에 적합한 형태로 변환하는 데이터 정제 작업이 필수적입니다. 자동화된 정제 규칙을 개발하여 대규모 데이터를 효율적으로 처리합니다. 오류 데이터는 자동으로 감지되고 제거됩니다. 중복된 기록은 식별되고 통합됩니다. 일부 필드의 누락값도 통계적 방법으로 채우거나 제거합니다. 데이터 형식도 통일됩니다. 날짜 형식, 통화 단위, 수치 표현 같은 것들을 표준화합니다. 다만 수동 검증이 필요한 부분도 있습니다. 자동 규칙으로는 판단하기 어려운 데이터의 이상치는 전문가의 검토를 거칩니다. 이러한 과정에서 원본 데이터의 30~50% 정도가 제거되거나 수정될 수 있습니다. 이는 자연스러운 과정이며 데이터 품질을 높이는 데 필수적입니다.

지도 학습을 사용하는 AI 모델을 개발할 때는 데이터에 라벨(정답)이 필요합니다. 예를 들어 부정거래 탐지 모델을 만들려면 과거 거래 중 어떤 것이 부정거래이고 어떤 것이 정상거래인지를 명시해야 합니다. 이러한 라벨 작업의 정확성이 모델의 성능을 크게 좌우합니다. 라벨 기준을 명확히 정의해야 합니다. "이 거래는 부정거래로 분류한다"는 기준이 모호하면 라벨러마다 다르게 판단합니다. 라벨 작업에 참여하는 사람들을 교육해야 합니다. 기준을 이해하고 일관되게 적용할 수 있도록 훈련합니다. 품질 검수 메커니즘도 필요합니다. 라벨 작업의 일부를 여러 사람이 독립적으로 수행하여 일치도를 확인합니다. 불일치하는 경우는 도메인 전문가가 최종 판정합니다. 자동화된 라벨 작업도 활용할 수 있습니다. 과거의 명확한 판정 결과를 규칙으로 만들어 자동으로 라벨을 붙입니다. 다만 이 방식도 사람의 검증을 거쳐야 합니다.
AI 모델이 특정 집단에 대해 차별적으로 작동하지 않도록 데이터 균형을 맞춰야 합니다. 예를 들어 대출심사 AI가 특정 직업이나 성별에 대해 과도하게 거절하지 않도록 주의해야 합니다. 학습 데이터에 특정 그룹의 사례가 과도하게 많으면 모델이 그 그룹에 편향될 수 있습니다. 데이터 분포를 분석하여 심각한 불균형이 있는지 확인합니다. 소수 그룹의 사례를 의도적으로 더 포함시키거나 다수 그룹의 사례를 일부 제거하여 균형을 맞춥니다. 데이터 생성 단계부터 다양성을 확보하도록 노력합니다. 다양한 고객층, 다양한 거래 유형, 다양한 시간대의 데이터를 포함시킵니다. 모델 개발 후에도 편향성을 검증해야 합니다. 각 그룹별로 모델의 성능을 측정하여 특정 그룹에 대한 차별이 없는지 확인합니다.

데이터의 시간 범위도 중요합니다. 과거의 데이터만으로 학습하면 현재의 변화된 환경을 반영하지 못하는 모델이 됩니다. 금융시장이나 고객 행동은 시간에 따라 변합니다. 경기 변동, 정책 변화, 기술 발전에 따라 패턴이 달라집니다. 지나치게 오래된 데이터는 현재의 상황과 맥락이 다를 수 있으므로 제외하는 것이 좋습니다. 일반적으로 최근 2~3년의 데이터가 가장 현실적입니다. 다만 충분한 양의 데이터가 필요하므로 더 오래된 데이터도 포함할 수 있습니다. 모델을 배포한 후에도 지속적으로 신규 데이터로 재학습해야 합니다. 약 3개월에서 6개월마다 새로운 데이터를 추가하여 모델을 업데이트합니다. 이를 통해 시간이 지남에 따라 변하는 패턴을 반영할 수 있습니다.

데이터 준비가 완료된 후에도 데이터 거버넌스가 필요합니다. 누가 어떤 데이터에 접근할 수 있는지, 데이터가 어떻게 사용되는지를 명확히 관리해야 합니다. 데이터 소유권을 정합니다. 각 데이터셋의 담당자와 관리 책임을 명시합니다. 메타데이터를 유지합니다. 각 데이터의 출처, 의미, 업데이트 주기 같은 정보를 기록합니다. 접근 제어를 구현합니다. AI 모델 개발팀만 데이터에 접근할 수 있도록 제한합니다. 감사 로그를 유지합니다. 누가 언제 어떤 데이터에 접근했는지 기록합니다. 정기적인 품질 점검도 수행해야 하며, 주기적으로 데이터 품질을 재평가하여 문제가 발생하지 않았는지 확인합니다.

금융권의 AI 데이터 준비 방식도 진화하고 있습니다. 자동화 수준이 높아지면서 대규모 데이터를 더 빠르게 처리할 수 있게 되고 있습니다. 클라우드 기반의 데이터 처리 솔루션이 확산되면서 규모 제약이 감소합니다. 합성 데이터 생성 기술도 발전하고 있습니다. 제한된 실제 데이터를 바탕으로 추가적인 학습 데이터를 인공으로 생성할 수 있습니다. 이를 통해 개인정보 보호와 데이터 부족의 문제를 동시에 해결할 수 있습니다. 연합학습 기술도 도입되고 있습니다. 데이터를 중앙에 모으지 않고도 여러 기관이 협력하여 모델을 학습할 수 있습니다. 이는 개인정보 보호와 규제 준수를 더욱 강화합니다. 이러한 기술들이 결합되면 금융권의 AI 데이터 준비가 더욱 효율적이고 안전해질 것입니다.
