
금융기관의 콜센터와 지점에서는 매일 수십만 건의 고객 상담이 이루어집니다. 이러한 상담 기록들은 금융 지식, 고객 심리, 문제 해결 방법, 소통 기술을 모두 담고 있습니다. 상담원이 어떻게 질문을 이해했는지, 어떤 방식으로 설명했는지, 고객의 반응이 어땠는지가 기록되어 있습니다. 이는 일반적인 금융 문서나 규제 자료와는 다릅니다. 실제 상황에서 실제 고객의 반응을 바탕으로 한 생생한 데이터입니다. 생성형 AI가 실무적이고 인간적인 응답을 하려면 이러한 실제 상담 데이터로부터 학습해야 합니다. 상담원의 명확한 설명, 불확실한 상황에서의 대응 방식, 불만족한 고객을 진정시키는 방법 같은 것들이 모두 학습 자료가 될 수 있습니다. 따라서 상담 데이터는 생성형 AI의 가장 귀중한 학습 자산입니다.
상담 데이터를 생성형 AI의 학습에 사용하기 위해서는 먼저 대규모 상담 기록을 수집하고 전처리해야 합니다. 콜센터의 통화 기록, 텍스트 상담, 채팅 기록, 이메일 상담 등 다양한 형태의 상담 데이터가 있습니다. 통화 기록은 음성 파일로 저장되어 있으므로 음성 인식 기술로 텍스트로 변환합니다. 텍스트 상담과 채팅 기록은 이미 텍스트 형태입니다. 이메일 상담은 구조화된 형태로 정리합니다. 수집된 상담 기록은 다양한 품질을 가집니다. 어떤 상담은 매우 명확하고 도움이 되지만 어떤 상담은 불완전합니다. 배경 소음이 있어 음성 인식이 부정확할 수도 있습니다. 상담원의 언어 표현이 일관되지 않을 수도 있습니다. 이러한 품질 편차를 처리하는 전처리 작업이 필수적입니다.

생성형 AI를 학습시키기 위해 상담 기록에서 대화 쌍을 추출합니다. 고객의 질문과 상담원의 답변이 명확하게 대응되는 형태로 구조화합니다. "대출 금리가 몇 퍼센트인가요?"라는 고객 질문과 "현재 기준금리는 X%이며 가산금리를 고려하면 대략 Y% 정도입니다"라는 상담원 답변이 쌍을 이룹니다. 이러한 쌍들이 충분히 있으면 생성형 AI는 유사한 고객 질문에 대해 적절한 답변을 생성할 수 있습니다. 다만 상담 기록에서 대화 쌍을 추출하는 것은 간단하지 않습니다. 상담이 여러 차례 오가면서 여러 주제가 섞여 있을 수 있습니다. 고객이 여러 번 같은 질문을 반복할 수도 있습니다. 상담원이 먼저 정보를 제공한 후 고객이 따라오는 경우도 있습니다. 이러한 복잡한 상담 흐름에서 의미 있는 대화 쌍을 추출하는 것은 자동화된 알고리즘과 인간의 검토를 모두 필요로 합니다.

생성형 AI가 단순 정보를 제공하는 것을 넘어 고객의 감정을 이해하고 대응하려면 감정 정보가 학습데이터에 포함되어야 합니다. 상담 기록에서 고객의 감정 상태를 식별합니다. 만족하는 고객, 불안해하는 고객, 화난 고객의 음성과 표현 방식은 다릅니다. 이러한 감정 신호를 학습 데이터에 태깅합니다. 각 대화 쌍에 고객 감정 상태를 표시합니다. "고객 불만족 상태에서의 상담원 대응" 같은 정보가 명시되면 AI는 유사한 상황에서 더 적절한 응답을 할 수 있습니다. 상담 과정에서의 감정 변화도 추적합니다. 초기에 불만족했던 고객이 상담 과정에서 만족으로 변했다면 그 변화 과정과 상담원의 대응이 학습 가치가 있습니다. 이러한 감정 인식이 정교해질수록 AI는 더욱 인간적이고 공감하는 응답을 할 수 있습니다.

모든 상담원이 동일한 수준의 전문성을 가지지는 않습니다. 뛰어난 상담원의 대응 방식을 분석하여 이를 생성형 AI 학습에 활용할 수 있습니다. 고객 만족도가 높은 상담의 특징을 분석합니다. 어떤 상담원은 복잡한 상품을 매우 이해하기 쉽게 설명합니다. 어떤 상담원은 불만족한 고객을 진정시키는 능력이 뛰어납니다. 이러한 특징들을 식별하고 학습데이터에 강조합니다. 베스트 프랙티스가 무엇인지 정의합니다. "명확성, 친절함, 신속함, 정확성" 같은 기준으로 상담을 평가합니다. 높은 평가를 받은 상담 기록은 학습데이터에서 더 가중치를 줍니다. 반대로 고객 불만족이 큰 상담은 어떤 문제가 있었는지 분석합니다. AI가 같은 실수를 반복하지 않도록 학습 과정에서 명시적으로 처리합니다.
상담 데이터에는 고객의 민감한 개인정보가 포함되어 있습니다. 고객 이름, 계좌번호, 거래 금액, 개인 재무 정보, 가족 상황 등이 기록되어 있습니다. 이를 생성형 AI 학습에 사용할 때는 개인정보를 완벽하게 제거하거나 익명화해야 합니다. 직접 식별자(이름, 번호)는 모두 제거합니다. 거래 금액은 "대액", "소액", "중액" 같이 범주화합니다. 구체적인 상품명도 일반화할 수 있습니다. "A 은행의 B 상품"이 아니라 "정기예금 상품"으로 표현합니다. 다만 과도한 익명화는 학습 가치를 손상시킵니다. "고객이 대출을 원했다"는 정보만 남겨서는 상담의 맥락을 잃습니다. 따라서 개인정보 보호와 학습 가치 사이의 최적 균형점을 찾아야 합니다. 규제 기관의 기준을 만족하면서도 AI의 학습 효과를 최대화하는 익명화 방법을 개발합니다.
상담은 항상 맥락 속에서 이루어집니다. 특정 상황, 특정 고객 특성, 시장 상황 같은 맥락이 상담의 내용을 결정합니다. 생성형 AI가 의미 있는 학습을 하려면 이러한 맥락이 보존되어야 합니다. 각 상담 쌍과 함께 관련 컨텍스트 정보를 함께 제시합니다. "신규 고객이 입금 절차를 모를 수 있다", "고객이 상품을 처음 들을 때이다", "금리 인상 직후의 불안감이 있을 수 있다" 같은 맥락을 명시합니다. 상담 전의 고객 상태 정보도 포함합니다. 고객의 신용도, 거래 기간, 보유 상품, 최근 거래 활동 같은 정보가 상담에 영향을 미칩니다. 이러한 정보가 있으면 AI는 개인화된 응답을 할 수 있습니다. 상담 흐름도 보존합니다. "먼저 상황 파악 → 상품 설명 → 이점 강조 → 의문점 해소" 같은 상담의 논리적 흐름이 AI의 응답 구조에 영향을 미칩니다.

생성형 AI가 제공하는 상담이 금융감독 기준을 준수해야 합니다. 상담원이 지켜야 할 윤리적 기준을 AI도 따라야 합니다. 학습 데이터에는 규제 준수 사항이 명시되어야 합니다. 투자 상품 상담 시 "과거 수익이 미래를 보장하지 않습니다"는 면책 조항이 필수입니다. 신용대출 상담 시 "과도한 차입을 권장하지 않습니다"는 원칙을 지켜야 합니다. 특정 고객층에 대한 차별적 권유는 금지입니다. 부정확한 정보 제공도 금지입니다. 이러한 규제 요구사항들이 학습 데이터에 명시되어야 AI가 자동으로 준수합니다. 실제 상담원이 규제를 어기는 부분은 학습데이터에서 제외하거나 반대 예시로 처리합니다. "이렇게 하면 안 된다"는 부정 사례도 함께 학습시켜서 AI가 올바른 판단을 하도록 합니다.
금융기관의 고객들은 매우 다양합니다. 나이, 금융 지식 수준, 거래 목적, 성격 등에 따라 필요한 상담이 다릅니다. 생성형 AI가 다양한 고객에게 적절히 대응하려면 이러한 다양성이 학습데이터에 반영되어야 합니다. 초보 투자자와 경험 많은 투자자에게는 다른 수준의 설명이 필요합니다. 노령 고객과 젊은 고객의 선호도와 이해도가 다릅니다. 시간에 쫓기는 고객과 여유 있는 고객에게는 다른 속도의 상담이 필요합니다. 학습데이터에서 각 고객 유형별로 충분한 샘플을 확보합니다. 고객 특성에 따른 효과적인 상담 방식이 무엇인지 분석합니다. 이렇게 다양성을 담은 학습으로 AI는 상황에 맞는 맞춤형 응답을 할 수 있습니다.
생성형 AI가 상담 데이터로부터 학습한 후에도 지속적인 개선이 필요합니다. 실제 고객과의 상호작용에서 AI의 응답의 품질을 평가합니다. 고객이 AI 답변에 만족했는지, 추가 질문을 했는지, 상담원으로 에스컬레이션했는지를 기록합니다. 부정적 피드백이 있는 경우 그 원인을 분석합니다. 학습데이터 부족일 수도 있고 모델의 이해 부족일 수도 있습니다. 새로운 상황을 AI가 제대로 대응하지 못했다면 그러한 상황의 상담 기록을 추가로 수집합니다. 규제 환경이 변하면 새로운 규정을 반영한 상담 기록을 학습데이터에 추가합니다. 고객 선호도가 변하면 그에 맞는 상담 방식을 학습데이터에 포함시킵니다. 이러한 피드백 기반의 지속적 학습으로 AI의 상담 품질이 점점 향상됩니다.
