
음성만으로는 대화의 전체 의미를 파악하기 어렵습니다. 같은 말이라도 억양과 톤, 말하는 속도에 따라 완전히 다른 뜻을 전달하기 때문입니다. 여기에 화자의 표정이나 몸짓도 중요한 정보를 더합니다. 이처럼 음성 멀티모달 데이터는 다양한 요소를 함께 수집하는 방식입니다. 우선 음성 파형과 스펙트로그램 같은 청각 정보를 기본으로 담습니다. 그 위에 발화 내용을 텍스트로 전사한 스크립트를 추가합니다. 화자가 말할 때 보이는 얼굴 영상도 포함시키고, 감정 상태와 발화 의도, 대화 전략 같은 의미 정보까지 주석으로 붙여 완성합니다.
음성을 텍스트로 변환하는 전사 작업이 첫 단계입니다. 전문 전사자가 오디오를 들으며 정확하게 받아 적는 방식으로 진행됩니다. 이때 말더듬이나 반복, 간투사까지 모두 기록하는 것이 중요합니다. "음..." "저..." 같은 비유창성도 그대로 남겨두는데, AI가 자연스러운 대화 패턴을 학습하려면 이런 요소가 필요하기 때문입니다. 여러 사람이 동시에 말하는 상황에서는 화자를 구분해서 표시하고, 타임스탬프를 정밀하게 기록해 음성과 텍스트를 정확히 동기화합니다. 작업 속도를 높이려면 자동 음성 인식 시스템으로 초벌 전사를 하고 사람이 검수하는 방식을 사용합니다.
음성 데이터에는 화자의 감정 정보를 수치화해서 붙입니다. 기쁨과 슬픔, 분노, 놀람, 공포, 경멸, 혐오, 중립 같은 8가지 감정을 정의하고, 각 감정에 대해 1에서 10 사이 점수를 부여하는 방식입니다. 한 발화에 여러 감정이 섞여 있을 수 있어 모든 항목에 점수를 매깁니다. 발화 의도도 함께 분류하는데, 질문인지 요청인지 거절인지 동의인지 구분하고 정보 제공과 감정 표현, 사회적 인사 같은 목적도 표시합니다. 대화 전략 정보는 화자가 어떤 방식으로 의사를 전달하는지 나타내며, 직접적 표현인지 간접적 표현인지, 완곡한 표현을 쓰는지 기록해 대화의 뉘앙스까지 포착합니다.

얼굴 표정은 감정을 전달하는 강력한 수단입니다. 그래서 음성과 함께 화자의 얼굴을 촬영하게 됩니다. 여러 각도에서 동시에 녹화해 다양한 시점 데이터를 확보하고, 조명 조건을 바꿔가며 촬영해 실제 환경의 다양성을 반영합니다. 입 모양은 음성 인식 정확도를 높이는 데 도움이 되며 립싱크 기술 개발에도 활용됩니다. 손동작이나 몸의 자세도 의미를 전달하므로 전신을 촬영하는 경우도 있습니다. 이 모든 과정에서 영상과 음성의 시간 동기화가 매우 중요하며, 밀리초 단위로 정확히 맞춰야 제대로 된 학습이 가능합니다.
단일 발화만으로는 의미를 온전히 파악할 수 없습니다. 앞뒤 대화 맥락이 필요한 이유입니다. 대화 전체를 하나의 세션으로 구성하고 각 발화 간 관계를 표시합니다. 질문과 답변을 쌍으로 연결하고, 한 발화가 이전 발화를 참조하는 경우 그 관계를 명시하며 대화 주제가 바뀌는 지점을 표시합니다. 화자 간 관계 정보도 중요합니다. 상사와 부하, 친구, 가족 같은 관계에 따라 말투가 달라지기 때문입니다. 공식적 대화인지 사적 대화인지도 구분해야 하며, 이런 맥락 정보가 있어야 AI가 상황에 맞는 응답을 생성할 수 있습니다.
실제 세계는 조용한 녹음실이 아닙니다. 배경 소음이 있는 환경에서도 음성을 정확히 인식해야 하므로 다양한 장소에서 녹음합니다. 카페나 거리, 사무실에서 데이터를 수집하고, 에어컨 소리나 자동차 소음, 여러 사람의 웅성거림이 섞인 데이터도 포함시킵니다. 전화 통화 음질처럼 낮은 품질의 음성도 필요합니다. 반향이 심한 공간이나 바람 소리가 섞인 야외 녹음도 추가하고, 다양한 마이크로 녹음해 기기 특성에 따른 차이까지 반영합니다. 이렇게 만든 데이터로 학습하면 실제 환경에서도 잘 작동하는 AI를 만들 수 있습니다.
연령대와 성별, 지역 방언이 다른 다양한 화자가 필요합니다. 10대부터 60대 이상까지 고르게 모집하고, 남성과 여성 비율을 균형있게 맞춥니다. 서울 표준어뿐 아니라 경상도와 전라도, 충청도 사투리도 수집하며, 직업과 교육 수준이 다른 사람들을 포함시켜 말투의 다양성을 확보합니다. 음성 특성도 고려해야 합니다. 목소리가 높은 사람과 낮은 사람, 말이 빠른 사람과 느린 사람을 골고루 섭외하고, 각 화자에 대한 메타데이터를 상세히 기록합니다. 이런 다양성이 있어야 모델이 특정 집단에만 편향되지 않기 때문입니다.


대본을 읽는 식의 부자연스러운 발화는 피해야 합니다. 실제 대화처럼 자연스러운 상황을 만드는 것이 중요하므로 롤플레이 방식으로 두 사람이 즉흥적으로 대화하게 합니다. 식당 주문이나 병원 진료, 은행 업무 같은 구체적 상황을 제시하고, 감정이 드러나는 시나리오도 설계합니다. 기쁜 소식을 전하거나 불만을 표현하는 상황을 연출하고, 갈등 상황과 협상, 설득 대화도 녹음합니다. 사전에 큰 틀만 정하고 세부 내용은 참여자가 자유롭게 발화하도록 하는데, 이렇게 수집한 데이터가 실제 대화 패턴을 잘 반영하기 때문입니다.
녹음된 음성의 기술적 품질을 확인합니다. 샘플링 레이트가 충분한지, 노이즈가 과도하지 않은지 점검하고, 음량이 너무 작거나 크면 정규화 작업을 하며 클리핑이나 왜곡이 발생한 구간은 재녹음합니다. 전사 정확도도 검증해야 합니다. 여러 전사자의 결과를 비교해 일치도를 측정하고, 불일치하는 부분은 다시 들으며 정확한 내용을 확정합니다. 주석 품질도 중요하므로 감정 점수나 의도 분류가 일관되게 작업되었는지 확인하고, 샘플을 추출해 도메인 전문가가 검수하는 과정을 거칩니다.
음성과 얼굴 영상은 민감한 개인정보입니다. 녹음 참여자로부터 명시적 동의를 받고, 데이터 사용 목적과 범위를 상세히 설명해야 합니다. 참여자의 실명 대신 익명 ID를 부여하며, 영상에서 얼굴을 블러 처리하거나 3D 아바타로 대체하는 기술도 사용됩니다. 음성의 화자 특성을 제거하는 음성 변환 기법을 적용하기도 합니다. 대화 내용 중 개인 식별 정보가 언급되면 삭제하거나 가명으로 바꾸고, 전화번호나 주소 같은 정보는 더미 데이터로 대체합니다. 저장과 전송 과정에서는 암호화를 적용해 유출을 방지합니다.
글로벌 서비스를 위해서는 여러 언어의 음성 데이터가 필요합니다. 각 언어의 원어민을 섭외해 녹음하는데, 언어마다 고유한 음운 체계와 억양 패턴이 있어 이를 반영해야 합니다. 영어는 강세와 리듬이 중요하고 중국어는 성조가 의미를 결정합니다. 한국어는 높낮이와 문장 끝 억양으로 의문문과 평서문을 구분하는 특징이 있습니다. 같은 언어 내에서도 지역별 액센트 차이를 수집해야 하며, 미국 영어와 영국 영어, 호주 영어의 발음이 다르기 때문입니다. 코드 스위칭 현상도 담아야 하는데, 이중언어 사용자가 대화 중 언어를 섞어 쓰는 경우를 녹음하는 것입니다.
음성 대화 AI는 실시간으로 작동해야 합니다. 그래서 스트리밍 처리가 가능한 형식으로 데이터를 구축합니다. 긴 대화를 작은 단위로 분할하고, 각 세그먼트가 독립적으로 처리될 수 있도록 만듭니다. 하지만 맥락 정보는 연결되어야 하므로 세그먼트 간 참조 정보를 유지해야 합니다. 지연 시간을 최소화하기 위해 데이터 크기를 최적화하며, 고품질을 유지하면서도 불필요한 정보는 제거하는 방식을 취합니다. 증분 학습이 가능하도록 데이터를 구조화해서 새로운 대화 패턴이 수집되면 기존 모델을 업데이트할 수 있게 만듭니다.
