
데이터 무결성(Data Integrity)이란 데이터가 생성되고 저장되고 처리되는 전체 과정에서 정확성, 완전성, 일관성이 유지되는 상태를 말합니다. 데이터가 목적에 맞게 신뢰할 수 있는 형태로 유지되어야 한다는 원칙입니다. IBM의 정의에 따르면, 데이터 무결성은 데이터 품질과 보안 요소를 모두 포괄하는 가장 상위의 원칙으로, 생성에서 삭제에 이르는 전체 라이프사이클에 걸쳐 데이터를 정확하고 일관되게 유지하는 것을 목표로 합니다. AI 학습 데이터에서 무결성이 흔들리면, 모델은 잘못된 패턴을 학습하고 그 오류가 예측 결과 전반으로 퍼집니다. 따라서 무결성 확보는 라벨링 정확도 관리와 별개로 다루어야 하는, 데이터 파이프라인 전체를 관통하는 품질 조건입니다.
데이터 무결성을 점검할 때는 네 가지 조건을 기준으로 삼는 것이 일반적입니다. 첫째는 정확성입니다. 데이터가 실제 대상이나 사실을 올바르게 표현하고 있는지를 확인합니다. 이미지 라벨이 실제 대상과 일치하는지, 텍스트 전사 내용이 원본 발화와 맞는지가 여기에 해당합니다. 둘째는 완전성입니다. 필요한 데이터가 누락 없이 갖춰져 있는지를 확인합니다. 라벨 파일이 이미지 파일과 짝을 이루는지, 메타데이터의 필수 항목이 비어있지 않은지가 포함됩니다. 셋째는 일관성입니다. 동일한 대상이나 규칙이 데이터셋 전체에서 동일한 방식으로 표현되고 있는지를 봅니다. 넷째는 유효성입니다. 데이터가 정해진 형식, 값의 범위, 데이터 타입을 충족하는지를 확인하며, 이 조건이 충족되지 않으면 데이터가 정확하더라도 시스템에서 제대로 처리되지 않을 수 있습니다.

데이터 무결성 오류는 수집, 정제, 라벨링, 저장, 전달 등 데이터가 이동하는 어느 단계에서든 발생할 수 있습니다. 수집 단계에서는 원천 데이터 자체가 불완전하거나 손상된 경우가 있습니다. 정제 단계에서는 파일 변환이나 포맷 정규화 과정에서 값이 누락되거나 변형되기도 합니다. 라벨링 단계에서는 작업자마다 다른 기준을 적용해 동일한 데이터에 서로 다른 값이 부여되는 일관성 오류가 생깁니다. 저장 단계에서는 파일명 규칙 오류, 폴더 구조 불일치, 중복 파일 생성 등이 발생합니다. CIO의 데이터 무결성 분석에 따르면, 다수의 이종 시스템에서 다른 시점에 수집된 데이터를 통합할 때 오류가 데이터 풀 깊숙이 묻혀 파악이 어려워지는 경우가 많으며, 이를 뒤늦게 수정하려는 시도가 최초 오류보다 더 큰 비용을 발생시킨다고 지적합니다. 무결성 오류는 단계마다 조금씩 쌓이기 때문에, 마지막에 한꺼번에 잡으려 하면 수정 범위가 걷잡을 수 없이 커집니다.


검수 프로세스의 첫 번째 단계는 구문적 검수입니다. 데이터가 정해진 형식과 구조를 따르고 있는지를 자동화 도구로 빠르게 점검하는 단계입니다. 파일 완전성 확인(이미지 파일과 라벨 파일의 쌍이 모두 존재하는지), 형식 정확성 확인(JSON, XML, CSV 등 지정된 포맷 준수 여부), 값의 유효성 확인(허용된 값 범위와 데이터 타입에 맞는지)이 여기에 포함됩니다. 비투엔의 AI 데이터 품질관리 솔루션 SDQ for AI는 파일 완전성, 구조 및 형식 정확성, 값의 유효성 등 구문적 정확성 검사를 자동으로 수행하고, 다양한 포맷의 라벨링 데이터에 대한 품질 검증 결과를 제공합니다. 구문적 검수는 사람이 직접 확인하기 어려운 대규모 데이터셋에서 기준에 맞지 않는 항목을 빠르게 걸러내는 1차 필터 역할을 합니다.
구문이 맞더라도 내용이 잘못된 경우가 있습니다. 파일 형식은 정상이지만 라벨이 실제 이미지와 다른 경우, 전사 텍스트가 형식은 맞지만 발화 내용을 잘못 옮긴 경우가 여기에 해당합니다. 이를 점검하는 것이 의미적 검수입니다. 의미적 검수는 자동화만으로 처리하기 어려운 영역이며, 사람이 직접 데이터를 확인하는 과정이 필요합니다. NIA의 AI 데이터 품질관리 가이드라인은 사업 계획 수립부터 수집, 정제, 라벨링에 이르는 전체 프로세스에서 단계별로 체계적인 품질 관리를 진행해야 하며, 수집 단계에서 정의한 품질 기준을 달성하지 못할 경우 이후 단계에서 불필요한 비용과 시간이 추가로 발생한다고 명시합니다. 의미적 검수의 기준은 가이드라인에 명확히 정의되어 있어야 하며, 기준이 모호하면 검수자마다 다른 판단을 내려 검수 자체의 일관성이 깨집니다.

▲ 표기 규칙의 일관성 데이터셋 안에서 동일한 상황을 다르게 표기하는 문제는 라벨링 규모가 커질수록 빈번하게 발생합니다. 한국어 음성 인식 데이터셋의 경우, 데이터를 만든 기관마다 잡음 표기, 웃음 표기, 숫자 전사 방식이 모두 달라 하나의 학습 데이터셋으로 통합하기 위한 정규화 작업이 별도로 필요합니다.
▲ 작업자 간 일관성 같은 가이드라인을 보고도 작업자마다 판단이 달라지는 구간이 생깁니다. 작업자 간 일치율(IAA)을 주기적으로 측정하고, 불일치가 자주 발생하는 항목을 파악해 가이드라인을 보완하는 과정이 일관성 검수의 실질적인 내용입니다.
데이터셋 안에서 일관성이 확보되지 않으면, 모델은 같은 대상에 서로 다른 신호가 붙어있는 데이터로 학습하게 됩니다. 이는 정확도 문제가 아닌 모델의 판단 기준 자체를 흔드는 문제입니다.
데이터셋에 동일한 파일이 중복으로 포함되어 있거나, 특정 클래스나 조건의 데이터가 지나치게 적거나 아예 없는 경우가 생깁니다. 중복 데이터는 모델이 일부 패턴에 과도하게 노출되는 문제를 만들고, 누락 데이터는 모델이 특정 상황을 전혀 학습하지 못하게 합니다. IBM의 데이터 무결성 테스트 가이드에 따르면, 중복 감지는 데이터셋 내 중복 항목을 식별하고 제거하는 작업이며, 이상값 탐지는 예상 패턴에서 크게 벗어난 데이터 포인트를 식별하는 작업으로 데이터 무결성 검수의 핵심 구성 요소 중 하나입니다. 대규모 데이터셋에서 중복 탐지와 이상값 탐지는 자동화 없이는 수행하기 어렵기 때문에, 해시 비교나 임베딩 기반 유사도 측정을 활용한 자동 탐지 도구를 파이프라인에 통합하는 것이 효과적입니다.
검수를 수행하는 것만큼 중요한 것이 결과를 기록하고 관리하는 체계입니다. 어떤 항목에서 어떤 오류가 몇 건 발견되었는지, 수정 후 재검수 결과는 어떠한지가 누적 기록으로 남아야 데이터셋의 품질 이력을 추적할 수 있습니다. 에이아이웍스의 AI 데이터 품질 검증 도구 ADQ는 검증 프로세스 수립부터 검증 작업 관리, 검증 후 결과 분석 보고서 확인까지 검수 전 과정을 관리할 수 있도록 설계되어 있습니다. NIA의 가이드라인도 품질관리 거버넌스 프레임워크의 일환으로 검증 지표 수립, 검증 작업 관리, 결과 분석 보고서 체계를 제시합니다. 오류 이력이 쌓이면, 어느 작업 단계에서 어떤 유형의 오류가 반복적으로 발생하는지를 파악할 수 있어 가이드라인 개선과 작업자 교육의 방향을 구체적으로 잡을 수 있습니다.
