
인공지능 학습용 데이터는 기업의 핵심 기술 자산이자 민감한 정보를 담고 있는 경우가 많습니다. 고객 행동 데이터, 의료 기록, 금융 거래 정보, 산업 설비 운전 데이터 등 학습에 활용되는 정보는 외부에 유출되면 경쟁 우위 손실이나 법적 분쟁으로 이어질 수 있습니다. AI 모델 자체뿐 아니라 그 모델을 만든 학습 데이터가 공격의 대상이 되는 사례도 늘고 있습니다. 데이터를 탈취하여 경쟁 모델을 학습하거나 데이터를 조작하여 모델의 동작을 의도적으로 왜곡하는 공격 방식이 연구와 실제 사례를 통해 보고되고 있습니다. 학습용 데이터 보안은 데이터가 저장된 서버를 보호하는 것에 그치지 않고 수집부터 학습, 배포, 폐기에 이르는 전 주기에 걸쳐 위협을 식별하고 대응하는 체계로 설계되어야 합니다. 데이터 보안을 개발 완료 후의 사후 과제가 아니라 데이터 구축 기획 단계부터 포함해야 하는 이유가 여기에 있습니다.
학습용 데이터에 대한 보안 위협은 크게 외부 공격과 내부 위협으로 구분됩니다. 외부 공격으로는 데이터 저장소에 대한 무단 접근, 전송 중 데이터 탈취, 공개 API를 통한 모델 역추론 공격이 있습니다. 모델 역추론(Model Inversion) 공격은 배포된 모델의 출력값을 반복적으로 분석하여 학습에 사용된 데이터의 특성을 추정하는 방식으로 개인정보가 포함된 학습 데이터의 노출 위험을 만들 수 있습니다. 데이터 포이즈닝(Data Poisoning) 공격은 학습 데이터에 악의적으로 조작된 샘플을 삽입하여 모델이 특정 조건에서 잘못된 예측을 하도록 유도하는 방식입니다. 내부 위협으로는 권한 없는 직원의 데이터 무단 접근과 복사, 외부 위탁 업체의 데이터 남용, 퇴직 직원의 데이터 반출 등이 있으며 외부 공격보다 발견이 늦고 피해 범위가 넓어지는 경향이 있습니다.

학습용 데이터 보안의 출발점은 누가 어떤 데이터에 접근할 수 있는지를 명확히 통제하는 것입니다. 최소 권한 원칙(Principle of Least Privilege)은 각 역할에 필요한 최소한의 접근 권한만을 부여하는 방식으로 권한 남용과 내부 위협을 줄이는 기본 원칙입니다. 데이터 접근 권한은 역할 기반으로 설계하고 데이터의 민감도 수준에 따라 접근 가능 범위를 차등 적용합니다. 개인정보가 포함된 원본 데이터는 반드시 필요한 최소 인원만 접근할 수 있도록 제한하고 라벨링 작업자에게는 작업에 필요한 범위의 데이터만 제공하는 방식이 바람직합니다. 접근 권한 설정은 한 번 구성하고 끝내는 것이 아니라 프로젝트 단계 변화, 인력 변동, 역할 변경에 따라 주기적으로 검토하고 갱신하는 체계로 운영해야 합니다.

▷ 학습용 데이터는 저장 단계와 전송 단계 모두에서 보안이 필요합니다. 저장 단계에서는 민감한 데이터를 암호화하여 보관하는 방식을 적용합니다. 저장 암호화는 저장 장치에 대한 물리적 접근이 발생하더라도 데이터를 바로 읽을 수 없도록 보호하는 역할을 합니다. 클라우드 환경에서는 서비스 제공자가 제공하는 저장소 암호화 기능과 함께 자체 키 관리 방식을 결합하는 방향이 권장됩니다.
▷ 데이터를 수집 장소에서 저장소로, 또는 저장소에서 학습 환경으로 전송할 때는 전송 구간의 암호화가 필요합니다. TLS 프로토콜을 적용한 암호화 통신이 기본적인 전송 보안 방법입니다. 외부 라벨링 업체나 파트너사와 데이터를 공유할 때는 전용 보안 채널을 사용하고 공유 범위와 기간을 계약으로 명확히 설정해야 합니다. 전송 후에는 수신 측에서 데이터의 무결성을 검증하는 절차를 포함하여 전송 중 데이터가 변조되지 않았음을 확인하는 체계를 갖추는 것이 바람직합니다.
학습용 데이터에 개인을 식별할 수 있는 정보가 포함된 경우 개인정보보호법에 따른 관리 의무가 발생합니다. 수집 목적, 보관 기간, 처리 위탁 여부를 명확히 고지하고 정보 주체의 동의를 받아야 하며 동의 범위를 초과하여 데이터를 활용하면 법적 책임이 발생합니다. 학습 데이터에 포함된 개인정보는 비식별화 또는 익명화 처리를 거쳐 개인을 직접 식별하기 어렵게 만드는 것이 원칙입니다. 비식별화 방법으로는 이름·연락처 등 직접 식별자 제거, 나이를 연령대로 범주화하는 일반화, 특정 값을 다른 값으로 대체하는 가명 처리 등이 활용됩니다. 비식별화 처리가 충분하지 않으면 다른 데이터와의 결합을 통해 개인이 재식별될 위험이 남을 수 있으므로 처리 후에도 재식별 가능성을 검토하는 과정이 필요합니다.
라벨링, 데이터 가공, 클라우드 저장 등 데이터 처리의 일부를 외부에 위탁하는 경우 공급망 보안이 중요한 과제가 됩니다. 외부 업체가 데이터를 처리하는 방식과 보안 수준이 내부 기준에 미치지 못하면 해당 업체를 통한 데이터 유출 위험이 발생합니다. 개인정보보호법은 개인정보를 외부에 위탁 처리하는 경우 위탁 계약서에 보안 조치 사항을 명시하도록 규정하고 있습니다. 계약 체결 전에 외부 업체의 보안 인증 여부, 데이터 처리 환경, 접근 권한 관리 방식을 확인하는 실사 과정이 필요합니다. 외부 위탁 업체에 제공하는 데이터는 작업에 필요한 최소 범위로 제한하고 작업 완료 후 데이터 반환 또는 파기 확인을 계약에 명시하며 이행 여부를 확인하는 절차를 갖추는 것이 공급망 보안의 기본 요건입니다.

데이터 포이즈닝은 학습 데이터에 조작된 샘플을 삽입하여 모델의 동작을 의도적으로 왜곡하는 공격입니다. 공격자가 학습 파이프라인에 접근하거나 외부 공개 데이터를 수집하는 과정에서 악성 데이터가 포함되는 경로가 대표적입니다. 이 공격은 모델이 특정 입력에 대해 잘못된 예측을 하도록 유도하거나 특정 조건에서만 오동작하도록 설계된 백도어를 심는 방식으로 이루어집니다. 데이터 포이즈닝 대응을 위해서는 학습 데이터의 출처를 관리하고 외부에서 수집한 데이터를 학습에 활용하기 전에 이상 샘플 탐지 과정을 거치는 것이 필요합니다. 모델 학습 후 예측 결과의 통계적 분포를 분석하여 특정 조건에서 비정상적인 예측 패턴이 나타나는지 확인하는 방식이 데이터 포이즈닝의 영향을 사후에 탐지하는 방법으로 활용됩니다.
데이터 보안 사고가 발생했을 때 원인과 경로를 파악하려면 감사 추적 체계가 갖추어져 있어야 합니다. 누가 언제 어떤 데이터에 접근했는지, 데이터를 어떻게 처리했는지를 기록하는 접근 로그를 자동으로 생성하고 일정 기간 보관하는 체계가 필요합니다. 접근 로그는 보안 이상 징후를 탐지하는 데도 활용됩니다. 비정상적인 시간대의 대량 데이터 접근, 권한 범위를 초과하는 접근 시도, 단기간 반복적인 데이터 다운로드 등의 패턴을 자동으로 감지하는 모니터링 체계를 구성하면 내부 위협을 조기에 발견하는 데 도움이 됩니다. 감사 추적 기록은 보안 사고 발생 시 법적 책임 소재를 명확히 하고 재발 방지 조치를 수립하는 데 중요한 근거가 되므로 기록의 무결성을 보장하는 방식으로 보관해야 합니다.
학습용 데이터의 보안은 수집과 저장 단계만이 아니라 더 이상 필요하지 않은 데이터를 안전하게 파기하는 단계까지 이어집니다. 개인정보보호법은 보유 기간이 경과하거나 수집 목적이 달성된 개인정보를 지체 없이 파기하도록 규정하고 있습니다. 파기는 단순 삭제가 아니라 복구가 불가능한 방식으로 이루어져야 하며 전자 파일은 완전 삭제 또는 덮어쓰기 방식을 적용하고 물리 매체는 파쇄 또는 소자 처리를 적용합니다. 데이터 생애 주기 관리 정책을 수립하면 데이터가 어느 단계에 있는지, 언제 파기해야 하는지를 체계적으로 관리할 수 있으며 불필요한 데이터를 장기 보관함으로써 발생하는 보안 위험을 줄이는 데 효과적입니다.
