“환각 줄이는 해법은 데이터 관리” AI 학습용 데이터 보안 주목

트렌드
2026-02-12

학습 데이터 위협 개요



인공지능 기술이 발전하면서 더 많은 개인정보 위험이 커지고 있습니다.  의료 정보와 소셜 미디어 사이트의 개인 데이터 그리고 개인 금융 데이터와 얼굴 인식에 사용되는 생체 인식 데이터 등 민감한 데이터일 수 밖에 없습니다.

기업들이 인공지능 시스템을 학습하는 유비쿼터스 데이터 수집으로 전환하고 있으며 이는 사회 전반 특히 시민의 권리에 큰 영향을 미칠 수 있고 인공지능 개인정보 보호 문제는 데이터 수집과 사이버 보안 그리고 모델 설계 및 거버넌스와 관련된 문제에서 비롯되는 경우가 많습니다.

데이터 오염 공격

데이터 오염 공격은 인공지능 모델의 학습 단계에서 고의적으로 왜곡된 데이터를 주입해 모델의 예측 정확도나 의사결정을 교란시키는 공격 기법입니다. 이는 인공지능의 학습 기반 의존성을 악용한 전략으로 보안과 금융 그리고 의료 등 고신뢰 인공지능가 요구되는 분야에서 인공지능 시스템의 무결성과 안전성을 위협하는 치명적 위협으로 떠오르고 있습니다.

머신러닝 학습 과정에서 악의적인 학습 데이터를 주입해 머신러닝 모델을 망가뜨리는 중독 공격이 있으며 마이크로소프트사는 사람과 대화를 나누는 인공지능 채팅봇을 선보였다가 시간 만에 운영을 중단했습니다. 일부 극우 성향의 사용자들이 채팅봇에게 악의적인 발언을 하도록 훈련시켜 욕설과 인종차별 그리고 성차별과 자극적인 정치적 발언을 남발했기 때문이었습니다.

적대적 공격 유형

기계 학습 과정에서의 기밀성과 무결성을 공격하는 적대적 공격에는 여러 유형이 있으며 머신러닝 모델의 추론 과정에서 데이터를 교란해 머신러닝을 속이는 회피 공격과 역공학을 이용해 머신러닝 모델이나 학습 데이터를 탈취하는 모델 추출 공격과 학습 데이터 추출 공격이 있습니다.

인공지능 모델은 학습용 훈련 데이터를 사용해 새롭게 합성 문자열을 생성하지만 기존 훈련 데이터의 부분 또는 전체를 그대로 사용할 가능성도 있으며 훈련 데이터 내 비식별처리된 민감정보나 개인정보를 외부 정보와 결합해 추측할 가능성도 있습니다. 외부 인공지능 모델 서비스를 이용할 경우 사용자 부주의로 인해 내부 업무정보나 개인정보가 입력될 수 있고 이 정보는 인공지능 모델의 훈련 데이터로 사용되거나 다른 정보와 결합해 제삼자의 추론 작업에 활용되거나 제삼자의 대화 결과에 노출될 수 있습니다.

모델 전복 공격



데이터를 수집하고 학습 데이터를 구축하는 단계에서는 학습 데이터의 일부를 추출해 내는 모형 전복 공격이 발생할 수 있으며 흔히 여러 차례의 쿼리를 하면서 인공지능 모형의 응답으로부터 거꾸로 학습 데이터를 추출하는 방식을 이용합니다. 이는 이미지 인식이나 자연어처리를 위한 인공지능을 비롯해 여러 유형의 인공지능에 나타날 수 있습니다.

언어 모형에 거리명을 입력한 뒤 이로부터 해당 거리 이름이 담긴 주소지의 상세주소와 전화번호 그리고 이메일 등이 포함된 응답을 추출할 수 있었다는 연구결과가 발표되기도 했으며 챗봇과 관련해서도 주소를 묻는 질문에 대해 아파트 동호수가 포함된 응답이 제시되었다는 주장이 나타나기도 했습니다.

백도어 삽입 기법

이미지 분류 모델에 특정 픽셀 패턴을 삽입해 특정 클래스 오답을 유도하고 음성 인식에 특정 노이즈를 삽입해 오작동을 유발하며 감성 분석 학습 데이터에 일부 트윗 내용을 조작해 결과를 왜곡하는 사례들이 있습니다.

정차 표지판에 손바닥 크기의 노란색 포스트잇을 붙여 인공지능 인지 테스트를 진행한 결과는 충격적이었으며 설계한 인공지능 탐지 소프트웨어는 이 표지판을 정차가 아닌 속도제한 표지판으로 인식했습니다. 포스트잇 단 한 장의 변화만으로 인공지능은 엉뚱한 예측값을 인간에게 반환한 것이며 훈련 데이터 오염의 위험성이 사회적으로 부각된 건 대략 이때부터였습니다.

공격 벡터 분석


공급망 침해를 통해 많은 조직이 공개 저장소의 타사 데이터 세트나 사전 학습된 모델을 활용하며 이러한 외부 소스가 침해될 경우 해당 소스를 사용하는 모든 조직으로 악성 코드가 확산될 수 있습니다. 공격자가 악성 데이터를 플랫폼에 업로드해 감염된 모델을 통합한 수많은 조직의 인공지능 파이프라인을 잠재적으로 침해할 수 있는 취약점이 발견되었습니다.

내부 위협을 통해 불만을 품거나 부주의한 직원이 내부 교육 데이터에 접근해 고의 또는 실수로 손상된 정보를 유출할 수 있으며 이러한 행위는 신뢰할 수 있는 사용자가 수행하므로 방어하기가 특히 어렵습니다.

적대적 훈련 방어

적대적 공격에 대한 방어 기법으로는 먼저 가능한 모든 적대적 사례를 학습 데이터에 포함해 머신러닝을 훈련시키는 적대적 훈련이 있습니다. 머신러닝을 훈련시키는 단계에서 예상 가능한 해킹된 데이터를 충분히 입력해 머신러닝의 저항성을 기르는 방식이며 학습모델의 결괏값 분석을 통해 모델을 추론하는 방식의 공격을 차단하기 위해 학습모델의 결괏값이 노출되지 않도록 하거나 결괏값을 분석할 수 없게 변환하는 방식으로 공격을 차단할 수도 있습니다.

적대적 학습은 데이터 중독 및 기타 유형의 공격을 방어하는 사전 예방적 방법이며 개발자는 학습 모델에 적대적인 예시를 의도적으로 도입해 모델이 중독된 데이터를 인식하고 이에 저항하도록 학습시켜 조작에 대한 견고성을 향상할 수 있습니다. 자율 주행 차량이나 인공지능 보안과 같은 고위험 애플리케이션의 경우 적대적 학습은 인공지능 및 머신러닝 모델을 더욱 견고하고 신뢰할 수 있게 만드는 데 중요한 단계입니다.

데이터 정제 절차



데이터 포이즈닝을 방지하는 기본적인 방어 전략은 사용 전에 훈련 데이터를 검증하고 정제하는 것이며 첫 번째 방어선은 훈련 데이터의 무결성을 보장하는 것입니다. 여기에는 훈련에 사용되기 전에 이상하거나 의심스러운 샘플을 탐지하고 걸러내기 위해 엄격한 데이터 정제 및 검증 프로세스를 구현하는 것이 포함됩니다.

오염된 학습 데이터나 적절하지 못한 학습 데이터를 탐지하고 제거할 수 있는 역량과 프로세스가 갖춰져 있는지 확인해 보아야 하며 모델 학습을 진행하기 전에 언제나 데이터를 정제해야 하고 능동적 학습을 사용하는 모델의 경우 지속적으로 정제 작업을 진행해야 합니다.

이상 탐지 시스템

적대적 공격 여부를 탐지해 차단하는 방법도 연구되고 있으며 원래의 모델과 별도로 적대적 공격 여부를 판단하기 위한 모델을 추가한 후 두 모델의 추론 결과를 비교해 두 결과 간에 큰 차이가 발생하는 경우 적대적 공격으로 탐지하는 방식입니다.

인공지능 시스템이 배포되면 지속적으로 모니터링해 데이터 포이즈닝 공격을 나타낼 수 있는 비정상적인 동작을 감지할 수 있으며 패턴 인식 알고리즘과 같은 이상 활동 감지 도구는 보안팀이 입력과 아웃풋 모두에서 불일치를 식별하고 시스템이 손상된 경우 신속하게 대응하는 데 도움이 될 수 있습니다.

차등 프라이버시 기술

민감한 정보를 처리하고자 할때는 디퍼런셜 프라이버시와 같은 기술을 사용하는 것을 고려해야 하며 집계 데이터는 차등 프라이버시가 적용돼 특정 단어에 대해 많은 사람들이 사용한다는 것은 알 수 있지만 실제 누가 해당 이모티콘을 사용했었는지는 알 수 없습니다.

데이터를 직접 전송하지 않고 학습 결과인 파라미터만 전송하는 연합학습 방법이 있으며 데이터를 직접 전송하지 않기 때문에 근본적인 프라이버시 보호가 될 것으로 생각할 수 있지만 학습 결과 파라미터로부터 학습에 사용된 데이터를 복원하는 공격도 나와 있기 때문에 완벽한 해법은 아닙니다.

접근 제어 강화

엄격한 사용자 인증 및 권한 관리 시스템을 구축하며 데이터 마스킹을 통해 개인식별정보를 마스킹 처리해 인공지능 시스템에 입력합니다. 적대적 학습을 통해 인공지능 모델을 다양한 공격 시나리오에 노출시켜 공격 대응 능력을 강화하고 모델 감사를 통해 정기적인 보안 감사를 통해 취약점을 식별하고 개선합니다.

가시성을 확보해 직원이 입력하는 모든 프롬프트와 결과에 대해서 실시간으로 로깅하고 모니터링 할 수 있어야 하며 전사적 보안 정책을 수립해 기업 내에서 허용되는 인공지능 서비스 목록을 관리합니다. 부서별과 담당자별 사용권한을 차등 부여함으로써 발생가능한 오남용 이슈를 방지합니다.

입력 검증 체계



인공지능 시스템에 입력되는 데이터의 유효성을 철저히 검증하며 프롬프트 인젝션을 방어하기 위해 공격자는 사용자 입력을 조작해 모델의 동작에 영향을 미치거나 민감한 데이터를 훔칩니다. 이러한 위험을 완화하려면 엄격한 입력 유효성 검사를 구현하고 사용자에게 안전한 온라인 관행을 교육해야 합니다.

대규모 언어 모델에서 생성한 출력을 부적절하게 삭제하면 취약성이 발생할 수 있으며 민감한 정보 공개를 방지하기 위해 학습 데이터 또는 모델 지식이 직간접적으로 유출되면 개인정보 침해가 발생할 수 있고 액세스 제어와 연합 학습 및 데이터 익명화를 적용해 위험을 줄여야 합니다.

데이터 거버넌스 체계

데이터 거버넌스 툴과 프로그램은 기업이 권장 사항과 기타 인공지능 개인정보 보호 모범 사례를 따르는 데 도움이 될 수 있으며 기업은 사용하는 모델에 대한 개인정보 위험 평가를 수행하고 데이터 자산 및 개인정보 보호 평가 상태에 대한 정보가 포함된 대시보드를 만들고 개인정보 보호 책임자와 데이터 소유자 간의 협업을 포함한 개인정보 문제 관리를 지원합니다.

학습 데이터 익명화와 데이터 암호화 그리고 머신 러닝 알고리즘에 사용되는 데이터 최소화 등의 접근 방식을 통해 데이터 개인정보 보호를 강화하고 인공지능 및 데이터 개인정보 보호 법률이 발전함에 따라 기술 솔루션을 통해 기업은 규제 변화를 따라잡고 규제 기관이 감사를 요청할 경우에 대비할 수 있습니다.

합성 데이터 활용

개인정보에 대한 법적 제약 없이 인공지능 학습에 활용할 수 있는 합성 데이터 활용 절차 및 기준이 수립될 예정이며 이를 통해 합성 데이터를 안전하게 생성하고 활용할 수 있도록 함으로써 합성 데이터 시장이 지속 확장될 수 있도록 지원할 계획입니다.

합성 데이터는 원본 데이터로 모델을 만들고 이 모델로부터 데이터를 생성해 사용하는 방법이며 원본이 아니므로 프라이버시가 보호된다고 생각할 수 있으나 합성 데이터는 원본의 모델로부터 생성되므로 원본데이터와 같은 통계적 분포를 가지며 이를 통해 원본 데이터가 갖는 민감 정보를 추론하는 것이 가능합니다.

규제 준수 방안

개인의 동의를 얻어 데이터를 수집하더라도 처음에 공개했던 목적과 다른 용도로 데이터를 사용할 경우 개인정보 보호 위험이 발생할 수 있으며 한 가지 목적으로 공유하거나 게시한 이력서나 사진 등의 데이터가 본인도 모르게 또는 동의 없이 인공지능 시스템 학습용으로 용도가 변경되는 경우가 많습니다.

인공지능 개발과 서비스 시 공개된 개인정보를 수집하고 이용할 수 있는 근거인 정당한 이익에 대한 법 해석 기준을 제시하고 인공지능 기업 등이 인공지능 학습 및 서비스 단계에서 이행할 수 있는 안전성 확보 기준과 권리주체 권리 보장 방안 및 내부관리체계에 대해 안내하고 있습니다.

모니터링 체계 구축

인공지능 서비스를 도입하고자 할 때는 인공지능이 만능이 아니며 잠재적으로 우회할 수 있는 취약점이 존재한다는 점을 인지하는 것이 중요합니다. 인공지능에 모든 프로세스를 전적으로 의지하는 것보다는 인간의 검증 단계를 통해 학습 데이터가 오염되지 않았는지 모델이 오작동하고 있는지 등 모니터링하고 점검하는 것이 필요합니다.

의료 및 금융과 같이 규제가 엄격한 산업에서 인공지능 모델이 손상되면 오진과 편향된 대출 승인 그리고 상당한 재정적 손실 그리고 규정에 따른 심각한 불이익을 초래할 수 있으며 데이터 오염을 방어하려면 데이터 수집부터 모델 배포 및 모니터링까지 인공지능 수명 주기 전체를 아우르는 전략적이고 다층적인 접근 방식이 필요합니다.

이전글
이전글
다음글
다음글
목록보기