AI 시스템이 널리 활용되면서 이를 노리는 보안 위협도 증가하고 있습니다. 적대적 예제로 모델을 속이고 프롬프트 인젝션으로 원치 않는 출력을 유도하며 학습 데이터를 오염시켜 모델을 망가뜨리고 모델 자체를 탈취하여 복제하는 공격이 현실화되고 있습니다. 기존 사이버 보안과 다른 특성을 지니며 입력 변조만으로 시스템을 무력화하고 출력 검증이 어려우며 모델 내부를 블랙박스처럼 파악하기 힘들어 방어가 복잡합니다. 적대적 훈련과 입력 검증 그리고 모델 강건성 향상으로 대응하고 레드팀 테스트로 취약점을 사전 발견하며 지속적인 모니터링과 업데이트로 보안 태세를 유지합니다.

먼저 적대적 예제 공격이란 미세한 변조를 가해 AI 모델을 잘못 판단하게 만드는 공격입니다. 이미지에 사람이 인식할 수 없는 노이즈를 추가하여 분류기를 속이고 자율주행 차량이 정지 신호를 인식하지 못하게 하며 얼굴 인식 시스템이 다른 사람으로 잘못 인식하도록 유도합니다. FGSM과 PGD 같은 화이트박스 공격은 모델 구조를 알고 그래디언트를 활용하며 블랙박스 공격은 모델 내부를 모르고 입출력만으로 탐색하고 물리적 공격은 실세계 객체를 변조하여 카메라를 통해 공격합니다. 적대적 훈련으로 공격 샘플을 학습 데이터에 포함시켜 견고성을 높이고 입력 전처리로 노이즈를 제거하며 앙상블 방법으로 여러 모델의 합의로 판단합니다.
프롬프트 인젝션 공격은 언어 모델에 악의적 지시를 숨겨 삽입하여 의도하지 않은 출력을 만듭니다. 사용자 입력에 시스템 명령을 섞어 원래 지시를 무시하게 하고 민감한 정보를 출력하도록 유도하며 유해한 콘텐츠를 생성하게 만듭니다. 간접 프롬프트 인젝션은 웹페이지나 문서에 숨겨진 명령을 포함시켜 모델이 읽을 때 실행되도록 하고 체인 공격은 여러 단계를 거쳐 최종 목표를 달성하며 탈옥 프롬프트는 안전 장치를 우회합니다. 입력 필터링으로 의심스러운 패턴을 탐지하고 컨텍스트 분리로 시스템 프롬프트와 사용자 입력을 명확히 구분하며 출력 검증으로 유해 콘텐츠를 차단합니다.

모델 출력이나 파라미터로부터 학습 데이터를 재구성하는 공격입니다. 얼굴 인식 모델에서 학습에 사용된 얼굴 이미지를 복원하고 언어 모델에서 민감한 텍스트를 추출하며 의료 모델에서 환자 정보를 역산합니다. 그래디언트 정보를 악용하여 입력을 추정하고 생성 모델을 이용하여 유사 데이터를 만들며 최적화로 원본에 근접합니다. 그래디언트 노이즈 추가로 정확한 역산을 방해하고 그래디언트 클리핑으로 정보 누출을 제한하며 프라이버시 보존 학습 기법을 적용합니다.
한편 AI 개발과 배포 과정에서 취약점을 노리는 공격이 나타납니다. 오픈소스 라이브러리에 악성 코드를 삽입하여 배포하고 사전 학습 모델에 백도어를 심어 공유하며 클라우드 서비스를 침투하여 모델을 변조합니다. 의존성 검증으로 신뢰할 수 있는 출처만 사용하고 코드 서명과 체크섬으로 무결성을 확인하며 샌드박스에서 테스트 후 배포합니다. CI/CD 파이프라인 보안을 강화하고 접근 제어로 권한을 최소화하며 감사 로그로 변경 사항을 추적합니다.


생성형 AI가 사이버 공격 도구로 악용되는 사례가 증가합니다. 피싱 이메일을 자동 생성하여 대규모로 발송하고 딥페이크로 신원을 도용하여 사기를 치며 악성 코드를 작성하고 보안 취약점을 찾아 공격합니다. 챗봇이 민감 정보를 유출하거나 거짓 정보를 퍼뜨리고 자동화된 소셜 엔지니어링으로 인간을 속이며 탐지 회피 기법을 학습하여 방어를 우회합니다. 생성물 워터마킹으로 출처를 추적하고 탐지 모델로 AI 생성 콘텐츠를 식별하며 사용 정책과 모니터링으로 악용을 제한합니다.
또한 분산 환경에서 학습하는 연합 학습도 보안 위협에 노출됩니다. 악의적 참여자가 잘못된 업데이트를 전송하여 글로벌 모델을 오염시키고 다른 참여자의 데이터를 추론하며 통신을 가로채 정보를 탈취합니다. 비잔틴 공격으로 합의를 방해하고 모델 중독으로 백도어를 삽입하며 추론 공격으로 프라이버시를 침해합니다. 강건한 집계 알고리즘으로 이상 업데이트를 제거하고 보안 다자간 계산으로 암호화 상태에서 학습하며 영지식 증명으로 정직성을 검증합니다.

다양한 방어 메커니즘이 연구되고 있습니다. 입력 변환으로 공격 패턴을 제거하고 특징 스퀘징으로 불필요한 디테일을 없애며 무작위 패딩과 크롭으로 공격자를 혼란시킵니다. 인증 모델로 정상 입력인지 검증하고 이상 탐지로 의심스러운 입력을 차단하며 사람 검증으로 중요 결정을 확인합니다. 모델 다양성으로 단일 공격이 통하지 않게 하고 동적 모델로 구조를 계속 변경하며 디코이 모델로 공격자를 속입니다.
사전에 취약점을 찾아 보완하는 활동이 중요합니다. 레드팀이 공격자 관점에서 모델을 테스트하고 다양한 공격 시나리오를 시도하며 발견된 취약점을 보고하고 수정합니다. 자동화 도구로 대규모 테스트를 수행하고 퍼징으로 예외 상황을 생성하며 경계 조건과 엣지 케이스를 탐색합니다. 버그 바운티 프로그램으로 외부 연구자의 발견을 장려하고 책임 있는 공개 정책으로 패치 시간을 확보하며 보안 커뮤니티와 협력합니다.

AI 보안을 위한 제도적 기반이 계속해서 마련되고 있습니다. NIST AI RMF와 ISO/IEC 표준이 위험 관리 프레임워크를 제시하고 EU AI Act가 고위험 시스템에 보안 요구사항을 부과하며 각국이 가이드라인을 발표합니다. 보안 인증 제도로 제품 안전성을 검증하고 침투 테스트 의무화로 배포 전 점검을 강제하며 사고 보고 체계로 위협 정보를 공유합니다. 산학 협력으로 최신 공격 기법을 연구하고 방어 기술을 개발하며 교육 프로그램으로 보안 인력을 양성하고 베스트 프랙티스를 확산시키며 안전한 AI 생태계를 구축합니다. AI 보안은 기술과 제도가 함께 발전해야 하는 영역이며 공격 기법이 진화하는 만큼 방어 기술도 지속적으로 혁신하여 신뢰할 수 있는 AI 시스템을 만들어가는 것이 중요합니다.
