
데이터 익명화는 개인의 개인정보를 보호하기 위해 데이터 세트에서 개인 식별 정보를 제거하거나 수정하는 데이터 처리 기법입니다. 정보주체를 식별하거나 식별할 수 있는 개인정보를 식별하지 못하거나 식별할 수 없는 형태로 만드는 조치를 데이터 익명화라 합니다. 대표적으로 영상에서 얼굴을 마스킹하는 것이 그러한 예이며 이러한 익명화 조치가 데이터의 처리와 분석 그리고 활용을 극대화하는 빅데이터 시대에 있어 프라이버시 보호의 대책으로서 각광을 받고 있습니다.
익명화 기술은 다양한 방식으로 데이터 세트의 개인 식별 정보를 수정하며 또한 데이터 유용성에 다르게 영향을 미칩니다. 가명처리는 개인 식별이 가능한 데이터를 직접적으로 식별할 수 없는 다른 값으로 대체하는 기법으로 휴리스틱 가명화와 암호화 그리고 교환방법이 있습니다. 총계처리는 통계값을 적용해 특정 개인을 식별할 수 없도록 하는 것으로 총계처리와 부분총계 그리고 라운딩 등의 기법이 있으며 데이터 삭제는 개인 식별이 가능한 데이터를 삭제 처리하는 것으로 식별자 삭제와 식별자 부분삭제 그리고 레코드 삭제 등의 기법이 있습니다.
민감한 정보를 실제 데이터의 구조를 모방한 가상 데이터로 대체합니다. 조직은 종종 이 기술을 사용해 소프트웨어 테스트나 직원 교육과 같은 비생산 환경에서 민감한 데이터를 보호하며 마스크된 데이터는 원래 형식을 유지하지만 실제 상황을 정확하게 반영하지 못하므로 고급 분석에서 효과가 떨어질 수 있습니다. 데이터 마스킹은 데이터의 전부 또는 일부분을 대체값으로 변환하는 것으로 임의 잡음 추가와 공백과 대체 기법이 있으며 마스크된 데이터가 원래 정보와 너무 유사하면 재식별에 취약하다는 점을 주의해야 합니다.

특정 정보를 해당 그룹의 대표값으로 변환하거나 구간값으로 변환해 개인 식별을 방지하는 것으로 감추기와 랜덤 라운딩 그리고 범위 방법 등이 있습니다. 어떤 데이터 요소는 특정 개인과 연관 짓기가 더 쉽기 때문에 이러한 개인을 보호하기 위해 일반화 기술을 사용해 데이터의 일부분을 삭제하거나 일반적인 값으로 대체합니다. 예를 들어 일반화 기술을 사용해 모든 지역 코드 또는 전화번호 세그먼트를 동일한 숫자로 대체할 수 있으며 데이터를 익명화하기 위해 총계 혹은 범주화 기법을 사용해서 비식별화합니다.
합성 데이터는 실제 데이터를 기반으로 인위적으로 생성됩니다. 처음부터 생성되므로 개인 식별 정보나 의료 개인 정보가 포함되어 있지 않아 생성된 데이터 세트를 완전히 비공개로 만들고 데이터 개인 정보 보호 규정에서 면제하며 개인 정보를 보호하는 데 도움이 됩니다. 합성 데이터 생성 도구는 실제 정보의 통계적 속성을 모방하는 인공지능 및 기계 학습 알고리즘을 사용하며 연속형 혹은 범주형 변수가 특정 분포를 따른다고 가정하고 모수 값을 추정해 이를 바탕으로 변수 관측점을 난수로 생성시키는 기법입니다.


일반화를 사용해 케이 익명성을 달성할 수 있습니다. 케이 익명성이란 유사한 사람들이 모인 그룹에서 개인의 신원을 숨기는 데 사용하는 기술을 이르는 업계 표준 용어이며 케이 익명성에서 케이는 그룹의 크기를 나타내는 숫자입니다. 데이터 세트에 포함된 개인마다 동일한 속성을 지닌 개인이 최소 케이 마이너스 일명 있으면 데이터 세트에서 케이 익명성을 달성한 것이며, 민감한 값에 포함된 일정 수준의 다양성을 나타내는 엘 다양성을 활용하면 익명된 데이터 세트에 다양한 검색어가 포함되기 때문에 사용자의 개인정보를 더 강력하게 보호할 수 있습니다.
개인정보 차등보호를 활용하면 어떤 개인의 정보가 포함되어 있는지에 관계없이 주어진 알고리즘의 출력값이 근본적으로 동일하게 나타나기 때문에 개인이 특정 데이터 세트에 속하는지 알아내기 어려워집니다. 개인정보 차등보호를 위해 데이터 세트에 노이즈를 추가하며 즉 한 마을에서 독감을 검색한 사람의 수를 더하거나 뺍니다. 하지만 그런다고 해서 더 넓은 지역에서 나타나는 추세를 측정하는 데는 아무런 영향이 없으며, 한편 데이터 세트에 노이즈를 추가하면 데이터의 유용성이 줄어들 수 있다는 사실에도 주의해야 합니다.
회사의 직원들이 민감한 정보나 회사 고객의 정보를 인공지능에게 질의하는 것을 어떻게 통제할 수 있을까요. 예를 들어 고객에게 발송할 메일을 써 보거나 숫자와 정보들을 기반으로 보고서를 작성하거나 번역을 할 때 직원의 실수로 민감한 정보들이 외부로 유출될 수 있습니다. 객체 인식을 이용해서 이름과 주소 그리고 회사명 등을 임의로 생성해 부여하며 숫자패턴의 경우는 패턴을 유지하면서 숫자를 랜덤하게 변환해 원래 구문과 치환된 구문의 맵이 만들어집니다.

고급 암호화 기술을 사용해 익명화를 달성하며 이를 기반으로 익명화된 다자간 계산을 개발합니다. 이미지에서 추출된 고유한 숫자 코드가 생성되고 이 코드는 사용자가 유일한 인간임을 증명하는 데 활용되며 이미지는 개인의 기기에만 저장됩니다. 코드는 암호화 과정을 거쳐 여러 암호화된 조각으로 나뉘며 각 조각은 개인이나 코드에 대한 어떤 정보도 노출하지 않고 특정 개인과 연관될 가능성도 없습니다. 이러한 데이터 조각은 신뢰할 수 있는 제삼자가 운영하는 데이터베이스에 저장되며 여러 당사자가 생성된 데이터 세트를 해독해야 하므로 기밀이 더욱 강화됩니다.
인공지능 생성을 사용해 데이터를 익명화하는 합성 모의 데이터 기능을 갖춘 플랫폼은 민감한 정보를 규정을 준수하고 식별할 수 없는 데이터로 변환합니다. 비식별화 소프트웨어는 기존 데이터 세트를 분석하고 개인 식별 정보를 식별하며 조직은 인공 정보로 대체할 민감한 데이터를 선택할 수 있습니다. 이 도구는 규정을 준수하는 데이터로 데이터세트를 생성하고 이 기술은 조직이 협업하고 귀중한 데이터를 안전하게 교환해야 할 때 유용하며 익명화 도구를 사용하면 소프트웨어 엔지니어와 테스터 및 품질 보증 전문가가 개인 식별 정보를 노출하지 않고도 실제 데이터 세트로 작업할 수 있습니다.
데이터 관리 비용이 절감됩니다. 익명화된 데이터는 일반적으로 식별 가능한 데이터 세트보다 수집과 저장 그리고 처리 및 보안 조치에 드는 비용이 낮으며 광범위한 보안 프로토콜과 규정 준수에 대한 필요성을 줄여 일부 비용을 절감할 수 있습니다. 데이터 오용에 대한 보호 조치가 가능하며 대규모 조직은 종종 분석과 보고 및 고객 서비스를 위해 여러 직원이 데이터에 액세스해야 하고 익명화는 직원이 민감한 데이터를 직접 처리하지 않고도 업무를 수행할 수 있도록 해 이러한 위험을 완화합니다.
익명화는 기업이 개인정보 보호 규정을 위반하거나 데이터 보안을 손상시키지 않고 부서와 파트너 및 제삼자 분석 회사 간에 데이터를 교환하는 데 도움이 됩니다. 기업은 개인 정보를 손상시키지 않고도 데이터를 분석하고 추세를 파악하며 정보에 입각한 결정을 내릴 수 있으며 합성 데이터 생성과 같은 고급 익명화 기술을 사용하면 희귀한 데이터 세트나 흔하지 않은 시나리오를 다양화해 분석 정확도를 개선할 수 있습니다. 익명화된 데이터를 사용해 귀중한 통찰력을 얻는 방법을 살펴보면 금융과 의료 그리고 광고 및 공공 서비스 분야의 기업은 익명화 도구를 사용해 데이터 개인 정보 보호법을 준수합니다.
개인정보 비식별 조치 가이드라인과 국제 표준 그리고 다양한 규제에 대응하는 비식별 기술을 제공합니다. 또한 데이터의 성격과 유형 그리고 활용 목적 등에 따라 다양한 프라이버시 모델 및 빅데이터 분석의 효용성과 위험에 대한 지표들을 제공하며 도구가 규정을 준수하는 안전 저장소에 데이터세트를 저장하는지 확인해야 합니다. 예상치 못한 오류로 인한 다운타임 가능성을 방지하기 위해 데이터 백업 및 복구 도구를 지원해야 하고 익명화된 데이터 보존자가 요구에 적합한 무결성과 통계적 정확성을 가지고 있는지 확인해야 합니다.
데이터 세트를 식별하고 어떤 데이터 세트에 익명화 또는 식별 해제가 필요한지 우선순위를 정합니다. 자세한 데이터 거버넌스 정책은 데이터 프라이버시 규정과 사내 표준을 모두 충족해야 하며 규정 준수 요구 사항을 앞서가고 데이터 침해 위험을 최소화하기 위해 데이터 보안 프레임워크를 정기적으로 업데이트합니다. 익명화된 테스트 데이터를 만들고 유지하고 제어하기 위한 별도의 안전한 환경을 설정하며 이 환경을 프로덕션 시스템과 분리하면 실수로 데이터가 유출되는 것을 방지하고 테스트를 위한 안전한 공간을 제공합니다.

익명화에는 어느 정도 한계가 있다는 점을 인식하는 것이 중요합니다. 데이터 익명화는 많은 이점이 있지만 규정 준수나 개인정보 보호에 대한 만병통치약은 아니며 익명화된 개인 데이터는 원래 형태로 되돌릴 수 없으므로 감사나 기타 통계적 목적으로 데이터를 다시 식별하려는 경우 문제가 될 수 있습니다. 기업은 필요한 프라이버시 수준과 데이터 사용성을 유지하기 위해 정교한 알고리즘과 데이터 컨트롤러 그리고 차등 프라이버시 프레임워크에 투자해야 하며 엄격한 테스트 프로토콜을 사용해 합성 데이터가 법률을 준수하고 원래 데이터 세트의 통계적 속성을 유지하는지 확인합니다.
인공지능과 일상적으로 상호작용하며 살아가는 인간을 보호하기 위해 데이터 익명화는 중요한 역할을 합니다. 이를 위해 실질적으로 적용 가능한 명확한 정의를 마련하는 것이 필수적이며 획기적인 오픈 소스 시스템을 개발하고 데이터 익명화가 미래의 필수 도구가 될 수 있도록 기술자와 엔지니어 그리고 정책 입안자와 규제 기관과 긴밀히 협력하고 있습니다. 인공지능과 사물인터넷 그리고 클라우드 등 기술들이 사업 전반에 적용되면서 다양한 산업 분야에서 데이터가 기하급수적으로 증가하고 있으며 그 데이터를 활용한 가치를 창출하려는 움직임도 활발해지고 있습니다.
