가명정보 활용 늘자, 데이터 보안 비식별화 솔루션 시장 성장

트렌드
2026-02-12

비식별화 정의



비식별화는 누군가의 정체성이 공개되지 않도록 예방하기 위해 사용되는 과정입니다. 이를테면 인체 실험 중에 생성된 자료는 연구 참여자들의 사생활을 보호하기 위해 비식별화할 수 있으며 식별에 관한 메타데이터나 일반 데이터에 적용할 경우 이러한 과정은 데이터 익명화라고도 부릅니다.

비식별화는 개인정보의 일부 또는 전부를 삭제하거나 다른 정보로 대체함으로써 특정개인을 식별하기 어렵도록 만드는 것입니다. 개인정보 비식별화는 특정 개인을 직접 또는 간접적으로 식별할 수 없도록 개인정보에서 식별자를 제거하거나 변형하는 기술적과 관리적 처리 방식이며 식별 가능성의 정도에 따라 가명처리와 익명처리 그리고 집계처리 등 다양한 형태로 나뉩니다.

식별자 분류

비식별화에 대한 이해는 두 가지 유형의 식별자를 구별하는 것에서 시작합니다. 이름과 이메일 주소 그리고 주민등록번호와 같은 직접적인 식별자는 틀림없이 개인을 가리킬 수 있으며 인구통계학적 또는 사회 경제적 정보를 포함한 간접 식별자는 결합되면 누군가를 식별할 수 있지만 분석에 유용합니다.

준식별자는 다른 정보와 결합 시 개인 식별 정보가 되고 이러한 프로세스를 재식별이라고 부르며 한 예로 사회적 성과 생일 그리고 우편번호 중 하나만 가지고서는 어느 것도 고유하게 개인을 식별하지 못하더라도 이 셋을 결합하면 미국 내 개인의 상당수를 식별하기에 충분하다는 것을 증명하였습니다.

비식별 처리 기법


비식별화 기법은 가명처리와 총계처리 그리고 값 삭제와 범주화 그리고 마스킹의 다섯 가지 방법이 있습니다. 가명처리는 개인 식별이 가능한 데이터를 직접적으로 식별할 수 없는 다른 값으로 대체하는 기법으로 휴리스틱 가명화와 암호화 그리고 교환방법이 있으며 총계처리는 통계값을 적용해 특정 개인을 식별할 수 없도록 하는 것으로 총계처리와 부분총계 그리고 라운딩 등의 기법이 있습니다.

가명처리는 일부 혹은 전체 정보 내용을 대체하고 교환하는 기법으로 이름과 나이 그리고 소속 등에 사용되며 세부 기술로는 일정한 규칙에 기반해 데이터에 변형을 주는 휴리스틱 가명화와 식별 가능한 정보에 암호화 알고리즘을 적용한 암호화 등이 있습니다. 총계처리는 일부 혹은 전체 정보를 집계해 개인의 특성을 알아볼 수 없도록 하는 기법으로 키와 나이 그리고 몸무게 등에 사용되고 세부 기술로는 평균과 최대 그리고 최소와 최빈과 중간값 등으로 처리하는 총계처리와 다른 열에 비해 오차가 큰 특정 열 항목을 평균값 등으로 대체하는 부분총계 등이 있습니다.

데이터 삭제 범주화

범주화는 정보를 일정 범위로 구간화해 숨기는 방식으로 이름과 나이 그리고 거주 지역 등에 사용되며 세부 기술로는 데이터의 평균 또는 범주값으로 치환하는 감추기와 수치 값을 임의의 자리 수에서 올림하거나 내림하는 랜덤 라운딩 등이 있습니다. 데이터 마스킹은 정보에 공백이나 노이즈 등으로 변환해 개인 식별을 방지하는 방법으로 이름과 아이디 그리고 전화번호 등에 사용되고 일부 혹은 전체 정보를 공백이나 특수문자로 대체하는 공백과 대체 방법 등이 있습니다.

이 기법들은 단독 혹은 복합적으로 사용되며 데이터 활용 목적에 따라 적절한 방법으로 구현하면 되고 현재 국내에서 공급되고 있는 비식별화 솔루션들은 가이드라인의 다섯 가지 비식별 조치 처리기법과 세부기술을 기반으로 개발돼 있습니다.

가명정보 익명정보



개인정보는 성명과 주민등록번호 등 개인을 식별할 수 있는 정보이며 가명정보는 개인정보의 일부를 삭제하거나 대체하는 등의 조치로 추가정보 없이는 식별할 수 없도록 처리하는 것을 의미합니다. 익명정보는 가명정보에서 더 나아가 추가정보와 결합하더라도 식별이 불가능하도록 처리한 것이고 예를 들면 서울시 금천구 가산디지털로에 살고 정보기술 기업 과장인 남성이 있다고 가정해보면 이를 가명처리하면 서울시 금천구에 살고 정보기술 업계 종사자인 중반 연령대가 돼 특정 개인을 식별할 수 없게 됩니다.

가명정보는 개인을 식별할 수 있는 정보를 특정한 규칙에 따라 대체해 원본 데이터를 직접적으로 알아볼 수 없게 만든 정보입니다. 이 정보는 여전히 개인과 간접적으로 연결될 수 있지만 대체된 정보만으로는 개인을 쉽게 식별할 수 없으며 이름과 주민등록번호 그리고 전화번호 등을 고유한 코드나 숫자로 대체하는 것입니다.

재식별 위험 분석

재식별 위험 분석 또는 위험 분석은 민감한 정보를 분석해 대상이 식별될 위험을 높일 수 있는 속성을 찾는 프로세스입니다. 위험 분석 방법을 재식별 전에 사용해 효과적인 익명화 전략을 결정하거나 익명화 이후에 사용해 변경 또는 이상점을 모니터링할 수 있으며 익명화는 데이터에서 식별 정보를 삭제하는 프로세스입니다.

재식별은 익명화된 데이터를 다른 가용 데이터와 대조해 해당 데이터의 소유자를 확인하는 프로세스이며 재식별은 대부분 의료 또는 금융 데이터와 같은 민감한 개인정보 맥락에서 논의됩니다. 개인을 식별하기 위해 비식별화된 데이터를 역으로 사용하는 과정은 데이터 재식별화라고 부르며 성공적인 재식별화는 비식별화의 효율성에 의심을 품게 만듭니다.

적정성 평가 모델


비식별조치된 개인정보의 안전한 수준을 판단하기 위해 적정성 평가 모델을 사용하며 적정성 평가 모델에는 케이 익명성과 엘 다양성 모델 등이 있습니다. 재식별 가능성을 검토하는 모델로 케이 익명성과 엘 다양성 그리고 티 근접성 기법 등이 대표적이며 케이 익명성 기법은 특정인을 추론할 수 있는지 여부를 검토하는 방법으로 일정 확률 수준 이상으로 비식별화 되도록 하고 있습니다.

동일한 값을 가진 레코드를 케이개 이상으로 함으로써 특정 개인을 식별할 확률을 분의 케이개로 만든다는 것이고 엘 다양성은 특정인 추론이 안 된다고 해도 민감한 정보의 다양성을 높여 추론 가능성을 낮추는 기법으로 각 레코드는 최소 엘개 이상의 다양성을 가지도록 해 동질성 또는 배경지식 등에 의한 추론을 방지합니다. 티 근접성은 엘 다양성뿐만 아니라 민감한 정보의 분포를 낮춰 추론 가능성을 더욱 감소시키는 기법이며 전체 데이터 집합의 정보 분포와 특정 정보의 분포 차이를 티 이하로 줄여 추론을 방지합니다.

비식별화 프로세스

목적 및 사전준비 단계에서는 가명처리의 목적이 통계인지 연구인지 등의 명확한 가명처리의 목적을 설정하고 가명정보 처리에 필요한 안전 조치와 필요한 서류를 작성하거나 작성된 파일을 업로드합니다. 이후 가명처리 목적에 대한 적합성을 검토하고 승인하는 절차를 진행하며 위험성 검토 단계에서는 개인정보 담당자가 개인정보 데이터를 확인해 식별 위험요소를 확인하는 목적이 있습니다.

솔루션을 통해 데이터에 성명이나 주민등록번호 그리고 휴대폰 번호와 같은 식별정보와 성별이나 직업 등의 식별 가능 정보 그리고 특수한 이름이나 혈액형 같은 특이정보를 확인하며 재식별 시 영향도를 검토해 삭제하는 등의 정제과정을 거칩니다. 이후 가명처리 장소와 방법 그리고 활용 목적에 대한 가명처리 환경 식별 위험요소를 확인하고 가명처리 단계는 실질적으로 개인정보에 대해 가명처리를 진행하는 단계로 데이터에 대한 식별 위험성 검토 결과를 기반해 가명정보 활용의 목적에 필요한 가명처리 방법과 수준을 정의합니다.

적정성 검토 단계



가명처리 방법을 정의한 후 계획에 따라 데이터 항목별 가명처리를 위해 마스킹하거나 라운딩 등의 처리를 통해 개인정보를 비식별화하며 적정성 검토 단계에서는 가명처리가 계획에 일치하고 적정하게 수행되었는지 확인하는 단계이고 가명처리 결과가 처리목적을 부합하는지 검토를 진행합니다.

적정성 검토에서는 내부 인원 또는 외부전문가를 통해 검토를 수행할 수 있으며 해당 과정에서 가명처리된 데이터에서 재식별의 가능성이 있는 경우 이전의 모든 절차를 재수행하거나 부분적으로 가명처리를 진행할 수 있습니다. 안전한 관리 단계에서는 가이드라인과 개인정보 관련 법에 따라 기술적과 관리적과 물리적 안전 조치 등의 사후 관리가 이행되어야 하는 단계입니다.

안전 관리 체계

가명처리된 데이터는 가명정보 처리 이후에도 특정 개인이 식별되는 경우 처리에 있어 중지와 회수와 파기 등의 조치를 취할 수 있으며 가명정보 처리 관련 기록은 작성 및 보관하여야 합니다. 비식별정보를 제공받거나 처리를 위탁받은 사업자등은 다른 정보와 결합을 통한 재식별을 금지하고 비식별정보를 제공하거나 처리를 위탁하는 자는 재제공 또는 재위탁을 제한합니다.

재식별이 되거나 재식별가능성이 높아지는 상황이 발생한 경우에는 데이터 처리중지 및 비식별정보제공자 또는 위탁자에게 통지의무등을 명시하고 비식별조치적정성평가단을 비식별조치기법전문가와 법률전문가등으로 구성하고 운영합니다.

전문기관 지원



부처별로 지정한 전문기관을 통해 비식별화 지원 및 기관간 데이터베이스 결합을 지원하며 임시 대체키를 활용한 결합을 허용하는 경우에도 무분별한 결합을 통한 개인정보 침해 소지를 방지하기 위해 전문기관에서만 결합을 하도록 하는 등 지원 및 관리체계가 필요합니다.

비식별 조치를 했더라도 이후에 다른 정보와 결합하면서 의도하지 않게 특정인이 식별되는 경우가 발생할 수 있으며 적절한 비식별화 조치가 이루어진 것인지 여부는 원본 데이터의 특성과 비식별화된 정보가 사용된 특정한 맥락이나 상황 그리고 비식별화 조치에 활용된 기법과 세부 기술의 수준을 고려합니다.

규제 대응 필요성

데이터 삼법이 시행되면서 데이터 활용을 위한 가명정보 개념이 도입되었으며 가명정보는 이름과 주민등록번호와 같은 개인정보의 일부를 삭제하거나 대체해 식별할 수 없도록 처리한 것을 뜻합니다. 기존에는 각종 규제로 인해 데이터를 활용하기 어려웠는데 가명정보로 처리하면 정보 주체의 동의 없이도 금융과 연구 그리고 통계 작성 등에서 합법적으로 사용할 수 있게 된 것입니다.

글로벌 규제 환경에서 데이터 처리의 핵심 전략으로 자리 잡았으며 인공지능 학습데이터와 통계 분석 그리고 공공 데이터 개방 등 다양한 분야에서 활용되고 있습니다. 데이터가 시행되면서 전 세계적으로 개인정보보호의 중요성이 강조됐고 가명정보와 익명정보의 활용에 대한 기준이 제시되면서 비식별화 기술의 도입이 가속화됐습니다.

시장 성장 전망



비즈니스 리서치 기업은 데이터 익명화와 가명화 소프트웨어 보고서를 통해 시장 규모를 평가했으며 연평균 성장률을 달성하면서 지속 성장할 것으로 예측했습니다. 보고서는 보안위협 증가와 산업의 디지털화에 따라 시장이 성장할 것이며 특히 데이터 침해에 대한 우려가 커짐에 따라 데이터 비식별화 혹은 가명화 프로그램에 대한 수요가 증가하고 있다고 설명했습니다.

개인정보 비식별화는 개인을 식별할 수 있는 정보를 제거하거나 대체함으로써 데이터의 활용 가치를 유지하면서도 개인정보 보호를 실현하는 기술이며 비식별화는 데이터 기반 비즈스의 신뢰성과 확장성을 높이는 핵심 수단입니다. 도입 시 데이터 품질 유지와 적정 수준의 비식별화 그리고 재식별 방지 대책 마련이 병행되어야 합니다.



이전글
이전글
다음글
다음글
목록보기