
자율주행 AI 모델은 학습한 데이터의 분포 안에서 작동합니다. 일반 도로 주행 데이터로만 학습된 모델은 정상적인 교통 흐름에서는 잘 작동하더라도 학습 과정에서 접하지 못한 상황을 만나면 판단 오류를 일으킬 가능성이 높습니다. 자율주행 분야에서는 이처럼 정상 주행 범위를 벗어난 희귀하거나 위험한 상황을 이상 상황 또는 엣지케이스라고 부릅니다. 이상 상황은 발생 빈도가 낮지만 실제로 사고로 이어질 가능성이 높은 상황이기 때문에 이 조건에 대한 데이터셋을 구축하지 않으면 학습된 모델이 통계적으로는 우수해 보이더라도 실제 도로에서 결정적인 순간에 기대한 대로 작동하지 않을 수 있습니다.
이상 상황 데이터셋을 구축하려면 먼저 어떤 상황을 이상 상황으로 정의하고 어떤 범주로 나눌지 체계를 갖춰야 합니다. 이상 상황은 크게 도로 위 비정형 객체 등장·예측 불가한 보행자 행동·비정상적인 차량 거동·도로 인프라 이상·복합 요인 상황으로 분류할 수 있습니다. 도로 위 비정형 객체 등장에는 낙하물·전복 차량·노면에 쓰러진 오토바이·도로 위 동물 등이 포함됩니다. 예측 불가한 보행자 행동에는 무단횡단·어린이의 갑작스러운 도로 진입·시야 사각지대에서 등장하는 보행자가 해당합니다. 비정상적인 차량 거동으로는 역주행·급차로 변경·불법 주정차로 인한 차로 차단 등이 있습니다. 이상 상황의 분류 체계를 미리 정의하면 수집과 시뮬레이션 생성 단계에서 어느 유형이 부족한지 파악하고 균형 있게 구성하는 데 기준이 됩니다.

이상 상황 데이터는 실제 도로 주행 수집으로 확보하기 매우 어렵습니다. 그 이유는 구조적으로 두 가지입니다.
이 두 가지 이유로 이상 상황 데이터셋은 실제 수집만으로 구성하는 방식에 근본적인 한계가 있으며 시뮬레이션 기반 데이터 생성을 병행하는 구조가 필요합니다.

자율주행 시뮬레이터는 가상의 도로 환경에서 이상 상황 시나리오를 안전하게 반복 생성할 수 있는 도구입니다. 실제 도로에서는 재현이 불가능한 전복 차량·급작스러운 보행자 등장·역주행 충돌 직전 상황 등을 가상 환경에서 수만 번 반복 구동하며 데이터를 생성할 수 있습니다. 국내에서는 모라이(MORAI)가 보행자 충돌 위험성 등 실제 도로에서 검증하기 어려운 시나리오를 가상 환경에서 반복 테스트할 수 있는 자율주행 시뮬레이션 플랫폼을 제공하고 있으며 디지털 트윈 기반으로 실제 도로 환경을 구현하여 가상과 실제의 차이를 줄이는 데 초점을 맞추고 있습니다. AI 허브에서도 12개 상황별로 30개 이상의 시나리오로 시뮬레이션을 구동하여 구축한 가상 센서 시뮬레이션 데이터를 제공하고 있습니다. 시뮬레이션 데이터의 한계는 실제 환경과 시각적·물리적 차이가 존재한다는 점이므로 시뮬레이션으로 생성한 이상 상황 데이터는 실제 도로에서 수집한 유사 상황 데이터와 함께 사용하여 이 차이를 보완하는 접근이 권장됩니다.

이상 상황 시나리오를 설계할 때는 단순히 극단적인 상황을 나열하는 것이 아니라 실제 주행 환경에서 발생할 수 있는 조건을 체계적으로 조합해야 합니다.
이상 상황 시나리오는 한 번 설계하면 완성되는 것이 아니라 수집·학습·모델 평가 과정에서 모델이 취약한 시나리오를 발견할 때마다 업데이트하는 구조로 운영되어야 합니다.
이상 상황 데이터의 라벨링은 일반 도로 데이터보다 난도가 높습니다. 정상 주행 데이터에서는 객체 클래스가 차량·보행자·표지판·차선으로 비교적 명확히 구분되지만 이상 상황에서는 낙하물·전복 차량·도로 위 동물처럼 일반 라벨링 가이드라인에 없는 새로운 클래스가 등장합니다. 이 경우 기존 가이드라인에 새 클래스 정의를 추가하고 경계 처리 기준을 명확히 설계해야 합니다. 또한 충돌 직전처럼 프레임 전체가 흐릿하거나 객체가 심하게 가려진 상황에서도 라벨링 기준을 어떻게 적용할지 사전에 규정해야 합니다. 이상 상황 라벨링에서 가장 큰 문제는 라벨러가 해당 상황 자체를 생소하게 느껴 판단을 주저하거나 불일치가 늘어나는 것이므로 이상 상황 유형별 예시 이미지와 처리 기준을 가이드라인에 충분히 포함시키는 것이 품질 유지의 기반입니다.

이상 상황 데이터셋에는 구조적인 클래스 불균형이 발생합니다. 수집된 전체 데이터 중 이상 상황 프레임이 차지하는 비율이 매우 낮기 때문에 이 데이터를 그대로 학습에 투입하면 모델이 정상 상황에만 최적화되어 이상 상황을 인식하지 못하는 결과로 이어집니다. 이를 보완하는 방법으로는 이상 상황 데이터의 샘플링 비율을 높이는 오버샘플링, 정상 데이터의 비율을 줄이는 언더샘플링, 이상 상황 데이터를 증강하여 수량을 늘리는 방법 등이 활용됩니다. 시뮬레이션으로 이상 상황 데이터를 추가 생성하는 것도 불균형 완화 방법 중 하나입니다. 클래스 불균형 문제를 해결하지 않으면 이상 상황 데이터셋을 아무리 정교하게 구축해도 학습 결과에 반영되지 않을 수 있으므로 데이터 구축과 학습 설계를 함께 고려해야 합니다.
국내에서는 한국교통안전공단 자동차안전연구원의 자율주행 데이터 공유센터를 통해 엣지케이스 시나리오 데이터셋을 공개하고 있어 이를 이상 상황 학습 데이터로 활용할 수 있습니다. 서울시는 디지털 트윈 기반 자율주행 시뮬레이터를 공개하면서 불법 주정차 회피·사각지대 보행자 회피·무단횡단 보행자 추돌 등과 같은 돌발 상황 시나리오를 기상 환경 조건과 함께 검증할 수 있는 환경을 대학·연구소·스타트업에 무료로 제공하고 있습니다. 공공 시뮬레이터와 공개 데이터셋은 자체 이상 상황 데이터 구축 비용을 낮추는 현실적인 출발점이 될 수 있으며 공개된 시나리오를 기반으로 목표 모델에 맞는 조건을 추가하는 방식으로 활용 범위를 넓힐 수 있습니다.

이상 상황 데이터셋 구축의 최종 목적은 모델이 해당 상황에서 실제로 올바른 판단을 내리는지를 검증하는 것입니다. 이를 위해 구축된 이상 상황 데이터는 학습 데이터와 별도로 평가 전용 데이터셋을 구성하여 모델이 각 이상 유형별로 어느 수준의 인식 성능을 보이는지 측정하는 데 사용합니다. 특정 유형의 이상 상황에서 성능이 낮게 나오면 해당 유형의 학습 데이터가 부족하다는 신호로 해석하여 추가 시나리오 생성이나 보완 수집으로 이어지는 순환 구조를 갖추는 것이 효과적입니다. 이상 상황 데이터셋은 정기적으로 새로운 유형의 이상 상황을 추가하고 평가 결과를 반영하여 업데이트하는 방식으로 운영할 때 자율주행 모델의 실제 도로 안전성을 지속적으로 높일 수 있습니다.
자율주행 AI가 실제 도로에서 안전하게 운행되려면 정상 상황뿐 아니라 예외적이고 위험한 상황에서도 신뢰할 수 있는 판단을 내려야 합니다. 이상 상황 데이터셋 구축은 일회성 작업이 아니라 실제 주행 데이터에서 모델이 처리하지 못한 상황을 지속적으로 발굴하고 시나리오화하여 데이터셋에 편입시키는 장기적인 운영 체계를 필요로 합니다. 자율주행 기술이 고도화될수록 이미 학습된 이상 상황의 범위는 넓어지고 새롭게 발견되는 미학습 상황은 더욱 드물고 복잡한 조건으로 좁혀집니다. 이상 상황 데이터셋 구축과 갱신을 자율주행 모델 개발 사이클의 고정된 단계로 운영하는 것이 모델이 실제 도로 환경에서 계속해서 안전성을 유지하는 기반입니다.
