
고속도로 자율주행과 도시 자율주행은 데이터 구성의 요구 조건이 근본적으로 다릅니다. 고속도로는 진입 차량이 제한되고 보행자가 없으며 차선 구조가 단순하지만 도시 환경은 보행자·이륜차·자전거·대중교통 차량 등 다양한 이동 주체가 한 공간에 혼재하며 교차로·횡단보도·이면도로·회전 교차로 등 복잡한 도로 구조가 연속적으로 등장합니다. 교차로 통과는 자율주행 난이도 측면에서 최고 수준으로 꼽히는 태스크로, 교차로 통과를 통계적으로 사람보다 안전하게 수행할 수 있다면 레벨 5 완전자율주행에 거의 도달한 것으로 볼 수 있다고 평가받을 만큼 어렵습니다. 도시 환경 데이터셋은 단순히 도심에서 수집한 데이터를 모아놓은 것이 아니라 도심 주행의 복잡성을 구성하는 각 요소를 의도적으로 포함하고 균형 있게 설계한 데이터 체계입니다.
도시 환경 데이터셋과 고속도로 데이터셋의 차이는 수집 경로보다 포함해야 하는 객체와 상황의 다양성에서 나타납니다. 고속도로 데이터셋에서는 차량 탐지·차선 유지·선행 차량 추종이 주요 학습 태스크이고 보행자는 거의 등장하지 않습니다. 도시 환경에서는 보행자·이륜차·전동킥보드·노상 주차 차량·공사 구간·임시 교통 통제 등 고속도로에서 볼 수 없는 객체와 상황이 빈번히 등장합니다. 도심에서 카메라로 수집한 영상에서는 보행자·표지판·도로변 주정차 차량·이륜차 등의 형상 정보를 구분하여 인식해야 하는 태스크가 고속도로와는 다르게 요구됩니다. 도시 환경 데이터셋을 구축할 때 고속도로 데이터셋의 클래스 구성과 라벨링 기준을 그대로 이어 쓰는 것은 적절하지 않으며 도심 고유의 객체 클래스와 상황 유형을 반영한 별도의 설계가 필요합니다.

교차로는 도시 환경 데이터셋에서 가장 집중적으로 확보해야 하는 구간입니다.
교차로 데이터는 수집 경로를 설계할 때 다양한 형태의 교차로가 의도적으로 포함되도록 계획해야 하며 신호 상태나 이동 주체 구성이 편중되지 않도록 수집 시간대와 위치를 다양하게 분산해야 합니다.


도심 환경에서는 고층 건물과 빌딩 밀집 구조로 인해 GPS 위성 신호가 반사되거나 차단되는 음영 구간이 빈번하게 발생합니다. 실제로 서울과 같은 고밀도 도심에서는 위성 신호 포착이 어렵기 때문에 자율주행에는 고정밀 디지털 지도가 필수적으로 필요하다는 점이 지적되어 왔습니다. 이 때문에 도시 환경 데이터셋에는 GPS 신호가 안정적인 구간과 음영 구간 모두의 데이터가 포함되어야 하며 터널·지하도·고가 하부처럼 신호 단절이 예상되는 구간도 수집 경로에 포함해야 합니다. 이런 구간에서는 GPS 대신 라이다 기반 지도 매칭이나 IMU 데이터가 측위 보완 역할을 합니다. 도시 환경 데이터셋을 구축할 때 GPS 음영 구간을 의도적으로 포함하지 않으면 모델이 실제 도심 주행에서 측위 불안정 상황에 대응하지 못하는 결과로 이어질 수 있습니다.
도시 환경에서 보행자 데이터는 고속도로와 달리 밀도·이동 방향·행동 다양성 측면에서 훨씬 복잡하게 설계되어야 합니다.
도시 환경에서 보행자 데이터는 인원 수뿐 아니라 행동 패턴과 등장 조건의 다양성을 기준으로 구성해야 하며 특히 사각지대 등장 패턴은 안전에 직결되는 데이터이므로 별도 구성을 권장합니다.

도시 자율주행은 간선도로뿐 아니라 차로 폭이 좁고 차선 표시가 없거나 불분명한 이면도로와 주거 구역을 포함합니다. 이 구간에서는 차량이 교행하거나 보행자와 차량이 같은 도로를 공유하는 상황이 발생하며 주정차 차량으로 인한 주행 가능 공간 제약이 빈번합니다. 이면도로에서는 도로 경계와 보도의 구분이 불명확한 경우도 있어 라벨링 기준을 별도로 설계해야 합니다. 이면도로 특유의 좁은 도로폭과 주정차 패턴을 반영한 데이터 없이는 도시 환경 전반에 대응하는 모델을 구축하기 어렵습니다. 도시 환경 데이터셋에서 이면도로와 주거 구역을 생략하면 간선도로에 최적화된 모델만 만들어지게 되어 실제 도심 서비스 운행 환경에서 통행하는 전체 구간을 커버하지 못합니다.
도심 환경에는 신호등·도로 표지판·횡단보도·중앙선·버스 전용차로·자전거 도로·방지턱·안전지대 등 고속도로에 없는 교통 인프라 요소가 다수 포함됩니다. 신호등의 경우 나라마다 설치 위치와 신호 구의 개수가 달라 자체 데이터셋을 갖춰야 하기 때문에 초기 구축 작업이 많이 요구됩니다. 국내 교통 표지판 체계에 특화된 데이터가 부족하면 해외 데이터로 사전학습된 모델이 국내 표지판을 잘못 인식할 가능성이 있습니다. 도시 환경 데이터셋에서 교통 인프라 요소는 국내 도로 기준에 맞는 형태와 설치 위치를 기준으로 클래스를 정의하고 수집 시 각 인프라가 균형 있게 포함되도록 경로를 설계하는 것이 모델의 국내 도로 적합성을 높이는 방법입니다.
도심 교통 환경은 시간대에 따라 교통 밀도가 크게 달라집니다. 출퇴근 혼잡 시간대와 심야 한산 시간대는 같은 도로라도 모델이 처리해야 하는 상황의 복잡성이 전혀 다릅니다. 도심 교차로·혼잡 시간대·잦은 승하차·불규칙한 보행자와 차량 움직임이 반복되는 환경에서는 센서 인식 오류·판단 지연·회피 기동 같은 사례가 누적되어 모델 학습에 실질적으로 유용한 데이터가 많아집니다. 이 때문에 단순히 주행 거리를 늘리는 것보다 시간대별·교통 밀도별 조건을 균형 있게 설계하는 것이 도시 환경 데이터셋의 품질을 결정하는 기준이 됩니다. 도시 환경 수집 계획에는 혼잡 시간대와 한산 시간대를 모두 포함하되 모델이 가장 어렵게 대응하는 혼잡 조건의 데이터를 충분한 비율로 확보하는 것이 실제 운행 안전성으로 이어집니다.
미국·유럽에서 수집된 도시 환경 데이터셋을 국내 도심에 그대로 적용하면 도메인 갭이 발생합니다. 차선 품질·이면도로 비중·이륜차와 개인형 이동수단 혼재·보행자 행동 양상 등 교통 환경 차이가 모델의 판단 로직에 영향을 미칩니다. 국내 도심에서는 골목길 이면도로의 비중이 높고 이륜차 통행이 잦으며 배달 이동수단이 혼재하는 특성이 있어 이를 반영한 국내 특화 데이터가 필요합니다. 자율주행 데이터 공유센터와 AI 허브를 통해 국내 도심 구간 데이터가 일부 공개되어 있지만 전반적인 국내 도시 환경 데이터는 여전히 부족한 상황입니다. 국내 도시 환경 자율주행 데이터셋 구축에서는 해외 공개 데이터셋을 보조적으로 활용하되 국내 교통 환경의 고유한 특성을 반영한 자체 수집 데이터를 중심 축으로 구성하는 전략이 현지 적합성이 높은 모델 개발의 기반입니다.
