자율주행 데이터셋 종류 정리, 학습 목적과 센서 구성에 따른 분류

트렌드

2026-03-25

데이터셋 선택이 모델 개발 방향을 결정하는 이유

자율주행 AI 모델 개발은 어떤 데이터셋을 사용하느냐에 따라 학습되는 태스크와 인식 가능한 환경의 범위가 달라집니다. 데이터셋마다 포함된 센서 종류·수집 지역·날씨 조건·어노테이션 방식·지원 태스크가 다르기 때문에 모델이 풀어야 할 문제에 맞는 데이터셋을 선택하지 않으면 학습 효율이 낮아지고 실제 주행 환경에서의 성능도 기대에 미치지 못합니다. 자율주행 데이터셋은 단순히 이미지를 모아놓은 것이 아니라 객체 탐지·차선 인식·주행 가능 영역 파악·경로 예측 등 특정 학습 목적에 맞게 설계된 구조를 가지고 있으며 이 구조를 이해해야 데이터셋을 올바르게 활용할 수 있습니다.

‍

1세대 기준 데이터셋, KITTI

‍

KITTI는 2012년 카를스루에 공과대학교와 도요타 기술연구소가 공동 공개한 데이터셋으로 자율주행 연구의 사실상 기준 데이터셋 역할을 해왔습니다. 고해상도 RGB 및 흑백 스테레오 카메라 두 대와 라이다 한 대로 구성된 센서로 독일 카를스루에 교외 지역을 촬영한 데이터를 포함하며 깊이 정보도 함께 제공합니다. 객체 탐지·차선 추적·시각적 오도메트리 등 여러 태스크를 위한 벤치마크로 광범위하게 사용되어 왔습니다. KITTI는 전방 뷰 카메라 중심으로 구성되어 있어 전방에 보이는 객체만 어노테이션 되는 한계가 있지만 자율주행 알고리즘 개발 초기 연구 기반을 다지는 데 결정적인 역할을 한 1세대 대표 데이터셋으로 현재도 알고리즘 성능 비교의 기준으로 활용됩니다.

‍

멀티모달 대규모 데이터셋, nuScenes와 Waymo Open Dataset

2019년을 전후로 공개된 2세대 데이터셋들은 센서 구성과 데이터 규모에서 1세대와 뚜렷한 차이를 보입니다.

‍

nuScenes : 현대자동차와 Aptiv의 합작법인 Motional이 공개한 멀티모달 데이터셋입니다. 360도 시야를 커버하는 카메라 6대·레이더 5대·32채널 라이다 1대로 구성되며 보스턴과 싱가포르 두 도시에서 촬영한 데이터를 포함합니다. 23개 객체 클래스에 대한 3D 바운딩 박스와 가시성·활동성·자세 등 속성 정보도 함께 어노테이션되어 있으며 3D 객체 탐지·추적·예측·세그멘테이션 등 여러 태스크를 포괄합니다.

‍

Waymo Open Dataset : 구글 알파벳 계열의 Waymo가 공개한 대규모 자율주행 데이터셋으로 미국 내 도심과 교외 구간에서 수집한 데이터를 포함합니다. 미드 레인지 라이다 1대·단거리 라이다 4대·카메라 5대로 구성되며 약 120만 개의 2D 라벨과 약 1,200만 개의 3D 라벨을 포함합니다. 시간대와 날씨별로 다양한 주행 환경 데이터를 제공합니다.

‍

2세대 데이터셋은 360도 멀티카메라와 레이더를 포함하여 단일 전방 시야의 한계를 넘어서고 대규모 3D 어노테이션을 갖추면서 보다 복잡한 자율주행 태스크 학습을 가능하게 했습니다.

‍

‍

대규모 비디오 데이터셋, BDD100K

‍

BDD100K는 UC버클리 인공지능 연구 실험실이 2018년 공개한 대규모 주행 비디오 데이터셋입니다. 약 100,000개의 비디오로 구성되며 각 영상은 720p 해상도·초당 30프레임 기준 약 40초 길이입니다. 미국 전역의 뉴욕·샌프란시스코 등 도시·주거지·고속도로에서 수집되었으며 주간·야간·비·안개·맑음 등 다양한 날씨와 시간대 데이터를 포함합니다. 객체 탐지·인스턴스 세그멘테이션·차선 표시·주행 가능 영역 등 10가지 이상의 어노테이션 유형을 제공하며 GPS와 IMU 데이터도 함께 담고 있습니다. BDD100K는 단일 데이터셋으로 다양한 환경 조건을 포괄하는 설계 덕분에 날씨나 조명 변화에 강건한 모델 학습에 특히 유용하게 활용됩니다.

‍

도시 환경 세그멘테이션 특화 데이터셋, Cityscapes

픽셀 수준의 세그멘테이션 학습이 목적이라면 Cityscapes가 대표적인 선택지입니다.

‍

구성과 특징 : 독일을 비롯한 유럽 50개 도시에서 촬영한 도시 도로 장면 이미지로 구성됩니다. 정밀한 픽셀 단위 어노테이션과 함께 도로·보행자·건물·차량 등 30개 이상의 클래스를 제공합니다.
주요 활용 : 시맨틱 세그멘테이션 및 인스턴스 세그멘테이션 모델의 학습과 평가에 사용됩니다. 자율주행 차량이 주행 가능 구역과 장애물 영역을 구분하는 능력을 학습하는 데 기여합니다.
한계 : 카메라 기반 이미지로만 구성되어 라이다 데이터가 없으며 수집 지역이 유럽에 집중되어 있습니다.

‍

Cityscapes는 세그멘테이션에 특화된 고품질 어노테이션을 갖추고 있어 도시 장면 이해 모델의 성능 평가에서 오랫동안 기준 데이터셋으로 사용되고 있습니다.

‍

데이터 규모 중심 데이터셋, ONCE

‍

ONCE는 중국 연구기관이 공개한 대규모 자율주행 데이터셋으로 라이다 장면과 컬러 영상을 다량 포함하고 있습니다. nuScenes와 Waymo 데이터셋보다 규모가 크며 더 다양한 지역과 시간대에서 수집된 것이 특징입니다. 저녁·야간 시간대 데이터의 비율이 상대적으로 균형 있게 구성되어 있어 타 데이터셋에서 부족한 야간 주행 데이터를 보완하는 데 활용될 수 있습니다. ONCE는 대규모 비라벨 데이터를 포함하여 자기지도 학습 방식의 모델 사전 학습에도 활용될 수 있도록 설계되어 있으며 다양한 도로·날씨·시간 환경을 균형 있게 포함해 모델의 일반화 능력 향상에 초점을 맞춥니다.

‍

국내 자율주행 데이터셋 구축 현황

한국 도로 환경에 특화된 자율주행 데이터셋도 공공 및 연구 기관을 통해 구축되어 있습니다. 한국전자통신연구원과 한국전자기술연구원은 실제 도로에서 라이다·카메라 센서를 활용해 수집한 데이터를 공공데이터포털을 통해 제공하고 있으며 차량·보행자·이륜차·버스 등 국내 도로 환경에 맞는 클래스 구성을 갖추고 있습니다. AI 허브에서도 국내 주행 조건에 최적화된 자율주행 학습 데이터를 제공하며 특히 기존 공개 데이터셋에서 부족했던 악천후 조건 데이터를 포함하고 있습니다. 국내 데이터셋은 한국 도로 인프라·표지판 체계·교통 흐름 특성을 반영하고 있어 국내 도로 환경에서 운행하는 자율주행 시스템 개발에 글로벌 공개 데이터셋만으로는 채우기 어려운 부분을 보완하는 역할을 합니다.

‍

태스크별로 달라지는 데이터셋 선택 기준

‍

자율주행 학습 태스크에 따라 적합한 데이터셋의 구성 요건이 달라집니다. 3D 객체 탐지 모델 개발에는 라이다 포인트 클라우드와 3D 바운딩 박스 어노테이션을 갖춘 KITTI·nuScenes·Waymo가 활용됩니다. 도로 장면 이해와 주행 가능 영역 인식에는 픽셀 단위 어노테이션을 갖춘 Cityscapes나 BDD100K가 적합합니다. 날씨·시간대·도로 유형의 다양성이 필요한 모델에는 BDD100K나 ONCE처럼 수집 조건의 폭이 넓은 데이터셋이 유리합니다. 단일 데이터셋만으로는 학습 목적을 완전히 충족하기 어려운 경우가 많아 여러 데이터셋을 혼합하거나 공개 데이터셋을 사전 학습에 활용한 뒤 특화 데이터로 파인튜닝하는 방식이 실제 개발 현장에서 일반적으로 사용됩니다.

‍

합성 데이터셋과 실제 데이터의 병행 활용

실제 주행 데이터만으로는 충분히 확보하기 어려운 극단적인 기상 조건이나 사고 상황 등을 학습시키기 위해 게임 엔진 기반의 합성 데이터셋이 병행 활용됩니다. 합성 데이터는 실제 도로 주행 없이 다양한 시나리오와 센서 조건을 설정할 수 있어 데이터 수집 비용을 줄이고 희귀 상황에 대한 학습 데이터를 빠르게 생성할 수 있습니다. 다만 합성 데이터로만 학습된 모델은 실제 환경과의 시각적 차이로 인해 성능이 떨어질 수 있어 실제 데이터와 적절한 비율로 혼합하는 전략이 필요합니다. 합성 데이터와 실제 데이터를 혼합하는 방식은 자율주행 모델이 교통 혼잡·악천후·야간 등 실제 도로에서 드물게 발생하지만 안전에 직결되는 상황을 미리 학습할 수 있게 하는 접근법으로 점차 활용 범위가 넓어지고 있습니다.

‍

데이터셋 선택 시 실무적으로 확인해야 할 사항

‍

자율주행 AI 개발에 데이터셋을 도입할 때는 기술적 구성 외에도 실무 측면에서 사전 확인이 필요한 사항이 있습니다. 라이선스 조건에 따라 연구 목적으로만 사용 가능한 데이터셋과 상업적 활용이 허용된 데이터셋이 구분되며 이를 확인하지 않으면 이후 제품 개발 단계에서 법적 문제가 발생할 수 있습니다. 수집 지역이 특정 국가나 도시에 집중된 데이터셋은 해당 지역 외 환경에서의 모델 성능이 낮아질 수 있어 목표 운행 지역과의 일치 여부를 검토해야 합니다. 자율주행 데이터셋은 규모만 클수록 좋은 것이 아니라 개발하는 시스템이 운행될 환경·학습할 태스크·허용 라이선스 범위를 기준으로 목적에 맞게 선택하고 필요에 따라 자체 데이터를 추가 구축하는 방식으로 접근하는 것이 효율적입니다.

‍

목록보기