
자율주행 AI 모델은 도로 위에서 마주치는 상황을 학습 데이터로 삼아 인식 능력을 갖춥니다. 이 학습 데이터의 근원은 실제 도로에서 수집된 센서 데이터입니다. 수집 단계에서 어떤 센서를 어떻게 탑재하고 어떤 환경 조건에서 주행하느냐에 따라 이후 가공·학습·평가 전 단계의 품질이 달라집니다. 도로 데이터셋 수집은 단순히 카메라를 달고 도로를 달리는 행위가 아니라 목표 인식 모델에 맞는 센서 구성을 설계하고 수집 조건을 체계적으로 계획한 뒤 현장에서 정밀하게 실행하는 공정입니다.
자율주행 데이터 수집 차량에는 카메라·라이다·레이더·GPS·IMU 등 복수의 센서가 탑재됩니다. 각 센서는 역할이 다르기 때문에 목표 학습 태스크에 따라 구성을 달리해야 합니다. 카메라는 색상 정보와 시각적 세부 내용을 제공하지만 날씨나 조도 변화에 민감합니다. 라이다는 레이저 펄스를 이용해 주변 환경의 정밀한 3D 거리 정보를 생성하며 채널 수가 높을수록 세밀한 공간 인식이 가능합니다. 레이더는 전파를 사용하기 때문에 악천후에서도 물체와의 거리·속도 정보를 비교적 안정적으로 측정할 수 있지만 형상 파악에는 한계가 있습니다. 세 가지 센서는 각각의 약점을 서로 보완하는 관계이므로 수집 차량 구성 단계에서 단일 센서에만 의존하지 않고 목표 주행 환경에 맞게 센서 조합을 결정하는 것이 수집 데이터의 활용 가능성을 높입니다.

수집 차량에 센서를 어디에 어떤 방향으로 장착하느냐에 따라 데이터가 커버하는 시야 범위가 달라집니다.
센서 배치 설계 단계에서 각 센서의 시야 범위가 서로 겹치는 구간을 확보해 두면 이후 센서 융합 데이터 구성 시 정합성을 높이는 데 도움이 됩니다.

복수의 센서가 탑재된 수집 차량에서는 각 센서가 서로 다른 좌표계를 사용하기 때문에 데이터를 통합하려면 센서 간 위치와 방향 관계를 수치로 정확히 맞추는 캘리브레이션이 필수입니다. 카메라와 라이다 사이의 캘리브레이션은 카메라 이미지와 라이다 포인트 클라우드의 대응 관계를 설정하는 과정으로 회전 행렬과 변환 벡터를 계산하여 두 센서 데이터를 같은 공간 좌표로 정렬합니다. 캘리브레이션이 정확하지 않으면 카메라와 라이다가 동일한 물체를 서로 다른 위치로 인식하는 오정합이 발생하여 이후 학습 데이터로 활용하기 어려워집니다. 수집 차량을 새로 구성할 때뿐 아니라 차량 충격이나 부품 교체 이후에도 캘리브레이션을 재수행하는 것이 수집 데이터 품질을 유지하는 기본 관리 절차입니다.

자율주행 모델이 다양한 실제 도로 상황에 대응하려면 수집 환경도 그만큼 다양하게 설계되어야 합니다.
특히 악천후와 야간 조건 데이터는 실제 수집이 어렵고 비용도 높지만 안전에 직결되는 상황이기 때문에 수집 계획 단계에서 이 조건들에 대한 충분한 비중을 확보하도록 설계해야 합니다.
수집 차량에 탑재된 카메라·라이다·GPS 등 복수의 센서는 각자 다른 주기로 데이터를 생성합니다. 이 데이터를 학습에 활용하려면 같은 시점에 수집된 것으로 일치시키는 동기화가 필요합니다. 동기화가 맞지 않으면 카메라가 특정 보행자를 촬영한 시점과 라이다가 해당 보행자의 위치를 스캔한 시점이 어긋나게 되어 융합 데이터의 정확도가 떨어집니다. GPS와 IMU 데이터는 차량의 위치와 자세 정보를 기록하는 기준으로 활용되며 각 프레임에 타임스탬프를 정확히 부여하는 것이 이후 데이터 정렬의 기반이 됩니다. 동기화 품질은 수집 단계에서 실시간으로 확인하기 어렵기 때문에 수집 차량에 별도의 상태 모니터링 장치를 탑재하거나 수집 후 데이터 점검 절차를 반드시 포함시켜야 합니다.

공공 도로에서 데이터를 수집하면 보행자 얼굴과 차량 번호판이 영상에 담깁니다. 이 데이터를 AI 학습에 활용하거나 외부에 제공하기 위해서는 개인정보 보호법에 따른 비식별화 처리가 필요합니다. AI 허브를 통해 공개되는 국내 도로주행 데이터도 개인정보 비식별화 처리를 거친 데이터를 제공하는 구조입니다. 비식별화는 수집 완료 후 후처리로 진행되는 경우가 일반적이며 얼굴과 번호판에 자동으로 모자이크 또는 블러 처리를 적용하는 AI 기반 자동화 도구가 활용됩니다. 비식별화 처리 범위와 방법은 데이터를 어떤 목적으로 활용하느냐에 따라 달라질 수 있으므로 수집 계획 단계에서 데이터 활용 목적을 먼저 확정하고 이에 맞는 비식별화 기준을 함께 설계하는 것이 효율적입니다.
목표 모델이 학습해야 할 상황을 미리 시나리오로 정의하면 수집 경로도 그에 맞게 계획할 수 있습니다. 복잡한 교차로 인식이 목적이라면 다양한 형태의 교차로가 포함된 경로를 선정하고 보행자 밀집 구간 인식이 목적이라면 유동 인구가 많은 구간을 포함시키는 방식입니다. 수집 전 날씨·도로 번잡도·이동 객체 유형 등 요구 조건을 규정해 두면 수집 이후 데이터를 재분류하거나 필요한 조건의 데이터가 부족해 보완 수집을 반복하는 비용을 줄일 수 있습니다. 수집 경로는 단순히 많은 거리를 주행하는 것보다 목표 시나리오를 얼마나 균형 있게 커버하는지가 데이터셋의 실제 활용 가치를 결정하는 기준이 됩니다.

수집이 진행되는 동안에도 데이터 품질을 실시간으로 모니터링하는 체계가 필요합니다. 센서 오작동·연결 불량·기록 장치 이상 등이 발생하면 해당 구간의 데이터가 손상되거나 누락될 수 있어 수집 현장에서 즉시 확인할 수 있는 상태 표시 장치가 함께 운용되어야 합니다. 수집 완료 후에는 각 센서 데이터의 기록 여부·동기화 상태·GPS 신호 안정성을 점검하는 절차를 거쳐 재수집이 필요한 구간을 식별합니다. 수집 단계에서 발견되지 못한 품질 문제는 이후 가공·학습 단계에서 뒤늦게 드러나 전체 파이프라인의 재작업을 유발할 수 있어 수집 직후 품질 점검 단계를 운영 절차에 고정적으로 포함시키는 것이 중요합니다.

수집된 원본 데이터는 이후 가공·라벨링·학습에 반복적으로 참조되므로 체계적인 저장과 관리가 필요합니다. 수집 날짜·시간대·날씨 조건·도로 유형·수집 경로·탑재 센서 정보 등을 메타데이터로 함께 기록해 두면 이후 특정 조건의 데이터를 빠르게 검색하거나 데이터셋의 조건 분포를 파악하는 데 활용할 수 있습니다. 원본 데이터를 수정 없이 보존하고 가공 버전을 별도로 관리하는 구조를 갖추면 가공 과정에서 오류가 발생했을 때 원본으로 복구하는 것이 가능합니다. 수집 단계부터 메타데이터를 충실히 기록하는 습관을 갖추는 것이 데이터셋의 재사용성과 추적 가능성을 높이는 기반이며 이는 장기적으로 학습 데이터 자산의 가치를 보존하는 방법이기도 합니다.
