데이터 오류가 사고로 이어지지 않으려면! 3D 자율주행 데이터 가공 및 품질 검증

레이저 거리 측정 센서와 점군의 기본 원리

자율주행 자동차의 레이저 거리 측정 센서는 레이저 펄스를 송신하고 물체에 반사되어 돌아오는 빛의 비행시간을 측정하여, 주변 환경의 3차원 좌표 정보를 점군 형태로 제공합니다. 각 점은 단순한 위치 좌표뿐 아니라 반사 강도 정보도 함께 포함되어, 물체의 재질과 특성을 파악할 수 있습니다. 이 센서는 카메라와 달리 악천후(야간, 비, 눈)에 영향이 적고, 정확한 거리 정보를 직접 제공하므로 자율주행에 필수적입니다. 다만 원본 데이터는 노이즈와 불필요한 점으로 가득하므로, 머신러닝 모델이 학습할 수 있는 고품질 데이터로 변환하려면 체계적인 가공 및 검증 프로세스가 필요합니다.

‍

점군의 전처리 및 노이즈 제거

‍

▲ 관심영역 설정: 원치 않는 영역(하늘, 터널 천장, 먼 배경) 제거

▲ 이상치 제거: 통계 기반 이상치 제거 기법 적용

▲ 격자화: 3차원 격자로 변환하여 데이터 밀도 정규화

‍

원본 센서 데이터에는 센서 노이즈, 반사 오류, 불필요한 배경 정보가 포함되어 있으므로, 먼저 데이터를 정제해야 합니다. 첫 번째로 관심영역을 설정하여, 차량 주변 필요한 범위(예: 앞뒤 거리, 좌우 범위)만 추출합니다. 이렇게 하면 불필요한 연산을 줄이고 처리 속도를 높일 수 있습니다. 두 번째로 이상치 제거 기법을 적용합니다. 통계 기반 제거는 각 점의 이웃 점들의 거리 분포를 분석하여, 평균에서 너무 멀리 떨어진 점을 노이즈로 판단하고 제거합니다. 세 번째로 격자화를 통해 3차원 공간을 균일한 크기의 칸으로 분할하면, 자동 라벨링이나 추후 처리의 효율성을 높일 수 있습니다.

‍

군집화와 객체 분류

점군에서 보행자, 차량, 자전거 등 개별 객체를 구분하려면 군집화 알고리즘이 필수입니다. 밀도 기반 공간 군집화는 자율주행에서 가장 널리 사용되는데, 이 알고리즘은 미리 객체 개수를 지정하지 않고도 데이터의 밀도에 따라 자동으로 객체를 분류합니다. 예를 들어, 밀집된 점들은 하나의 차량으로, 느슨한 점들은 배경으로 인식됩니다. 이 기법은 또한 이상치(노이즈)를 처리할 수 있어, 고립된 점은 어느 객체에도 할당되지 않습니다. 군집화 후 각 군집에 경계 상자(3차원 직육면체)를 씌워 객체의 위치와 크기를 정의하고, 추가 정보(속도, 크기)를 계산합니다. 이러한 객체별 정보는 자율주행의 경로 계획과 충돌 회피에 사용됩니다.

신경망 기반 점군 처리

‍

점군을 직접 처리할 수 있는 신경망 구조들이 개발되면서, 3차원 객체 인식의 정확도가 크게 향상되었습니다. 기본 구조는 점의 순서에 무관하게 고정 크기 표현을 생성하도록 설계되어, 점군 데이터의 특성을 효과적으로 활용합니다. 계층적 개선 버전은 다양한 규모의 이웃 정보를 활용하여 세밀한 특징도 잘 감지합니다. 또한 격자 기반 신경망은 점군을 3차원 격자로 인코딩하여, 전통적인 3차원 신경망을 적용할 수 있게 합니다. 그래프 기반 신경망은 가장 가까운 이웃을 기반으로 동적 구조를 구성하여 점 간의 관계를 학습합니다. 이러한 다양한 구조들은 객체 분류, 분할, 추적 등의 작업에 사용되며, 각각의 장단점에 따라 자율주행 상황에 맞는 모델을 선택합니다.

‍

다중센서 데이터 통합의 중요성

자율주행은 레이저 센서만으로는 부족하고, 카메라, 레이더, 초음파 센서의 정보를 결합해야 합니다. 레이저 센서는 정확한 3차원 거리 정보를 제공하지만, 먼 거리의 객체는 점이 희소합니다. 이를 보완하기 위해 카메라의 고해상도 이미지를 점군에 부착하면, 색상과 세부 정보를 추가할 수 있습니다. 레이더는 악천후에서 강하고, 물체의 속도를 직접 측정할 수 있어, 정지된 차량과 움직이는 차량을 구분하는 데 유용합니다. 이러한 다중센서 통합은 각 센서의 약점을 보완하고, 일부 센서가 오작동해도 안정적인 인식이 가능하게 합니다. 데이터 통합 시 시간 동기화와 좌표계 변환이 정확해야 정확한 3차원 이해가 가능합니다.

‍

품질 검증 기준과 평가 지표

‍

3차원 자율주행 데이터의 품질을 검증하려면 명확한 기준과 정량적 지표가 필요합니다. 기하학적 정확도는 점의 좌표가 실제 위치와 얼마나 일치하는지 측정하고, 노이즈 수준은 예상되지 않은 점의 비율을 평가합니다. 완성도는 객체의 모든 표면이 점으로 커버되어 있는지 확인하고, 시간축 일관성은 연속 프레임 간에 객체 추적이 일관되는지 검증합니다. 분류 정확도는 각 점이 올바른 객체로 분류되었는지 평가하고, 경계 상자 정확도는 3차원 직육면체가 실제 객체 경계와 얼마나 일치하는지 측정합니다. 이러한 지표들을 정의하고 자동으로 측정하는 품질 관리 체계를 구축하면, 대규모 데이터셋의 일관된 품질을 보장할 수 있습니다.

‍

자동화된 품질 검사 시스템

대규모 3차원 데이터를 모두 수동으로 검사하는 것은 불가능하므로, 자동화된 품질 검사 체계가 필수입니다. 신경망 기반 이상 탐지는 정상적인 점군의 패턴을 학습한 후, 비정상적인 데이터를 자동으로 플래그합니다. 예를 들어, 유리 표면의 반사로 인한 가상의 점, 센서 오류로 인한 대규모 노이즈 등을 탐지할 수 있습니다. 통계 기반 검사는 점 밀도, 거리 분포 등이 예상 범위 내인지 확인합니다. 시각화 기반 샘플 검증은 무작위로 선택한 데이터를 시각화하여 인간 검토자가 빠른 확인을 수행합니다. 이렇게 자동 검사와 인간 검증을 조합하면, 효율성과 신뢰성의 균형을 맞출 수 있습니다.

‍

동적 객체 추적과 시간축 검증

‍

자율주행에서는 정지된 사물뿐 아니라 움직이는 사람, 차량, 자전거 등을 추적해야 합니다. 프레임 간 객체 대응은 시간 연속적으로 같은 객체임을 확인하는 프로세스로, 위치, 크기, 이동 속도 정보를 종합하여 판단합니다. 확률 기반 추적 알고리즘은 시간축 일관성을 유지합니다. 동적 객체의 속도와 가속도 계산은 레이저 센서만으로는 어렵고, 레이더나 광학 흐름 기법을 결합하면 더 정확합니다. 시간축 검증은 급격한 위치 변화, 말이 안 되는 속도, 객체의 갑작스러운 생성/소멸 등을 탐지하여 데이터 오류를 사전에 방지합니다.

‍

격자화와 공간 정규화

격자화는 3차원 공간을 균일한 크기의 큐브 격자로 분할하는 기법으로, 점군의 불규칙한 분포를 정규화합니다. 격자 크기는 물체 크기와 센서 정확도에 따라 선택되며, 예를 들어 자동차 감지에는 중간 크기, 보행자 감지에는 작은 크기의 격자를 사용합니다. 격자화의 장점은 일정한 크기의 3차원 격자가 되므로 전통적인 3차원 신경망을 적용할 수 있고, 계산량이 점 개수에 무관하게 일정합니다. 단점은 경계 부분이 소실될 수 있고, 매우 세밀한 정보는 손실된다는 것입니다. 공간 정규화 후 추가 처리 단계에서 원본 점군과 매칭하면, 세밀함과 효율성의 균형을 맞출 수 있습니다.

‍

센서 기하학 보정 및 좌표계 변환

‍

여러 센서에서 수집한 점군은 일관된 좌표계로 변환되어야 합니다. 외부 매개변수 보정은 각 센서의 위치와 회전을 정의하고, 내부 매개변수 보정은 센서 내부의 광학 왜곡을 수정합니다. 시간 동기화는 센서들이 다를 수 있는 샘플링 시간을 맞춰주므로, 다중센서 통합 시 매우 중요합니다. 예를 들어 카메라는 초당 30장, 레이저 센서는 초당 10장일 때, 정확한 시간 대응 없이 데이터를 결합하면 객체 위치 오차가 발생합니다. 보정 작업은 체크판, 반사 구 같은 기준 객체를 사용하여 수행되고 정기적으로 재검증해야 센서 성능 저하를 방지할 수 있습니다.

‍

극한 상황 데이터와 특수 조건 처리

자율주행 모델을 신뢰할 수 있게 만들려면, 일반적인 상황뿐 아니라 악천후, 야간, 혼잡한 교차로 같은 극한 상황도 충분히 포함해야 합니다. 야간 데이터는 레이저 반사 강도가 낮아 점 밀도가 감소하므로, 특별한 전처리 기법이 필요합니다. 강우나 눈 조건에서는 센서 노이즈가 증가하고, 일부 점이 빗방울이나 눈에 의해 신호가 왜곡됩니다. 군중 속 보행자는 점들이 겹쳐 개별 객체 분류가 어렵고, 건물 근처의 반사로 인한 가상 점이 생성됩니다. 이러한 특수 상황은 일반 데이터보다 의도적으로 더 비중있게 수집되어야 하고, 특화된 검증 기준을 적용해야 모델의 안전성을 높일 수 있습니다.

‍

데이터셋 표준화와 상세 문서화

대규모 3차원 데이터셋이 유용하려면 명확한 포맷, 메타데이터, 문서화가 필수입니다. 공개 자율주행 데이터셋들은 엄격한 표준을 정의하여, 연구자들이 데이터를 일관되게 처리할 수 있게 합니다. 좌표계 정의, 센서 사양, 보정 정보, 라벨 정의 등을 명시하면, 다른 팀이나 연구자가 데이터를 올바르게 사용할 수 있습니다. 버전 관리 및 변경 이력 추적도 중요한데, 데이터 또는 라벨이 업데이트될 때마다 변경사항을 기록하면, 모델 성능 변화의 원인을 파악할 수 있습니다. 설명서, 데이터 구조, 코드 예제 등을 포함한 포괄적 문서는 장기적으로 데이터의 가치를 높입니다.

‍

향후 기술 발전과 효율성 개선

‍

3차원 자율주행 데이터 처리는 더욱 효율적이고 자동화될 것으로 예상됩니다. 약한 지도 학습 기법은 완벽하지 않은 라벨로도 모델을 학습시켜, 라벨링 비용을 크게 줄일 수 있습니다. 자가 학습 기법은 라벨 없는 점군에서 스스로 특징을 학습하므로, 대규모 비라벨 데이터를 활용할 수 있게 합니다. 신경망 구조 자동 탐색은 자동으로 최적의 3차원 처리 모델을 찾아, 연구자의 시행착오를 줄입니다. 분산 학습은 여러 차량의 데이터를 중앙에 모으지 않고도 협력적으로 모델을 개선할 수 있어, 개인정보 보호와 확장성을 동시에 달성할 수 있습니다.

‍

‍