‘다중 센서 통합으로 구현’ AMR 주행 성능을 높이는 센서 융합 기술

AMR의 주행 안정성과 센서 융합의 필수성

자율 이동 로봇(AMR)은 단일 센서만으로는 안정적인 주행이 불가능합니다. LiDAR는 정확한 거리 정보를 제공하지만 악천후나 투명한 물체 앞에서는 신뢰도가 떨어지고, 카메라는 풍부한 시각 정보를 주지만 밤이나 역광에서는 성능이 급격히 저하됩니다. 초음파는 근거리 감지에는 효과적이지만 먼 거리는 감지할 수 없으며, IMU는 로봇의 움직임은 추적하지만 절대 위치는 파악할 수 없습니다.

‍

이러한 개별 센서의 약점을 극복하기 위해 여러 센서의 데이터를 통합하는 것이 센서 융합입니다. 예를 들어 LiDAR가 일시적으로 신호를 잃었을 때 카메라의 특징점 추적이 로봇의 위치 유지를 도울 수 있고, 카메라가 어두운 곳에서 실패할 때 LiDAR의 거리 데이터가 주도적 역할을 수행합니다.

‍

실제 물류 센터 환경은 빠르게 변화하고 예측 불가능한 상황들로 가득 찹니다. 사람이 갑자기 지나가거나, 새로운 물품이 바닥에 떨어지거나, 조명이 변할 수 있습니다. 센서 융합을 통한 강인한 환경 인식이 이러한 상황에서 로봇이 안전하고 효율적으로 작동하게 합니다.

‍

센서 융합의 정의와 기술 수준

‍

센서 융합이란 여러 센서로부터 얻은 정보를 지능적으로 결합하여 더 정확하고 신뢰할 수 있는 결과를 도출하는 과정입니다. 이는 단순히 센서 데이터를 모으는 것이 아니라 각 센서의 강점을 활용하고 약점을 보완하는 체계적인 처리입니다.

‍

저수준 융합(Low-level Fusion)은 센서로부터 얻은 원시 데이터를 직접 결합합니다. RGB 이미지와 깊이 맵을 채널로 함께 처리하거나, 여러 LiDAR 스캔을 정렬하는 방식입니다. 이는 처리 초기 단계에서 이루어지므로 정보 손실이 적지만 계산 복잡도가 높을 수 있습니다.

‍

중간 수준 융합(Mid-level Fusion)은 각 센서의 데이터를 개별적으로 처리한 후 특징 수준에서 결합합니다. 예를 들어 LiDAR로부터 "3미터 앞에 장애물"이라는 정보와 카메라로부터 "빨간 상자"라는 정보를 추출한 후 "3미터 앞의 빨간 상자"로 통합합니다.

‍

고수준 융합(High-level Fusion)은 각 센서가 독립적으로 의사결정을 내린 후 최종 결정을 함께 내립니다. 예를 들어 LiDAR의 판단과 카메라의 판단이 다를 때 신뢰도를 고려하여 최종 판단을 합니다.

‍

LiDAR와 카메라의 상보적 특성

LiDAR와 카메라는 매우 다른 방식으로 정보를 수집하기 때문에 함께 사용하면 강력한 시너지를 창출합니다.

‍

LiDAR의 강점은 거리 측정의 높은 정확도와 조명 독립성입니다. 밤이든 낮이든, 어두운 창고든 밝은 창고든 일관되게 거리 정보를 제공합니다. 또한 측정된 점들의 3차원 공간 분포로부터 로봇이 장애물을 정확히 파악할 수 있습니다. 다만 특정 재질(투명한 유리, 검은색 표면)에서는 신호 반사가 약해 측정이 어려울 수 있습니다.

‍

카메라의 강점은 시각적 의미 이해와 색상 정보입니다. LiDAR는 "3미터 거리에 물체가 있다"는 거리 정보만 제공하지만 카메라는 "빨간 상자", "사람", "위험 표지판" 같은 의미 있는 정보를 제공합니다. 또한 이미지 텍스처와 특징점은 상세한 공간 정보를 담고 있어 카메라만으로도 3차원 구조를 추정할 수 있습니다. 다만 조명이 급격히 변하거나 모션 블러가 있으면 성능이 저하됩니다.

‍

이 두 센서를 결합하면 거리의 정확성과 의미 이해의 강점을 모두 확보할 수 있습니다.

칼만 필터를 이용한 상태 추정

‍

여러 센서의 측정값이 들어올 때 어떤 값을 더 신뢰할 것인가를 판단하는 것이 센서 융합의 핵심입니다. 칼만 필터는 이를 수학적으로 우아하게 해결하는 방법입니다.

‍

칼만 필터의 작동 원리는 예측과 관측의 반복입니다. 먼저 모션 모델을 사용하여 "현재 센서 데이터를 바탕으로 다음 상태가 어떻게 변할 것인가"를 예측합니다. 로봇이 초속 1미터로 전진한다면 0.1초 후에는 10센티미터 더 앞에 있을 것으로 예측합니다.

‍

그 다음 새로운 센서 측정값이 들어오면 이를 관측값으로 사용합니다. 예를 들어 LiDAR가 "오른쪽에 벽이 2미터"라고 측정했다면 이는 "로봇이 벽으로부터 2미터 거리에 있다"는 정보를 제공합니다.

‍

마지막으로 예측값과 관측값을 가중 평균으로 결합합니다. 만약 예측의 불확실성이 크고 관측의 불확실성이 작다면 관측값에 더 높은 가중치를 주고, 반대의 경우 예측값에 더 높은 가중치를 줍니다. 이 동적 가중치 조정이 칼만 필터의 강점입니다.

‍

좌표 정렬과 시간 동기화

▲ 다중 센서의 좌표 계 통일‍

각 센서는 자신의 장착 위치를 중심으로 한 좌표계를 가지고 있습니다. 카메라의 중심, LiDAR의 스캔 원점, IMU의 측정 기준점이 모두 다릅니다. 센서 융합을 위해서는 모든 데이터를 공통의 좌표계로 변환해야 합니다. 이를 위해 각 센서의 위치와 방향을 매우 정확히 측정하는 캘리브레이션 과정이 필요합니다. 예를 들어 "카메라는 로봇의 중심에서 앞으로 5센티미터, 위로 10센티미터 떨어져 있고 10도 아래쪽을 향한다"는 식으로 정의합니다.

‍

▲ 센서 간 시간 동기화‍

여러 센서의 데이터가 서로 다른 시각에 생성되면 융합이 불가능합니다. 예를 들어 카메라가 0.1초에 촬영한 이미지와 0.15초의 LiDAR 스캔을 무작정 결합하면 로봇의 움직임으로 인해 정렬이 맞지 않습니다. 따라서 정확한 타임스탬프를 각 측정값에 부여하고, 필요시 보간(중간값 계산)을 통해 같은 시각의 데이터로 맞춥니다.

‍

하드웨어 동기화가 소프트웨어 동기화보다 정확합니다.

‍

장애물 감지와 지도 작성에서의 융합

‍

실시간 장애물 감지는 로봇의 안전 주행에 가장 중요합니다. 센서 융합이 이를 크게 향상시킵니다.

‍

LiDAR 점 구름 처리는 매우 정확한 거리 정보를 제공하지만 의미론적 정보는 부족합니다. 점 구름에서 "이것이 사람인가, 상자인가, 기둥인가"를 판단하기 어렵습니다. 깊이 정보와 카메라 이미지를 함께 사용하면 각 픽셀이 카테고리를 분류할 수 있고, LiDAR의 정확한 거리와 카메라의 의미 이해가 결합되어 "3미터 앞 오른쪽의 사람"이라는 정확하고 의미 있는 정보를 얻을 수 있습니다.

‍

지도 작성에서도 마찬가지입니다. LiDAR만으로 만든 포인트 클라우드 지도는 공간 구조는 정확하지만 의미가 불명확합니다. 여기에 카메라의 텍스처와 색상 정보를 더하면 "이 영역은 선반이고 저 영역은 통로"라는 의미론적 지도가 됩니다.

‍

신경망 기반 센서 융합

최근의 센서 융합은 심층 신경망을 활용하여 더욱 정교해지고 있습니다. 칼만 필터 같은 고전적 방법은 선형 시스템에는 효과적이지만 비선형 관계가 강한 복잡한 현실 상황에는 제약이 있습니다.

‍

다중 모드 신경망은 여러 센서의 입력을 각각 처리한 후 결합하는 아키텍처입니다. 예를 들어 CNN이 이미지를 처리하고 다른 신경망이 LiDAR 점 구름을 처리한 후, 두 처리의 결과를 연결층으로 결합하여 최종 장애물 판단을 내립니다. 이 방식은 각 센서에 최적화된 처리가 가능하면서도 신경망이 센서 간의 복잡한 상관관계를 자동으로 학습합니다.

‍

엔드-투-엔드 학습은 센서의 원시 데이터로부터 직접 로봇의 행동 명령까지를 신경망이 학습하는 방식입니다. 이는 중간 단계(특징 추출, 의사결정)를 거치지 않고 직접 최적의 행동을 학습하므로 매우 효율적일 수 있습니다. 다만 학습에 매우 많은 데이터가 필요하다는 단점이 있습니다.

‍

신뢰도 가중치와 동적 가중 기법

‍

센서 융합의 핵심은 어떤 센서를 더 믿을 것인가를 상황에 따라 동적으로 결정하는 것입니다.

‍

고정 가중치 방식은 "항상 LiDAR에 70%, 카메라에 30%의 가중치"라는 식으로 고정하는 방법입니다. 구현은 간단하지만 실제 환경의 변화(조명 변화, 센서 오류)에 대응하지 못합니다.

‍

동적 가중 기법은 센서의 신뢰도를 실시간으로 계산하여 가중치를 조정합니다. 예를 들어 카메라가 극도로 역광 상황에 있으면 신뢰도가 낮아져 자동으로 가중치가 감소하고, LiDAR의 신뢰도가 높아져 가중치가 증가합니다.

‍

신뢰도는 여러 방식으로 계산됩니다. 센서의 반복 측정 결과의 일관성(여러 번 측정한 값이 서로 얼마나 비슷한가), 센서의 이론적 오차 범위, 최근의 성능 기록(이 센서가 최근 얼마나 정확했는가) 등을 종합적으로 고려합니다.

‍

IMU와 휠 엔코더를 통한 단기 위치 추정

‍

LiDAR와 카메라는 환경을 인식하는 센서이지만 로봇 자신의 움직임을 감지하지 못합니다. IMU와 휠 엔코더는 이를 담당합니다.

‍

IMU(관성측정장치)는 가속도계와 자이로스코프로 구성되어 로봇의 가속도와 회전을 감지합니다. 매우 빠른 응답 속도(100Hz 이상)로 로봇의 움직임을 세밀하게 추적합니다. 다만 시간이 지나면서 오차가 누적되어 장기적으로는 신뢰도가 떨어집니다.

‍

휠 엔코더는 바퀴의 회전 수를 세어 이동 거리를 계산합니다. 중기적으로는 매우 정확하지만 바퀴 미끄러짐이나 불규칙한 지형에서는 오류가 발생합니다.

‍

센서 융합 관점에서 IMU는 단기 보정에, 휠 엔코더는 중기 보정에, LiDAR/카메라는 장기 보정에 활용됩니다. 예를 들어 LiDAR가 일시적으로 신호를 잃었을 때 IMU와 휠 엔코더가 로봇의 위치를 임시로 유지하다가 LiDAR가 신호를 회복하면 위치를 다시 보정합니다.

‍

실시간 성능 최적화와 하드웨어 선택

‍

센서 융합은 강력하지만 계산량이 많습니다. 실시간 처리를 위한 최적화가 필수적입니다.

‍

병렬 처리 아키텍처는 각 센서의 데이터를 별도의 스레드에서 처리합니다. 이를 통해 한 센서의 처리가 느려도 다른 센서의 처리는 계속 진행될 수 있습니다. GPU 가속은 신경망 기반 센서 융합에서 큰 성능 향상을 제공합니다. NVIDIA Jetson이나 TPU 같은 전문 하드웨어는 AI 추론을 100배 이상 빠르게 처리합니다.

‍

선택적 처리 전략은 모든 센서를 동일하게 처리하지 않고 필요에 따라 조정합니다. 예를 들어 로봇이 천천히 움직일 때는 카메라 처리 빈도를 낮추고, 장애물이 많은 지역에서는 LiDAR 처리를 강화할 수 있습니다.

‍