‘이미지 데이터 활용’ 물류 로봇 컴퓨터 비전 학습 방식 설명서

물류 로봇의 시각 정보 처리 필요성

‍

물류 센터의 로봇은 카메라로 주변을 보고 상황을 이해해야 합니다. 단순히 거리만 측정하는 것으로는 부족합니다. 상자가 어디에 있는가, 사람이 근처에 있는가, 물품이 손상되었는가, 경고 표지판이 보이는가 같은 정보를 인식해야 합니다.

‍

컴퓨터 비전은 카메라 이미지로부터 의미 있는 정보를 추출하는 기술입니다. 단순한 신호 처리를 넘어 인공지능 기술을 활용해서 복잡한 장면을 이해합니다. 로봇이 보는 이미지 안에서 물체를 인식하고, 그 물체가 어느 방향에 있는가를 파악하며, 물체의 상태를 평가합니다.

‍

물류 환경의 특수성은 조명 변화, 다양한 물품 형태, 부분적으로 가려진 물체, 빠른 움직임 같은 도전 과제를 만듭니다. 같은 상자라도 각도에 따라 모양이 다르고, 창문 때문에 밝기가 순간적으로 바뀌며, 적재되는 상황에서 물품이 겹칩니다. 이 모든 상황에서 정확하게 인식할 수 있는 학습 방식이 필요합니다.

‍

이미지 분류와 물체 인식의 기초

‍

컴퓨터 비전 학습의 가장 기본은 이미지가 무엇인가를 분류하는 것입니다.

‍

이미지 분류는 "이 사진은 상자인가 팔레트인가"라는 질문에 답하는 것입니다. 신경망은 이미지의 특징을 점점 더 추상적으로 처리합니다. 초기 계층은 가장자리나 색상 같은 저수준의 특징을 인식하고, 중간 계층은 바퀴나 손잡이 같은 부위를 인식하며, 깊은 계층은 "이것은 운반 카트다"라는 고수준의 개념을 이해합니다.

‍

특징 맵은 신경망이 이미지를 처리하면서 만드는 중간 결과입니다. 예를 들어 첫 번째 특징 맵은 수평선과 수직선을 강조하고, 그 다음 특징 맵은 모서리를 강조하며, 이런 식으로 진행됩니다. 이런 특징들의 조합으로 물체의 정체성이 결정됩니다.

‍

전이 학습은 이미 학습된 신경망의 지식을 재사용하는 방법입니다. 일반적인 사물로 학습한 신경망(예: ImageNet)의 초기 계층은 보존하고, 뒤의 계층만 물류 로봇의 물품에 맞게 조정합니다. 이렇게 하면 적은 데이터로도 빠르게 학습할 수 있습니다.

‍

객체 감지와 위치 파악

물류 로봇은 물체가 무엇인가뿐 아니라 어디에 있는가도 알아야 합니다.

‍

객체 감지는 이미지 안에서 물체를 찾고 그 위치를 표시하는 작업입니다. 신경망이 "이 영역에 상자가 있다"고 알려주면, 로봇은 그 위치로 팔을 움직여 물품을 집을 수 있습니다. YOLO나 Faster R-CNN 같은 알고리즘은 이미지를 한 번 보고 여러 물체의 위치를 빠르게 파악할 수 있습니다.

‍

바운딩 박스는 물체 주변에 그린 직사각형으로 물체의 위치와 크기를 나타냅니다. 신경망은 바운딩 박스의 네 꼭짓점의 좌표를 예측합니다. 정확한 바운딩 박스가 없으면 로봇이 물품을 제대로 집지 못할 수 있습니다.

‍

신뢰도 점수는 신경망이 "이것이 정말로 상자일 확률은 얼마인가"를 표현합니다. 신뢰도가 95%라면 매우 확신하는 것이고, 60%라면 더 조심스러워야 합니다. 로봇은 신뢰도가 낮은 결과는 무시하거나 재검사할 수 있습니다.

시맨틱 분할과 씬(Scene) 이해

‍

때로는 개별 물체보다 전체 장면을 이해하는 것이 더 중요합니다.

‍

시맨틱 분할은 이미지의 각 픽셀을 카테고리로 분류하는 것입니다. "이 픽셀은 바닥", "이 픽셀은 선반", "이 픽셀은 물품", "이 픽셀은 사람"이라고 표시합니다. 이렇게 하면 로봇이 안전하게 이동할 수 있는 영역이 어디인가를 파악할 수 있습니다.

‍

인스턴스 분할은 같은 카테고리의 물체들을 개별적으로 구분합니다. 여러 상자가 있을 때 "이것은 상자 1, 이것은 상자 2"라고 구분하는 것입니다. 시맨틱 분할은 모두 "상자"로 표시하지만, 인스턴스 분할은 각각을 개별 물체로 취급합니다.

‍

팬노프틱 분할은 시맨틱 분할과 인스턴스 분할을 합친 것입니다. 배경(도로, 벽)도 분할하고 개별 물체도 구분합니다. 이렇게 하면 완전한 장면 이해가 가능합니다.

‍

포즈 추정과 물체 방향 인식

▲ 관절 위치 추정과 자세 이해

물체의 방향도 중요합니다. 같은 상자라도 각도에 따라 집어야 하는 방향이 달라집니다. 포즈 추정은 물체의 방향을 정확히 파악하는 기술입니다. 예를 들어 팔레트의 경우 손잡이가 어느 방향을 향하고 있는가가 로봇의 접근 방향을 결정합니다. 신경망은 이미지에서 특정 점들(예: 손잡이의 양쪽 끝)을 찾아서 그 위치로부터 방향을 추론합니다. 이렇게 얻은 포즈 정보는 로봇의 그리퍼 팔이 최적의 각도로 접근하게 합니다.

‍

▲ 3D 포즈와 각도 추정

2D 이미지만으로는 3차원 각도를 정확히 알기 어렵습니다. 따라서 깊이 정보를 함께 사용합니다. RGB-D 카메라(깊이 정보를 함께 제공하는 카메라)의 데이터로 학습하면 신경망은 2D 이미지와 깊이를 결합해서 정확한 3D 포즈를 추정할 수 있습니다. 또는 다중 각도의 이미지로 학습하면 모노큘러(단일) 이미지에서도 3D 정보를 추론할 수 있습니다. 이렇게 추정한 포즈는 로봇이 물품을 집을 때 그리퍼의 손가락 각도와 위치를 정확히 설정하게 합니다.

‍

이상 감지와 품질 검사

‍

물류 과정에서 손상된 물품이나 이상한 상황을 감지해야 합니다.

‍

손상 감지는 상자의 찌그러짐, 젖음, 찢어짐 같은 손상을 인식합니다. 신경망이 정상 상자의 모양을 학습하면, 약간 다른 형태의 상자를 이상으로 감지할 수 있습니다. 다만 손상이 정상과 명확하게 구분되어야 합니다. 약간의 찌그러짐은 무시하고, 명백한 손상만 감지하도록 임계값(threshold)을 설정합니다.

‍

이상치 탐지는 예상과 다른 장면을 식별합니다. 예를 들어 금지 구역에 물품이 있거나, 로봇 경로 위에 큰 물체가 떨어져 있거나, 사람이 위험한 위치에 있는 경우입니다. 정상 장면으로 학습한 신경망은 비정상 장면에서 높은 불확실성을 보입니다. 이를 감지하면 로봇이 조심스럽게 행동하거나 작업을 중단할 수 있습니다.

‍

모니터링 시스템은 지속적으로 이상 신호를 수집합니다. 어떤 상황이 자주 이상으로 보고되는가를 분석하면 새로운 문제 패턴을 발견할 수 있습니다. 예를 들어 매주 목요일 오후 3시에만 특정 위치에서 오류가 많으면, 그 시간에 특정 작업이 일어나는가를 확인할 수 있습니다.

‍

조명 불변성과 강인성 개선

‍

물류 센터의 조명은 일정하지 않아 이를 극복하는 학습 방식이 필요합니다.

‍

데이터 증강으로 조명 변화를 시뮬레이션합니다. 학습 데이터의 이미지들을 다양한 밝기로 변형합니다. 어두운 버전, 밝은 버전, 과다 노출 버전 같은 여러 버전으로 학습하면 신경망은 조명 변화에 덜 민감해집니다.

‍

정규화 기법은 이미지의 조명 차이를 자동으로 보정합니다. 예를 들어 이미지의 평균 밝기와 표준편차를 계산해서 일정한 수준으로 조정합니다. 이렇게 하면 같은 물체가 다양한 조명에서도 신경망에는 유사하게 보입니다.

‍

다중 카메라 앙상블은 여러 카메라에서 동시에 사진을 찍고 결과를 조합하는 방법입니다. 한 카메라가 역광 문제를 가져도 다른 카메라는 괜찮을 수 있습니다. 여러 결과를 투표로 결합하면 더 견고한 결정이 가능합니다.

‍

시간 정보를 활용한 학습

‍

정지된 이미지만으로는 부족할 때가 있습니다. 움직임과 시간 변화를 활용하면 더 강력한 인식이 가능합니다.

‍

광학 플로우(Optical Flow)는 연속된 프레임에서 물체의 움직임을 추적합니다. 각 픽셀의 이동 방향과 속도를 계산합니다. 로봇 카메라가 움직이면서 촬영한 비디오에서, 광학 플로우는 카메라의 움직임과 물체의 실제 움직임을 구분할 수 있게 합니다.

‍

동영상 분류는 정지 이미지가 아닌 짧은 비디오 클립을 분류합니다. "이 동영상은 상자를 내리고 있는가 들어올리고 있는가"를 판단할 수 있습니다. 3D 신경망은 시간 차원을 포함해서 영상 패턴을 학습합니다.

‍

추적 및 재식별은 여러 프레임에서 같은 물체를 계속 추적하는 기술입니다. 로봇이 물품을 따라가거나, 물품의 움직임 경로를 기록할 때 필요합니다. 한 물품이 일시적으로 가려져도 나중에 다시 나타나면 같은 물품으로 식별해야 합니다.

‍

멀티태스크 학습과 통합 시스템

현대의 물류 로봇은 하나의 작업만 하지 않고 여러 작업을 동시에해야 합니다.

‍

멀티태스크 학습은 하나의 신경망이 여러 일을 동시에 배우는 방식입니다. 예를 들어 같은 신경망이 물체 감지, 포즈 추정, 손상 판단을 모두 할 수 있습니다. 공유된 특징 추출 계층을 통해 효율성을 높이면서도 각 작업을 위한 별도의 출력 계층이 있습니다.

‍

지식 증류는 복잡한 모델의 지식을 작은 모델로 압축합니다. 큰 교사 신경망으로 만든 정확한 예측을 학생 신경망이 따라하도록 학습합니다. 학생 신경망은 정확성을 유지하면서도 크기가 작아져서 로봇에 탑재하기 용이합니다.

‍

엔드-투-엔드 학습은 입력 이미지로부터 직접 로봇의 행동 명령을 생성합니다. "이 상자를 집으려면 팔을 어떻게 움직일까?"를 중간 단계의 해석 없이 신경망이 직접 학습합니다. 이는 매우 효율적이지만 더 많은 데이터와 계산이 필요합니다.

‍

설명 가능성과 신뢰도

‍

로봇이 내린 결정이 왜 그런 결정인가를 이해할 수 있어야 합니다.

‍

주목(Attention) 메커니즘은 신경망이 이미지의 어느 부분에 집중했는가를 시각화합니다. 히트맵을 보면 물체 감지 신경망이 어느 영역을 보고 판단했는가를 알 수 있습니다. 물체 주변이 밝으면 올바른 판단이고, 엉뚱한 곳이 밝으면 뭔가 잘못된 것입니다.

‍

신뢰도 추정은 신경망이 자신의 판단이 얼마나 확실한가를 표현합니다. 높은 신뢰도는 "거의 확실한데, 이건 상자다", 낮은 신뢰도는 "아마도 상자인 것 같은데, 잘 모르겠다"를 의미합니다. 로봇은 신뢰도가 낮으면 조심스럽게 행동하거나 인간의 확인을 기다릴 수 있습니다.

‍

불확실성 정량화는 신경망이 모르는 상황에서도 "이건 내가 본 적 없는 유형이다"라고 표현하게 합니다. 새로운 물품이 나타나면 높은 불확실성을 보임으로써 시스템이 새로운 상황을 감지하고 대응할 수 있습니다.

‍