
무인로봇이 자율적으로 작동하려면 주변의 물체가 무엇인지 정확하게 인식해야 합니다. 배송 로봇은 택배 상자와 일반 짐을 구분해야 하고, 창고 로봇은 특정 상품을 찾아내야 합니다. 제조 공장의 로봇은 양품과 불량품을 구분하고, 조립 작업에 필요한 부품을 정확하게 인식해야 합니다. 객체 인식은 단순히 무엇이 있는가를 파악하는 것을 넘어, 그것의 위치, 크기, 방향까지 정확하게 이해하는 능력입니다. 실제 환경에서는 조명이 바뀌고 물체가 겹쳐있고 카메라의 각도도 다양하므로, 이러한 변수들을 모두 고려한 학습이 필요합니다. 수작업으로 모든 경우를 처리하는 것은 불가능하므로 머신러닝을 통한 자동화된 학습이 필수적입니다.
객체 인식 모델을 학습시키기 위해서는 대규모의 라벨링된 데이터셋이 필요합니다. 데이터셋은 원본 이미지와 그 이미지에 포함된 객체의 위치, 크기, 클래스 정보로 구성됩니다. 효과적인 데이터셋은 다양한 환경, 다양한 각도, 다양한 조명 조건에서 촬영한 이미지들을 포함해야 합니다. 실내 환경과 야외 환경, 밝은 낮과 어두운 밤, 깨끗한 상태와 부분적으로 가려진 상태 등이 모두 포함되어야 모델이 현실의 다양한 상황에 대응할 수 있습니다. 또한 데이터셋의 편향을 최소화하는 것도 중요합니다. 특정 물체가 과도하게 많이 포함되거나, 특정 환경에만 편중된 데이터셋은 모델의 성능을 저하시킬 수 있습니다. 데이터셋의 질과 다양성이 최종 모델의 성능을 크게 결정합니다.

데이터셋을 만들기 위해서는 각 이미지에 객체의 위치와 클래스 정보를 표시해야 하는데, 이를 라벨링이라고 합니다. 수백만 개의 이미지를 모두 수작업으로 라벨링하는 것은 시간과 비용이 극도로 많이 드는 작업입니다. 최근에는 준지도 학습과 자가 지도 학습 기법을 사용하여 라벨링 비용을 줄이는 방향으로 연구가 진행되고 있습니다. 준지도 학습에서는 일부만 라벨링된 데이터로도 모델을 학습시킬 수 있습니다. 자가 지도 학습에서는 라벨 없는 데이터에서 자동으로 학습 신호를 생성합니다. 또한 크라우드소싱을 활용하여 여러 사람이 분산적으로 라벨링 작업을 수행하는 방식도 활용됩니다. 이러한 방법들을 통해 고품질의 대규모 데이터셋을 비교적 효율적으로 구축할 수 있게 되었습니다.

• 영역 제안: 이미지에서 객체가 있을 가능성이 있는 영역을 먼저 찾음 • 특징 추출: 제안된 영역에서 중요한 특징을 뽑아냄 • 분류 및 위치 조정: 각 영역이 어떤 객체인지 분류하고 위치를 정밀하게 조정
• 단일 신경망: 이미지를 한 번에 처리하여 모든 객체를 동시에 인식 • 그리드 기반: 이미지를 작은 격자로 나누고 각 격자에서 객체 탐지 • 고정점 기반: 미리 정한 위치와 크기에서 객체를 찾고 순위 매김

객체 인식 모델을 처음부터 학습시키는 것은 매우 오래 걸리고 많은 데이터가 필요합니다. 전이 학습은 대규모 데이터로 미리 학습된 모델을 출발점으로 하여, 로봇에 필요한 특정 객체만 추가로 학습하는 방식입니다. 이렇게 하면 필요한 데이터량을 크게 줄일 수 있고, 학습 시간도 단축됩니다. 또한 기존 모델의 낮은 계층부터는 고정하고 높은 계층만 학습하는 미세 조정 기법도 효과적입니다. 전이 학습은 제한된 자원으로도 효과적인 객체 인식 모델을 구축하는 데 매우 유용합니다.
로봇이 카메라로부터 이미지를 받으면 밀리초 단위의 시간 내에 객체를 인식해야 합니다. 너무 복잡한 신경망 모델은 계산 시간이 오래 걸려서 실시간 처리가 불가능할 수 있습니다. 로봇의 제한된 계산 자원 안에서 정확도와 속도의 균형을 맞추는 것이 중요한 설계 과제입니다. 모델 압축 기법들이 이를 해결하기 위해 활용됩니다. 양자화는 모델의 가중치를 낮은 정밀도로 표현하여 계산량을 줄입니다. 가지치기는 중요하지 않은 신경망 연결을 제거합니다. 지식 증류는 작은 모델이 큰 모델의 지식을 학습하도록 하여 성능을 유지하면서도 크기를 줄입니다. 이러한 기법들을 통해 로봇도 고성능의 객체 인식을 실시간으로 수행할 수 있게 됩니다.

로봇이 여러 다른 환경에서 작동해야 할 때, 한 환경에서 학습된 모델이 다른 환경에서는 성능이 떨어질 수 있습니다. 조명이 다르거나 카메라 품질이 다르거나 물체의 배치가 다르면 모델의 인식 정확도가 저하될 수 있습니다. 도메인 적응 기법을 사용하면 이러한 환경 변화에 대응할 수 있습니다. 도메인 적응은 출발점 도메인과 목표 도메인 간의 차이를 최소화하도록 모델을 조정합니다. 또한 온라인 학습을 통해 로봇이 새로운 환경에서 작동하면서 지속적으로 모델을 개선할 수 있습니다. 이러한 방식으로 로봇은 학습 데이터에 없던 새로운 환경에도 빠르게 적응할 수 있습니다.
객체 인식 모델이 결과를 제시할 때, 그 결과가 얼마나 신뢰할 수 있는지를 아는 것도 중요합니다. 로봇이 객체를 90% 확신하는 것과 55% 확신하는 것은 완전히 다른 의사결정을 해야 합니다. 신뢰도가 너무 낮으면 로봇은 인식을 거부하고 인간의 개입을 요청할 수 있습니다. 베이지안 신경망이나 몬테카를로 드롭아웃 같은 기법을 사용하면 모델의 불확실성을 정량화할 수 있습니다. 이를 통해 로봇은 자신감 있는 결정과 불확실한 상황을 구분하여 대응할 수 있습니다. 또한 신뢰도 정보는 모델을 지속적으로 개선하는 데도 활용됩니다. 신뢰도가 낮은 경우들을 수집하여 재학습하면 약점을 보완할 수 있습니다.
실제 산업 응용에서는 일반적인 객체 인식 모델보다는 산업별로 특화된 모델이 더 효과적입니다. 제조 공장에서는 특정 부품의 결함을 인식하는 데 특화된 모델이 필요하고, 배송 로봇은 소포와 그 상태를 인식하는 데 특화되어야 합니다. 의료 로봇은 수술 부위와 의료 기구를 정확하게 인식해야 하므로, 일반 모델로는 충분하지 않습니다. 각 산업 분야에서 수집한 특화된 데이터로 모델을 학습하면, 그 분야에서의 인식 정확도를 크게 높일 수 있습니다. 또한 도메인 특화 기술이나 산업 특성에 대한 사전 지식을 모델에 통합하면 성능이 더욱 향상됩니다. 이러한 특화된 접근법은 초기 데이터 수집과 모델 개발 비용은 높지만, 최종적인 인식 성능은 일반 모델보다 훨씬 우수할 것입니다.
