
행동 모방 학습은 인간의 숙련된 행동을 관찰하고 기록하여 로봇이 학습하는 방식입니다. 강화 학습이 시행착오를 통해 최적 행동을 찾는 반면, 행동 모방 학습은 이미 성공한 행동을 직접 배웁니다. 이는 학습 시간을 크게 단축하고 위험한 시행착오를 줄일 수 있습니다. 행동 모방 학습의 성패는 수집된 데이터셋의 품질과 양에 거의 전적으로 달려 있습니다. 좋은 데이터셋 없이는 로봇이 인간의 행동을 제대로 배울 수 없으며, 심지어 잘못된 패턴을 학습할 수 있습니다.
행동 모방 학습 데이터는 인간의 행동을 정확하게 기록하는 것에서 시작됩니다. 가장 직접적인 방법은 인간이 로봇을 원격으로 조종하면서 조종 신호를 기록하는 것입니다. 조종 신호는 이미 로봇의 행동 공간에 맞춰져 있으므로 변환이 덜 필요합니다. 카메라 관찰 방식은 인간이 실제로 작업을 수행하는 영상을 기록하되, 나중에 로봇 행동으로 변환하는 과정이 필요합니다. 센서 기반 포착은 인간의 팔에 센서를 부착하거나 모션 캡처 장비를 사용하여 정확한 움직임을 기록합니다. 각 방법은 장단점이 있으며, 작업의 특성에 따라 적절한 방법을 선택해야 합니다.

실험실 환경에서 수집한 데이터와 현장 환경에서 수집한 데이터는 크게 다릅니다. 현장에서는 조명이 불규칙하고, 배경이 복잡하며, 예상치 못한 간섭이 자주 발생합니다. 행동 모방 학습 데이터셋이 현실성을 갖기 위해서는 실제 작업 환경에서 수집되는 것이 이상적입니다. 그러나 현장 접근의 어려움, 작업 방해 우려, 높은 비용 등의 이유로 실험실에서 수집하는 경우가 많습니다. 현장과 실험실의 간극을 줄이기 위해 실험실을 현장처럼 꾸미거나, 시뮬레이션과 현실 데이터를 함께 사용하는 방법들이 시도되고 있습니다.
같은 작업이라도 숙련자와 미숙자의 행동은 크게 다릅니다. 숙련자는 효율적이고 정확한 동작을 보이며, 미숙자는 비효율적이고 오류가 있을 수 있습니다. 행동 모방 학습에서 배우고 싶은 것은 일반적으로 숙련자의 행동입니다. 따라서 충분한 경험을 가진 숙련자로부터 데이터를 수집하는 것이 중요합니다. 미숙자의 행동을 섞으면 로봇이 비효율적인 패턴을 학습할 수 있습니다. 그러나 숙련자를 확보하기는 어렵고 비용이 많이 소요됩니다. 또한 같은 숙련자의 여러 시연도 필요한데, 개인의 특성에만 맞춰진 데이터는 일반화 능력이 떨어질 수 있습니다.

같은 목표를 달성하는 방법은 여러 가지가 있을 수 있습니다. 물체를 집는 방식도 위에서 집을 수도 있고 옆에서 집을 수도 있습니다. 경로도 여러 가지가 있을 수 있습니다. 행동 모방 학습 데이터셋은 목표를 달성하는 다양한 방식들을 포함해야 로봇이 유연한 행동을 학습할 수 있습니다. 단 하나의 정답만 제시하면 로봇은 그 방식에만 의존하게 되고, 상황 변화에 대응하기 어렵습니다. 그러나 모든 가능한 변동성을 다 포함할 수는 없으므로, 대표적인 변동들의 샘플링이 필요합니다.

인간과 로봇의 신체 구조는 다릅니다. 인간의 팔과 로봇 팔의 자유도, 가동 범위, 속도 특성이 모두 다릅니다. 인간이 시연한 행동을 로봇이 직접 따라 할 수 없는 경우가 많습니다. 인간 행동을 로봇이 수행 가능한 행동 공간으로 변환하는 과정이 필요합니다. 이를 동작 재맵핑 또는 행동 변환이라고 합니다. 간단한 경우 기하학적 변환으로 해결될 수 있지만, 복잡한 경우 AI 모델을 사용하여 적절한 변환을 학습해야 합니다. 변환 과정에서 원래 의도가 손실될 수 있으므로 신중해야 합니다.
각 시연 데이터에 대해 인간이 무엇을 하려고 했는지 설명하는 주석이 필요합니다. 어느 시점부터 어느 시점까지가 하나의 행동 단위인지도 표시해야 합니다. 정확한 주석은 로봇이 의도를 이해하고 그에 맞는 일반적인 행동 정책을 학습하게 합니다. 주석 없이 센서 데이터만 있으면, 로봇은 구체적인 움직임만 배울 뿐 그 의도와 목적을 이해하지 못합니다. 주석 작업은 시간이 많이 소요되며, 주석자의 주관성이 개입될 수 있습니다. 여러 주석자가 일관되게 작업하도록 명확한 기준을 제시해야 합니다.
로봇이 배워야 할 것은 성공한 행동뿐만 아니라 실패한 행동도 포함합니다. 실패의 원인과 특징을 알면, 로봇이 유사한 상황에서 실패를 피할 수 있습니다. 행동 모방 데이터셋에 실패 사례를 포함하면 로봇의 강건성이 향상됩니다. 예를 들어 물체를 잡으려다 놓친 경우, 그 시점의 센서 데이터와 함께 "이것은 실패"라는 라벨을 붙이면, 로봇이 그러한 상황을 피하는 법을 배웁니다. 그러나 실패 사례만 많으면 로봇이 소극적이 될 수 있으므로, 성공과 실패의 비율을 신중하게 조정해야 합니다.

실제 수집된 데이터에는 노이즈, 센서 오류, 이상치가 포함됩니다. 카메라 영상의 흔들림, 모터 신호의 스파이크, 기록 오류 등이 발생할 수 있습니다. 노이즈가 포함된 데이터를 그대로 사용하면 로봇이 부정확한 패턴을 학습합니다. 따라서 데이터 정제 과정이 필수적입니다. 필터링, 스무싱, 아웃라이어 제거 등의 기법이 사용됩니다. 그러나 과도한 정제는 실제 신호도 손상시킬 수 있습니다. 정제의 강도를 어디까지 할지는 신중한 판단이 필요합니다.
행동 모방 학습이 강화 학습보다 효율적이라는 장점이 있지만, 그래도 충분한 양의 데이터가 필요합니다. 그러나 데이터 수집에는 비용과 시간이 소요되므로, 최소한의 데이터로 최대의 학습을 이루고 싶습니다. 복잡한 작업을 배우려면 더 많은 샘플이 필요하며, 단순한 작업은 적은 샘플로도 충분합니다. 어느 정도의 데이터가 충분한지 판단하기는 어렵습니다. 일반적으로 학습 성능이 포화되는 지점을 기준으로 하지만, 이는 사전에 알 수 없습니다. 능동 학습 방식으로 가장 유익한 샘플부터 수집하는 방법도 시도되고 있습니다.

여러 명의 서로 다른 사람으로부터 데이터를 수집하면 더 나은 일반화를 얻을 수 있습니다. 각 사람의 체형, 경험, 개인 스타일이 다르기 때문입니다. 다양한 개인으로부터 수집된 데이터는 로봇이 특정 인간의 스타일에 과적합되는 것을 방지합니다. 그러나 많은 사람을 모집하고 일관된 품질의 데이터를 수집하는 것은 어렵습니다. 또한 문화적 차이나 언어 차이로 인해 같은 행동도 다르게 표현될 수 있습니다. 어느 정도의 다양성을 확보할지는 프로젝트의 목표와 리소스에 따라 결정되어야 합니다.
행동 모방 학습 데이터를 빠르게 대량으로 확보하기 위해 시뮬레이션을 사용할 수 있습니다. 시뮬레이션에서는 인간 모션 캡처 데이터를 사용하여 가상 로봇을 제어하고 행동을 기록합니다. 시뮬레이션 데이터와 현실 데이터를 함께 사용하면 데이터 수집의 효율성이 크게 향상될 수 있습니다. 시뮬레이션 데이터는 빠르고 저렴하지만 현실성이 떨어지고, 현실 데이터는 현실적이지만 비용이 많이 듭니다. 두 가지를 균형있게 조합하면 양쪽의 장점을 얻을 수 있습니다. 그러나 도메인 갭 문제를 처리해야 합니다.

행동 모방 학습 연구를 가속화하기 위해서는 표준화된 벤치마크 데이터셋이 필요합니다. 연구자들이 같은 데이터셋으로 다양한 모형을 비교할 수 있게 됩니다. 공개된 벤치마크 데이터셋은 커뮤니티 전체의 발전을 촉진합니다. 데이터셋의 규모, 저작권과 프라이버시 문제, 유지 비용 등 여러 도전과제가 있지만, 이러한 어려움들을 극복하기 위한 노력이 활발하게 진행되고 있습니다. 정부 지원과 대형 기술 기업의 주도로 공개 행동 모방 데이터셋 구축이 추진되면서, 연구의 재현성과 투명성이 함께 향상될 것으로 기대됩니다. 커뮤니티 주도의 오픈소스 프로젝트들도 증가하고 있으며, 다양한 기관들의 협력을 통해 고품질의 벤치마크 데이터셋이 지속적으로 구축되는 추세입니다.
