
기존 모방학습(Behavioral Cloning)은 시연자의 행동을 직접 복제하는 방식입니다. 카메라 영상으로부터 팔의 각도를 예측하는 식입니다. 이 방식은 간단하지만 근본적인 문제가 있습니다. 시연자의 작은 오류가 로봇에서 증폭됩니다. 시연자는 잠깐 손을 떨었지만 로봇은 그 떨림을 배우고 반복합니다. 이를 분포 이동(distribution shift) 문제라고 합니다. 또한 시연자가 수행한 환경과 조금 다른 상황이 나타나면 로봇은 제대로 대응하지 못할 가능성이 높습니다.
이러한 한계를 극복하려면 데이터 구축 방식 자체를 바꿔야 합니다. 행동만 기록하는 대신, 행동 뒤에 숨은 의도(intention)를 추론하고 기록해야 합니다. 또한 같은 목표에 도달하는 다양한 행동 방식을 의도적으로 수집하여, 로봇이 상황에 맞춰 행동을 선택하도록 학습시킬 수 있습니다. 모방학습의 한계를 인식하고 의도 중심의 데이터 구축으로 전환하면, 로봇의 적응력과 강건성이 크게 향상될 것으로 예상됩니다.
시연 데이터에는 행동만 있는 것이 아니라 그 행동이 왜 필요한지를 나타내는 의도가 있습니다. 행동, 작업 목표, 제약 조건을 계층적으로 기록하면, 로봇이 단순 행동 복제를 넘어 의도를 이해하고 새로운 상황에 적응할 수 있을 것으로 기대됩니다.

지금까지의 모방학습은 "이 행동을 따르라"는 명령입니다. 반면 역강화학습(Inverse Reinforcement Learning)은 "이 시연자가 어떤 목표를 최적화하려고 했을까"를 추론합니다. 로봇이 여러 경로 중 특정 경로를 선택했다면, 그 경로가 어떤 기준을 최적화했다고 볼 수 있습니다. 최단 거리인가, 가장 안전한가, 에너지 효율적인가를 분석합니다.
이렇게 추론된 보상 함수(reward function)는 로봇이 새로운 상황에서도 같은 원칙을 적용하게 합니다. 데이터 구축 시 각 시연마다 여러 대안 행동(alternative actions)을 함께 기록하면 역강화학습이 더욱 효과적입니다. "이 행동을 선택했고, 저 행동은 선택하지 않았다"는 정보가 보상 함수 추론에 직접적으로 활용됩니다. 대안 행동 데이터를 포함하면 로봇이 시연자의 숨은 선호도를 학습할 수 있을 것으로 기대됩니다.

모방학습의 흔한 실패는 학습 데이터와 크게 다른 상황에서 발생합니다. 로봇이 깔끔한 환경에서만 데이터를 학습했다면, 복잡한 환경에서는 실패합니다. 이를 극복하기 위해 데이터 수집 단계에서 의도적으로 상황의 다양성을 최대화합니다. 같은 작업을 다양한 초기 상태에서 수행합니다. 물체 집기 작업을 "물체가 깔끔하게 정렬된 상태", "물체들이 겹쳐 있는 상태", "물체 위에 다른 물체가 있는 상태" 등에서 반복 수집합니다.
또한 의도적으로 실패 사례도 기록합니다. 로봇이 왜 실패했는지 알면, 그 상황을 피하거나 극복하는 방법을 학습할 수 있습니다. 실패 사례에서는 어느 시점에서 실패했고, 어떻게 회복했는지(재시도, 전략 변경)를 명시적으로 라벨링합니다. 실패와 성공을 포함한 다양한 상황의 데이터로 로봇이 예상치 못한 상황에서도 대응할 수 있을 것으로 예상됩니다.

모방학습에서 "오류 누적(error accumulation)" 문제가 발생합니다. 초기 상태에서 약간의 오류가 나면, 다음 단계에서 그 오류가 증폭되고, 결국 크게 잘못된 행동으로 이어집니다. 이를 "연쇄 오류(cascading failure)"라 합니다. 이 문제를 완화하기 위해 데이터 구축 시 중간 상태(intermediate state)를 적극 활용합니다. 장황한 작업을 여러 중간 지점에서 시작하는 시연으로 수집합니다. 예를 들어 물체 집기→이동→놓기의 3단계 작업을, "물체를 이미 집은 상태에서 시작", "물체를 놓는 단계에서만 시작" 같은 식으로 데이터를 수집합니다.
이렇게 하면 로봇이 중간부터 작업을 시작할 수 있고, 초기 단계의 오류가 이후 단계에 영향을 미치지 않습니다. 또한 각 중간 상태마다 성공 기준을 명시하여, 로봇이 각 단계의 목표를 정확히 이해하도록 합니다. 중간 상태 데이터의 활용으로 장황한 작업에서의 오류 누적을 효과적으로 완화할 수 있을 것으로 기대됩니다.

모방학습의 이상적인 목표는 적은 양의 시연으로부터 충분히 학습하는 것입니다. 현실에서는 대규모 데이터 수집이 어렵기 때문입니다. 데이터 효율성을 높이기 위해 시연 선택(demonstration selection) 전략이 필요합니다. 무작위로 모든 시연을 수집하는 대신, 정보량이 많은 시연을 우선적으로 수집합니다. 예를 들어 "로봇이 실패하기 쉬운 상황의 시연"이나 "로봇의 현재 능력 경계에 있는 상황의 시연"입니다.
또한 시연 데이터를 다양하게 변형(augmentation)하여 더 많은 학습 신호를 만들 수 있습니다. 이미지 회전, 크기 변경, 색상 변경 같은 기하학적 변형뿐 아니라, 행동의 속도를 변경하거나 시간 축 자체를 변형합니다. 정보량 기반의 선택적 데이터 수집과 증강으로 로봇이 적은 데이터로도 효과적으로 학습할 수 있을 것으로 예상됩니다.
메타학습(Meta-Learning)은 "학습하는 방법을 배운다"는 개념입니다. 로봇이 새로운 작업을 만났을 때, 소수의 예제만으로 빠르게 학습할 수 있는 능력을 목표로 합니다. 이를 위해 데이터 구축 시 다양한 관련 작업들을 포함합니다. 비슷하지만 약간 다른 물체를 집는 작업들, 비슷하지만 다른 목표 위치로의 이동 작업들을 함께 수집합니다. 로봇이 이러한 관련 작업들의 패턴을 학습하면, 새로운 작업 시 그 패턴을 빠르게 적용할 수 있습니다.
또한 각 작업마다 "이 작업과 저 작업의 공통점과 차이점"을 명시하면, 로봇의 추상화 능력이 향상됩니다. 메타학습 데이터는 단순히 많은 것이 아니라, 작업 간의 관계와 전이 가능성을 포함해야 합니다. 다양한 관련 작업 데이터로 학습한 메타학습 모델은 새로운 작업에 매우 빠르게 적응할 수 있을 것으로 기대됩니다.

모방학습은 보통 오프라인에서 완료되고, 학습된 모델을 배포합니다. 그러나 현실에서 로봇은 항상 새로운 상황을 만날 수 있습니다. 온라인 학습(online learning)은 배포 후에도 계속 데이터를 수집하고 모델을 개선하는 방식입니다. 로봇이 자신의 실패를 기록하고, 그 상황에 대해 사람의 시연을 받으면, 그 데이터로 모델을 재학습합니다.
이를 위해 로봇은 "불확실한 상황"을 감지하고 사람에게 도움을 요청할 수 있는 메커니즘을 가져야 합니다. 또한 로봇의 자체 수정(self-correction) 능력도 데이터에 반영됩니다. 로봇이 실수했지만 스스로 해결한 경우를 학습 신호로 활용합니다. 이러한 온라인 데이터 수집과 모델 갱신은 로봇이 배포 후에도 지속적으로 성능을 개선하도록 합니다. 온라인 학습 루프의 설계로 로봇의 성능이 배포 후에도 계속 향상될 것으로 기대됩니다.
