사람 시연 기반 학습 데이터, 명시적 규칙화가 어려운 행동까지 학습 가능해진다

트렌드

2026-05-11

사람 시연 학습의 개념과 AI 모델 개발의 패러다임 전환

기존 AI 모델 개발은 명시적 규칙(rule-based)에 의존했습니다. 예를 들어 "물체가 원형이고 크기가 10cm 이상이면 집기"와 같이 규칙을 프로그래밍했습니다. 그러나 현실의 복잡한 상황은 명시적 규칙으로 표현하기 어렵습니다. 대신 사람이 직접 어떤 작업을 수행하는 모습을 보여주고, AI가 그것을 관찰하여 학습하는 방식으로 전환되고 있습니다.

‍

이를 "사람 시연 기반 학습"이라 합니다. 사람이 물체를 집는 모습을 카메라와 센서로 기록하면, AI는 그 영상으로부터 손의 위치, 속도, 힘의 크기, 대상 물체의 특성 등을 추출하여 학습합니다. 단순한 작업부터 복잡한 의사결정까지 사람의 다양한 시연으로부터 학습 데이터를 생성할 수 있습니다. 사람 시연 기반 학습으로 AI가 명시적 규칙화가 어려운 복잡한 행동들을 학습할 수 있을 것으로 예상됩니다.

‍

시연 데이터의 수집과 멀티모달 정보 통합

‍

시각 정보(Vision) : 작업 환경, 도구, 대상 물체의 위치와 상태를 촬영한 RGB 영상 또는 깊이 정보(Depth)
신체 움직임 데이터(Motion Capture) : 시연자의 팔, 손, 손가락의 위치와 각도를 추적하여 기록
환경 센서 정보 : 온도, 습도, 음향, 촉각 센서 데이터 등 작업 환경의 물리적 정보

‍

사람 시연 기반 학습 데이터는 단일 센서로는 수집되지 않습니다. 여러 센서에서 동시에 데이터를 수집하고 통합합니다. 다양한 소스의 정보를 하나의 시연 데이터로 통합하면 AI가 더욱 풍부한 학습 신호를 받을 수 있을 것으로 기대됩니다.

‍

시연의 다양성과 일반화 능력의 향상

같은 작업이라도 사람마다, 상황마다 다르게 수행됩니다. 컵을 집을 때 손의 각도, 속도, 힘의 크기가 모두 다를 수 있습니다. 또한 컵의 재질(유리, 플라스틱, 세라믹)에 따라 집는 방식이 달라집니다. 다양한 시연자, 다양한 환경, 다양한 물체 특성에서 수집된 데이터는 AI가 여러 방식으로 작업을 수행할 수 있도록 학습시킵니다.

‍

단일 시연자의 영상만으로 학습하면 AI는 그 시연자의 방식만 모방하게 되어, 새로운 상황에 대응하기 어렵습니다. 따라서 20명 이상의 시연자, 100개 이상의 환경 변수, 수십 가지 물체 종류에서 수집된 데이터가 필요합니다. 이렇게 대규모의 다양한 시연 데이터를 수집하면 AI의 일반화 능력이 크게 향상됩니다. 시연의 다양성이 높을수록 AI 모델의 현실 환경 적응 능력이 향상될 것으로 예상됩니다.

‍

암묵적 지식의 명시화와 데이터 구조화

‍

사람이 작업을 수행할 때 많은 의사결정이 무의식적으로 이루어집니다. 예를 들어 "물체가 미끄러울 것 같으니 더 천천히 집자"는 판단은 물체의 표면 특성을 빠르게 인지한 후 내려집니다. 이러한 암묵적 지식을 AI가 학습하도록 하려면 명시적으로 표현해야 합니다. 시연 영상을 분석하면서 "물체의 반짝임 정도"를 수치화하고, "손의 이동 속도"와의 관계를 라벨링합니다. 또한 시연자에게 "왜 이렇게 했는가"를 물어보는 인터뷰를 진행하여 의사결정 근거를 기록합니다.

‍

이 과정을 통해 무언의 규칙들이 명시적 데이터로 변환됩니다. 구조화된 데이터는 AI 모델이 학습하기 쉬운 형태가 되며, 나중에 모델의 결정을 해석(explainability)하는 데도 도움이 됩니다. 암묵적 지식을 체계적으로 명시화하면 AI의 학습 효율성과 해석 가능성이 동시에 향상될 것으로 기대됩니다.

‍

시연 데이터의 라벨링과 주석 체계

행동 단위 라벨링 : 전체 시연 영상을 "준비", "집기", "이동", "놓기" 같은 기본 행동 단위로 분할
객체 추적 라벨링 : 시연 중 상호작용하는 물체들의 위치, 크기, 상태 변화를 시간에 따라 기록
의도 라벨링 : 각 행동 단위의 목표가 무엇인지(예: 물체를 안전하게 집기 vs 빠르게 집기) 라벨링

‍

시연 데이터가 수집되면 체계적인 라벨링이 필요합니다. 라벨링은 인간 라벨러가 수행하는 경우가 많으며, 이 과정에서 데이터 품질이 결정됩니다. 라벨링 기준이 모호하면 라벨러마다 다른 결과를 낼 수 있으므로, 명확한 라벨링 지침서를 작성하고 라벨러 간 일관성을 점검합니다.

‍

일부 라벨링은 자동화 알고리즘으로 수행할 수 있습니다. 예를 들어 신체 움직임 데이터에서 자동으로 "팔의 이동 속도"를 계산하거나, 카메라 영상에서 자동으로 "물체의 위치 변화"를 추적할 수 있습니다. 이렇게 자동화와 수동 검증을 결합하면 라벨링 비용을 절감할 수 있습니다. 라벨링 기준의 명확화와 자동화 기술의 활용으로 대규모 시연 데이터의 처리가 효율적으로 이루어질 것으로 예상됩니다.

‍

시연자 선정과 데이터 편향 제어

‍

시연 데이터의 품질은 시연자의 특성에 크게 영향을 받습니다. 전문가 시연자와 초보 시연자는 다른 방식으로 작업을 수행합니다. 성별, 나이, 신체 특성에 따라서도 움직임이 달라집니다. 따라서 학습 데이터가 특정 집단에 편향되지 않도록 시연자를 다양하게 선정합니다. 전문가 시연자 30%, 초보 시연자 40%, 평균 수준 시연자 30% 같은 식으로 구성합니다.

‍

또한 신체 장애가 있는 시연자도 포함하여 다양한 수행 방식을 학습 데이터에 반영합니다. 이렇게 대표성 있는 시연자 집단으로부터 수집된 데이터는 다양한 사용자 맥락에서 작동하는 AI 모델을 만듭니다. 데이터 편향 분석 후 부족한 영역(예: 노인 시연자의 움직임)을 추가로 수집합니다. 시연자 집단의 다양성과 대표성이 AI 모델의 포용성을 결정하는 중요한 요소가 될 것입니다.

‍

시연 기반 학습과 행동 모방의 메커니즘

시연 데이터로부터 AI 모델을 학습하는 과정을 "행동 모방 학습(Behavioral Cloning)" 또는 "모방 학습(Imitation Learning)"이라 합니다. AI는 시연자의 입력(관찰한 환경)과 출력(행동 선택)의 매핑 관계를 학습합니다. 예를 들어 "환경에 장애물이 있을 때 시연자는 어떤 행동을 했는가"를 관찰하여 학습합니다. 단순한 모방을 넘어, AI가 시연자의 의도(왜 그 행동을 했는가)를 추론하도록 학습할 수도 있습니다. 이를 "역강화학습(Inverse Reinforcement Learning)"이라 합니다.

‍

시연 데이터의 풍부함과 다양성이 높을수록 이러한 학습이 더욱 효과적으로 이루어집니다. 또한 시연 데이터와 실제 로봇의 실행 데이터를 함께 활용하면, AI가 시뮬레이션과 현실의 차이를 학습할 수 있습니다. 다양한 학습 알고리즘과 시연 데이터의 결합으로 AI가 더욱 정교한 행동을 학습할 수 있을 것입니다.

‍

시연 기반 데이터의 재사용과 데이터셋 공개

‍

원격조작이나 사람 시연으로 수집된 데이터는 매우 비용이 많이 들기 때문에 재사용 가치가 높습니다. 한 번 수집된 시연 데이터는 여러 AI 모델 개발에 활용될 수 있습니다. 물체 집기 시연 데이터는 "물체 집기 로봇", "팔 다리 로봇", "손가락만 있는 로봇" 등 다양한 로봇 시스템에 공통으로 사용될 수 있습니다. 또한 데이터셋을 공개하면 전 세계의 연구팀이 이를 이용하여 알고리즘을 개선할 수 있습니다.

‍

목록보기