
지금까지 AI는 텍스트나 이미지 데이터를 처리하는 데 특화되어 있습니다. 신경망이 패턴을 인식하고 분류하는 작업에 뛰어납니다. 그러나 이러한 AI는 물리 세계와의 직접적인 상호작용이 없습니다. 반면 체화형 AI(Embodied AI)는 센서(카메라, 터치 센서, 온도 센서)를 통해 환경을 인지하고, 모터와 그리퍼 같은 실행기로 환경에 영향을 미칩니다.
체화형 AI는 자신의 행동이 환경에 어떤 영향을 미치는지 직접 경험합니다. 물체를 집었을 때 표면의 마찰, 무게의 저항, 균형의 변화를 센서로 감지합니다. 이러한 물리적 피드백이 학습의 신호가 됩니다. 단순히 "물체를 집는 방법"을 관찰하는 것이 아니라, "집으면 어떤 감각이 생기는가"를 직접 경험하고 학습합니다. 체화형 AI의 학습 데이터는 물리적 상호작용의 결과를 포함하므로, 현실 환경에 더욱 잘 적응할 수 있을 것으로 예상됩니다.
체화형 AI가 학습하는 데이터는 여러 감각 채널로부터의 정보를 동시에 포함합니다. 다양한 센서로부터의 데이터를 통합하면 AI가 환경과 자신의 상태를 입체적으로 이해할 수 있을 것으로 기대됩니다.

체화형 AI는 능동적으로 환경을 탐색하면서 학습할 수 있습니다. 로봇이 임의로 움직임을 수행하면서 "이 움직임이 환경에 어떤 영향을 미치는가"를 관찰합니다. 예를 들어 로봇이 팔을 움직였을 때 카메라 이미지가 어떻게 변했는지, 센서 값이 어떻게 변했는지를 기록합니다. 이를 통해 로봇은 "자신의 행동과 환경 변화의 인과관계"를 학습합니다. 초기에는 로봇의 움직임이 무작위일 수 있지만, 시간이 지나면서 특정 목표(예: 물체 집기)에 유용한 행동 패턴을 발견합니다.
이 과정에서 생성되는 모든 상호작용 데이터가 학습 신호가 됩니다. 수동적으로 데이터를 수집받는 것이 아니라, 능동적으로 데이터를 생성하면서 학습합니다. 환경과의 상호작용 과정 자체가 학습 데이터가 되므로, 로봇의 학습 효율성이 크게 향상될 것으로 예상됩니다.

체화형 AI의 학습에서 물리적 피드백은 중요한 보상 신호가 됩니다. 물체를 성공적으로 집으면 "력 센서의 안정적인 신호"라는 피드백을 받습니다. 물체를 떨어뜨리면 "갑작스러운 센서 값의 변화"라는 부정적 피드백을 받습니다. 이러한 물리적 신호들이 AI의 학습을 인도합니다. 다만 물리적 피드백의 해석은 복잡합니다. 같은 힘 신호도 물체의 재질, 무게, 표면 상태에 따라 다른 의미를 가질 수 있습니다.
따라서 물리적 피드백을 체계적으로 라벨링하고 정규화해야 합니다. 예를 들어 "음의 토크 변화"는 "물체가 회전하기 시작했음"을 의미할 수 있습니다. 이를 명시적으로 라벨링하면 AI가 더 잘 해석할 수 있습니다. 물리적 피드백 신호의 체계적 분석으로 체화형 AI의 학습 신호의 명확성이 높아질 것으로 기대됩니다.

체화형 AI가 일반화 능력을 가지려면 다양한 환경과 로봇 형태에서 데이터를 수집해야 합니다. 같은 작업도 실내·실외 환경에서 다르고, 조명 조건에 따라 다르며, 바닥의 마찰이나 기울기에 따라 다릅니다. 또한 다양한 로봇 형태(팔 길이가 긴 로봇, 짧은 로봇, 다양한 그리퍼)에서 데이터를 수집하면 환경이 아닌 작업 자체의 본질을 학습할 수 있습니다.
만약 한 가지 로봇 형태에서만 데이터를 수집하면, AI는 "그 로봇의 특성"과 "작업의 본질"을 구분하지 못할 수 있습니다. 따라서 동일한 작업을 여러 로봇 형태로 수행하고 데이터를 수집합니다. 이렇게 다양한 조건에서 수집된 데이터는 새로운 환경이나 새로운 로봇에도 전이(transfer)될 수 있습니다. 다양한 환경과 로봇 형태의 데이터 수집으로 체화형 AI의 이식 가능성이 크게 향상될 것으로 예상됩니다.
체화형 AI의 대규모 데이터를 수집하는 것은 매우 비용이 많이 듭니다. 실제 로봇을 운영하고, 센서를 유지보수하고, 다양한 환경을 구성해야 합니다. 따라서 시뮬레이션 환경(PyBullet, Gazebo 같은 물리 엔진)에서 로봇을 훈련시키고 데이터를 생성합니다. 시뮬레이션에서는 무한히 많은 시나리오를 빠르게 생성할 수 있습니다. 다만 시뮬레이션 데이터와 실제 로봇 데이터 간의 간격(sim-to-real gap)이 존재합니다.
시뮬레이션에서는 공기 저항, 미세한 마찰, 센서 노이즈 등을 완벽하게 재현하기 어렵습니다. 이를 극복하기 위해 도메인 적응(domain adaptation) 기법을 사용합니다. 시뮬레이션 데이터에 노이즈를 추가하거나, 시뮬레이션과 현실의 특성을 자동으로 변환하는 신경망을 학습합니다. 시뮬레이션과 현실 데이터의 효율적 결합으로 대규모 체화형 AI 학습 데이터를 경제적으로 구축할 수 있을 것으로 기대됩니다.

체화형 AI 학습의 장점 중 하나는 명시적 라벨링 없이 학습할 수 있다는 점입니다. 로봇이 환경과 상호작용하면서 생성되는 데이터 자체가 학습 신호가 됩니다. 이를 자기지도 학습(self-supervised learning)이라 합니다. 예를 들어 로봇이 물체를 집었을 때의 센서 신호 변화가 자동으로 "성공" 또는 "실패"의 라벨 역할을 합니다. 이 방식으로 수집된 데이터는 라벨링 비용이 거의 없습니다.
또한 로봇이 환경의 물리 법칙을 학습하도록 설계할 수 있습니다. 예를 들어 "팔을 움직이면 카메라 이미지가 어떻게 변하는가"를 학습하면, 로봇은 자신의 움직임과 환경 변화의 관계를 이해합니다. 이는 나중에 복잡한 조작 작업을 학습하는 기초가 됩니다. 자기지도 학습으로 대규모 라벨링 없이 풍부한 학습 신호를 얻을 수 있을 것으로 예상됩니다.

체화형 AI 학습 데이터의 중요성이 증가하면서, 표준화된 공개 데이터셋의 필요성도 높아지고 있습니다. 이미 일부 연구 기관들이 대규모 체화형 AI 데이터셋을 구축하고 공개하고 있습니다. 이러한 공개 데이터셋은 센서 종류, 데이터 포맷, 라벨링 기준이 다양합니다. 서로 다른 포맷의 데이터를 비교하고 통합하기 어렵습니다.
따라서 국제 표준화 기구(ISO/IEC)에서 체화형 AI 데이터의 포맷, 메타데이터, 성능 평가 기준을 표준화하려는 논의가 진행 중입니다. 표준화된 공개 데이터셋의 확대로 체화형 AI 연구의 진입 장벽이 낮아질 것으로 기대됩니다.
