
사람이 로봇을 효과적으로 조종하려면 자연스러운 언어로 명령할 수 있어야 합니다. "팔을 들어올려"라는 명령이 로봇에게 정확히 전달되고 실행되어야 합니다. 이를 위해서는 언어와 로봇의 물리적 행동을 연결하는 대규모 데이터가 필요합니다. 언어 지시 데이터는 자연스러운 사람의 명령어와 그에 대응하는 로봇의 행동을 짝지은 것입니다. 이러한 데이터를 통해 로봇은 다양한 언어 표현을 학습하고, 유사한 새로운 명령을 이해할 수 있게 됩니다.
▲ 자연언어 명령: 사람이 로봇에게 주는 언어 지시사항
▲ 로봇 행동 정보: 명령에 따른 로봇의 실제 움직임 기록
▲ 컨텍스트 정보: 명령이 주어진 상황과 환경 조건
언어 지시 데이터는 여러 요소로 구성됩니다. 명령어 자체가 가장 기본 요소이며, 같은 의도를 나타내는 다양한 표현들이 포함됩니다. 예를 들어 "물건을 집어 올려", "그것을 들어 봐", "집으시오"는 모두 같은 행동을 지칭합니다. 로봇 행동 정보는 명령에 따른 로봇의 각 관절 움직임, 속도, 힘 등이 상세하게 기록되어야 합니다. 컨텍스트 정보는 주변 환경(물체의 위치, 장애물, 조명 등)을 포함하여 명령의 의미를 정확히 파악하는 데 도움을 줍니다.

언어 지시 데이터를 수집하는 방법은 여러 가지입니다. 직접 수집 방식은 사람들이 직접 로봇을 조종하면서 자신의 음성 명령을 기록하는 것입니다. 이는 가장 자연스러운 데이터를 얻을 수 있지만 시간과 비용이 많이 소요됩니다. 크라우드소싱 방식은 온라인 플랫폼에서 다수의 사람들이 명령어를 입력하고 로봇 행동을 레이블링하는 방식입니다. 이 방식은 빠른 데이터 수집이 가능하지만, 데이터의 질 편차가 발생할 수 있습니다. 시뮬레이션 기반 생성 방식은 가상 환경에서 로봇 행동을 만들어 데이터를 생성합니다. 이는 무한정 데이터를 만들 수 있지만, 현실의 로봇과 차이가 발생할 수 있습니다.

사람들은 같은 의도를 표현할 때도 다양한 방식으로 표현합니다. 문법, 속도, 톤, 방언, 문화적 차이 등이 모두 영향을 미칩니다. 로봇이 이러한 다양성을 모두 이해하려면, 데이터에 그러한 다양성이 반영되어야 합니다. 다양한 인구집단(나이, 성별, 지역, 모국어 등)으로부터 수집된 명령어 데이터가 필요합니다. 만약 특정 그룹의 데이터로만 로봇을 학습시키면, 다른 그룹의 명령을 잘못 이해할 수 있습니다. 그러나 진정한 다양성을 확보하는 것은 매우 어렵고 비용이 많이 소요됩니다.

명령어 데이터가 수집되면, 각 명령에 대응하는 로봇 행동을 명시해야 합니다. 이를 레이블링 또는 주석 작업이라고 합니다. 사람이 로봇의 행동을 정확하게 기술하고, 각 관절의 각도, 속도, 힘을 기록해야 합니다. 이는 매우 세밀한 작업으로, 높은 수준의 기술적 이해가 필요합니다. 로봇 행동을 정확하게 레이블링하지 않으면, AI 모델이 잘못된 패턴을 학습하게 됩니다. 또한 주석 작업에 일관성이 없으면, 같은 명령이 다르게 해석될 수 있습니다. 따라서 엄격한 기준과 품질 관리가 필수적입니다.
명령의 의미는 단순히 언어 자체만으로는 결정되지 않습니다. 주변 환경, 상황, 이전 명령과의 연관성 등이 모두 영향을 미칩니다. 예를 들어 "빨간 공을 집어 올려"라는 명령은 주변에 빨간 공이 있을 때만 의미가 있습니다. 따라서 언어 지시 데이터에는 명령이 주어진 시점의 환경 정보가 포함되어야 합니다. 카메라 영상, 로봇의 센서 데이터, 주변 물체 목록 등이 함께 기록되어야 합니다. 이는 데이터 수집의 복잡성을 크게 증가시키며, 데이터의 규모도 방대해집니다.
언어 지시 데이터는 텍스트뿐 아니라 음성, 영상, 로봇 센서 데이터 등 다양한 형태를 포함합니다. 사람이 음성으로 명령하는 경우, 음성의 톤과 속도도 의미를 전달합니다. 로봇의 카메라 영상과 로봇 행동 데이터는 시간적으로 일치해야 합니다. 다중 모달 데이터를 통합하면 로봇이 더욱 정확하게 명령을 이해할 수 있습니다. 그러나 서로 다른 형식의 데이터를 동기화하고 정렬하는 것은 기술적으로 복잡합니다. 또한 데이터의 크기도 매우 커져 저장과 처리가 어려워집니다.

로봇이 여러 언어의 명령을 이해하려면, 각 언어로 된 충분한 양의 데이터가 필요합니다. 단순히 한 언어의 데이터를 번역하는 것으로는 부족합니다. 각 언어와 문화의 특성을 반영한 명령어가 필요합니다. 같은 행동도 문화에 따라 표현되는 방식이 다릅니다. 다국어 데이터 구축은 각 언어권의 원어민으로부터 데이터를 수집해야 하므로, 비용과 시간이 급격히 증가합니다. 또한 언어 간의 동등성을 보장하기도 어렵습니다. 현재는 영어 중심의 데이터 구축이 주로 이루어지고 있으며, 다른 언어는 충분하지 않은 상태입니다.
가상 환경에서 만든 데이터는 처리가 쉽고 무한정 생성할 수 있습니다. 그러나 현실의 로봇과 완벽하게 일치하지 않습니다. 실제 로봇에는 기계적 오차, 센서 노이즈, 예측 불가능한 상호작용이 존재합니다. 시뮬레이션 데이터로만 학습한 로봇이 현실에서 명령을 제대로 실행하지 못하는 현상을 도메인 갭(Domain Gap)이라고 합니다. 이를 극복하기 위해 현실의 데이터를 추가로 수집하거나, 시뮬레이션을 더욱 사실적으로 개선해야 합니다.

대규모 데이터 수집 과정에서 특정 그룹이 과도하게 대표될 수 있습니다. 예를 들어 특정 지역, 연령층, 사회경제적 배경의 사람들이 과도하게 포함될 수 있습니다. 이러한 데이터 편향은 로봇이 일부 사람의 명령은 잘 이해하지만, 다른 사람의 명령은 잘못 이해하는 결과로 이어집니다. 이는 단순한 성능 문제를 넘어 공정성 문제가 됩니다. 특정 그룹에 대한 차별이 발생할 수 있습니다. 이를 방지하기 위해서는 의도적인 노력을 통해 다양한 그룹의 데이터를 균형있게 확보해야 합니다.
언어 지시 데이터를 수집할 때 개인의 음성, 영상, 정보가 기록됩니다. 이들 데이터는 개인정보 보호 규정의 대상입니다. 따라서 데이터 수집 전에 개인의 동의를 받아야 하며, 데이터 사용 목적이 명확해야 합니다. 데이터 보안도 중요하여, 무단 접근을 방지해야 합니다. 또한 수집된 데이터가 원래 목적 외에 다른 용도로 사용되지 않도록 관리해야 합니다. 그러나 대규모 데이터 관리에서 이러한 모든 요구사항을 완벽히 만족시키기는 어렵습니다.
피지컬 AI 로봇 언어 지시 데이터 구축은 아직도 발전 중인 분야입니다. 더욱 효율적인 데이터 수집 방법, 자동화된 레이블링 기술, 데이터 편향 감소 방법 등이 계속 연구되고 있습니다. 또한 시뮬레이션을 더욱 사실적으로 개선하고, 도메인 갭을 극복하는 기술도 진화하고 있습니다. 진정한 의미의 언어 이해를 갖춘 로봇을 만들기 위해서는 여전히 발 빠른 기술 발전이 필요합니다. 언어의 모호성, 문화적 차이, 새로운 상황에 대한 적응 등은 무조건 많은 데이터로 해결되지 않습니다. 기술적 혁신과 함께 학제 간 협력이 필요한 분야입니다.
