
로봇이 자연스럽게 인간과 협력하려면 세 가지 능력이 필요합니다. 환경을 시각적으로 이해하는 능력, 자연언어 명령을 이해하는 능력, 그리고 이를 물리적 행동으로 실행하는 능력입니다. 기존에는 이 세 가지가 독립적으로 개발되었습니다. 비전 모델은 이미지 분류만 하고, 언어 모델은 텍스트 처리만 하며, 행동 제어 시스템은 미리 정해진 동작만 실행했습니다. 비전-언어-행동 통합 모델은 이 세 가지를 함께 처리하여 더욱 자연스럽고 유연한 로봇 제어를 가능하게 합니다. 따라서 이 세 정보를 일관되게 기록하고 정렬하는 데이터셋이 매우 중요합니다.
비전-언어-행동 데이터셋은 세 가지 모달리티를 동시에 포함합니다. 비전 데이터는 카메라로부터의 원본 영상입니다. 고해상도 영상을 높은 프레임율로 기록해야 세밀한 동작도 포착할 수 있습니다. 언어 데이터는 단순 명령어뿐 아니라 작업 설명, 배경 정보, 대체 표현들을 포함해야 합니다. 행동 데이터는 각 모터의 명령값, 로봇의 궤적, 가해진 힘 등이 상세하게 기록되어야 합니다. 이 세 데이터를 정확하게 시간적으로 정렬하는 것이 핵심입니다.

세 종류의 데이터는 서로 다른 센서와 시스템으로부터 생성됩니다. 카메라는 초당 30~60프레임으로 영상을 기록하고, 모터 제어기는 밀리초 단위로 명령을 처리하며, 언어 설명은 사람이 나중에 수동으로 입력합니다. 이들 데이터를 일관되게 정렬하려면 정밀한 타임스탐프가 필수입니다. 각 카메라 프레임, 각 모터 명령, 각 언어 토큰이 정확히 어느 시점의 어느 행동에 대응되는지 명시해야 합니다. 하드웨어의 시간 동기화 오류, 센서의 지연, 데이터 처리 과정의 레이턴시 등이 모두 정렬 정확도에 영향을 미칩니다.
같은 행동도 다양한 방식으로 표현될 수 있습니다. 로봇이 부품을 집는 행동을 "부품 집기", "그것을 들어", "부품을 취급하기", "저걸 내게 줘" 등으로 표현할 수 있습니다. 비전-언어-행동 데이터셋은 같은 행동에 대한 다양한 언어 표현들을 모두 포함해야 로봇이 풍부한 언어 이해 능력을 갖게 됩니다. 그러나 모든 가능한 표현을 다 포함할 수는 없으므로, 대표적인 표현들의 샘플링이 필요합니다. 또한 언어 설명이 행동과 정확히 일치해야 합니다. 부정확한 설명이 포함되면 로봇이 잘못된 패턴을 학습합니다.
카메라 영상은 비전-언어-행동 모델의 핵심 입력입니다. 영상의 해상도, 프레임율, 색감, 노출 등이 모두 로봇의 이해에 영향을 미칩니다. 현장의 조명 조건이 일정하지 않으면 같은 작업이 영상으로는 매우 다르게 보일 수 있습니다. 고품질의 영상 데이터는 로봇이 다양한 시각 조건에 적응할 수 있도록 합니다. 한편 과도하게 높은 해상도는 저장 및 처리 비용을 증가시킵니다. 최적의 해상도와 프레임율을 결정하는 것은 작업의 특성과 리소스 제약을 고려한 선택입니다.

로봇의 행동을 어느 정도의 세밀함으로 기록할지도 중요한 결정입니다. 각 관절의 개별 각도를 모두 기록하면 가장 정보가 풍부하지만 데이터가 커집니다. 로봇 팔의 궤적만 기록하면 데이터는 작지만 세부 정보가 손실됩니다. 비전-언어-행동 모델이 학습해야 할 행동의 수준을 정의하는 것이 중요합니다. 예를 들어 "물체를 집는다"는 고수준 행동을 표현하는지, 아니면 그 과정의 모든 미세한 관절 움직임을 표현하는지에 따라 데이터 구조가 달라집니다. 선택한 행동 표현 수준이 너무 높으면 정보 손실이 생기고, 너무 낮으면 일반화가 어렵습니다.
일부 비전-언어-행동 데이터셋은 단일 카메라가 아니라 여러 각도의 카메라로부터 영상을 수집합니다. 다중 관점 정보는 로봇이 3차원 공간을 더욱 정확하게 이해하도록 합니다. 그러나 여러 카메라의 영상을 모두 기록하고 정렬하면 데이터량이 급격히 증가합니다. 각 카메라로부터의 영상이 정확하게 시간 동기화되고 공간적으로 정렬되어야 하는데, 이는 기술적으로 복잡합니다. 또한 카메라 간의 기하학적 관계(카메라 위치, 초점 거리 등)를 정확하게 보정해야 합니다.
비전-언어-행동 데이터에 포함된 각 행동 세그먼트에 대해, 인간이 언어 설명을 제공해야 합니다. 또한 영상의 어느 부분이 어느 행동에 해당하는지 표시해야 합니다. 이러한 주석 작업은 매우 노동 집약적입니다. 주석자마다 일관성 있게 작업하도록 상세한 가이드라인과 품질 관리가 필수적입니다. 같은 행동도 주석자에 따라 다르게 분할될 수 있습니다. 주석의 불일치가 발생하면, 모델이 학습하는 패턴이 부정확해집니다. 여러 주석자의 작업 결과를 비교하여 일관성을 확인하는 검증 절차가 필요합니다.

자연언어는 항상 모호합니다. "그것을 옆으로 옮겨"라는 명령은 몇 센티미터를 의미하는지, 어느 방향을 의미하는지 명확하지 않을 수 있습니다. 특히 로봇의 관점에서는 더욱 모호합니다. 비전-언어-행동 데이터셋은 이러한 모호성을 어떻게 처리할지 명시해야 합니다. 예를 들어 같은 명령에 대해 여러 가지 타당한 실행 방식이 있을 수 있습니다. 데이터셋에는 이러한 다중 타당성을 반영하거나, 특정 해석을 기준으로 일관되게 기록해야 합니다. 후자의 경우 해석의 기준을 명확히 문서화해야 합니다.
로봇이 다양한 환경과 작업에 대응하려면, 비전-언어-행동 데이터도 다양해야 합니다. 조명 조건, 배경, 작업 장소, 로봇 종류, 언어 표현 등이 모두 다양해야 합니다. 데이터의 다양성이 높을수록 로봇이 새로운 상황에 더욱 잘 적응할 수 있습니다. 그러나 모든 가능한 변동성을 다 포함할 수는 없으므로, 어떤 차원의 다양성을 우선할지 선택해야 합니다. 예를 들어 언어의 다양성을 우선하되 시각 조건은 제한할 수도 있습니다. 이러한 선택은 최종 로봇의 용도와 제약 조건에 따라 결정되어야 합니다.
대규모 비전-언어-행동 데이터셋을 구축하려면 많은 비용이 소요됩니다. 현장에서의 데이터 수집, 인간 주석자의 임금, 저장 시스템의 유지 등이 모두 비용입니다. 효율적인 수집 전략은 필요한 정보량을 최대화하면서 비용을 최소화하는 방법을 찾는 것입니다. 예를 들어 능동 학습 방식으로 가장 유익한 샘플부터 수집하거나, 자동 주석 도구로 초기 라벨링을 하고 인간이 검수하는 방식도 있습니다. 그러나 비용 절감과 품질 사이의 균형을 맞추기는 어렵습니다.

비전-언어-행동 데이터셋의 가치는 그로부터 학습한 모델의 성능으로 평가됩니다. 따라서 공정한 평가 방법과 벤치마크가 중요합니다. 같은 데이터셋으로 다양한 모델을 훈련하고 비교할 수 있어야 진정한 모델의 진보를 측정할 수 있습니다. 그러나 평가 지표를 어떻게 설정할지도 문제입니다. 로봇이 명령을 정확히 실행했는가, 결과가 의도에 부합했는가, 안전하게 수행되었는가 등 여러 기준이 있습니다. 현재는 표준화된 평가 방법이 부족하여, 각 연구팀이 자체 기준으로 평가하고 있습니다.
비전-언어-행동 분야는 아직도 발전 초기 단계이지만, 놀라운 잠재력을 보여주고 있습니다. 더욱 대규모이고 다양한 데이터셋, 더욱 효율적인 수집 방법, 개선된 평가 기준 등이 지속적으로 개발되고 있습니다. 또한 다양한 로봇 플랫폼 간의 호환성을 고려한 표준화 노력도 진행 중입니다. 개방형 벤치마크 데이터셋이 구축된다면, 학계와 산업계가 함께 발전하면서 이 분야에 혁신을 가져올 것으로 기대됩니다.
ImageNet이 컴퓨터 비전을 획기적으로 발전시킨 것처럼, 비전-언어-행동 분야에도 유사한 기초가 될 수 있는 리소스의 개발이 활발하게 진행되고 있습니다. 데이터 규모, 주석의 복잡성, 프라이버시 문제 등의 과제가 있지만, 다양한 기관의 협력과 재정 지원을 통해 이러한 어려움들이 점진적으로 극복되고 있습니다. 국제적 협력과 오픈소스 커뮤니티의 참여가 확대되면서 비전-언어-행동 기술의 대중화도 예상됩니다.
