
피지컬 AI가 물리 세계에서 효과적으로 행동하려면, 그 세계를 3차원으로 정확하게 이해해야 합니다. 2차원 이미지나 단순한 거리 정보로는 복잡한 3D 환경을 충분히 표현할 수 없기 때문입니다. 피지컬 AI 로봇이 실제 환경을 조작하고, 장애물을 회피하고, 정밀한 작업을 수행하려면, 주변 3D 공간을 정확하게 매핑하고 이해할 수 있어야 하며, 이를 위해서는 체계적으로 구축된 3D 공간 데이터가 필수입니다. 3D 공간 표현은 단순한 기하학적 정보가 아니라, 로봇이 의사결정을 하고 행동을 계획하는 데 필요한 세상의 모델입니다. 예를 들어 로봇이 테이블 위의 물체를 집기 위해서는 물체의 위치뿐만 아니라 접근 방향, 회피할 장애물, 작업 공간의 제약 조건 등이 모두 3D로 표현되어야 합니다.
피지컬 AI 로봇이 공간을 인식하는 가장 기초적인 방법은 3차원 좌표계를 정의하고, 모든 물체와 장애물을 그 좌표계 내의 점들로 표현하는 것입니다. 절대 좌표계 (고정된 기준점), 상대 좌표계 (다른 물체를 기준), 로봇 자신의 좌표계 (로봇 중심), 어떤 기준점을 사용하는지에 따라 공간 데이터의 의미가 달라집니다. 3D 공간 데이터를 수집할 때 일관된 좌표계를 유지하고, 시간이 지남에 따라 로봇이나 환경의 움직임으로 인한 좌표 변환을 정확하게 추적하면, 로봇이 자신의 위치와 주변 환경의 위치를 항상 명확하게 파악할 수 있게 되며, 여러 센서로부터 들어오는 데이터를 통합할 수 있게 됩니다. 좌표계의 일관성은 모든 3D 데이터 처리의 기초가 되며, 이 없이는 피지컬 AI로봇이 공간을 이해할 수 없습니다.

3D 센서로부터 가장 직접적으로 얻어지는 데이터는 포인트 클라우드입니다. 각 픽셀이 감지한 깊이 값으로부터 3D 좌표를 계산하면, 공간을 구성하는 무수한 점들의 집합이 생성됩니다. 이 포인트 클라우드는 가장 원시적인 형태의 3D 데이터이지만, 동시에 가장 풍부한 정보를 담고 있습니다. 포인트 클라우드 데이터를 수집할 때 각 점의 위치뿐 아니라 색상, 반사율, 강도 같은 추가 속성도 함께 기록하면, 로봇이 공간의 기하학적 구조뿐 아니라 표면의 물리적 특성도 함께 학습할 수 있게 되며, 이는 물체 인식과 표면 분류 같은 고수준의 공간 이해를 가능하게 합니다. 포인트 클라우드의 밀도와 정확도는 후속 처리의 질을 결정하며, 피지컬 AI로봇의 인식 능력을 크게 좌우합니다.
포인트 클라우드의 개별 점들을 삼각형이나 사각형으로 연결하면 메시 구조가 됩니다. 메시 구조는 포인트 클라우드보다 메모리 효율이 좋고, 표면의 법선 벡터(표면의 방향)를 명확하게 계산할 수 있습니다. 피지컬 AI 로봇이 물체의 표면과 상호작용할 때, 그 표면의 기하학적 특성(곡률, 기울기, 법선 방향)을 알아야 정확한 조작이 가능합니다. 메시는 이러한 표면 특성을 효율적으로 인코딩합니다. 다양한 메시 생성 알고리즘을 적용했을 때의 결과를 비교하고, 각각이 특정 상황에서 어느 정도의 정확도를 제공하는지를 평가해야 합니다. 메시 구조로 변환된 3D 데이터를 사용하면, 로봇이 물체의 표면을 따라 부드럽게 이동할 수 있으며, 표면의 기울기로부터 물체를 집을 때의 최적 방향을 계산할 수 있게 되어, 조작의 정확도가 크게 향상됩니다.

깊이 센서는 2D 이미지 형태로 깊이 정보를 제공합니다. 이 깊이 맵은 각 픽셀의 깊이값을 나타내는 2D 배열이며 포인트 클라우드보다 처리 속도가 빠릅니다. 깊이 맵은 로봇의 실시간 비전 시스템에 매우 적합합니다. 그러나 깊이 맵은 해상도에 의해 제한되며, 센서의 시점에서만 정보를 담고 있으므로, 폐쇄된 영역이나 센서 뒤쪽의 공간은 표현할 수 없습니다. 여러 각도에서 수집한 깊이 맵들을 시간적 순서대로 기록하고, 각 깊이 맵이 포착한 환경의 변화를 추적하면, 로봇이 자신의 이동과 함께 시야의 변화를 감지하고, 부분적인 정보들을 통합하여 더욱 완전한 3D 모델을 구축할 수 있게 됩니다. 깊이 맵 시퀀스 데이터는 로봇의 실시간 이해를 가능하게 하는 핵심입니다.

복셀은 3D 공간을 균일한 정육면체로 분할하여 표현하는 방식입니다. 각 복셀은 그 영역이 채워져 있는지, 비어 있는지, 아니면 경계 부분인지를 나타냅니다. 이 표현은 피지컬 AI 로봇이 충돌 검사를 매우 빠르게 수행할 수 있게 해줍니다. 로봇의 움직임 계획을 할 때, 특정 궤적이 장애물과 충돌하는지를 복셀 그리드를 통해 빠르게 판단할 수 있기 때문입니다. 복셀의 크기는 정확도와 계산량의 균형을 결정합니다. 복셀 공간에 환경 데이터를 인코딩할 때, 복셀 크기를 다양하게 설정하여 데이터화하면, 로봇이 다양한 수준의 세부도에서 공간을 이해할 수 있게 되며, 원거리의 조잡한 계획에서부터 근거리의 정밀한 조작까지 각각에 적합한 표현을 선택할 수 있게 됩니다. 계층적 복셀 표현은 로봇의 효율성을 크게 높입니다.
공간을 점들의 집합이 아니라 점들 사이의 연결 관계로 표현하는 공간 그래프는, 공간의 구조적 특성을 매우 효과적으로 나타냅니다. 노드가 중요한 위치를 나타내고, 엣지가 그 위치들 사이의 이동 가능성을 나타냅니다. 이 표현 방식은 경로 계획 알고리즘에 직접 사용될 수 있습니다. 로봇이 한 위치에서 다른 위치로 가려면, 그래프의 경로를 따라가면 되기 때문입니다. 환경의 토폴로지 (통로, 방, 문, 계단 같은 구조적 특징)를 그래프의 노드와 엣지로 명시적으로 표현할 수 있습니다. 공간 데이터로부터 의미 있는 노드들을 자동으로 추출하고, 그들 사이의 연결성을 정확하게 인코딩하여 그래프를 구축하면, 로봇이 기하학적인 거리만이 아니라 논리적인 경로 거리를 이해할 수 있게 되며, 가장 짧은 경로가 아니라 가장 실용적인 경로를 계획할 수 있게 됩니다. 공간 그래프는 고수준의 공간 이해를 가능하게 합니다.

같은 환경을 다양한 해상도로 표현하는 것은 피지컬 AI 로봇의 효율성을 크게 높입니다. 가장 정세한 포인트 클라우드에서부터, 메시, 중간 해상도의 복셀, 낮은 해상도의 복셀, 그리고 추상화된 그래프에 이르기까지, 각 표현은 특정 목적에 가장 효율적입니다. 로봇이 장거리 이동을 계획할 때는 낮은 해상도의 표현으로 빠르게 계획하고, 목표 근처에 접근할 때는 높은 해상도의 표현을 사용하여 정밀한 조작을 수행할 수 있습니다. 같은 공간을 여러 해상도의 3D 데이터로 동시에 구축하고, 각 해상도에서의 성능과 효율성을 측정하여 데이터화하면, 로봇이 주어진 작업의 특성에 따라 가장 적합한 표현을 자동으로 선택할 수 있게 되며, 전체적으로 시간과 자원을 절약하면서도 필요한 정확도를 유지할 수 있게 됩니다. 다중 해상도 표현은 현실적인 로봇 시스템의 핵심입니다.

정적인 3D 데이터는 피지컬 AI 로봇이 변하지 않는 환경에서만 유용합니다. 현실의 환경은 계속 변합니다. 물체가 움직이고, 장애물이 나타났다 사라집니다. 시간 차원을 포함하는 4D 데이터 (3D 공간에 시간 정보를 더한 데이터)를 구축하면, 로봇이 단순히 현재의 정적 상태뿐 아니라 환경이 어떻게 변하는지를 학습할 수 있게 되며, 앞으로 어떤 변화가 일어날 것인지를 예측할 수 있는 능력도 갖추게 됩니다. 동적 환경의 3D 데이터 시퀀스는 로봇의 적응력을 획기적으로 높이며, 변화하는 현실 세계에서 로봇이 지속적으로 효과적인 행동을 할 수 있게 합니다.
