
사람이 어떤 기술을 배울 때 처음에는 동작 하나하나를 의식적으로 수행하지만, 익숙해질수록 여러 동작을 자연스럽게 이어 붙여 실행합니다. 자전거를 탈 때 핸들을 어느 방향으로 돌릴지, 페달을 얼마나 밟을지를 매 순간 따로 계산하지 않는 것과 같습니다. 로봇이 사람의 동작을 보고 배우는 모방학습에서도 비슷한 문제가 생깁니다. 로봇에게 동작을 하나씩 가르치면 작은 오류가 쌓이면서 결국 전체 동작이 무너지는 현상이 반복됩니다. 이를 해결하기 위해 나온 방법이 Action Chunking입니다. 연속된 동작을 묶어서 하나의 단위로 학습시키는 방식으로, 학습 데이터를 어떻게 가공하느냐가 이 방식의 성패를 결정합니다.
로봇에게 물건을 집는 동작을 가르친다고 가정해 보겠습니다. 손을 뻗는 동작, 손가락을 오므리는 동작, 물건을 들어 올리는 동작을 각각 따로 예측하도록 학습시키면, 앞 동작에서 조금이라도 어긋난 결과가 다음 동작의 입력으로 들어갑니다. 이 오류가 단계마다 조금씩 쌓이다 보면 마지막 동작에서는 처음 의도와 완전히 다른 결과가 나옵니다. 마치 전화 메시지를 10명이 차례로 전달할수록 내용이 달라지는 것과 비슷합니다. Action Chunking은 이 문제를 피하기 위해 여러 타임스텝의 동작을 하나의 묶음으로 예측하고 실행합니다. 예측이 한 번에 이루어지기 때문에 묶음 안에서는 오류가 누적되지 않습니다.

Action Chunking 방식에서 로봇은 현재 상황을 보고 앞으로 일어날 동작 여러 개를 한꺼번에 예측합니다. 이 동작 묶음을 청크(chunk)라고 부릅니다. 로봇은 이 청크 전체를 실행한 다음, 다시 현재 상황을 보고 다음 청크를 예측하는 방식으로 작동합니다. 초당 50회 제어를 기준으로 하면 하나의 청크가 1~2초 분량의 동작에 해당합니다. 중요한 것은 청크 안의 동작들이 하나의 일관된 관측 상황에서 만들어지기 때문에, 동작 전체가 매끄럽고 내부적으로 일관성을 유지한다는 점입니다. 사람이 "이 상황에서 다음에 이렇게 움직일 것이다"를 한 번에 계획하는 방식과 유사합니다.

Action Chunking 기반 학습에서 데이터는 사람이 로봇을 직접 조종하며 시연하는 방식으로 수집됩니다. 리더-팔로워 구조에서는 사람이 리더 로봇을 움직이면 팔로워 로봇이 같은 동작을 따라하며 데이터가 기록됩니다. 이때 카메라로 촬영된 이미지와 로봇 관절의 위치 정보가 함께 저장됩니다. 데이터 하나의 구조는 간단합니다. 이 순간 로봇이 무엇을 보고 있었는지(관측값), 그 순간 팔이 어느 위치에 있었는지(행동값)가 시간 순서대로 연결된 형태입니다. 이 시퀀스 전체를 청크 단위로 잘라서 학습 데이터를 구성합니다. 과제의 종류에 따라 수십 번의 시연만으로도 유의미한 학습이 가능하다는 점이 이 방식의 장점 중 하나입니다.

청크 하나에 동작을 몇 개나 담을지, 즉 청크 크기는 학습 결과에 직접 영향을 미치는 설계 결정입니다. 청크가 너무 짧으면 청크와 청크 사이의 전환이 잦아져 동작이 끊기는 느낌이 생깁니다. 반대로 너무 길면 실행 도중 상황이 바뀌어도 정책이 처음 예측한 동작을 그대로 이어가기 때문에 유연하게 대응하지 못합니다. 과제에 따라 적절한 청크 크기가 다르므로, 정밀한 접촉이 많고 반응 속도가 중요한 작업일수록 청크 크기를 상황에 맞게 조정해야 합니다. 이 설계 판단이 데이터 가공 방식의 핵심 중 하나입니다.
같은 작업을 시연해도 사람마다 조금씩 다르게 동작합니다. 빠르게 집는 사람, 천천히 접근하는 사람, 왼쪽에서 먼저 손을 뻗는 사람이 있습니다. 이 다양성을 그대로 두면 모델이 "어떤 동작이 정답인가"를 학습하기 어렵습니다. Action Chunking 기반 학습에서는 이 변동성을 잠재변수라는 개념으로 처리합니다. 동작 궤적을 관통하는 '방식의 특징'을 압축해서 표현하고, 학습할 때는 이 특징을 함께 반영하되 실제 실행 시에는 고정된 기본값을 사용합니다. 이 구조 덕분에 모델은 성공한 시연들의 공통점을 학습하면서도 세부 스타일의 차이로 인한 혼선을 줄일 수 있습니다. 이 처리 방식이 제대로 작동하지 않을 경우, 사람 시연 데이터에서의 성능이 크게 저하됩니다.

청크 단위로 동작을 실행하다 보면 한 청크가 끝나고 다음 청크가 시작되는 경계 지점에서 동작이 갑자기 전환되는 느낌이 생길 수 있습니다. 이를 부드럽게 만들기 위해 시간적 앙상블(temporal ensembling) 방식을 사용합니다. 한 시점의 동작을 결정할 때 가장 최근 청크 하나만 쓰는 것이 아니라, 최근에 예측된 여러 청크에서 같은 시점에 해당하는 동작값들을 가중 평균으로 합산합니다. 최근 예측일수록 높은 가중치를 주는 방식으로, 경계에서의 급격한 전환을 완화하고 전체 동작 흐름을 자연스럽게 이어줍니다. 실행 측면에서 큰 추가 연산 없이 동작 품질을 높일 수 있는 방법입니다.
완벽하게 깔끔한 시연 데이터만으로 학습된 로봇은 실제 환경에서 미세하게 어긋난 상황에 취약해질 수 있습니다. 시연 때와 조금만 달라도 학습 분포에서 벗어나기 때문입니다. 이 문제를 줄이기 위해 데이터 수집 단계에서 의도적으로 작은 위치 오프셋(노이즈)을 궤적에 추가하는 방법이 사용됩니다. 실제 환경에서 발생하는 작은 오차를 미리 학습 데이터에 반영하는 것입니다. 이 방법은 추가 시연 데이터를 더 수집하지 않고도 기존 데이터의 다양성을 높일 수 있어, 시간과 비용 측면에서 효율적입니다. 단, 노이즈의 크기와 분포는 과제의 정밀도 요구 수준에 따라 조정해야 합니다.
Action Chunking 기반 학습에서 관측 데이터는 카메라 이미지 하나로 한정되지 않습니다. 로봇 관절의 위치와 속도, 힘·토크 센서 값, 언어 명령 등 다양한 입력이 함께 가공되어 모델에 전달됩니다. 국내 연구에서는 상단·정면·손목 3개 카메라 이미지와 로봇 말단부 위치를 함께 수집하는 방식이 사용되었고, 언어 명령을 추가 입력으로 통합한 연구에서는 같은 동작에 대해 다양한 언어 표현을 학습 데이터에 포함시켜 다양한 명령에 대응 가능한 정책을 만들었습니다. 여러 입력을 함께 사용할 때는 각 센서의 타이밍을 맞추고 입력값의 스케일을 통일하는 전처리 과정이 데이터 가공 단계에서 반드시 이루어져야 합니다. 이 과정이 부실하면 학습 자체가 불안정해집니다.
Action Chunking 기반 학습에서 모델 구조 못지않게 중요한 것이 데이터를 어떻게 가공하느냐입니다. 청크 크기를 얼마로 설정하는지, 시연 데이터의 변동성을 어떻게 처리하는지, 노이즈를 어떻게 추가하는지, 멀티모달 입력의 전처리를 어떻게 통일하는지 등 데이터 가공 단계의 결정들이 최종 로봇 정책의 성능을 결정합니다. 조립 공정, 정밀 조작, 의료 보조, 물류 작업 등 정확성이 요구되는 분야에서 Action Chunking 기반 학습이 빠르게 적용되고 있는 이유도 여기에 있습니다. 좋은 학습 데이터는 좋은 모델 구조만큼이나 결과에 영향을 미칩니다. 데이터를 어떻게 구조화하고 가공하는지가 로봇이 동작을 배우는 방식 자체를 결정합니다.
