
자율로봇이 독립적으로 행동하려면 매우 다양한 상황을 경험해야 합니다. 물체의 종류만 해도 수백 가지인데 각 물체마다 다양한 크기와 무게 변동이 있으므로 로봇이 충분히 일반화된 행동 능력을 갖추려면 그보다 훨씬 더 많은 경험 데이터가 필요하며 이는 단순한 시뮬레이션으로는 커버하기 어려운 규모입니다. 현실의 데이터 수집은 시간이 많이 걸립니다. 효율적인 데이터 수집 전략 없이는 필요한 규모의 데이터를 현실적인 시간 내에 모을 수 없으므로 초기 기획 단계부터 매우 신중한 접근이 필수입니다.
모든 가능한 물체와 작업을 다룰 수는 없으므로 대표적인 것들을 선택해야 합니다. 산업 현장에서 실제로 자주 다루어지는 물체들을 선정하고 각 물체에 대해 필요한 기본 작업들을 정의한 후 체계적으로 데이터를 수집하면 제한된 자원으로도 높은 효율성을 달성할 수 있을 것으로 판단됩니다. 선정의 기준이 애매하면 중요하지 않은 시나리오에 데이터를 낭비할 수 있습니다. 현장 전문가와의 협의를 통해 우선순위를 정확히 결정하는 것이 데이터 수집의 첫 단계이며 이 결정이 후속 모든 작업에 영향을 미칩니다.

RFM 데이터 수집을 위해서는 여러 종류의 센서가 필요합니다. 로봇 손가락의 위치를 추적하는 모션 캡처 시스템, 손가락과 물체 사이의 힘을 측정하는 F/T 센서, 물체의 위치 변화를 기록하는 카메라 등 이들을 모두 높은 정확도와 동기화 수준으로 운영해야만 신뢰할 수 있는 데이터를 얻을 수 있을 것으로 판단됩니다. 각 센서의 정확도가 불일치하면 전체 데이터의 신뢰성이 떨어집니다. 센서 간 정확도 편차를 최소화하기 위한 사전 보정과 정기적 재보정이 필수적이며 이를 통해서만 일관된 데이터를 얻을 수 있습니다.
초기에는 사람이 직접 로봇을 원격으로 조종하거나 손을 잡고 가이드하면서 데이터를 수집하는 경우가 많습니다. 이러한 데이터는 인간의 조작 기술을 반영하므로 로봇이 배우기에 좋은 예시가 될 수 있지만 인적 편향이 포함될 수 있으므로 다양한 작업자로부터 데이터를 수집하여 편향을 최소화해야 할 것으로 생각됩니다. 다양성 확보는 비용을 증가시킵니다. 비용과 데이터 다양성 사이의 균형을 현실적으로 맞춰야 하며 이는 프로젝트 예산과 목표의 타협입니다.

• 시나리오 분류: 수집할 조작 작업을 체계적으로 분류하고 우선순위 설정
• 멀티센서 동기화: 다양한 센서의 신호를 정확하게 정렬하고 기록
• 반복 수집: 같은 시나리오를 여러 번 반복하여 변동성 확보
• 메타데이터 기록: 각 데이터에 물체의 특성, 작업자 정보 등을 상세히 기록
• 실시간 품질 검증: 수집 중에 데이터의 이상을 감지하고 재수집 지시
• 자동 정제: 명백한 오류를 자동으로 식별하고 표시 또는 제거
• 통계적 이상 탐지: 분포로부터 벗어난 데이터를 자동으로 찾아내기
• 전문가 검수: 최종 단계에서 도메인 전문가가 데이터의 타당성을 검증

모든 시나리오를 현장에서 수집할 수는 없습니다. 시뮬레이션으로 생성한 데이터와 현실에서 수집한 데이터를 조합하면 수집 비용을 줄이면서도 필요한 규모의 데이터셋을 확보할 수 있을 것으로 기대되므로 시뮬레이션과 현실 데이터의 적절한 혼합이 효율적인 데이터 구축 전략입니다. 시뮬레이션 데이터의 신뢰성이 낮으면 혼합이 학습을 해친다는 우려가 있습니다. 시뮬레이션 정밀도를 충분히 높이거나 영역 적응 기법을 통해 이를 보정하는 방법이 필요하며 이는 기술적 복잡성을 높입니다.
데이터 수집은 한 번에 끝나지 않습니다. 시간이 지나면서 센서가 노후화되고 환경이 변하며 새로운 물체와 작업이 추가되므로 장기에 걸쳐 지속적으로 데이터를 수집하고 기존 데이터를 보완해야 할 것으로 예상됩니다. 수집 프로세스를 계속 유지하는 것은 비용입니다. 언제까지 데이터 수집을 계속할지, 어떤 주기로 새로운 데이터를 추가할지에 대한 운영 전략이 필요하며 이는 중장기 로드맵의 일부여야 합니다.

현장 데이터 수집에는 작업자가 포함될 수 있습니다. 영상에는 작업자의 얼굴이나 신원을 드러낼 수 있는 정보가 포함될 수 있으므로 이를 보호하기 위해 얼굴을 흐리게 처리하거나 특정 신체 부위만 기록하는 익명화 기법을 적용해야 할 것으로 판단됩니다. 익명화 과정에서 중요한 학습 정보가 손실될 수 있습니다. 개인정보 보호와 데이터 유용성 사이의 균형을 찾기 위해 법적 검토와 기술적 검토가 모두 필요하며 이를 통해서만 윤리적이면서도 효과적인 데이터 수집이 가능합니다.
장시간 수집된 데이터는 여러 버전을 가집니다. 수집 과정에서 센서를 업그레이드하거나 프로토콜을 변경하면 새로운 데이터와 이전 데이터의 호환성이 문제가 될 수 있으므로 각 버전의 차이를 명확히 기록하고 필요시 과거 데이터를 재처리하는 방식을 사용해야 합니다. 과거 데이터의 재처리는 시간과 자원을 소모합니다. 변경 사항을 최소화하고 변경할 때도 미리 계획하여 영향을 최소화하는 신중한 관리가 필요합니다.

충분한 규모의 데이터를 얻기 위해 여러 기관이 협력할 수 있습니다. 다양한 산업 현장과 다양한 로봇으로부터 데이터를 수집하면 일반화 능력이 매우 높은 RFM을 만들 수 있을 것으로 기대되지만 데이터 소유권과 사용 권한에 관한 계약이 복잡해질 수 있습니다. 데이터 공유 계약의 모호함은 분쟁을 초래합니다. 명확한 라이선스 체계와 공정한 이익 배분 원칙을 사전에 정하는 것이 협력 관계의 지속을 보장합니다.
