
공공 데이터 구축 사업은 사회 발전에 필요한 데이터를 체계적으로 모으고 정리하는 과정입니다. 의료 진단용 영상, 자율주행용 도로 데이터, 음성 인식용 음성 데이터 등 다양한 분야에서 데이터가 필요합니다. 처음부터 끝까지 일관된 기준을 유지하고 품질을 보장하기 위해서는 체계적인 프로세스가 필수입니다. 무작정 데이터를 모으는 것이 아니라, 정확히 어떤 데이터를 왜 필요로 하는지 명확히 해야 합니다.
사업을 시작하기 전에 세부 기획이 가장 중요합니다. 이 단계에서는 데이터의 범위, 수량, 품질 기준, 필요한 시간, 예상 비용 등을 명확히 정의합니다. "얼마나 많은 데이터가 필요한가? 어떤 품질 수준을 유지해야 하는가? 누가 이 데이터를 사용할 것인가?"라는 질문에 정확히 답해야 합니다. 이 단계에서의 부정확함은 나중에 엄청난 비용 증가로 이어집니다.

사업을 발주하기 전에 고객(데이터를 필요로 하는 기관)과 상세한 대화를 통해 정확한 요구사항을 정의합니다. 기능 요구사항, 데이터 요구사항, 성능 요구사항, 보안 요구사항 등이 포함됩니다. 이 과정은 생각보다 오래 걸리며, 최소 수 주에서 수 개월이 소요될 수 있습니다. 하지만 이 단계를 철저히 하면 이후 많은 문제를 예방할 수 있습니다.

요구사항이 명확해지면 제안요청서를 작성하여 공식적으로 사업을 공고합니다. 이 문서에는 사업의 배경, 필요한 데이터의 상세 정의, 품질 기준, 일정, 예산 등이 포함됩니다. 입찰 업체들은 대략 40일의 기간 동안 제안서를 작성하여 제출합니다. 이 과정에서 기술적 실현 가능성, 비용 효율성, 경험 등이 평가됩니다.
▲ 제안요청서 작성: 상세한 요구사항과 기준 정의
▲ 공고 및 설명회: 입찰 업체들에 대한 사업 설명
▲ 제안서 평가: 기술능력, 비용, 경험도 등의 평가
▲ 협상 및 계약: 최종 선정 업체와의 조건 협상 및 계약 체결

계약이 완료되면 실제 사업이 시작되는 착수 단계에 들어갑니다. 이 단계에서는 프로젝트팀을 구성하고, 개발 환경을 설정하며, 상세한 일정을 수립합니다. 또한 데이터 수집 방법, 정제 방법, 품질 검증 방법 등을 구체적으로 결정합니다. 착수 보고서를 작성하여 고객과 발주처에 보고합니다.
데이터 수집은 여러 경로를 통해 진행됩니다. 기존 공개 데이터를 활용하기도 하고, 새로운 데이터를 직접 촬영하거나 녹음하기도 합니다. 크라우드소싱을 통해 일반인들의 참여를 받기도 합니다. 각 경로마다 품질 관리 기준을 정하고 체계적으로 수집합니다. 수집 과정에서 개인정보 보호, 저작권, 보안 등 법적 사항도 함께 관리해야 합니다.
수집된 데이터 중 많은 부분이 오류, 중복, 불완전함을 포함합니다. 이를 정제하는 과정이 가장 시간이 많이 걸립니다. 자동 도구를 사용하여 명백한 오류를 제거하고, 사람이 의심스러운 부분을 검증합니다. 품질 기준을 정하고 이를 만족하는 데이터만 다음 단계로 진행시킵니다.

수집된 데이터에 의미를 부여하는 라벨링 작업이 진행됩니다. 예를 들어 얼굴 데이터에는 "남자", "여자"라는 라벨을 붙이거나, 도로 영상에는 "차선", "횡단보도", "신호등" 등의 라벨을 붙입니다. 이 과정은 대부분 사람이 수동으로 진행하며, 노동력이 많이 필요합니다. 최근에는 자동화 도구와 수동 작업을 병행하여 효율성을 높입니다.
라벨링이 완료된 데이터에 대해 품질 검증을 수행합니다. 다른 사람이 작업 결과를 검증하고, 오류를 찾아 수정합니다. 또한 전체 데이터셋이 초기 요구사항을 만족하는지 확인합니다. 데이터의 다양성, 균형, 정확도 등이 기준을 충족하는지 검토합니다. 이 단계에서 발견된 문제는 수정되어야 하며, 일정에 반영됩니다.

모든 데이터가 수집, 정제, 라벨링, 검증되면 최종 산출물로 통합합니다. 폴더 구조를 정리하고, 메타데이터(데이터에 대한 정보)를 작성합니다. 또한 데이터 사용 설명서, 품질 보고서, 변수 설명서 등의 문서를 작성합니다. 이러한 문서들이 있어야 다른 사람들이 데이터를 제대로 이해하고 사용할 수 있습니다.
고객과 발주처가 최종 산출물을 검사합니다. 요구사항이 모두 충족되었는지, 품질 기준을 만족하는지, 문서가 완전한지 등을 확인합니다. 문제가 있으면 수정을 요청하고, 문제가 없으면 인수 승인을 합니다. 이 단계가 완료되어야 사업이 공식적으로 종료됩니다.
인수 승인이 이루어진 후에도 일정 기간 동안 안정화 지원이 이루어집니다. 데이터 사용 중 발생하는 문제를 해결하고 추가 요청사항을 처리합니다. 또한 데이터가 실제로 예상한 대로 작동하는지 모니터링합니다. 일반적으로 1개월에서 수개월 동안 지원한 후 최종 종료됩니다.
각 사업이 끝난 후에는 반드시 평가와 개선 사항 정리가 필요합니다. 무엇이 잘 되었는지, 무엇이 문제였는지, 다음 사업에서 개선할 점은 무엇인지를 기록합니다. 특히 데이터 품질, 일정 관리, 비용 관리 등의 측면에서 교훈을 도출합니다. 이러한 경험이 축적되면 점차 더 효율적이고 품질 높은 데이터 구축이 가능해집니다.
