
차트에서 숫자를 읽어내는 것만으로는 충분하지 않습니다. 막대의 높이에서 추출한 수치가 무엇을 의미하는지, 어떤 시점의 값인지, 어떤 범주에 속하는지가 함께 정의되어야 비로소 그 숫자는 데이터로서 기능합니다. 추출된 수치가 맥락 없이 나열된 상태는 데이터의 형태를 갖추지 않은 것과 같습니다. 차트 데이터 구조화는 이 맥락을 수치에 붙이는 작업입니다. 구조화된 데이터는 데이터 테이블에 딱 맞는 형태로, 숫자, 짧은 텍스트, 날짜와 같은 불연속형 데이터 유형을 포함하며 신속하게 쿼리하고 분석할 수 있습니다. 비정형 데이터는 이러한 형식에 적합하지 않아 특정 형식에 맞추는 사전 처리가 필요합니다. 차트 이미지는 전형적인 비정형 데이터입니다. 그것을 정형 데이터로 전환하는 과정이 차트 데이터 구조화이며, 이 과정에서 결정되는 것은 단순히 파일 형식이 아니라 데이터의 의미 체계입니다.
차트 데이터를 구조화할 때 가장 먼저 해야 하는 것은 메타데이터를 정의하는 일입니다. 수치 값 그 자체보다 그 값을 설명하는 정보가 먼저 설계되어야 합니다. 차트 하나를 구조화하려면 최소한 다음 항목이 정의되어야 합니다.
해당 차트가 어느 문서, 어느 페이지, 어느 발행 기관에서 나온 것인지를 기록합니다. 출처 정보가 없으면 추출된 수치는 검증할 방법이 없습니다.
막대형, 선형, 원형, 산점도 등 차트의 종류를 분류하여 기록합니다. 차트 유형은 데이터의 해석 방식을 결정하므로 구조화 초기에 확정되어야 합니다.
x축과 y축이 각각 무엇을 나타내는지, 단위는 무엇인지를 명시합니다. 같은 수치라도 단위가 다르면 완전히 다른 의미를 가집니다.
차트 안에 여러 계열이 있는 경우 각 계열이 무엇을 나타내는지 구분하여 기록합니다.
데이터가 어느 시점 또는 어느 기간을 기준으로 하는지 명시합니다.

차트 데이터를 어떤 형식으로 구조화할지는 이후 어떻게 사용할 것인지에 따라 달라집니다. 비정형 데이터를 구조화된 다층 프레임워크로 통합함으로써 전략적 비즈니스 의사 결정을 이끄는 신뢰할 수 있는 핵심 동력으로 전환할 수 있습니다. 가공 전 비정형 데이터를 수집하고, 이를 실행 가능한 형태로 변환하며, 이렇게 확장된 결과 데이터를 분석 도구와 연결하는 단계적 구조가 효율적입니다. 활용 목적에 따른 형식 선택은 다음과 같이 구분됩니다.


차트 이미지는 완전한 비정형 데이터처럼 보이지만 실제로는 반정형적 성격을 가집니다. 반정형 데이터는 정형 데이터와 비정형 데이터 사이에 있는 개념으로, 비디오 파일에 날짜, 위치, 주제 같은 정형 데이터 태그가 연결되어 있는 방식처럼 구조화된 메타데이터와 비정형 콘텐츠가 혼재하는 형태입니다. 차트도 마찬가지입니다. 제목, 단위, 범례, 출처 등은 이미 텍스트 형태로 존재하여 어느 정도 구조를 가지고 있습니다. 그러나 시각적으로 표현된 수치 데이터는 이미지에 비정형으로 잠겨 있습니다. 이 반정형적 특성 때문에 차트 데이터 구조화에서는 텍스트로 존재하는 메타데이터를 인식하는 작업과, 이미지에서 수치를 추출하는 작업이 별개의 단계로 이루어지면서 최종적으로 하나의 구조 안에서 결합됩니다. 두 작업의 결과가 일치하지 않는 경우, 예를 들어 범례 텍스트가 잘못 인식되거나 축 단위가 누락된 경우, 전체 구조화 결과의 신뢰성이 떨어집니다.

차트 데이터를 구조화하는 과정에서는 불가피하게 일부 정보가 손실됩니다. 원본 차트가 전달하던 시각적 맥락, 색상이 나타내던 의미, 데이터 포인트의 밀도가 주는 인상 등은 수치 테이블로 전환되면서 사라집니다. 이 손실이 문제가 되는 경우는 구조화된 데이터가 원본 차트를 완전히 대체하려 할 때입니다. 구조화된 데이터는 원본 차트를 대체하는 것이 아니라 원본 차트와 연결된 분석 가능한 형태로 공존하는 것이 올바른 활용 방식입니다. 원본 이미지를 참조 링크나 식별자로 구조화된 데이터와 연결해두면, 수치 분석이 필요할 때는 구조화된 데이터를 사용하고 맥락 확인이 필요할 때는 원본을 참조할 수 있는 구조가 만들어집니다.
단일 차트를 구조화하는 것과 수백 개의 차트를 일관되게 구조화하는 것은 다른 과제입니다. 문서마다 차트 유형이 다르고, 축 표기 방식이 다르며, 단위 표현이 다르기 때문에 구조화 기준이 사전에 명확히 설계되지 않으면 결과물이 일관성을 잃습니다. 비정형 데이터 처리에서 텍스트 구조화를 위해 수동으로 메타데이터 태깅을 하거나, 이미지에서 텍스트를 추출하여 텍스트 분석을 통해 메타데이터를 태깅하는 방식이 활용되며, 비정형 정보 관리를 위한 공통 프레임워크를 표준화하는 것이 대규모 처리에서 일관성을 확보하는 방법입니다. 대규모 문서 처리에서 구조화 일관성을 확보하려면, 구조화 기준을 스키마로 사전 정의하고 처리 과정에서 기준 준수 여부를 자동으로 검증하는 체계가 필요합니다. 단위 표기 변환 규칙, 범주명 통일 기준, 이상값 처리 방식 등이 기준 문서로 정리되어야 합니다.

차트 데이터를 구조화하는 목적은 데이터를 저장하는 것이 아니라 사용하는 것입니다. 인공지능 기술을 활용하면 재무 제표 또는 분석 보고서 등 포괄적인 분석 및 보고서 작성이 가능하며, 이러한 자동화 기능은 분석 과정에서 인간의 개입을 줄이고 수동적인 단계별 작업 필요성을 제거합니다. 구조화된 차트 데이터는 여러 문서에 분산된 수치를 하나의 기준으로 비교하고, 시계열 변화를 추적하며, 검색 질의에 응답하는 데 활용됩니다. 수십 편의 보고서에 흩어진 동일 지표의 연도별 수치를 하나의 테이블로 합산하거나, 특정 조건을 만족하는 차트를 문서 전체에서 필터링하는 것이 구조화된 데이터로 가능해집니다. 시각화를 위해 만들어진 차트가 구조화를 거쳐 분석의 재료가 되는 것, 이것이 차트 데이터 구조화가 만들어내는 가치의 방향입니다.
