차트 데이터 파싱 기술: 문서 처리 파이프라인에서 가장 까다로운 단계

트렌드

2026-03-18

추출보다 앞서 일어나는 일, 파싱

차트에서 데이터를 꺼낸다고 할 때, 사람들은 대개 수치를 읽어내는 장면을 떠올립니다. 그러나 그 전에 더 근본적인 작업이 있습니다. 문서 안에서 차트가 어디 있는지를 찾고, 차트가 맞는지 판별하며, 차트를 둘러싼 다른 요소들로부터 분리하는 것입니다. 이것이 파싱입니다. 파싱은 추출의 전제 조건입니다. PDF는 단순 텍스트처럼 보여도 실제로는 표, 이미지, 머리말, 바닥글, 다단 레이아웃이 얽혀 있어 텍스트만 추출하면 관계가 쉽게 깨져버립니다. 사람이 읽던 의미와 맥락을 어떻게 파싱 단계에서 지켜낼 것인가가 핵심 과제입니다. 차트가 포함된 문서는 이 문제가 더 복잡합니다. 텍스트와 이미지가 혼재하고, 차트가 여러 페이지에 걸쳐 있거나, 텍스트 설명이 차트 옆에 배치되어 있을 때 이 관계를 올바르게 분리하고 보존하는 것이 차트 데이터 파싱 기술의 출발점입니다.

‍

문서에서 차트 영역을 찾는 방법

‍

차트 데이터 파싱의 첫 단계는 문서 안에서 차트가 있는 영역을 식별하는 것입니다. 이 과정은 문서 유형에 따라 다르게 접근됩니다. 텍스트 기반 문서 형식에서는 이미지 객체가 삽입된 위치를 식별하는 방식으로 처리됩니다. 그러나 스캔된 문서나 이미지 형식의 문서에서는 전체 페이지가 이미지로 존재하기 때문에 차트 영역을 별도로 분리하는 작업이 필요합니다. 인공지능 모델은 이미지를 개별 영역으로 분할하여 테이블, 로고, 서명 등 관련 영역을 분리하는 작업을 수행하며, 시각 언어 모델은 범례, 레이블, 데이터 포인트를 함께 해석하여 정확한 데이터 파싱을 보장합니다. 레이아웃 분석 모델은 페이지 전체를 입력으로 받아 텍스트 블록, 표, 이미지, 차트, 도표 등의 영역을 분류하고 경계를 표시하는 방식으로 작동합니다. 이 단계에서 차트로 분류된 영역만 이후 파싱 단계로 넘겨지며, 잘못 분류되면 이후 처리 전체가 빗나갑니다.

‍

레이아웃 분석이 파싱 품질을 결정하는 이유

레이아웃 분석은 차트 데이터 파싱 파이프라인에서 가장 앞에 위치하면서도 가장 과소평가되는 단계입니다. 차트 영역을 정확히 찾지 못하면 이후 파싱 단계가 아무리 정교해도 의미가 없습니다. 레이아웃 분석에서 발생하는 대표적인 오류 유형은 다음과 같습니다.

‍

영역 누락: 차트가 텍스트나 표와 시각적으로 가까이 붙어 있는 경우, 별도의 요소로 인식되지 않고 다른 영역에 합쳐집니다.

‍

영역 혼동: 복잡한 인포그래픽이나 다이어그램이 차트로 분류되거나, 반대로 차트가 일반 이미지로 분류되는 경우입니다.

‍

경계 오류: 차트 영역의 경계가 실제보다 좁거나 넓게 설정되어 축 레이블이나 제목이 잘려나가거나 주변 텍스트가 포함됩니다.

‍

다단 레이아웃 혼동: 두 열로 구성된 문서에서 차트와 텍스트 설명의 관계가 열 구조 때문에 잘못 연결됩니다.

‍

PDF 파싱에서 OCR 결과물에는 종종 띄어쓰기 오류, 깨진 문자, 불필요한 아티팩트가 섞여 나오며, 이미지와 코드의 경우 파서 성능이 부족하면 텍스트 추출은 되어도 의미 보존이 안 됩니다. 차트 파싱에서도 동일한 원칙이 적용됩니다. 영역 분리가 정확하지 않으면 이후 단계에서 의미를 보존하는 것이 불가능해집니다.

‍

‍

차트와 텍스트 설명의 관계를 파악하는 파싱

차트 데이터 파싱에서 가장 어려운 과제 중 하나는 차트와 그에 딸린 텍스트 설명의 관계를 올바르게 연결하는 것입니다. 차트 제목, 각주, 본문 내 캡션, 근접 텍스트는 모두 해당 차트의 맥락 정보를 담고 있습니다. 멀티모달 데이터 처리 기능은 텍스트와 시각적 데이터를 모두 처리할 수 있으며, 재무 보고서 텍스트와 차트를 동시에 분석하여 종합적인 인사이트를 도출할 수 있고 시각적 데이터에 대한 소스 출처 정보도 함께 제공되어 생성된 결과의 신뢰성을 높일 수 있습니다. 이 관계를 파악하는 방식은 크게 두 가지입니다. 위치 기반 방식은 차트 영역과 가장 가까운 텍스트 블록을 해당 차트의 설명으로 연결합니다. 의미 기반 방식은 텍스트 내용에서 차트를 언급하는 표현을 찾아 연결합니다. 두 방식이 조합될 때 연결 정확도가 높아지지만, 문서 구조가 복잡할수록 이 연결이 틀어지는 경우가 늘어납니다.

‍

문서 형식에 따른 파싱 방식의 차이

차트 데이터 파싱에서 문서 형식은 처리 방식을 크게 바꾸는 변수입니다. 문서 형식별 파싱의 특성은 다음과 같습니다.

‍

문서 파일 형식

표, 이미지, 머리말, 바닥글, 다단 레이아웃이 얽혀 있어 텍스트만 추출하면 관계가 쉽게 깨지는 구조입니다. 차트는 이미지 객체로 삽입된 경우와 그래프 객체로 삽입된 경우가 다르게 처리되어야 합니다. 그래프 객체로 삽입된 경우에는 원본 데이터가 문서 내에 내장되어 있어 직접 추출이 가능하지만, 이미지로 삽입된 경우에는 이미지 기반 파싱이 필요합니다.

‍

스캔 문서

전체가 이미지이기 때문에 레이아웃 분석과 차트 영역 분리가 모두 이미지 처리 기술에 의존합니다. 스캔 품질에 따라 파싱 정확도가 크게 달라집니다.

‍

슬라이드 형식

슬라이드마다 차트가 독립적으로 배치되는 경우가 많아 레이아웃 분석이 상대적으로 수월합니다. 다만 슬라이드 노트와 차트의 관계를 연결하는 처리가 추가로 필요합니다.

‍

웹 문서

차트가 이미지 태그, 캔버스 요소, 내장 스크립트 등 다양한 방식으로 구현되어 있어 파싱 방식을 통일하기 어렵습니다.

‍

멀티모달 파싱이 해결하는 문제

기존의 차트 데이터 파싱은 텍스트 처리와 이미지 처리를 별도의 파이프라인으로 운영하는 방식이었습니다. 이 분리된 구조에서는 차트와 주변 텍스트의 관계가 파싱 단계에서 끊어지는 문제가 반복되었습니다. 시각 언어 모델은 이미지와 텍스트 이해를 결합하여 복잡한 시각 데이터를 처리하며, 이미지를 고립된 시각적 요소로 분석하는 것이 아니라 그들이 포함하거나 관련된 텍스트의 맥락에서 분석합니다. 멀티모달 파싱은 텍스트와 이미지를 동시에 처리함으로써 이 끊어짐 문제를 구조적으로 해소합니다. 텍스트와 시각적 데이터로부터 콘텐츠를 추출하고 선택된 임베딩 모델을 사용하여 의미 임베딩을 생성한 후 벡터 저장소에 저장하는 방식으로 처리되어, 이후 질의 응답에서 차트와 텍스트가 통합된 맥락으로 검색될 수 있습니다. 이 방식에서 차트는 고립된 이미지가 아니라 문서 전체 맥락 안에 위치한 정보 단위로 처리됩니다.

‍

파싱 품질을 검증하는 방법

‍

차트 데이터 파싱 결과의 품질을 검증하는 것은 어렵습니다. 수치 추출 단계에서는 원본값과 비교하여 오차를 측정할 수 있지만, 파싱 단계의 품질은 정량화하기 쉽지 않습니다. 실무에서 활용되는 검증 방식은 다음과 같습니다. 레이아웃 분석 결과를 원본 문서 위에 오버레이하여 영역 분류와 경계가 올바른지 시각적으로 확인합니다. 차트와 텍스트 설명의 연결 관계를 샘플로 추출하여 실제 문서와 대조합니다. 정확도 한계로 저화질 이미지나 레이아웃이 복잡한 문서에서는 정확도가 떨어지며, 복잡한 레이아웃에서는 정보가 틀어질 수 있습니다. 이 검증 결과를 바탕으로 파싱 파이프라인의 어느 단계에서 오류가 발생하는지를 파악하고 선택적으로 개선하는 방식이 현실적입니다.

‍

파싱이 잘 되어야 이후가 의미 있다

차트 데이터 파싱은 화려한 기술이 아닙니다. 차트를 찾고, 분리하고, 주변 맥락과 연결하는 이 과정은 눈에 잘 띄지 않지만 이후 모든 처리의 품질을 결정합니다. 수치 추출이 정확해도 차트 영역이 잘못 분리되어 있으면 그 수치는 원래 문서의 어느 차트에서 나온 것인지 알 수 없습니다. 텍스트 설명과의 연결이 끊어지면 추출된 데이터는 맥락을 잃습니다. 차트 데이터 파싱 기술의 발전 방향은 더 화려한 분석 기능이 아니라, 문서 안에서 차트의 위치와 관계를 더 정확하게 파악하는 능력을 높이는 방향입니다. 파싱이 완전해지는 만큼, 이후 모든 처리의 신뢰성이 높아집니다.

‍

‍

목록보기