시각과 언어를 연결하는 기술 구조! 그래프 인식 모델이란

트렌드

2026-03-18

그래프를 보고 이해하고 파악하는 것부터

사람이 차트를 볼 때 일어나는 일을 생각해보면, 사실 이미지만 보는 것이 아닙니다. 막대의 높이를 비교하고, 축의 단위를 읽으며, 범례에서 계열의 의미를 파악하고, 그 모든 것을 종합하여 질문에 답합니다. 인공지능 모델이 그래프를 인식한다는 것도 이 전체 과정을 처리할 수 있어야 한다는 의미입니다.

‍

차트를 이해하는 것은 간단하지 않은 과제입니다. 값을 추출하고 수치 추론을 수행하는 데 상당한 노력이 필요하며, 차트 이해를 자동화하면 데이터를 다루는 전문가들의 생산성을 실질적으로 높일 수 있습니다. 그래프 인식 모델은 이 자동화를 목표로 하는 기술입니다. 그런데 인식과 이해는 다른 능력입니다. 차트 이미지에서 픽셀을 인식하는 것과, 그 안에 담긴 정보의 의미를 파악하고 질문에 답하는 것 사이에는 상당한 거리가 있습니다. 그래프 인식 모델의 역사는 이 거리를 좁혀가는 과정입니다.

‍

초기 접근법, 질문 유형을 제한하는 방식

‍

그래프 인식 분야의 초기 연구들은 모델이 답해야 하는 질문의 유형을 제한하는 방식으로 문제를 단순화했습니다. 초기 데이터셋인 FigureQA는 예·아니오 질문만을 다루었고, DVQA와 LeafQA는 답변 유형을 차트 안에서 찾을 수 있는 고정된 어휘 범위로 제한했습니다. PlotQA와 ChartQA는 개방형 어휘 답변을 포함했으나, PlotQA의 질문은 템플릿 기반으로 생성된 반면 ChartQA는 사람이 직접 작성한 질문을 포함하여 난이도가 높아졌습니다. 질문 유형을 제한하면 모델 평가가 수월해지지만 현실 환경과의 괴리가 커집니다. 실제로 차트를 분석하는 사람이 던지는 질문은 예·아니오로 답하기 어렵고, 차트 안의 단어로만 답이 한정되지도 않습니다. 그래서 연구는 점차 더 복잡한 질문 유형을 처리할 수 있는 모델을 향해 발전했습니다.

‍

두 가지 접근법, 차트를 텍스트로 먼저 변환하거나 직접 처리하거나

그래프 인식 모델의 기술 구조는 크게 두 방향으로 나뉩니다. 차트 이해에서 두 가지 주요 접근법이 등장했습니다. 첫 번째는 차트를 텍스트로 변환한 뒤 언어 모델로 처리하는 방식으로, 단순한 시각적 시나리오에서는 효과적이지만 복잡한 시각 요소가 있는 차트에서는 어려움이 있습니다. 두 번째는 시각 언어 모델을 활용한 직접적인 멀티모달 처리 방식으로, 점차 주목받고 있습니다. 텍스트 변환 방식은 차트 이미지를 데이터 테이블이나 텍스트 서술로 먼저 변환하고, 그 결과를 언어 모델이 처리하는 방식입니다. 이 방식은 언어 모델의 강력한 추론 능력을 활용할 수 있다는 장점이 있지만, 변환 과정에서 시각적 정보가 손실될 수 있습니다. 직접 멀티모달 처리 방식은 이미지와 텍스트를 동시에 입력받아 하나의 모델이 처리하는 방식으로, 시각적 맥락을 유지하면서 언어적 추론을 수행할 수 있습니다.

‍

‍

그래프 구조를 명시적으로 모델링하는 접근

‍

차트 안의 요소들은 서로 무관하게 존재하지 않습니다. 막대의 높이와 축의 눈금은 관계를 가지고, 범례의 색상과 데이터 계열은 연결되어 있으며, 제목은 전체 맥락을 제공합니다. 이 관계를 명시적으로 모델링하려는 접근이 그래프 구조 기반 인식 방법입니다. 시각 그래프와 텍스트 그래프를 모두 통합하여 구조적·의미적 특성을 포착하고, 그래프 대조 학습 전략이 여러 양식에 걸쳐 노드 표현을 정렬하여 변환기 디코더에 소프트 프롬프트로 매끄럽게 통합될 수 있도록 합니다. 이 방식은 위치 인코딩과 구조 인코딩을 통합하여 공간 관계와 차트 위상을 포착하며, 그래프 어텐션 네트워크와 그래프 동형 네트워크를 활용하여 그래프 기반 데이터에서 관계를 효과적으로 모델링합니다. 차트 구성 요소들 사이의 관계를 그래프 형태로 표현하고 이를 학습에 활용하면, 단순 이미지 픽셀을 처리하는 방식보다 차트의 구조적 의미를 더 잘 이해하는 방향으로 모델이 발전합니다.

‍

인식 과제와 인지 과제의 분리

그래프 인식 모델이 처리해야 하는 과제는 단순하지 않습니다. 연구에서는 이 과제를 인식 수준과 인지 수준으로 구분하는 방향으로 발전하고 있습니다. 인지 작업에는 차트 구조 추출, 차트 유형 분류, 차트 제목 추출이 포함되며, 인식 작업에는 질의 응답, 차트 설명, 차트 요약, 차트 재작성이 포함됩니다. 차트와 관련된 작업을 인식과 인지 두 단계로 분리하는 구조가 결과의 해석 가능성을 향상시킵니다. 이 분리 구조는 실용적인 이유에서도 중요합니다. 인식 단계를 먼저 처리하면 모델이 차트의 구조를 파악한 뒤 그 정보를 바탕으로 더 복잡한 질의에 답하는 방식이 가능해집니다. 모든 것을 하나의 단계에서 처리하려 할 때보다 각 단계를 명확히 분리했을 때 오류가 발생하는 지점을 파악하기 쉽고, 약한 부분을 선택적으로 개선하기도 수월합니다.

‍

모델이 실패하는 지점, 세 가지 유형

현재의 그래프 인식 모델이 어디서 실패하는지를 파악하는 것은 기술의 현재 위치를 이해하는 데 중요합니다. 차트 인식에서 모델이 어려움을 겪는 문제 유형은 색상 관련 문제, 구조 관련 문제, 텍스트 없는 그래프 문제로 나뉩니다. 텍스트 없는 그래프는 정확한 수치가 표시되지 않은 채 그래픽 요소만으로 데이터를 암묵적으로 표현하는 경우로, 수치 추론이 필요합니다. 색상 관련 실패는 차트에서 색상이 데이터 계열을 구분하는 유일한 수단인 경우 발생합니다. 색상 차이가 미세하거나 흑백 이미지인 경우 계열을 혼동합니다. 구조 관련 실패는 복합 차트나 중첩 시각화처럼 표준적이지 않은 구조에서 발생합니다. 텍스트 없는 그래프의 실패는 레이블이 없는 데이터 포인트의 값을 시각적 크기나 위치에서 추정해야 할 때 오류가 발생합니다. 기존 모델들은 정확한 답을 생성할 수 있지만 그 답에 대한 올바른 설명을 제공하지 못하는 경우가 있으며, 이는 모델이 진정으로 차트를 이해한 것이 아니라 통계적 패턴에 의존하고 있을 가능성을 시사합니다.

‍

여러 차트를 동시에 처리하는 방향

‍

단일 차트 인식을 넘어 여러 차트를 동시에 처리하는 능력을 갖추는 방향으로 연구가 확장되고 있습니다. 여러 차트를 다루는 질의 응답 능력을 평가하는 벤치마크가 등장했으며, 여러 차트에 걸쳐 정보를 비교하고 통합하는 다단계 추론 과정을 요구하는 유형의 질문을 처리하는 능력이 새로운 연구 방향으로 자리잡고 있습니다. 보고서 한 페이지에 여러 차트가 함께 있고, 그 차트들 사이의 관계를 파악해야 질문에 답할 수 있는 상황이 실제 업무 환경에서는 흔합니다. 단일 차트 인식에서는 좋은 성능을 보이는 모델도 여러 차트를 동시에 고려해야 하는 과제에서는 성능이 크게 낮아지는 현상이 관찰되고 있습니다.

‍

‍설명 가능성, 인식에서 설명으로

‍‍

‍

그래프 인식 모델의 최전선에서 주목받는 방향 중 하나는 답을 내는 것을 넘어 그 답에 이르는 과정을 설명할 수 있는 능력입니다. 차트에 대한 질의 응답에서 답과 함께 그 근거를 설명하는 데이터셋을 구축하고, 답 생성과 설명 생성을 하나의 연속된 과정으로 처리하는 방향이 연구되고 있습니다. 이 방향은 실용적인 이유에서 중요합니다. 의사결정에 활용되는 분석에서는 결론과 함께 그 근거가 제시되어야 신뢰할 수 있습니다. 모델이 올바른 수치를 출력했더라도 그 과정을 설명하지 못한다면, 오류가 발생했을 때 원인을 파악하기 어렵습니다. 단계적 추론 방식이 멀티모달 언어 모델에서 차트 인식의 설명 가능성과 정확성을 모두 향상시키는 방향으로 활용되고 있으나, 전반적인 성능 향상은 제한적이며 복잡한 시각 추론에서는 여전히 한계가 있습니다.

‍

그래프 인식 모델은 지금 어느 지점에 있는가

‍

그래프 인식 모델은 예·아니오 질문만 답하던 초기 단계에서 사람이 작성한 복잡한 질문을 처리하고, 여러 차트를 동시에 분석하며, 답의 근거를 설명하는 방향으로 발전해 왔습니다. 그러나 텍스트 없이 시각적 요소만으로 표현된 데이터의 수치 추론, 미세한 색상 차이로 구분되는 계열 인식, 표준적이지 않은 차트 구조 처리에서는 여전히 개선이 필요한 과제가 남아 있습니다. 하지만 기술의 발전으로 차트를 보는 것과 차트를 이해하는 것의 거리가 좁혀지고 있어 한계를 넘고 실질적인 대안이 될 것이라 예측됩니다.

‍

‍

목록보기