
PDF나 이미지 내에서 표가 위치한 좌표를 시각적으로 추론하는 단계입니다. 텍스트의 밀도를 계산하는 것이 아니라, 인공지능이 문서의 전체적인 레이아웃과 선의 흐름, 여백의 상관관계를 분석하여 표의 시작과 끝을 확정합니다. 이는 복잡한 다단 문서나 배경에 이미지가 섞인 보고서에서도 표의 경계를 오차 없이 찾아내어 이후 진행될 텍스트 추출의 무결성을 확보하는 기초 공정이 됩니다. 또한, 표 주변의 캡션이나 설명 문구를 별도로 인식하여 데이터의 맥락을 보존하는 고도화된 레이아웃 분석을 수행합니다.
식별된 표 구역 내에서 각 데이터가 위치한 행(Row)과 열(Column)의 인덱스를 계산합니다. 딥러닝 기반 모델은 물리적인 선이 없는 표에서도 텍스트 간의 수평 및 수직 정렬 상태를 파악하여 논리적인 격자 구조를 생성합니다. 이를 통해 각 셀에 담긴 정보가 어떤 카테고리에 속하는지 명확히 구분하며, 데이터가 서로 섞이거나 누락되지 않도록 칸 단위로 분리하는 기술적 정밀도를 제공합니다. 특히 불규칙한 간격을 가진 표에서도 데이터 간의 상관관계를 유추하여 구조적 오류를 최소화합니다.

추출된 표 구조를 마크다운의 표준 형식인 파이프(|)와 하이픈(-) 기호를 사용하여 텍스트로 변환합니다. 각 셀의 데이터를 순서대로 배치하고 헤더와 본문을 구분하는 구분선을 삽입하여, 사람이 읽기 편하면서도 컴퓨터가 즉시 처리할 수 있는 경량화된 데이터를 생성합니다. 이 과정에서 텍스트의 불필요한 공백을 제거하고 줄바꿈을 정돈하여, 마크다운 문서의 규격을 엄격히 준수함으로써 다양한 플랫폼에서의 호환성을 보장합니다. 단순 변환을 넘어 텍스트의 의미적 일관성을 유지하는 렌더링 최적화를 병행합니다.
가로 또는 세로로 병합된 복잡한 셀 구조를 마크다운 형식으로 재해석합니다. 마크다운은 기본적으로 셀 병합 기능을 지원하지 않기에, AI는 병합된 데이터를 하위 셀들에 반복 배치하거나 구조적 주석을 추가하여 원래의 의미가 훼손되지 않도록 보정합니다. 복잡한 다단 헤더의 경우 계층 구조를 파악하여 최하위 데이터가 상위 카테고리 정보를 잃지 않도록 텍스트를 구성하며, 이를 통해 변환된 마크다운 결과물만으로도 원본 표의 복잡한 논리 관계를 완벽하게 유추할 수 있도록 돕습니다.

디지털로 생성된 PDF뿐만 아니라 스캔된 문서나 사진 형태의 데이터에서도 정보를 추출하기 위해 고성능 광학 문자 인식(OCR) 기술을 결합합니다. 흐릿한 글씨나 기울어진 각도의 문서에서도 인공지능이 개별 문자를 정확히 판독하여 디지털 텍스트로 치환합니다. 특히 표 내부의 작은 숫자나 기호까지 정밀하게 인식하여 마크다운 셀 내부에 배치하며, 저품질 이미지 문서가 가진 정보의 사각지대를 제거하여 모든 인쇄된 지식을 디지털 자산으로 전환하는 역할을 수행합니다.

마크다운으로 변환된 표 데이터 상단에 문서 제목, 작성일, 페이지 번호 등 맥락 정보를 담은 메타데이터(YAML Frontmatter)를 자동으로 추가합니다. 이는 대규모 언어 모델(LLM)이 표의 수치만 보고 판단하는 것이 아니라, 해당 표가 어떤 배경에서 작성되었는지 이해하게 돕는 핵심 장치입니다. RAG 시스템에서 특정 수치를 검색할 때 연관된 텍스트 문맥을 함께 제공함으로써 검색의 정확도를 높이고, 인공지능이 더욱 정교한 답변을 생성할 수 있는 데이터 기반을 마련합니다.

변환 과정에서 발생할 수 있는 인식 오류를 잡기 위해 산술적 검증과 문맥 교정을 실시간으로 수행합니다. 표 하단의 합계 수치가 상단 데이터들의 합과 맞는지 AI가 직접 계산해보고, 불일치할 경우 해당 구역의 텍스트를 재인식합니다. 또한, 단위(원, $, %)가 생략되었거나 오타가 발생한 셀을 주변 문맥에 맞춰 자동으로 수정하여 데이터의 정확성을 일정 수준 이상으로 유지합니다. 이러한 자가 검증 프로세스는 사람이 개입하지 않아도 데이터의 신뢰도를 보장하는 기술적 기반이 됩니다.
표 내부의 굵게(Bold), 기울임(Italic) 등 텍스트 서식을 마크다운 문법(**, *)으로 치환하여 강조된 정보를 보존합니다. 또한 화살표, 별표, 체크 표시 등 특수 기호를 유니코드로 변환하여 의미적 손실 없이 텍스트로 구현합니다. 이는 표 안에서 중요하게 다뤄지는 수치나 상태 정보를 강조하는 효과를 주며, 변환된 마크다운 문서를 웹이나 문서 도구에서 열었을 때 원본 문서가 의도했던 강조 효과를 그대로 체감할 수 있도록 정교하게 설계되었습니다.

수천 건의 문서를 지연 없이 변환하기 위해 자원을 효율적으로 배분하는 분산 처리 시스템을 운용합니다. 클라우드 인프라를 활용하여 여러 대의 서버가 동시에 PDF를 분석하고 마크다운으로 변환함으로써 처리 속도를 극대화합니다. 기업의 대규모 아카이브 문서를 단시간에 지식 베이스화할 수 있는 성능을 제공하며, API 연동을 통해 기존 업무 워크플로우 내에서 실시간으로 표 데이터가 마크다운으로 변환되어 시스템에 적재되는 자동화된 흐름을 구축합니다.
데이터 추출 및 변환 과정에서 포함될 수 있는 개인정보나 기업 기밀 사항을 실시간으로 식별합니다. 주민등록번호, 계좌번호, 개인 연락처 등 민감한 항목은 보안 정책에 따라 자동으로 마스킹(***) 처리하거나 별도의 식별자로 대체합니다. 데이터의 활용 가치는 유지하면서도 정보 유출 사고를 사전에 차단함으로써, 기업의 컴플라이언스 규정을 준수하고 안전한 데이터 활용 환경을 제공하는 보안 중심의 설계 철학을 반영합니다.
다양한 산업군의 표 양식을 처리하면서 축적된 데이터를 바탕으로 변환 모델의 인식률을 지속적으로 고도화합니다. 사용자가 추출 결과물의 구조를 미세하게 조정한 이력을 학습 데이터로 환류하여, 시간이 지날수록 기업 특유의 서식이나 특수 문서 양식에 대한 재현 능력을 향상시킵니다. 인공지능은 반복되는 패턴을 스스로 학습하며 장기적으로는 어떠한 변형된 표 구조가 입력되더라도 완벽한 마크다운 문법으로 변환해내는 적응형 성능을 제공합니다.
성능 중심의 대용량 연산은 클라우드 환경에서 처리하고, 보안이 극도로 중요한 내부 기밀 문서는 사내 독립 서버(On-premise)에서 처리하는 유연한 구성 방식을 지원합니다. 데이터의 보안 등급과 규모에 따라 최적의 연산 자원을 할당하여 처리 효율을 높이고 운영 비용을 절감합니다. 기업 인프라 환경 속에서도 솔루션이 중단 없이 작동하며, 가장 안전하고 빠른 경로로 데이터를 자산화할 수 있도록 돕는 최종적인 기술 구현 기반이 됩니다.
