
문서 청킹은 텍스트를 효율적으로 관리하고 검색하기 위해 중요한 부분으로 나누는 과정으로, 대량의 정보를 더 작은 단위로 나누어 고품질의 응답을 제공하는 것이 주요 목적입니다. 교육, 직장, 학술 연구 등 다양한 분야에서 효율적인 정보 정리와 학습 효과를 향상시킬 수 있으며, 사용자가 필요한 정보를 더 쉽게 찾아낼 수 있고 복잡한 정보를 유의미한 단위로 나누어 이해하기 쉬워집니다.
LangChain 프레임워크가 문서 분할을 위한 다양한 옵션을 제공하며 여러 종류의 Text Splitter를 통해 텍스트 데이터를 효율적으로 처리할 수 있는 환경을 제공합니다. RAG 시스템을 활용하면 검색 기반과 생성 기반 접근 방식을 결합하여 출력의 품질과 관련성을 높일 수 있으며, 문서 샘플·청킹 도구·RAG 시스템 사전 설정이 체계적인 청킹 실습을 위한 필수 준비 요소입니다.


100자 단위 등 일정한 문자 수로 분할하여 데이터 일관성과 병렬 처리를 보장한다. Fixed Size Chunking이 문자 수에 따라 텍스트를 일정한 크기로 나누는 방법으로, 모든 청크가 동일한 크기를 가지므로 데이터를 병렬로 처리하거나 분석할 때 유리하며 간단한 알고리즘으로 구현할 수 있어 효율성이 높습니다. 단점은 의미 있는 문장이나 단락의 중간에서 잘릴 수 있어 중요 정보를 놓칠 위험이 있으므로, 문맥이나 의미를 유지해야 하는 상황에서는 다른 청킹 방법이 더 적합할 수 있습니다.
장·절 단위 계층적 반복 분할로 문서 구조와 의미를 동시에 보존한다. Recursive Chunking이 구분자를 사용하여 텍스트를 계층적이고 반복적으로 나누는 방법으로, 문서를 장 단위로 먼저 나눈 후 각 장을 절 단위로 다시 나누는 방식이 문서의 구조를 고려하면서도 세부적인 정보까지 체계적으로 분할합니다. 단점은 설정된 구분자가 적절하지 않으면 효과적인 분할이 어려울 수 있으므로 문서의 특성과 내용에 맞는 구분자를 정확히 설정하는 것이 중요합니다.
보고서·논문의 논리적 흐름을 보존하여 필요한 정보에 빠르게 접근한다. Document-Based Chunking이 문서의 구조를 고려하여 흐름과 내용을 기반으로 나누는 방법으로, 보고서나 논문에서 장·절·항목 등으로 나누어 청킹하면 독자가 필요한 정보를 빠르게 찾고 문서의 전체적인 맥락을 이해하는 데 유리합니다. 교육 자료나 기술 문서에서 각 주제의 이해를 돕기 위해 자연스럽게 단락을 구분하여 청킹함으로써 학습자가 각 단락에 집중하며 필요한 경우 특정 청크로 쉽게 돌아갈 수 있습니다.

Semantic Chunking이 문서의 의미를 추출하고 부분들 사이의 관계를 평가하기 위해 임베딩을 사용하는 방법으로, NLP 기술을 활용하여 텍스트의 각 부분을 수치화하고 유사성을 평가하여 유의미한 청크로 나눕니다. 기술 보고서나 연구 논문과 같이 복잡한 정보가 포함된 문서에서 각 청크의 의미가 명확히 드러나도록 하여 사용자가 정보를 쉽게 추출하고 활용할 수 있게 하며, 고객 리뷰 분석, 연구 데이터 정리, 대화형 AI 개발에서 특히 유용합니다.
Agentic Chunking이 LLM을 활용하여 문장을 Proposition으로 변환하고 이를 카테고리별로 묶어 청킹하는 방법으로, LLM이 자연어 처리 기술을 통해 각 문장을 Proposition으로 변환하여 문서의 각 부분을 논리적으로 카테고리화합니다. 대량의 텍스트를 관리해야 하는 고객 리뷰 분석이나 대화형 AI 개발에서 사용자의 발화 내용을 정확히 이해하고 관련된 정보를 효과적으로 분류할 수 있어, LLM과의 결합을 통해 복잡한 텍스트를 보다 체계적으로 관리하고 유용한 정보를 보다 빠르게 추출할 수 있습니다.
