‘지식의 수치화’ 시대! 기업 내부 문서 벡터 데이터 구축 확산

벡터 데이터베이스 개념

‍

벡터 데이터베이스는 벡터를 고차원 포인트로 저장하고 검색하는 기능을 제공합니다. 엔 차원 공간에서 가장 가까운 이웃을 효율적이고 빠르게 조회할 수 있는 추가적인 기능을 추가하며 일반적으로 케이 최근접 이웃 인덱스로 구동되고 계층적 탐색 가능한 소규모 세계와 반전된 파일 인덱스 알고리즘과 같은 알고리즘으로 구축됩니다.

‍

벡터 데이터베이스는 데이터 관리와 내결함성 그리고 인증 및 액세스 제어와 쿼리 엔진과 같은 추가 기능을 제공하며 개발자는 임베딩으로 생성된 벡터를 벡터 데이터베이스에 인덱싱할 수 있습니다. 이를 통해 인접 벡터를 쿼리해 유사한 자산을 찾을 수 있으며 벡터 데이터베이스는 임베딩 모델을 운영하는 방법을 제공합니다.

‍

벡터 임베딩 정의

‍

벡터 임베딩은 단어와 구 또는 전체 문서 그리고 이미지 그리고 오디오와 같은 데이터를 나타내는 부동소수점 값의 숫자 배열입니다. 벡터는 개체의 특징을 나타내는 단순한 숫자 집합으로 그 개체가 단어인지 문장인지 문서인지 이미지 또는 동영상이나 오디오 파일인지는 무관합니다.

‍

컴퓨터는 이러한 유형의 비정형 콘텐츠를 비교하거나 검색하기 어렵기 때문에 벡터가 필요하며 반면에 컴퓨터가 벡터를 비교하거나 검색하는 것은 훨씬 쉽고 이는 컴퓨터가 잘 아는 수학을 기반으로 합니다. 벡터는 기반이 되는 데이터 객체나 그 객체의 링크와 함께 데이터베이스에 저장되고 수학적으로 서로 가까운 벡터는 유사한 특징을 가진 객체를 설명하는 경향이 있으므로 빠르게 비교하거나 검색해 유사한 객체를 반환할 수 있습니다.

‍

검색증강생성 구조

‍

검색증강생성은 사용자 입력을 활용해 먼저 새 데이터 소스에서 정보를 가져오는 정보 검색 구성 요소가 도입되었습니다. 사용자 쿼리와 관련 정보가 모두 대규모 언어 모델에 제공되며 대규모 언어 모델은 새로운 지식과 학습 데이터를 사용해 더 나은 응답을 생성합니다.

‍

대규모 언어 모델의 원래 학습 데이터 세트 외부에 있는 새 데이터를 외부 데이터라고 하며 인터페이스와 데이터베이스 또는 문서 리포지토리와 같은 여러 데이터 소스에서 가져올 수 있습니다. 데이터의 형식은 파일과 데이터베이스 레코드 또는 긴 형식의 텍스트와 같이 다양하고 임베딩 언어 모델이라고 하는 또 다른 인공지능 기법은 데이터를 수치로 변환하고 벡터 데이터베이스에 저장합니다.

‍

문서 전처리 과정

문서 데이터는 메타데이터와 함께 수집되고 개인 식별 정보 처리와 같은 초기 전처리를 거칩니다. 검색증강생성 애플리케이션에서 사용하려면 임베딩 모델 옵션과 문서를 컨텍스트로 사용하는 다운스트림 대규모 언어 모델 애플리케이션에 따라 문서를 적절한 길이로 분할해야 합니다.

‍

먼저 구축된 벡터 데이터베이스에 덩어리 형태로 백서 파일을 변환해야 하며 청크는 의미 있는 단위로 나누는 것을 의미합니다. 이후 청크 형태로 바뀐 신입사원 백서 데이터를 임베딩 모델에 넣어 벡터화하고 이렇게 벡터화된 신입사원 백서 데이터를 벡터 데이터베이스에 넣기 전 인덱싱을 통해 정렬하고 벡터 데이터베이스에 저장합니다.

‍

청킹 전략 중요성

‍

문서를 어떤 크기로 분할하는가 역시 결과에 영향을 주며 문서를 너무 작은 단위로 쪼개면 문맥 정보가 손실돼 의미 파악이 어려워집니다. 반대로 너무 큰 단위로 유지하면 관련 없는 정보가 많이 섞여서 생성 단계의 부담이 커지고 대부분의 검색증강생성 시스템은 토큰 정도의 청크를 사용하지만 이는 문서의 특성과 사용 목적에 따라 달라집니다.

‍

청킹 전략은 토큰 효율성과 의미적 일관성을 균형 있게 고려해야 하며 임베딩 벡터 변환이란 문서를 엔개의 숫자로 재 표현하는 것을 의미하는데 정보의 손실은 문서가 긴 경우에 정해진 벡터의 차원으로 표현하기 어려울 때 발생하게 됩니다.

‍

임베딩 생성 과정

‍

임베딩은 전문화된 머신 러닝 모델을 사용해 데이터를 숫자 벡터로 변환하고 수학적 연산을 적용해 데이터 조각 간의 유사성과 차이점을 평가할 수 있습니다. 임베딩을 사용하면 관련 없는 세부 사항을 폐기하면서 텍스트를 콘텐츠의 핵심 의미를 캡처하는 벡터로 변환할 수 있으며 임베딩 프로세스는 청크 데이터를 숫자 값으로 할당해 벡터 데이터베이스라는 더 큰 시스템 내에 인덱싱할 수 있습니다.

‍

사용자의 질문을 수치 벡터로 변환하며 컴퓨터가 언어의 의미를 비교하려면 텍스트를 숫자로 표현해야 하기 때문입니다. 이 벡터는 단어의 의미를 수학적으로 표현한 것으로 의미가 비슷한 문장들은 비슷한 벡터 값을 갖게 되고 이 과정을 임베딩이라고 부르며 사전 학습된 임베딩 모델이 담당합니다.

‍

‍

벡터 인덱싱 체계

이 숫자 값은 벡터 데이터베이스에서 검색증강생성 아키텍처가 콘텐츠 청크 간의 연관성을 표시하고 해당 데이터를 정리해 검색을 최적화할 수 있도록 지원합니다. 이 인덱싱은 벡터를 구조화해 유사한 개념이 인접한 좌표에 저장되도록 하는 것이 목표이며 문서 임베딩을 생성하고 이 데이터로 벡터 검색 인덱스를 수화합니다.

‍

벡터 데이터베이스는 고차원 공간에서 데이터의 수학 표현인 벡터 포함을 저장하고 관리하도록 설계된 데이터베이스입니다. 이 공간에서 각 차원은 데이터의 기능에 해당하며 정교한 데이터를 나타내기 위해 수만 개의 차원이 사용될 수 있고 이 공간에서 벡터의 위치는 해당 특성을 나타냅니다.

‍

유사도 검색 방법

‍

데이터에서 사용자의 쿼리와 관련된 부분을 검색하며 그러면 텍스트 데이터가 대규모 언어 모델에 사용되는 프롬프트의 일부로 제공됩니다. 검색된 관련 데이터를 컨텍스트에 추가해 사용자 입력을 보강하고 이 단계에서는 프롬프트 엔지니어링 기술을 사용해 대규모 언어 모델과 효과적으로 통신합니다.

‍

벡터 데이터베이스에서 포함은 벡터 거리 또는 유사성에 따라 벡터 검색 알고리즘을 통해 인덱싱되고 쿼리되며 가장 관련성이 높은 데이터를 식별하려면 강력한 메커니즘이 필요합니다. 벡터 데이터베이스를 사용해 콘텐츠와 테마 그리고 감정과 스타일을 기반으로 유사한 이미지와 문서 그리고 노래를 식별하고 특성과 기능 그리고 사용자 그룹에 따라 유사한 제품을 식별합니다.

‍

시맨틱 검색 구현

‍

개발자는 사용자가 정확한 문구가 아닌 개념으로 쿼리할 수 있는 검색 환경을 빌드할 수 있습니다. 또한 벡터는 동일한 공간에서 다양한 데이터 유형을 나타낼 수 있으므로 사용자가 텍스트 설명을 사용해 이미지를 검색하거나 입력 이미지를 사용해 관련 문서를 찾을 수 있는 멀티모달 검색 도구를 빌드할 수 있습니다.

‍

벡터 데이터베이스의 핵심 기능은 단순히 키워드를 일치시키는 것이 아니라 개념적으로 유사한 데이터 포인트를 식별하는 의미적 유사성 검색을 수행하는 것입니다. 머신 러닝 모델의 밀집 벡터 임베딩과 희소 벡터 임베딩을 모두 인덱싱하고 저장해 빠른 유사성 검색을 지원하고 이러한 임베딩은 텍스트와 이미지 그리고 오디오와 같은 비정형 데이터 내의 의미론적 관계를 포착합니다.

‍

하이브리드 검색 전략

‍

벡터 저장 공간 및 검색 기능을 전통적인 데이터베이스 기능과 결합한 통합 플랫폼은 상당한 이점을 제공합니다. 별도의 시스템 간에 데이터를 동기화할 필요가 없어 아키텍처가 간소화되고 가장 중요한 점은 어휘 검색과 벡터 검색 그리고 메타데이터 필터링을 단일 통합 쿼리로 수행할 수 있는 강력한 하이브리드 검색을 지원해 보다 관련성 높은 결과를 제공하고 개발자 경험을 개선한다는 것입니다.

‍

어휘 검색은 키워드 매칭을 기반으로 하며 쿼리에 있는 정확한 용어가 포함된 문서를 찾고 정확하지만 컨텍스트나 동의어를 이해하지는 못합니다. 벡터 검색은 의미론적 의미를 기반으로 하며 키워드를 공유하지 않더라도 쿼리와 개념적으로 유사한 문서를 찾고 사용자 의도를 파악하는 데 탁월하지만 어휘 검색보다는 정확도가 떨어질 수 있습니다.

‍

리랭커 적용 방법

‍

‍

검색증강생성의 성능을 향상 시키기 위해서는 질문에 대한 관련 문서가 컨텍스트에 존재할 뿐만 아니라 컨텍스트 내에서 그 순서 또한 상위권에 위치하고 있어야 합니다. 이에 대한 해결책으로 리랭커를 사용할 수 있으며 리랭커는 질문과 문서 사이의 유사도를 측정하는 것을 목표로 합니다.

‍

질문과 문서에 대한 독립적인 임베딩을 활용하는 바이인코더 형태의 벡터 검색과는 다르게 리랭커는 질문과 문서를 하나의 인풋으로 활용하는 크로스인코더 형태라는 점에서 차이를 보이고 있습니다. 리랭커는 질문과 문서를 동시에 분석함으로써 독립적인 임베딩 벡터 기반의 바이인코더 방식에 비해 더욱 정확한 유사도 측정이 가능하다는 장점을 가지고 있습니다.

‍

프롬프트 증강 단계

‍

확장된 프롬프트를 사용하면 대규모 언어 모델이 사용자 쿼리에 대한 정확한 답변을 생성할 수 있으며 프롬프트 증강의 구성 요소를 래핑하고 대규모 언어 모델을 엔드포인트로 쿼리합니다. 그러면 이 엔드포인트가 간단한 인터페이스를 통해 질의 응답 챗봇과 같은 애플리케이션에 노출될 수 있습니다.

‍

검색된 정보는 고차원 공간의 벡터로 변환되며 이러한 지식 벡터는 벡터 데이터베이스에 저장됩니다. 검색 모델은 입력 쿼리와의 관련성을 기준으로 검색된 정보의 순위를 매기고 추가 처리를 위해 가장 높은 점수를 받은 문서나 구절이 선택되며 다음으로 대규모 언어 모델과 같은 생성 모델은 검색된 정보를 사용해 텍스트 응답을 생성합니다.

‍

데이터 최신성 관리

‍

외부 데이터가 시간이 경과된 데이터가 된다면 어떻게 될까요. 최신 정보 검색을 유지하기 위해 문서를 비동기적으로 업데이트하고 문서의 임베딩 표현을 업데이트하며 자동화된 실시간 프로세스 또는 주기적 배치 처리를 통해 이 작업을 수행할 수 있습니다.

‍

검색증강생성의 장점은 최신 정보를 활용할 수 있다는 점에 있으며 검색증강생성은 외부 참조를 정기적으로 업데이트할 수 있으므로 모델이 가장 최근의 사실 및 관련 정보에 액세스할 수 있는지 확인합니다. 이렇게 하면 검색증강생성이 생성하는 응답에는 쿼리를 수행하는 사용자와 관련이 있을 수 있는 최신 정보가 포함됩니다.

‍

환각 현상 방지

‍

대규모 언어 모델을 리디렉션해 신뢰할 수 있는 사전 결정된 지식 출처에서 관련 정보를 검색하며 조직은 생성된 텍스트 출력을 더 잘 제어할 수 있고 사용자는 대규모 언어 모델이 응답을 생성하는 방식에 대한 인사이트를 얻을 수 있습니다.

‍

훈련되지 않은 복잡한 쿼리에 부딪혔을 때 대규모 언어 모델은 때때로 부정확한 응답을 제공하는 환각을 일으킬 수 있으며 검색증강생성은 관련 데이터 소스의 추가 참조를 근거로 하여 모호한 문의에 더 정확하게 응답할 수 있습니다. 대규모 언어 모델에 새 데이터를 더 비용 효율적으로 도입할 수 있고 검색증강생성은 필요한 컴퓨팅과 저장 공간이 더 적으므로 보다 비용 효율적인 옵션입니다.

‍

검색 품질 최적화

‍

검색증강생성을 대규모로 구현할 때는 여러 기술적과 운영적 과제가 발생합니다. 가장 강력한 대규모 언어 모델이라도 관련성이 낮거나 품질이 떨어지는 문서를 검색하면 부정확한 답변을 생성할 수 있으며 따라서 임베딩 모델과 유사도 측정 기준 그리고 랭킹 전략 등을 신중하게 선택한 효과적인 검색 파이프라인을 구축하는 것이 매우 중요합니다.

‍

전 세계 모든 문서를 활용할 수 있다고 해도 모델에 너무 많은 내용을 주입하면 소스가 잘리거나 답변이 희석될 위험이 있으며 특히 전문 분야나 비영어권 언어에서는 임베딩 품질이 떨어지는 경우가 많습니다. 일반적인 영어 텍스트로 학습된 임베딩 모델은 의학 용어나 법률 용어의 미묘한 차이를 잘 포착하지 못할 수 있습니다.

‍

‍