
대규모 언어 모델의 추론 성능이 낮은 이유는 모델 구조의 문제이기도 하지만, 학습에 사용된 데이터의 문제이기도 합니다. 논리적 추론, 정보 통합, 근거 있는 주장 구성, 복잡한 문제의 단계적 해결 등에서 여전히 한계가 존재하며, 일관성과 추론성에서 지속적으로 높은 점수를 얻은 모델은 없습니다. 단답형 질문에는 유창하게 응답하더라도 여러 단계가 필요한 문제, 전제와 결론을 연결하는 판단, 맥락을 종합하는 추론에서는 오류가 발생하는 이유는 모델이 이러한 방식의 추론을 충분히 학습하지 못했기 때문입니다. 추론 성능 개선 데이터는 이 공백을 채우기 위해 설계된 학습 자원으로, 어떤 데이터를 어떻게 구성하느냐가 성능 개선의 폭을 결정합니다.
추론 성능 개선을 목표로 하는 데이터는 일반적인 질문-답변 데이터와 설계 의도가 다릅니다. 일반 학습 데이터는 올바른 출력 결과를 모델에 학습시키는 것이 목표인 반면, 추론 성능 개선 데이터는 올바른 판단에 이르는 과정을 학습시키는 것이 목표입니다. 단답형 질문 외에 유추가 필요한 질문, 복합적인 질문에도 대응할 수 있도록 추론 능력을 향상시키는 학습 데이터를 구축하는 것이 목표이며, 단일 유형의 추론은 물론 여러 개의 과제가 섞인 복합 유형의 추론도 포함해야 합니다. 이 차이가 데이터 구성 방식에서 그대로 드러납니다. 최종 답변만 담긴 데이터는 추론 성능 개선에 거의 기여하지 못하며, 문제를 분석하고 판단을 전개하는 과정이 명시적으로 서술된 데이터가 필요합니다.

추론 성능 개선을 위한 학습 데이터는 목표로 하는 추론 유형에 따라 구성 방향이 달라집니다. 아래는 대표적인 유형과 각각의 구성 방향입니다.


추론 성능 개선 데이터를 구축하는 방법 중 하나는 지식 증류 방식입니다. 더 큰 교사 모델에서 생성된 출력을 미세 조정을 통해 직접 활용함으로써 더 작은 모델이 더 큰 추론 모델의 사고 과정을 학습하도록 하는 방식입니다. 이미 높은 추론 성능을 갖춘 모델이 생성한 추론 과정을 학습 데이터로 활용하여, 상대적으로 소규모 모델의 추론 능력을 향상시키는 방식입니다. 이 방식의 장점은 수작업으로 추론 과정을 서술하는 것보다 데이터를 빠르게 확보할 수 있다는 점입니다. 그러나 교사 모델의 오류나 편향이 그대로 학습 데이터에 반영될 수 있다는 위험이 있으며, 생성된 데이터에 대한 검수 절차가 반드시 병행되어야 합니다. 소량의 선별된 데이터셋만으로도 모델이 경쟁 수준의 추론 성능을 발휘할 수 있다는 연구 결과가 있으며, 이는 데이터의 양보다 질이 추론 성능 개선에 더 결정적임을 보여줍니다.
강화학습 방식은 추론 성능 개선에서 지도학습 방식과 다른 접근법을 취합니다. 모델이 스스로 추론을 시도하고 결과의 정확성에 따라 보상을 받는 방식으로 학습하기 때문에, 미리 서술된 추론 과정 데이터 없이도 추론 전략을 습득할 수 있습니다. 이 방식에서는 정답을 자동으로 검증할 수 있는 문제 유형이 필수적입니다. 수학 계산이나 코드 실행 결과처럼 정답이 명확한 문제는 강화학습 방식에 적합하며, 자연어 추론이나 도메인 판단처럼 정답 검증이 어려운 문제는 별도의 보상 모델이 필요합니다. 보상 모델은 모델이 생성한 추론 과정의 논리적 타당성을 평가하는 역할을 하며, 보상 모델 자체의 품질이 추론 성능 개선의 방향을 결정합니다.

추론 성능 개선 데이터의 품질은 데이터 내용만이 아니라 구축 환경 설계에도 영향을 받습니다. 구축 단계에서부터 오류를 줄일 수 있도록 맞춤형 구축 환경을 마련하고, 작업자의 인지 부하량을 줄이는 방식으로 오류가 발생할 수 있는 지점을 사전에 제거하면 이후 검수 자원까지 절약할 수 있습니다. 추론 과정을 서술하는 작업은 일반 레이블링보다 인지 부하가 높기 때문에, 작업 환경이 잘 설계되지 않으면 작업자의 피로도가 높아지면서 후반부로 갈수록 데이터 품질이 낮아지는 현상이 발생합니다. 어노테이션 도구의 화면 구성, 입력 필드의 순서, 가이드라인 접근 방식 등 환경 설계 요소가 데이터 품질에 실질적인 영향을 미칩니다.
추론 성능 개선 데이터는 구축 이후 실제로 모델 성능을 향상시키는지 검증하는 과정이 필요합니다. 데이터 내부 검수와 모델 학습 후 성능 평가는 별개의 과정입니다. 내부 검수는 추론 과정의 논리적 정확성과 가이드라인 준수 여부를 확인하는 과정이며, 모델 성능 평가는 실제로 학습된 모델이 목표로 한 추론 과제에서 개선된 성능을 보이는지를 별도의 평가 데이터셋으로 측정하는 과정입니다. 고품질 데이터 선별과 도메인별 샘플링 기법이 모델 성능 향상에 긍정적 영향을 미쳤으며, 데이터 품질 필터링과 중복 제거가 추론 능력 향상에 직결된다는 점이 실험을 통해 확인되었습니다. 검증 결과를 바탕으로 데이터를 보완하고 재학습하는 순환 구조가 갖추어져야 추론 성능 개선이 지속적으로 이루어집니다.

범용 추론 성능 개선 데이터와 달리, 특정 분야의 추론 성능을 높이려면 해당 도메인의 문제 유형과 판단 기준이 반영된 데이터가 별도로 필요합니다. 도메인 특화 데이터를 전문 지식 없이 구성하면 논리 구조가 그럴듯해 보이더라도 사실 오류나 현장 기준과 맞지 않는 판단이 포함될 수 있습니다. 이런 데이터로 학습한 모델은 오히려 해당 도메인에서 잘못된 판단을 더 자신 있게 출력하는 방향으로 조정될 위험이 있습니다. 도메인 특화 추론 성능 개선을 목표로 할 때는 전문가가 검수 단계에 참여하는 구조가 필수적이며, 도메인 데이터와 범용 추론 데이터를 균형 있게 혼합하는 방식이 특정 유형에만 편향되는 문제를 줄이는 데 도움이 됩니다.

