이 기사의 핵심 내용은?

탐색적 샘플링은 디코딩 과정을 덜 탐색된 의미 경로로 유도해 LLM의 다양성을 높임 새로운 tLLM 프레임워크는 추론 중 vLLM 최적화 기준 대비 98.8%의 처리량을 달성함 잠재 예측 오류에서 도출된 참신함 신호가 추론 모델의 효율성을 크게 개선함

탐색적 샘플링으로 LLM 창의성 극대화하기

•탐색적 샘플링은 디코딩 과정을 덜 탐색된 의미 경로로 유도해 LLM의 다양성을 높임
•새로운 tLLM 프레임워크는 추론 중 vLLM 최적화 기준 대비 98.8%의 처리량을 달성함
•잠재 예측 오류에서 도출된 참신함 신호가 추론 모델의 효율성을 크게 개선함

대규모 언어 모델(LLM)에 질문을 던지면, 모델은 일반적으로 가장 확률이 높은 다음 단어를 선택하여 답변을 구성한다. 이는 단순한 작업에는 안정적이지만, 모델이 익숙하고 예측 가능한 패턴에 갇히게 만드는 명확한 한계를 지닌다. 즉, 모델은 학습한 내용을 반복하며 논리적 사고의 폭을 넓히기보다 현상 유지라는 안락함을 택하는 경향이 있다. 이에 상하이과기대학(ShanghaiTech University) 연구진은 '탐색적 샘플링(ESamp)'이라는 기발한 기술을 통해 이 문제를 해결하고자 했다.

탐색적 샘플링의 핵심 직관은 모델이 추론 과정에서 덜 사용된 대안 경로를 탐색하도록 강제하는 것이다. 이는 마치 매일 가던 출근길 대신 다른 경로를 선택해 도시의 새로운 풍경을 발견하는 것과 비슷하다. 연구팀은 모델의 내부 처리를 모니터링하는 가벼운 '잠재 증류기(Latent Distiller)'를 도입했다. 이 증류기는 프롬프트를 처음 이해하는 얕은 표현과 더 깊은 사고 단계의 표현을 비교하여, 답변이 지나치게 정형화되거나 중복되고 있는지 판단한다.

증류기가 모델의 예측이 매우 익숙한 경로로 흐르고 있다고 판단하면, 해당 경로를 표시한다. 이후 '참신함 신호(novelty signal)'를 보내 모델이 아직 탐색되지 않은 의미론적 방향으로 전환하도록 유도한다. 이러한 방식은 이론에 그치지 않고 수학, 과학, 코딩 벤치마크 전반에서 정확도 향상을 입증했다. 이는 더 나은 답변을 얻기 위해 항상 훨씬 큰 모델이 필요한 것은 아니며, 기존 모델을 더 영리하게 안내하는 방법이 필요함을 시사한다.

이러한 '테스트 시점' 개입의 가장 큰 난관은 보통 AI의 속도를 현저히 늦춰 실무 적용을 어렵게 만든다는 점이다. 이를 해결하기 위해 연구진은 tLLM이라는 비동기 시스템을 개발했다. 증류 과정을 메인 생성 흐름에서 분리함으로써, 탐색적 샘플링은 vLLM 최적화 기준 성능의 98.8%라는 놀라운 수준의 처리량을 유지했다.

결과적으로 개발자가 요구하는 원시적인 속도를 희생하지 않으면서도 정교하고 적응력 있는 추론 기능을 모델에 추가할 수 있음을 증명했다. 이는 학계의 깊이 있는 혁신과 생산 수준의 소프트웨어 공학이 요구하는 실용적 요건을 잇는 뜻깊은 교량 역할을 한다.

대규모 언어 모델(LLM)에 질문을 던지면, 모델은 일반적으로 가장 확률이 높은 다음 단어를 선택하여 답변을 구성한다. 이는 단순한 작업에는 안정적이지만, 모델이 익숙하고 예측 가능한 패턴에 갇히게 만드는 명확한 한계를 지닌다. 즉, 모델은 학습한 내용을 반복하며 논리적 사고의 폭을 넓히기보다 현상 유지라는 안락함을 택하는 경향이 있다. 이에 상하이과기대학(ShanghaiTech University) 연구진은 '탐색적 샘플링(ESamp)'이라는 기발한 기술을 통해 이 문제를 해결하고자 했다.

탐색적 샘플링의 핵심 직관은 모델이 추론 과정에서 덜 사용된 대안 경로를 탐색하도록 강제하는 것이다. 이는 마치 매일 가던 출근길 대신 다른 경로를 선택해 도시의 새로운 풍경을 발견하는 것과 비슷하다. 연구팀은 모델의 내부 처리를 모니터링하는 가벼운 '잠재 증류기(Latent Distiller)'를 도입했다. 이 증류기는 프롬프트를 처음 이해하는 얕은 표현과 더 깊은 사고 단계의 표현을 비교하여, 답변이 지나치게 정형화되거나 중복되고 있는지 판단한다.

증류기가 모델의 예측이 매우 익숙한 경로로 흐르고 있다고 판단하면, 해당 경로를 표시한다. 이후 '참신함 신호(novelty signal)'를 보내 모델이 아직 탐색되지 않은 의미론적 방향으로 전환하도록 유도한다. 이러한 방식은 이론에 그치지 않고 수학, 과학, 코딩 벤치마크 전반에서 정확도 향상을 입증했다. 이는 더 나은 답변을 얻기 위해 항상 훨씬 큰 모델이 필요한 것은 아니며, 기존 모델을 더 영리하게 안내하는 방법이 필요함을 시사한다.

이러한 '테스트 시점' 개입의 가장 큰 난관은 보통 AI의 속도를 현저히 늦춰 실무 적용을 어렵게 만든다는 점이다. 이를 해결하기 위해 연구진은 tLLM이라는 비동기 시스템을 개발했다. 증류 과정을 메인 생성 흐름에서 분리함으로써, 탐색적 샘플링은 vLLM 최적화 기준 성능의 98.8%라는 놀라운 수준의 처리량을 유지했다.

결과적으로 개발자가 요구하는 원시적인 속도를 희생하지 않으면서도 정교하고 적응력 있는 추론 기능을 모델에 추가할 수 있음을 증명했다. 이는 학계의 깊이 있는 혁신과 생산 수준의 소프트웨어 공학이 요구하는 실용적 요건을 잇는 뜻깊은 교량 역할을 한다.