AI 비교하기AI 사용하기AI 최신정보AI 커뮤니티
우리의 비전이용약관개인정보처리방침문의하기

LLM 숨겨진 상태 활용해 텍스트 생성 없이 분류 수행

LLM 숨겨진 상태 활용해 텍스트 생성 없이 분류 수행

blog.j11y.io
2026년 6월 13일 (토)
  • •LLM은 텍스트를 생성하기 전 숨겨진 상태 내에서 분류 결정을 내리며, 이를 추출하면 효율적인 분석이 가능하다.
  • •IBM Granite 4.0 micro와 같은 소형 모델에 MLP 탐지기를 결합하여 제로샷 분류기를 구축할 수 있다.
  • •콘텐츠 캐싱과 KV 캐싱을 활용해 낮은 비용으로 고속 구조적 텍스트 분석을 구현한다.
  • •LLM은 텍스트를 생성하기 전 숨겨진 상태 내에서 분류 결정을 내리며, 이를 추출하면 효율적인 분석이 가능하다.
  • •IBM Granite 4.0 micro와 같은 소형 모델에 MLP 탐지기를 결합하여 제로샷 분류기를 구축할 수 있다.
  • •콘텐츠 캐싱과 KV 캐싱을 활용해 낮은 비용으로 고속 구조적 텍스트 분석을 구현한다.

거대언어모델(LLM)이 입력 프롬프트를 처리할 때, 모델의 내부 결정은 텍스트 생성 단계에 도달하기 전 숨겨진 상태(hidden state)에서 이미 완료된다. 비용이 많이 들고 속도가 느린 생성 과정을 거치는 대신, 개발자는 모델의 마지막 프롬프트 토큰—주로 전체 레이어의 약 70% 지점—에서 숨겨진 상태를 추출할 수 있다. 이를 MLP에 입력하면 보정된 확률 점수를 산출할 수 있다. 이 방식을 통해 표준 LLM을 수십 밀리초 내에 구조적 질문에 답하는 제로샷 분류기로 전환하며, 기존 임베딩 기반 분류기와 대등한 비용 효율성을 확보한다.

구현 과정에서는 IBM Granite 4.0 micro와 같은 소형 오픈 모델을 선택하고, 'Assessment:'와 같은 특정 시드 토큰으로 끝나는 일관된 프롬프트 템플릿을 구성한다. 분류기 학습을 위해 프런티어 모델로 수천 개의 합성 데이터를 생성하며, 저차원 적응(LoRA)을 선택적으로 활용해 레이블에 대한 텍스트 근거를 생성하도록 내부 기하 구조를 정교화함으로써 MLP 탐지기가 결정을 더 명확히 읽어내도록 한다. 추론 시에는 시드 토큰에서 모델을 중단시키며, 이미 잔차 스트림(residual stream)에 결정이 존재하므로 텍스트를 생성하지 않는다.

하나의 콘텐츠에 여러 기준을 평가할 때는 콘텐츠를 미리 채우고 KV 캐싱(Key-Value caching)을 활용해 성능을 최적화한다. 이를 통해 후속 기준을 짧은 이어 쓰기 형태로 처리하여 연산 부담을 크게 줄인다. 이 캐시 기반 방식은 대부분 작업에서 전체 추론과 통계적으로 동일하며, 특히 콘텐츠 이전에 기준을 배치하면 매 레이어마다 모든 콘텐츠 토큰이 질문에 주의를 기울이게 되어 복잡한 구문 분석에 유리하다. '프레디케이트(Predicate)'라 명명된 이 기술은 기존의 LLM 판별 방식으로는 경제적 타당성이 부족했던 안전성 스택 내 대규모 구조적 분석을 가능하게 한다.

거대언어모델(LLM)이 입력 프롬프트를 처리할 때, 모델의 내부 결정은 텍스트 생성 단계에 도달하기 전 숨겨진 상태(hidden state)에서 이미 완료된다. 비용이 많이 들고 속도가 느린 생성 과정을 거치는 대신, 개발자는 모델의 마지막 프롬프트 토큰—주로 전체 레이어의 약 70% 지점—에서 숨겨진 상태를 추출할 수 있다. 이를 MLP에 입력하면 보정된 확률 점수를 산출할 수 있다. 이 방식을 통해 표준 LLM을 수십 밀리초 내에 구조적 질문에 답하는 제로샷 분류기로 전환하며, 기존 임베딩 기반 분류기와 대등한 비용 효율성을 확보한다.

구현 과정에서는 IBM Granite 4.0 micro와 같은 소형 오픈 모델을 선택하고, 'Assessment:'와 같은 특정 시드 토큰으로 끝나는 일관된 프롬프트 템플릿을 구성한다. 분류기 학습을 위해 프런티어 모델로 수천 개의 합성 데이터를 생성하며, 저차원 적응(LoRA)을 선택적으로 활용해 레이블에 대한 텍스트 근거를 생성하도록 내부 기하 구조를 정교화함으로써 MLP 탐지기가 결정을 더 명확히 읽어내도록 한다. 추론 시에는 시드 토큰에서 모델을 중단시키며, 이미 잔차 스트림(residual stream)에 결정이 존재하므로 텍스트를 생성하지 않는다.

하나의 콘텐츠에 여러 기준을 평가할 때는 콘텐츠를 미리 채우고 KV 캐싱(Key-Value caching)을 활용해 성능을 최적화한다. 이를 통해 후속 기준을 짧은 이어 쓰기 형태로 처리하여 연산 부담을 크게 줄인다. 이 캐시 기반 방식은 대부분 작업에서 전체 추론과 통계적으로 동일하며, 특히 콘텐츠 이전에 기준을 배치하면 매 레이어마다 모든 콘텐츠 토큰이 질문에 주의를 기울이게 되어 복잡한 구문 분석에 유리하다. '프레디케이트(Predicate)'라 명명된 이 기술은 기존의 LLM 판별 방식으로는 경제적 타당성이 부족했던 안전성 스택 내 대규모 구조적 분석을 가능하게 한다.

원문 보기 (영어)·2026년 6월 10일
#llm#mlp#lora#kv caching#hidden state#classification#inference