DeepSeek, 강화 학습으로 '추론의 가성비' 시대를 열다
- •DeepSeek R1이 저비용 강화 학습을 통해 수학 및 코딩 분야에서 최상위권 성능을 기록했다.
- •네이처(Nature)의 동료 검토에서 R1-Zero의 시행착오 기반 훈련 방식의 효율성을 분석했다.
- •전문가들은 '생각하는 토큰'이 실제 인간의 논리적 사고 과정을 의미하지 않을 수 있다고 경고했다.
출시 1년 만에 DeepSeek은 실리콘밸리 거대 기업들의 막대한 예산 없이도 최고 수준의 '추론' 능력을 구현할 수 있음을 증명하며 업계에 파란을 일으키고 있다. DeepSeek의 R1-Zero와 R1 모델은 모델이 스스로 시행착오를 겪으며 정답에 대한 보상을 받는 방식인 강화 학습을 활용해 수학과 코딩 벤치마크에서 놀라운 성과를 거두었다. 특히 모든 단계에 값비싼 인간의 레이블링 데이터가 필요했던 기존 방식과 달리, 모델이 자율적으로 해답을 찾아내도록 유도함으로써 강력한 파운데이션 모델 개발의 진입 장벽을 획기적으로 낮췄다는 평가를 받는다.
하지만 최근 학술지 네이처에 게재된 동료 검토 결과에 따르면, 이러한 성과가 인상적임에도 불구하고 모델의 내부 작동 기제는 여전히 미지의 영역으로 남아 있다. 수바라오 캄밤파티(Subbarao Kambhampati, 애리조나 주립대학교 컴퓨터과학 교수)는 모델이 출력하는 '잠시만요'나 '아하!' 같은 추론 과정이 오해를 불러일으킬 수 있다고 지적했다. 즉, 모델이 문제를 처리하며 생성하는 개별 단위인 '생각하는 토큰(thinking tokens)'은 인간과 같은 성찰의 모습처럼 보이지만, 실제로는 논리적 분석이 아니라 훈련 과정에서 보상받은 통계적 패턴일 가능성이 크다는 것이다.
이러한 차이는 AI 안전성과 평가 분야에서 '단순한 문제 해결'과 '진정한 프로세스 이해' 사이의 간극을 명확히 보여준다. 특히 DeepSeek-R1과 같은 모델이 훈련 과정에서 이미 해당 벤치마크의 해답을 학습 데이터로 접했을 가능성이 있는 만큼, 연구자들은 고정된 테스트 결과에 지나치게 의존하는 것을 경계해야 한다고 조언한다. 결과적으로 AI의 효율성은 비약적으로 향상되었으나 추론이라는 '블랙박스'는 여전히 열리지 않은 상태이며, 현대 대규모 언어 모델 (LLM)이 보여주는 의인화된 결과물을 비판적인 시각으로 바라볼 필요가 있다.