1931년 이전 데이터만 학습한 13B AI 모델 'Talkie' 공개
- •연구진이 1931년 이전의 역사적 영어 텍스트로만 학습한 13B 파라미터 모델 Talkie를 발표했다.
- •이 프로젝트는 특정 시점의 지식으로 제한된 모델이 독자적인 추론 능력을 발휘할 수 있는지 검증한다.
- •Talkie는 저작권이 만료된 데이터를 기반으로 하며, 합성 데이터 미세 조정을 통해 대화 능력을 구현했다.
역사와 기계학습의 흥미로운 접점에서 연구진은 1931년 이전에 출간된 영어 텍스트로만 학습한 130억 개의 파라미터 언어 모델 'Talkie'를 선보였다. 대부분의 현대 AI는 현대 인터넷의 방대한 데이터에서 학습하며 그 과정에서 현대적 편향과 시대착오적 지식을 흡수한다. 반면, 이 프로젝트는 디지털 시대 이전의 세계관만을 포함하는 순수한 데이터셋을 구축하여 기존과는 다른 환경을 조성하고자 했다. 이를 통해 개발진은 AI가 현대 기술적 맥락을 배제하고도 수 세기 전의 지식 안에서 사고하고 대화할 수 있는지 탐구한다.
기술적 난제는 상당했다. 현대의 은어나 최신 지식의 '오염' 없이 기계에게 대화법과 지시 수행 능력을 가르쳐야 했기 때문이다. 연구팀은 약 2,600억 개의 토큰으로 구성된 역사적 데이터를 초기 모델에 학습시킨 후, 요리책이나 사전, 에티켓 매뉴얼 등 당시의 문헌에서 추출한 질의응답 쌍으로 미세 조정을 거쳤다. 또한 대화 능력을 배양하기 위해 Claude와 같은 최신 모델을 활용해 합성 데이터를 생성하는 재귀적인 과정도 병행했다.
연구의 핵심 목표 중 하나는 지식 차단점(knowledge cutoffs)의 개념을 실험하는 것이다. 연구팀은 이 모델이 1931년 이후에 발생한 과학적, 수학적 발견을 스스로 도출할 수 있는지 확인하고자 한다. 알베르트 아인슈타인(Albert Einstein)과 같은 역사적 인물이 가졌던 사고의 궤적을 AI가 재현할 수 있는지 시험하는 셈이다. 이는 단순한 정보 검색이 아니라, 모델의 순수한 논리적 추론 능력을 평가하는 테스트라 할 수 있다.
AI 학습의 윤리에 관심 있는 학생들에게 이 프로젝트는 신선한 관점을 제시한다. 연구진은 저작권이 만료된 공공 기록물만을 사용하여 데이터 출처와 저작권 문제를 정면으로 돌파했다. 개발진은 미세 조정 과정에서 현대적 영향력을 완벽히 차단하기 어렵다는 점을 인정하면서도, 궁극적으로는 과거의 모델이 스스로 결과를 수정하고 평가하는 완전한 자립형 시스템을 구축하고자 한다. 이는 오늘날 AI 지능의 상당 부분이 구조적 논리인지, 아니면 현대 인터넷 문화를 단순 복제한 결과인지 규명하는 중요한 이정표가 될 것이다.