빅토리아 시대 공공 문헌으로 학습한 AI 모델 공개
- •'미스터 채터박스'는 영국 도서관의 빅토리아 시대 아카이브에서 추출한 29억 개의 토큰만으로 학습되었다.
- •3억 4,000만 개의 파라미터를 보유한 소형 모델로서 현대적 스크레이핑 데이터 부재 시 발생하는 한계를 보여준다.
- •개발자는 안드레 카파시의 nanochat과 Claude Code를 활용해 모델의 로컬 통합 환경을 구축했다.
개발자 트립 벤추렐라(Trip Venturella)가 선보인 '미스터 채터박스(Mr. Chatterbox)'는 AI 학습 윤리에 관한 흥미로운 실험적 사례를 제시한다. 이 모델은 1837년부터 1899년 사이에 출판된 28,000개 이상의 빅토리아 시대 텍스트를 기반으로 구축되었다. 특히 영국 도서관(British Library)의 저작권 만료 컬렉션만을 데이터 소스로 활용함으로써, 현재 업계의 고질적인 문제인 무단 데이터 스크레이핑 논란을 정면으로 우회했다는 점이 특징이다.
그러나 모델의 역사적인 배경과는 별개로, 이번 프로젝트의 결과물은 현대적인 성능 구현을 위한 데이터 요구치가 얼마나 높은지를 역설적으로 보여준다. 3억 4,000만 개의 파라미터와 29억 3,000만 개의 학습 토큰만으로는 일관된 추론 능력을 확보하기에 역부족이었기 때문이다. 실제로 기술 검토자들은 모델의 응답 수준이 깊은 문맥 이해보다는 확률에 따라 다음 단어를 예측하는 수학적 체계인 마르코프 연쇄(Markov chain)와 유사하다고 평가했다.
결과적으로 이 프로젝트는 모델 규모에 걸맞은 방대한 데이터가 필수적이라는 친칠라 스케일링 법칙(Chinchilla scaling laws)의 중요성을 다시 한번 확인시켰다. 다만 모델을 로컬 환경에 배포하는 과정에서 보여준 기술적 시도는 상당히 유의미하다. 컴퓨터 과학자인 안드레 카파시(Andrej Karpathy)의 nanochat 프레임워크를 활용해 개인 하드웨어에서 모델을 실행할 수 있는 플러그인 제작을 자동화했으며, 이는 생성형 도구가 니치한 연구와 로컬 실행 간의 간극을 어떻게 메울 수 있는지 증명했다.