이 기사의 핵심 내용은?

Thousand Token Wood v2는 4개의 서로 다른 소형 언어 모델을 활용해 시장 경제를 시뮬레이션한다. 개발진은 강력한 JSON 파싱 계층과 엄격한 방화벽을 통해 에이전트 정보를 관리했다. 정수 기반의 요약 시스템으로 메모리를 제한해 프롬프트 팽창을 막고 에이전트 행동을 일관되게 유지했다.

Thousand Token Wood v2, 이종 모델 기반 금융 시뮬레이션 공개

•Thousand Token Wood v2는 4개의 서로 다른 소형 언어 모델을 활용해 시장 경제를 시뮬레이션한다.
•개발진은 강력한 JSON 파싱 계층과 엄격한 방화벽을 통해 에이전트 정보를 관리했다.
•정수 기반의 요약 시스템으로 메모리를 제한해 프롬프트 팽창을 막고 에이전트 행동을 일관되게 유지했다.

2026년 6월 6일, 개발자 레스터 렁(Lester Leong)은 플레이어가 '후원자'가 되어 생명체 시장을 조종하는 멀티 에이전트 금융 시뮬레이션 게임 'Thousand Token Wood'의 두 번째 버전을 출시했다. 단일 0.5B 모델을 사용했던 이전 버전과 달리, v2는 gpt-oss-20b, MiniCPM3-4B, Nemotron-Mini-4B, 그리고 미세 조정된 Qwen 0.5B 등 서로 다른 연구소의 모델 4개를 조합한 이종 모델 군단을 활용한다. 이러한 구성은 모델별로 사재기나 투기 등 상이한 행동 특성을 보이게 하여 보다 현실적인 시장 역학을 구현한다.

멀티 모델 아키텍처의 기술적 구현은 모델 자체보다는 서빙 계층에서 주로 발생했다. vLLM 0.22.1 버전을 사용하던 중 커널 컴파일 오류가 발생했으나, CUDA 개발 베이스 이미지로 전환하여 해결했다. 각 모델은 서로 다른 양자화 형식과 토크나이저 특성을 요구했다. 시스템 안정성을 위해 내부 형식과 관계없이 모델 출력을 정제하는 중앙 집중식 JSON 파싱 및 복구 계층을 도입하여, 복잡한 수정 없이 간단한 설정만으로 원활한 통합을 가능하게 했다.

핵심 게임 메커니즘은 플레이어가 에이전트에게 '내부 정보'를 제공하는 정보 비대칭 시스템에 기반한다. 정보의 진위 여부를 숨기기 위해 엄격한 보안 방화벽을 적용했다. 정보가 참인지 거짓인지를 나타내는 숨겨진 플래그는 모델 프롬프트 외부의 플레이어 원장에 저장된다. 매 턴마다 자동화된 스위트가 각 생명체의 전체 프롬프트를 검사하여 비밀 플래그를 포함한 금지 토큰이 에이전트 컨텍스트로 유출되지 않도록 차단한다.

v2의 메모리 관리는 이력 데이터를 제한하여 소형 모델의 성능 저하를 초래하는 프롬프트 팽창을 방지한다. 모델은 원본 이력 대신 정수형 감정 수치에서 파생된 한 줄짜리 요약 정보를 받는다. 이 방식은 모델이 적대감이나 카르텔 행동과 같은 현재의 관계 상태에 따라 반응하도록 강제하며 시뮬레이션의 효율성을 유지한다. 시뮬레이션 결과, 0.5B 모델은 100% 유효한 제안을 생성하고 0%의 자가 매수율을 기록했으며, 보안 방화벽은 모든 플래그 유출을 성공적으로 차단하면서 플레이어가 전략적으로 시장 결과를 조작할 수 있도록 지원했다.

2026년 6월 6일, 개발자 레스터 렁(Lester Leong)은 플레이어가 '후원자'가 되어 생명체 시장을 조종하는 멀티 에이전트 금융 시뮬레이션 게임 'Thousand Token Wood'의 두 번째 버전을 출시했다. 단일 0.5B 모델을 사용했던 이전 버전과 달리, v2는 gpt-oss-20b, MiniCPM3-4B, Nemotron-Mini-4B, 그리고 미세 조정된 Qwen 0.5B 등 서로 다른 연구소의 모델 4개를 조합한 이종 모델 군단을 활용한다. 이러한 구성은 모델별로 사재기나 투기 등 상이한 행동 특성을 보이게 하여 보다 현실적인 시장 역학을 구현한다.

멀티 모델 아키텍처의 기술적 구현은 모델 자체보다는 서빙 계층에서 주로 발생했다. vLLM 0.22.1 버전을 사용하던 중 커널 컴파일 오류가 발생했으나, CUDA 개발 베이스 이미지로 전환하여 해결했다. 각 모델은 서로 다른 양자화 형식과 토크나이저 특성을 요구했다. 시스템 안정성을 위해 내부 형식과 관계없이 모델 출력을 정제하는 중앙 집중식 JSON 파싱 및 복구 계층을 도입하여, 복잡한 수정 없이 간단한 설정만으로 원활한 통합을 가능하게 했다.

핵심 게임 메커니즘은 플레이어가 에이전트에게 '내부 정보'를 제공하는 정보 비대칭 시스템에 기반한다. 정보의 진위 여부를 숨기기 위해 엄격한 보안 방화벽을 적용했다. 정보가 참인지 거짓인지를 나타내는 숨겨진 플래그는 모델 프롬프트 외부의 플레이어 원장에 저장된다. 매 턴마다 자동화된 스위트가 각 생명체의 전체 프롬프트를 검사하여 비밀 플래그를 포함한 금지 토큰이 에이전트 컨텍스트로 유출되지 않도록 차단한다.

v2의 메모리 관리는 이력 데이터를 제한하여 소형 모델의 성능 저하를 초래하는 프롬프트 팽창을 방지한다. 모델은 원본 이력 대신 정수형 감정 수치에서 파생된 한 줄짜리 요약 정보를 받는다. 이 방식은 모델이 적대감이나 카르텔 행동과 같은 현재의 관계 상태에 따라 반응하도록 강제하며 시뮬레이션의 효율성을 유지한다. 시뮬레이션 결과, 0.5B 모델은 100% 유효한 제안을 생성하고 0%의 자가 매수율을 기록했으며, 보안 방화벽은 모든 플래그 유출을 성공적으로 차단하면서 플레이어가 전략적으로 시장 결과를 조작할 수 있도록 지원했다.