사이먼 윌리슨, AI 대필 의혹 전면 부인
- •사이먼 윌리슨(Simon Willison)이 자신의 블로그 글을 생성형 AI로 작성했다는 의혹을 정면으로 반박했다.
- •이른바 'LLM 향기'로 오해받은 문체는 사실 2015년부터 사용해 온 엠 대시(em dash) 변환 파이썬 코드의 결과물로 밝혀졌다.
- •이번 사례는 문체적 패턴만으로 인간의 창작물을 AI 생성물로 오판하는 것이 얼마나 위험한지 잘 보여준다.
Django 웹 프레임워크의 공동 제작자이자 저명한 기술자인 사이먼 윌리슨(Simon Willison)이 자신의 블로그 콘텐츠를 작성하는 데 대규모 언어 모델(LLM)을 사용한다는 의혹에 대해 입장을 밝혔다. 이러한 비판은 흔히 'LLM 향기(LLM smell)'라고 불리는 특유의 문체나 서식, 혹은 독자들이 AI 생성 텍스트와 연관 짓는 구조적 패턴에서 비롯됐다. 윌리슨의 경우, AI 모델이 복잡한 중문을 구성할 때 자주 사용하는 문장 부호인 '엠 대시(em dash)'를 빈번하고 정확하게 사용한다는 점이 주된 의심의 근거가 되었다.
하지만 실제 이유는 현대의 AI 시대가 도래하기 훨씬 전의 평범한 기술적 설정에 있었다. 윌리슨은 이러한 문장 부호 사용이 2015년에 구현한 특정 파이썬 코드의 결과라고 공개했다. 해당 스크립트는 블로그 포스트를 자동으로 스캔하여 양옆에 공백이 있는 하이픈을 정식 엠 대시 부호로 변환한다. ChatGPT와 같은 모델이 등장하기 한참 전인 10년 전부터 적용된 이 자동화 도구는, 인간의 오랜 습관이 사후적으로 AI의 흔적으로 오인되는 현재의 디지털 환경을 단적으로 보여준다.
이번 사건은 순수하게 문체적인 느낌이나 '바이브'에 의존해 AI를 감지하는 것이 얼마나 어려운지 보여주는 중요한 사례가 된다. 사용자들이 AI 특유의 패턴에 익숙해질수록, 인간의 창의성이나 개인적인 자동화 노력을 기계적 결과물로 오판할 위험도 커진다. 윌리슨의 사례는 AI가 인간의 데이터를 학습하듯, 인간 또한 기계적인 일관성을 유지하기 위해 다양한 도구와 스크립트를 활용한다는 사실을 시사한다. 결국 특정 문장 부호나 서식만으로 글의 출처를 단정 짓는 방식은 한계가 명확할 수밖에 없다.