파인튜닝이 학습 데이터 내 저작권을 복구하는 역설
- •안전성 정렬을 거친 모델이 파인튜닝 과정에서 억제되었던 저작권 데이터를 부주의하게 생성할 수 있다.
- •이른바 '정렬 두더지 잡기(alignment whack-a-mole)' 현상은 안전성 교육이 데이터의 완전한 삭제를 보장하지 못함을 시사한다.
- •지시 이행 모델이 매개변수 내에 여전히 방대한 원문 데이터를 보존하고 있음이 연구를 통해 입증되었다.
파인튜닝은 사전 학습된 모델을 특정 작업에 맞춰 최적화하는 과정으로, 일반적으로 모델의 성능과 안전성을 향상하는 수단으로 간주된다. 그러나 최근 연구에 따르면 이 과정이 모델의 활성 지식에서 삭제된 것으로 간주되던 민감한 저작권 데이터를 다시 불러내는 촉매제 역할을 할 수 있음이 드러났다. '정렬 두더지 잡기'로 불리는 이 현상은 인공지능이 습득한 지식을 완벽하게 제어하는 것이 얼마나 어려운 과제인지 잘 보여준다.
개발자가 모델을 정렬할 때, 이들은 본질적으로 원시 데이터 재현보다 안전성과 지시 이행을 우선하도록 모델을 조정한다. 하지만 모델은 초기 사전 학습 단계에서 방대한 양의 정보를 매개변수 내에 인코딩하므로, 해당 데이터는 매개변수 속에 잠재된 상태로 남아 있다. 특정 출력 패턴을 강화하는 파인튜닝 과정이 의도치 않게 이러한 잠재된 경로를 다시 활성화하는 결과를 낳는다.
이해를 돕기 위해 모델을 도서관에 비유해 보자. 기본 모델은 전체 소장 도서이며, 정렬은 특정 서가에 '열람 금지' 표지판을 붙이는 행위와 같다. 파인튜닝은 사서에게 새로운 업무 지침을 내리는 것과 같지만, 때로 사서가 지나치게 협조하려는 과정에서 붙여두었던 표지판을 잊고 사용자들을 금지된 구역으로 다시 안내하는 오류가 발생한다. 이는 단순히 기술적인 기행을 넘어 기계학습 분야의 중대한 난관으로 여겨진다.
특히 이러한 발견은 지적 재산권과 안전성 측면에서 커다란 도전 과제를 던진다. 모델이 데이터를 망각하는 것이 아니라 단순히 데이터에 대한 접근만을 억제하고 있음을 시사하기 때문이다. 거대언어모델 연구가 진전됨에 따라 적극적인 억제와 진정한 삭제 사이의 구분은 더욱 중요해지고 있다. 만약 인공지능이 안전성 프로토콜을 우회하여 저작권이 있는 도서를 그대로 읊을 수 있다면, 개발자가 져야 할 법적 및 윤리적 책임은 막대할 것이다.
결국 이번 연구는 현재의 모델 안전성 접근 방식이 근본적이기보다 사후 대응적이라는 사실을 강조한다. 업계는 현재 모델의 행동 변화를 쫓는 숨바꼭질을 반복하고 있는 셈이다. 연구자들이 정보를 정밀하게 삭제할 수 있는 구조적 솔루션을 개발하기 전까지, 모델이 독점적인 정보로부터 완전히 정화되었다는 주장에 대해서는 신중한 태도를 유지해야 한다.