이 기사의 핵심 내용은?

연구진이 대규모 언어 모델(LLM)에서 프롬프트 인젝션 공격을 유발하는 주요 보안 취약점인 '역할 혼동'을 확인했다. 모델의 내부 추론 과정을 모방한 텍스트를 입력할 경우, 안전 장치를 우회하는 공격 성공률이 61%에 달했다. 입력 텍스트의 형식을 단순화하는 '디스타일링' 기법을 적용하면 공격 성공률이 10%로 감소한다.

LLM 보안 취약점 '역할 혼동' 발견

•연구진이 대규모 언어 모델(LLM)에서 프롬프트 인젝션 공격을 유발하는 주요 보안 취약점인 '역할 혼동'을 확인했다.
•모델의 내부 추론 과정을 모방한 텍스트를 입력할 경우, 안전 장치를 우회하는 공격 성공률이 61%에 달했다.
•입력 텍스트의 형식을 단순화하는 '디스타일링' 기법을 적용하면 공격 성공률이 10%로 감소한다.

•연구진이 대규모 언어 모델(LLM)에서 프롬프트 인젝션 공격을 유발하는 주요 보안 취약점인 '역할 혼동'을 확인했다.
•모델의 내부 추론 과정을 모방한 텍스트를 입력할 경우, 안전 장치를 우회하는 공격 성공률이 61%에 달했다.
•입력 텍스트의 형식을 단순화하는 '디스타일링' 기법을 적용하면 공격 성공률이 10%로 감소한다.

찰스 예(Charles Ye), 재스민 추이(Jasmine Cui), 딜런 해드필드메넬(Dylan Hadfield-Menell) 연구진은 대규모 언어 모델(LLM)의 심각한 보안 취약점인 '역할 혼동(Role Confusion)'을 발견했다. 연구에 따르면 모델은 시스템이나 어시스턴트 태그 등으로 구분된 내부 명령과 사용자가 제공한 신뢰할 수 없는 입력을 제대로 구분하지 못하는 경향을 보인다.

특히 모델이 입력 내용의 본질보다 텍스트의 형식적 스타일을 우선시함에 따라 공격자가 안전 가이드라인을 강제로 무력화할 수 있음이 드러났다. 모델의 내부 추론 블록과 유사한 구조의 텍스트를 추가하면, AI는 유해한 요청을 허가된 것으로 오인하게 된다. 실제로 불법 약물 제조와 같은 유해 질문도 내부 로직처럼 형식화된 텍스트와 결합하면 보안 필터를 손쉽게 통과했다.

연구팀은 입력 텍스트의 스타일을 제거하는 '디스타일링(Destyling)' 기법이 이러한 위험을 상당히 완화한다고 설명했다. 실험 결과, 형식을 수정했을 때 프롬프트 인젝션 성공률은 기존 61%에서 10%로 급감했다. 이는 현재 모델들이 정교한 역할 인지 능력이 부족하여 서식 정보에 쉽게 현혹됨을 시사한다. 저자들은 모델의 역할 경계 설정 방식에 근본적인 개선이 이루어지지 않는 한, 새로운 공격이 계속 발생하는 '두더지 잡기'식 상황이 반복될 것이라고 경고했다.

찰스 예(Charles Ye), 재스민 추이(Jasmine Cui), 딜런 해드필드메넬(Dylan Hadfield-Menell) 연구진은 대규모 언어 모델(LLM)의 심각한 보안 취약점인 '역할 혼동(Role Confusion)'을 발견했다. 연구에 따르면 모델은 시스템이나 어시스턴트 태그 등으로 구분된 내부 명령과 사용자가 제공한 신뢰할 수 없는 입력을 제대로 구분하지 못하는 경향을 보인다.

특히 모델이 입력 내용의 본질보다 텍스트의 형식적 스타일을 우선시함에 따라 공격자가 안전 가이드라인을 강제로 무력화할 수 있음이 드러났다. 모델의 내부 추론 블록과 유사한 구조의 텍스트를 추가하면, AI는 유해한 요청을 허가된 것으로 오인하게 된다. 실제로 불법 약물 제조와 같은 유해 질문도 내부 로직처럼 형식화된 텍스트와 결합하면 보안 필터를 손쉽게 통과했다.

연구팀은 입력 텍스트의 스타일을 제거하는 '디스타일링(Destyling)' 기법이 이러한 위험을 상당히 완화한다고 설명했다. 실험 결과, 형식을 수정했을 때 프롬프트 인젝션 성공률은 기존 61%에서 10%로 급감했다. 이는 현재 모델들이 정교한 역할 인지 능력이 부족하여 서식 정보에 쉽게 현혹됨을 시사한다. 저자들은 모델의 역할 경계 설정 방식에 근본적인 개선이 이루어지지 않는 한, 새로운 공격이 계속 발생하는 '두더지 잡기'식 상황이 반복될 것이라고 경고했다.