이 기사의 핵심 내용은?

PFN, 모델 생성 코드를 안전하게 실행하는 샌드박스 환경 개발 AWS Lambda 활용해 외부 통신 차단 및 저비용 격리 환경 실현 데이터 압축 기술로 Lambda 통신 제한 극복 및 대규모 평가 가능

PFN, 코드 생성 AI 평가용 '안전한 샌드박스' 구축

•PFN, 모델 생성 코드를 안전하게 실행하는 샌드박스 환경 개발
•AWS Lambda 활용해 외부 통신 차단 및 저비용 격리 환경 실현
•데이터 압축 기술로 Lambda 통신 제한 극복 및 대규모 평가 가능

AI 개발의 최전선에 서 있는 Preferred Networks(PFN)는 자사의 거대언어모델 'PLaMo'의 성능 평가를 가속화하기 위해, 생성된 프로그램을 안전하게 테스트할 수 있는 전용 '샌드박스' 환경을 구축했다. HumanEval이나 LiveCodeBench와 같은 벤치마크 과정에서는 AI가 작성한 코드에 테스트용 프로그램을 결합해 실제로 실행하며 정확성을 측정한다. 다만 AI가 시스템을 파괴하는 명령어나 외부 네트워크 무단 접속 시도 등 위험한 코드를 출력할 가능성이 존재한다는 점이 문제였다. 이러한 코드를 무방비하게 실행할 경우 개발 인프라 전체가 마비될 위험이 있기에, 외부로부터 철저히 격리된 환경에서의 검증은 필수적이다.

PFN은 이러한 격리 환경을 AWS Lambda라는 서버리스 서비스를 활용해 구현해냈다. 기존에는 컨테이너 관리 시스템인 Kubernetes를 사용해 왔으나, 여러 클라우드와 슈퍼컴퓨터를 병용하는 개발 환경에서 일관된 범용성을 확보하기 위해 내린 결정이다. 이 새로운 시스템은 IAM 인증을 통해 권한이 확인된 요청만 수락하며, VPC 설정을 통해 Lambda로부터 나가는 모든 통신을 차단했다. 그 결과 설령 위험한 코드가 실행되더라도 사내망이나 외부 인터넷에 미치는 영향을 원천 봉쇄하는 데 성공했다.

경제성 면에서도 성과가 눈에 띈다. AWS의 프리 티어를 적극 활용함으로써 월간 수만 건의 벤치마크를 매우 저렴한 비용으로 수행하고 있다. 아울러 Lambda의 리퀘스트 크기 제한(6MB)이라는 기술적 한계 역시 데이터 압축 및 샌드박스 내 압축 해제 방식을 통해 영리하게 극복했다. 덕분에 데이터 규모가 큰 프로그래밍 문제에서도 안정적인 평가 체계를 유지할 수 있게 됐다. 이처럼 견고한 평가 기반을 마련하는 것은 AI의 안전한 사회적 안착을 위해 모델 자체의 성능을 높이는 것 이상으로 중요한 과정이라 할 수 있다.

AI 개발의 최전선에 서 있는 Preferred Networks(PFN)는 자사의 거대언어모델 'PLaMo'의 성능 평가를 가속화하기 위해, 생성된 프로그램을 안전하게 테스트할 수 있는 전용 '샌드박스' 환경을 구축했다. HumanEval이나 LiveCodeBench와 같은 벤치마크 과정에서는 AI가 작성한 코드에 테스트용 프로그램을 결합해 실제로 실행하며 정확성을 측정한다. 다만 AI가 시스템을 파괴하는 명령어나 외부 네트워크 무단 접속 시도 등 위험한 코드를 출력할 가능성이 존재한다는 점이 문제였다. 이러한 코드를 무방비하게 실행할 경우 개발 인프라 전체가 마비될 위험이 있기에, 외부로부터 철저히 격리된 환경에서의 검증은 필수적이다.

PFN은 이러한 격리 환경을 AWS Lambda라는 서버리스 서비스를 활용해 구현해냈다. 기존에는 컨테이너 관리 시스템인 Kubernetes를 사용해 왔으나, 여러 클라우드와 슈퍼컴퓨터를 병용하는 개발 환경에서 일관된 범용성을 확보하기 위해 내린 결정이다. 이 새로운 시스템은 IAM 인증을 통해 권한이 확인된 요청만 수락하며, VPC 설정을 통해 Lambda로부터 나가는 모든 통신을 차단했다. 그 결과 설령 위험한 코드가 실행되더라도 사내망이나 외부 인터넷에 미치는 영향을 원천 봉쇄하는 데 성공했다.

경제성 면에서도 성과가 눈에 띈다. AWS의 프리 티어를 적극 활용함으로써 월간 수만 건의 벤치마크를 매우 저렴한 비용으로 수행하고 있다. 아울러 Lambda의 리퀘스트 크기 제한(6MB)이라는 기술적 한계 역시 데이터 압축 및 샌드박스 내 압축 해제 방식을 통해 영리하게 극복했다. 덕분에 데이터 규모가 큰 프로그래밍 문제에서도 안정적인 평가 체계를 유지할 수 있게 됐다. 이처럼 견고한 평가 기반을 마련하는 것은 AI의 안전한 사회적 안착을 위해 모델 자체의 성능을 높이는 것 이상으로 중요한 과정이라 할 수 있다.