이 기사의 핵심 내용은?

Code2LoRA는 하이퍼네트워크를 통해 코드 LLM용 저장소별 어댑터를 생성하여 프로젝트 문맥을 주입한다. 이 프레임워크는 정적 모드와 함께 커밋 단위로 어댑터를 업데이트하는 GRU 기반 진화 모드를 제공한다. RepoPeftBench 테스트 결과, Code2LoRA-Evo는 92개의 외부 저장소에서 74.1%의 정확도(Exact Match)를 달성했다.

Code2LoRA, 코드베이스 문맥 적응형 프레임워크 공개

•Code2LoRA는 하이퍼네트워크를 통해 코드 LLM용 저장소별 어댑터를 생성하여 프로젝트 문맥을 주입한다.
•이 프레임워크는 정적 모드와 함께 커밋 단위로 어댑터를 업데이트하는 GRU 기반 진화 모드를 제공한다.
•RepoPeftBench 테스트 결과, Code2LoRA-Evo는 92개의 외부 저장소에서 74.1%의 정확도(Exact Match)를 달성했다.

•Code2LoRA는 하이퍼네트워크를 통해 코드 LLM용 저장소별 어댑터를 생성하여 프로젝트 문맥을 주입한다.
•이 프레임워크는 정적 모드와 함께 커밋 단위로 어댑터를 업데이트하는 GRU 기반 진화 모드를 제공한다.
•RepoPeftBench 테스트 결과, Code2LoRA-Evo는 92개의 외부 저장소에서 74.1%의 정확도(Exact Match)를 달성했다.

워털루 대학교 연구진은 코드 언어 모델에 필요한 문맥을 제공하기 위해 저장소별 저차원 적응(LoRA) 어댑터를 생성하는 하이퍼네트워크 프레임워크인 Code2LoRA를 발표했다. 해당 방식은 저장소 스냅샷이나 커밋 스트림을 직접 어댑터 가중치로 변환함으로써, 기존 RAG나 확장된 프롬프트 방식에서 발생하던 추론 시 토큰 오버헤드를 제거한다.

Code2LoRA는 크게 두 가지 모드로 작동한다. 단일 저장소 상태를 처리하는 'Code2LoRA-Static'과 커밋 차이(diff)를 통해 코드가 발전함에 따라 어댑터를 점진적으로 업데이트하는 GRU 기반의 'Code2LoRA-Evo'로 구성된다.

연구진은 성능 검증을 위해 604개의 파이썬 저장소와 수천 개의 단언 완성 태스크로 구성된 RepoPeftBench 데이터셋을 구축했다. 정적 트랙(학습 40K, 테스트 12K 태스크)에서 Code2LoRA-Static은 저장소 간 63.8%, 저장소 내 66.2%의 정확도를 기록하며 기존 저장소별 LoRA 학습 방식과 대등한 성능을 보였다.

215K개의 커밋 기반 학습 태스크와 87K개의 테스트 태스크로 이루어진 진화 트랙에서, Code2LoRA-Evo는 60.3%의 정확도를 기록하여 공유 LoRA 베이스라인 대비 5.2%포인트 향상된 수치를 나타냈다. 특히 학습 분포 외 92개 저장소로 구성된 홀드아웃 세트에서는 Qwen2.5-Coder 모델의 성능을 기존 44.6%에서 74.1%까지 끌어올렸다.

워털루 대학교 연구진은 코드 언어 모델에 필요한 문맥을 제공하기 위해 저장소별 저차원 적응(LoRA) 어댑터를 생성하는 하이퍼네트워크 프레임워크인 Code2LoRA를 발표했다. 해당 방식은 저장소 스냅샷이나 커밋 스트림을 직접 어댑터 가중치로 변환함으로써, 기존 RAG나 확장된 프롬프트 방식에서 발생하던 추론 시 토큰 오버헤드를 제거한다.

Code2LoRA는 크게 두 가지 모드로 작동한다. 단일 저장소 상태를 처리하는 'Code2LoRA-Static'과 커밋 차이(diff)를 통해 코드가 발전함에 따라 어댑터를 점진적으로 업데이트하는 GRU 기반의 'Code2LoRA-Evo'로 구성된다.

연구진은 성능 검증을 위해 604개의 파이썬 저장소와 수천 개의 단언 완성 태스크로 구성된 RepoPeftBench 데이터셋을 구축했다. 정적 트랙(학습 40K, 테스트 12K 태스크)에서 Code2LoRA-Static은 저장소 간 63.8%, 저장소 내 66.2%의 정확도를 기록하며 기존 저장소별 LoRA 학습 방식과 대등한 성능을 보였다.

215K개의 커밋 기반 학습 태스크와 87K개의 테스트 태스크로 이루어진 진화 트랙에서, Code2LoRA-Evo는 60.3%의 정확도를 기록하여 공유 LoRA 베이스라인 대비 5.2%포인트 향상된 수치를 나타냈다. 특히 학습 분포 외 92개 저장소로 구성된 홀드아웃 세트에서는 Qwen2.5-Coder 모델의 성능을 기존 44.6%에서 74.1%까지 끌어올렸다.