이 기사의 핵심 내용은?

Gemma 4 26B MoE는 아랍어 중심 프롬프트 규칙 적용 후 카탈로그 기반 응답 능력이 크게 향상됐다. 반면 31B 덴스 모델은 동일한 프롬프트 강화 이후 사용 가능한 품목에 대한 요청을 거부하는 사례가 증가했다. 전문가는 MoE 아키텍처가 덴스 모델보다 순차적 작업 지시를 더 효과적으로 처리할 가능성이 있다고 분석했다.

Gemma 4, 프롬프트 조건에 따라 아키텍처별 성능 차이 확인

•Gemma 4 26B MoE는 아랍어 중심 프롬프트 규칙 적용 후 카탈로그 기반 응답 능력이 크게 향상됐다.
•반면 31B 덴스 모델은 동일한 프롬프트 강화 이후 사용 가능한 품목에 대한 요청을 거부하는 사례가 증가했다.
•전문가는 MoE 아키텍처가 덴스 모델보다 순차적 작업 지시를 더 효과적으로 처리할 가능성이 있다고 분석했다.

•Gemma 4 26B MoE는 아랍어 중심 프롬프트 규칙 적용 후 카탈로그 기반 응답 능력이 크게 향상됐다.
•반면 31B 덴스 모델은 동일한 프롬프트 강화 이후 사용 가능한 품목에 대한 요청을 거부하는 사례가 증가했다.
•전문가는 MoE 아키텍처가 덴스 모델보다 순차적 작업 지시를 더 효과적으로 처리할 가능성이 있다고 분석했다.

알리 아파나(Ali Afana)는 구글의 Gemma 4 26B(Mixture-of-Experts) 모델과 31B(Dense Model) 모델의 성능을 GPT-4o, GPT-4o-mini와 비교 테스트했다. 해당 환경은 아랍어 기반의 멀티 테넌트 전자상거래 챗봇으로, 제품 검색을 위해 라우터를 거친 뒤 모델이 최종 아랍어 응답을 생성하는 구조이다. 테스트에는 총 34개 제품과 일반 문의부터 수학적 계산이 필요한 배송 정책 질문까지 6가지 고객 시나리오가 포함되었다.

초기 테스트에서 두 Gemma 모델은 환각보다는 응답을 주저하는 경향을 보였다. 모델들은 제공된 문맥 내에서 특정 항목을 찾는 대신 응답이 늦어지거나 모호한 답변을 내놓았다. Gemma 4 26B의 응답 속도는 28~77초, 31B 모델은 30~43초로 나타났으며, 이는 7~14초 내외인 GPT-4 제품군보다 현저히 느린 수준이다.

이에 대해 아파나는 아랍어 우선 시스템 프레임 추가, 온도를 0.3으로 고정, 최소 400 토큰 설정이라는 세 가지 프롬프트 규칙을 적용했다. 그 결과 MoE 방식인 26B 모델은 제품과 가격을 정확히 나열하며 카탈로그 기반 응답 능력이 개선되었다. 반면 31B 덴스 모델은 데이터가 문맥 내에 존재함에도 제품을 찾을 수 없다는 식의 거짓 부정 응답을 생성하기 시작했으며, 간헐적으로 HTTP 500 오류가 발생하기도 했다.

아파나는 이러한 결과 차이가 모델 크기가 아닌 아키텍처에서 비롯된다고 추정한다. 모든 매개변수가 활성화되는 덴스 모델은 지시 사항을 획일적으로 적용해 거부 규칙을 과도하게 수행할 가능성이 있다. 반면 MoE 아키텍처는 토큰마다 서로 다른 매개변수 하위 집합을 선택적으로 활용하므로, 검색 후 응답과 같은 순차적 지시를 더 유연하게 처리할 수 있는 것으로 보인다.

알리 아파나(Ali Afana)는 구글의 Gemma 4 26B(Mixture-of-Experts) 모델과 31B(Dense Model) 모델의 성능을 GPT-4o, GPT-4o-mini와 비교 테스트했다. 해당 환경은 아랍어 기반의 멀티 테넌트 전자상거래 챗봇으로, 제품 검색을 위해 라우터를 거친 뒤 모델이 최종 아랍어 응답을 생성하는 구조이다. 테스트에는 총 34개 제품과 일반 문의부터 수학적 계산이 필요한 배송 정책 질문까지 6가지 고객 시나리오가 포함되었다.

초기 테스트에서 두 Gemma 모델은 환각보다는 응답을 주저하는 경향을 보였다. 모델들은 제공된 문맥 내에서 특정 항목을 찾는 대신 응답이 늦어지거나 모호한 답변을 내놓았다. Gemma 4 26B의 응답 속도는 28~77초, 31B 모델은 30~43초로 나타났으며, 이는 7~14초 내외인 GPT-4 제품군보다 현저히 느린 수준이다.

이에 대해 아파나는 아랍어 우선 시스템 프레임 추가, 온도를 0.3으로 고정, 최소 400 토큰 설정이라는 세 가지 프롬프트 규칙을 적용했다. 그 결과 MoE 방식인 26B 모델은 제품과 가격을 정확히 나열하며 카탈로그 기반 응답 능력이 개선되었다. 반면 31B 덴스 모델은 데이터가 문맥 내에 존재함에도 제품을 찾을 수 없다는 식의 거짓 부정 응답을 생성하기 시작했으며, 간헐적으로 HTTP 500 오류가 발생하기도 했다.

아파나는 이러한 결과 차이가 모델 크기가 아닌 아키텍처에서 비롯된다고 추정한다. 모든 매개변수가 활성화되는 덴스 모델은 지시 사항을 획일적으로 적용해 거부 규칙을 과도하게 수행할 가능성이 있다. 반면 MoE 아키텍처는 토큰마다 서로 다른 매개변수 하위 집합을 선택적으로 활용하므로, 검색 후 응답과 같은 순차적 지시를 더 유연하게 처리할 수 있는 것으로 보인다.