PFN, 국산 LLM ‘PLaMo 2.2 Prime’ 출시… 의료 성능 강화
- •PFN, 국산 대규모 언어 모델 (LLM) ‘PLaMo 2.2 Prime’ 공개 및 지시 이행 능력 강화
- •영어 벤치마크 IFBench에서 전작 대비 10% 개선, 독자 개발한 JFBench에서도 고득점 달성
- •일본 의사국가시험 정답률 70.7% 기록 및 실무형 멀티턴 대화 성능 대폭 향상
Preferred Networks(PFN)가 일본 국산 생성 AI 파운데이션 모델인 ‘PLaMo’의 최신 버전 ‘PLaMo 2.2 Prime’을 출시했다.
이번 업데이트는 사내외 피드백을 바탕으로 사후 학습 데이터를 대폭 보강하여, 모델이 사용자의 의도를 정확히 파악하고 수행하는 ‘지시 이행’ 능력과 고도의 전문성이 요구되는 의료 도메인 성능을 한층 끌어올린 점이 특징이다.
기술적인 하이라이트는 벤치마크 점수의 비약적인 상승이다.
글자 수 제한이나 출력 형식 지정 등 구체적인 제약 사항을 얼마나 잘 지키는지 평가하는 IFBench에서 이전 모델(29.0%) 대비 10% 가까이 개선된 37.8%를 기록했다. 이는 추론 과정을 길게 출력하는 모델과 달리 생성 토큰 수를 적절히 유지하면서도 높은 지시 준수율을 구현했다는 점에서 의미가 크다. 또한 PFN은 일본어의 미묘한 뉘앙스와 포맷 제약을 엄격히 평가하기 위해 독자 벤치마크인 ‘JFBench’를 개발해 공개했으며, 여기서도 글로벌 프런티어 모델에 필적하는 성능을 입증했다.
실무 활용도를 높인 ‘멀티턴 롤플레잉 능력’의 향상도 돋보인다.
AI가 특정 캐릭터가 되어 대화 맥락을 유지하며 여러 번 대화를 이어가는 이 능력은 PFN의 AI 면접 서비스인 ‘Talent Scouter’의 노하우가 담긴 데이터셋으로 학습되어 전작 대비 15% 이상 성능이 좋아졌다. 이를 통해 챗봇이 "한 번의 답변은 세 문장 이내"와 같은 엄격한 규칙을 지키면서도 자연스러운 고객 응대를 수행할 수 있게 됐다.
의료 분야에서는 임상 문서의 모순을 검출하는 ‘MedRECT-ja’와 일본 의사국가시험(JMLE)을 주요 지표로 활용했다.
특히 국가시험 기출문제 테스트에서 70.7%라는 높은 정답률에 도달하며 착실한 진화를 보여주었다. PFN은 자체 계산 기반인 ‘MN-Core’와 수직 통합된 기술력을 바탕으로 일본의 생성 AI 개발을 계속해서 주도해 나갈 방침이다.