단백질 구조 통합 AI 'GenSPARC'로 신약 개발 혁신
- •1차원 서열과 3차원 공간 구조를 동시에 학습하여 약물 발견의 정확도를 비약적으로 높였다.
- •학습 데이터에 없는 새로운 단백질과 화합물에 대해서도 압도적인 예측 성능을 입증했다.
- •알파폴드2의 예측 구조를 활용해 수백만 개의 후보 물질을 선별함으로써 개발 시간과 비용을 절감한다.
질병의 원인이 되는 특정 단백질에 적합한 화합물을 찾아내는 과정은 현대 신약 개발의 핵심적인 난관이자 가장 많은 시간과 비용이 소요되는 단계로 꼽힌다. 기존의 인공지능 모델들은 주로 1차원적인 아미노산 서열 데이터에만 의존하여 후보 물질을 탐색해 왔으나, 이는 실제 약물의 효능을 결정짓는 복잡한 3차원 구조와 동역학적 물리 특성을 충분히 반영하지 못한다는 결정적인 한계가 있었다. 이에 따라 일본의 혁신적인 인공지능 기업인 프리퍼드 네트웍스(PFN) 연구진은 단백질의 기하학적 형태와 화학적 성질을 동시에 정밀하게 해석할 수 있는 차세대 모델인 'GenSPARC'를 개발하며 문제 해결에 나섰다.
GenSPARC 시스템의 핵심은 구조 인지형 단백질 언어 모델인 'SaProt'을 내부에 통합한 점에 있다. 이 모델은 예측된 단백질의 3차원 형상을 고유한 토큰 세트로 변환하는 과정을 거치며, 이를 통해 인공지능이 단순 서열 정보를 넘어 공간적 기하학 구조까지 한꺼번에 학습할 수 있도록 지원한다. 화합물 분석 시에는 다양한 물리화학적 특성을 수치화한 분자 기술자가 시스템에 함께 입력된다. 또한 이러한 이종 데이터를 멀티모달 어텐션 메커니즘으로 융합함으로써, 단백질과 잠재적 약물 분자가 결합하는 정교한 '열쇠와 자물쇠' 상호작용의 원리를 스스로 체득하게 된다.
이번 연구의 중요한 성과는 GenSPARC가 보여준 독보적인 범용성과 예측 정확도에 있다. 실제로 이 모델은 학습 데이터에 포함되지 않았던 새로운 단백질이나 화합물의 결합력을 예측하는 실험에서 기존 모델들을 압도하는 성능을 입증했다. 특히 구글 딥마인드의 알파폴드2(AlphaFold2)가 생성한 예측 구조 데이터만으로도 실제 실험 데이터에 근접하는 안정적인 결과를 도출할 수 있다는 점은 현업에서의 실용성을 극대화하는 요소다. 다만 기술적 완성도를 높이는 과정에서 수많은 검증이 이루어졌으며, 그 결과 수백만 개의 후보 물질을 단시간에 스크리닝하는 역량을 확보하게 되었다.
이와 같은 기술적 도약은 신약 개발 프로세스를 근본적으로 재편할 잠재력을 지니고 있다. 기존 방식으로는 수년이 걸리던 후보 물질 발굴 과정을 단 몇 주 이내로 단축할 수 있으며, 연구 개발에 투입되는 막대한 비용 역시 획기적으로 절감할 수 있기 때문이다. 또한 보다 정확한 예측을 통해 임상 시험의 성공 가능성을 높임으로써 난치병 치료제 개발의 문턱을 크게 낮출 것으로 보인다. 결과적으로 GenSPARC는 인공지능 기반의 디지털 바이오 시대를 앞당기는 핵심 동력이 되어 전 세계 제약 산업 전반에 걸쳐 혁신적인 패러다임의 전환을 이끌어낼 것으로 전망된다.