Notion의 글로벌 전략: 데이터 레지던시 도입
- •Notion이 데이터 레지던시를 도입해 고객 정보를 각 발생 지역 내에 보관한다.
- •새로운 인프라를 통해 지역 경계를 넘지 않고도 AI 임베딩과 벡터 데이터베이스 처리가 가능하다.
- •지역별 데이터 수집 파이프라인으로 검색 및 AI 기능의 성능과 규제 준수를 동시에 확보했다.
AI 워크스페이스를 사용할 때 서버의 물리적 위치를 의식하는 사용자는 거의 없다. 하지만 Notion처럼 방대한 사용자를 둔 글로벌 생산성 플랫폼에게 데이터가 어디에 존재하는지는 복잡한 공학적 과제다. Notion은 최근 사용자 데이터를 EU와 같은 원천 지역 내에 안전하게 보관하면서도 고도화된 AI 기능을 제공하기 위한 다중 지역 데이터 레지던시 구축 과정을 상세히 공개했다.
이 도전의 핵심은 끊김 없는 사용자 경험을 유지하는 데 있다. 유럽의 학생이 Notion의 AI 기능을 사용할 때 시스템은 개인 워크스페이스의 내용을 대서양 너머로 전송하지 않고도 질의 처리, 페이지 인덱싱, 답변 생성을 수행해야 한다. Notion은 인프라를 모듈형으로 재설계하여 이를 달성했으며, 단일 중앙 시스템 대신 고립된 사설 네트워크를 도입해 워크스페이스의 고유 ID를 기반으로 데이터를 특정 지역 내에 엄격히 분리했다.
AI 개발에 관심 있는 이들에게 특히 흥미로운 지점은 이 구조가 최신 머신러닝 구성 요소에 적용되는 방식이다. Notion의 AI 기능은 텍스트의 의미를 이해하기 위한 수학적 표현인 임베딩을 저장하는 벡터 데이터베이스에 의존한다. Notion은 프라이버시를 지키기 위해 지역별로 최적화된 데이터 수집 파이프라인을 구축했으며, 이를 통해 문서가 업데이트될 때마다 중앙이 아닌 해당 지역의 벡터 데이터베이스 내에서 즉각적인 갱신이 이루어지도록 했다.
이러한 설계는 작업 조정 방식의 대대적인 변화를 필요로 했다. Notion은 Apache Airflow를 제어 평면으로 활용해 개인 데이터를 직접 처리하지 않으면서도 각 지역의 Spark 작업을 효율적으로 스케줄링한다. 이는 마치 항공 관제사가 민감한 화물을 지상에 안전하게 둔 채 비행기만 각 지역 공항으로 안내하는 것과 같은 원리다.
이번 사례는 AI 도입이 늘어남에 따라 강력한 중앙 집중형 모델에 대한 열망과 데이터 주권이라는 규제적 필요성 사이에서 발생하는 긴장감을 잘 보여준다. Notion의 행보는 기업이 고도화된 AI 기능과 엄격한 사용자 보호 사이에서 선택할 필요가 없음을 증명했다. 이들은 설계 단계부터 지역 인지형 시스템을 구축함으로써 변화하는 데이터 보호법에 대응할 수 있는 미래 지향적 플랫폼의 청사진을 제시했다.