Cloudflare, AI 모델 학습을 위한 데이터 정확성 강화
- •Cloudflare가 AI 학습을 위한 리다이렉트 기능을 도입해 최신 문서를 기반으로 한 모델 학습을 보장한다.
- •해당 도구는 검증된 AI 크롤러가 구버전 콘텐츠를 우회해 Canonical Link를 따르도록 강제한다.
- •Radar AI Insights 대시보드에 HTTP 상태 코드 분석 기능을 추가하여 크롤러의 웹 접근 상태를 추적할 수 있다.
인공지능 분야에서는 모델이 습득하는 데이터의 질이 곧 모델의 성능을 결정한다. AI 크롤러가 대규모 언어 모델을 학습하기 위해 웹을 탐색할 때, 종종 폐기된 문서나 오래된 API 버전, 방치된 프로젝트 페이지를 마주하게 된다. 이러한 정보들은 마치 교실에서 읽히는 낡은 교과서와 같아, AI가 이를 학습할 경우 사용자에게 잘못되거나 위험한 정보를 제공하는 원인이 된다.
오랫동안 개발자들은 검색 엔진이 오래된 콘텐츠를 읽지 못하도록 'noindex' 태그나 Canonical Link와 같은 가이드라인을 사용해 왔다. 하지만 많은 AI 학습 봇들이 이러한 신호를 무시하면서 모델 내부에는 부정확하고 구식인 정보가 계속 쌓이고 있다. 이는 '쓰레기 데이터가 들어가면 쓰레기 결과가 나온다'는 AI 신뢰성 문제의 핵심적인 장애물로 작용한다.
Cloudflare는 이러한 문제를 해결하기 위해 'AI 학습을 위한 리다이렉트' 기능을 도입했다. 기존의 권장 사항 수준이었던 설정을 HTTP 상태 코드 301 리다이렉트로 강제함으로써, 검증된 AI 크롤러가 즉시 최신 버전의 웹페이지로 이동하도록 유도한다. 이 방식은 크롤러가 도달하는 지점과 실제 정확한 정보가 존재하는 지점을 효과적으로 연결한다.
이 솔루션은 현대 웹에서 널리 쓰이는 Canonical Tag를 그대로 활용하므로 개발자의 추가적인 수동 관리가 거의 필요하지 않다. Cloudflare의 인프라는 크롤러가 폐기된 페이지에 접근할 때 자동으로 권위 있는 최신 버전으로 경로를 재설정한다. 이는 단순히 정보를 제안하는 수준을 넘어, 데이터 위생을 위한 강력한 강제 메커니즘으로의 전환을 의미한다.
또한, Cloudflare는 Radar AI Insights 도구를 업데이트하여 웹사이트 소유자가 자신의 콘텐츠가 어떻게 수집되는지 가시적으로 확인할 수 있게 했다. 이제 사이트 운영자는 크롤러가 '200 OK'를 받는지, '301' 리다이렉트를 따르는지 등 실시간 상태 코드를 분석할 수 있다. 이는 무질서하게 운영되던 웹 데이터 수집 환경이 표준화된 정책 기반의 생태계로 변화하고 있음을 시사한다.
미래에는 질문에 답하는 수준을 넘어 사용자를 대신해 행동하는 에이전트형 AI가 더욱 중요해질 것이다. AI가 업데이트되지 않은 라이브러리를 기반으로 명령을 실행하려 하면 심각한 운영 오류가 발생할 수 있다. Cloudflare의 이번 조치는 차세대 AI가 과거의 부정확한 데이터가 아닌, 검증된 최신 정보를 기반으로 구축되도록 돕는 중요한 토대가 될 것이다.