AI 크롤러 문제 해결: 웹사이트 성능 저하 및 데이터 왜곡 관리 가이드

웹사이트 운영자들이 AI 크롤러 때문에 골머리를 앓고 있다.

AI 봇들이 과도한 트래픽을 유발해 사이트 성능을 저하시키고, 분석 데이터까지 왜곡시키기 때문인데, 자세히 알아보자.

AI 크롤러, 왜 문제일까?

웹사이트 운영자들은 늘 검색 엔진 크롤러에 최적화하기 위해 노력해왔다. 하지만 OpenAI, Anthropic, Amazon 같은 회사들의 AI 크롤러는 새로운 문제를 야기한다.

AI 크롤러는 대규모 언어 모델(LLM) 훈련을 위해 엄청난 양의 데이터를 수집하는데, 이 과정에서 웹사이트의 서버에 부담을 준다. 실제로 SourceHut이라는 깃 호스팅 서비스는 잦은 LLM 크롤러 때문에 서비스 장애를 겪었고, 결국 Google Cloud, Microsoft Azure 같은 클라우드 제공업체의 IP 주소를 차단하기까지 했다고 한다.

Vercel의 데이터에 따르면 OpenAI의 GPTBot은 한 달 동안 5억 6,900만 건, Anthropic의 Claude는 3억 7,000만 건의 요청을 생성했다. 이 수치는 Google 검색 크롤러 트래픽의 약 20%에 달하는 엄청난 양이다.

이처럼 AI 크롤러가 웹사이트 성능에 직접적인 영향을 미친다는 보고가 잇따르고 있다.

분석 데이터 왜곡, 어떻게 해결해야 할까?

AI 크롤러 트래픽은 분석 데이터에도 악영향을 미친다. 광고 측정 회사 DoubleVerify에 따르면 AI 크롤러 때문에 유효하지 않은 트래픽(GIVT)이 2024년 하반기에 86%나 증가했다고 한다.

특히 GPTBot, ClaudeBot, AppleBot 같은 AI 스크래퍼가 GIVT의 16%를 차지하며 데이터 왜곡의 주범으로 꼽힌다. Read the Docs 프로젝트는 AI 크롤러를 차단한 결과 트래픽이 75% 감소했고, 월 1,500달러의 대역폭 비용을 절감할 수 있었다고 밝혔다.

그렇다면 AI 크롤러는 일반적인 봇과 어떻게 다를까? AI 크롤러는 빈도와 접근 범위 면에서 차이를 보인다. 검색 엔진 크롤러는 예측 가능한 패턴을 따르지만, AI 크롤러는 훨씬 더 공격적인 행태를 보인다. Diaspora 소셜 네트워크의 인프라 관리자인 Dennis Schubert는 AI 크롤러가 6시간마다 같은 페이지를 반복해서 크롤링한다고 지적했다.

또한 SourceHut의 설립자 Drew DeVault는 AI 크롤러가 “모든 깃 로그의 모든 페이지와 저장소의 모든 커밋”에 접근해 콘텐츠가 많은 사이트에 특히 부담을 준다고 언급했다.

AI 크롤러는 사용자 에이전트를 변경하거나, 주거용 IP 주소를 프록시로 사용하는 등 차단하기 어렵다는 점도 문제다. Xe Iaso 개발자는 AI 크롤러 봇을 차단하는 것이 “무의미하다”고 말한다.

웹사이트 운영, 어떻게 관리해야 할까?

그렇다면 웹사이트 운영자들은 어떻게 해야 할까? 무작정 차단할 수도 없고, 그렇다고 손 놓고 있을 수도 없는 노릇이다.

우선 AI 크롤러가 사이트에 미치는 영향을 파악하는 것이 중요하다. 서버 로그를 분석하여 클라우드 제공업체 IP 주소에서 발생하는 비정상적인 트래픽 패턴을 확인하고, 사용자 활동과 관련 없는 대역폭 사용량 급증을 찾아내야 한다. 또한 아카이브나 API 엔드포인트 같은 리소스 집약적인 페이지에 대한 트래픽이 높은지, 핵심 웹 지표(Core Web Vitals)에 이상 패턴이 나타나는지 모니터링해야 한다.

이후 상황에 맞춰 적절한 조치를 취해야 한다. Google은 robots.txt 파일에 Google-Extended라는 기능을 도입하여 웹사이트가 검색 결과에는 노출되도록 하면서도 콘텐츠가 Gemini 및 Vertex AI 서비스 훈련에 사용되지 않도록 할 수 있다 [https://www.searchenginejournal.com/google-clarifies-the-google-extended-crawler-documentation/507645/]. Cloudflare는 “AI Labyrinth”라는 솔루션을 통해 승인되지 않은 크롤링이 감지되면 요청을 차단하는 대신 AI 생성 페이지로 연결하여 크롤러를 유인하는 방법을 제시한다 [https://blog.cloudflare.com/ai-labyrinth/].

결론적으로 대부분의 웹사이트는 robots.txt 파일을 관리하고 모니터링하는 것만으로 충분할 것이다.
하지만 트래픽이 많은 사이트는 더 발전된 솔루션을 고려해야 할 수도 있다.
앞으로 AI가 검색과 정보 발견에 더 깊숙이 관여할수록, SEO 전문가들은 크롤러를 더욱 신중하게 관리해야 할 것이다.
잊지 말자, 꾸준한 관심과 관리가 웹사이트의 건강을 지키는 핵심이다.

참고: [https://www.searchenginejournal.com/category/news/] , [https://www.searchenginejournal.com/category/seo/web-development/] , [https://www.searchenginejournal.com]