#main-nav-header { display:none; }

AI 크롤러의 통제권 되찾기

콘텐츠를 보호하고 사이버 보안을 강화하는 방법

우리는 AI가 주도하는 새로운 인터넷 시대에 접어들고 있습니다. AI 모델을 학습시키기 위해 웹사이트 크롤러와 스크래퍼를 포함한 AI 봇이 점점 더 많은 데이터를 수집하면서 이 새로운 시대가 시작되었습니다. 크롤링과 스크래핑은 새로운 것이 아닙니다. 검색 엔진 회사들은 항상 웹사이트를 크롤링하고 콘텐츠를 스크래핑하여 검색 결과를 채워 왔습니다. 검색 결과가 사이트로 트래픽을 다시 유도했기 때문에 그 과정은 항상 웹사이트 소유자에게 이익이 되었습니다.

그러나 AI 및 검색 엔진 회사들은 스크랩한 콘텐츠를 사용하여 AI 모델을 학습시킴으로써 사용자가 웹에서 콘텐츠와 상호 작용하는 방식을 변화시키고 있습니다. 이러한 AI 모델은 이제 검색 엔진 결과 위에 개요로 나타나고 생성형 AI(GenAI) 도구 내에서 쿼리에 대한 응답으로 표시되는 파생 콘텐츠를 생성하기 시작했습니다. 사용자들이 이 파생 콘텐츠를 점점 더 신뢰하게 되면서, 원본 웹사이트를 방문하지 않고 있습니다. 이것은 브랜드와 콘텐츠 제작자, 특히 미디어 퍼블리셔에게 문제가 되었습니다. 웹사이트 방문자 수가 줄어들면 구독을 홍보하는 능력과 광고 수익에 영향을 미칠 수 있기 때문입니다.

동시에 파생 콘텐츠에 대한 신뢰가 높아지면서 데이터 출처, 지적 재산권, 콘텐츠 오용과 같은 문제가 발생합니다. 요약하자면, 콘텐츠 제작자는 더 이상 자신의 콘텐츠를 통제할 수 없게 되는 것입니다.

AI 봇은 모든 산업의 모든 조직에 심각한 보안 및 규제 준수 위험을 초래합니다. 이 봇은 지적 재산을 탈취하고, 웹 애플리케이션을 손상시키며, 보안 사고나 데이터 유출로 이어질 수 있는 취약점을 발견할 수 있습니다.

우리는 AI 봇의 보안 문제에 정면으로 대응해야 하며, 위협이 계속 증가할 것이기 때문에 지금 당장 해결해야 합니다. 사이버 보안 리더로서 우리는 새로운 인터넷 시대의 기회를 제한하지 않으면서 유해한 봇으로부터 조직을 보호할 메커니즘이 필요합니다.

증가하는 봇 트래픽에 직면하다

제가 데이터 과학 및 머신 러닝 전공으로 대학원 과정을 거치고 있을 때, AI 회사들이 고품질 데이터를 대량으로 수집하기 위해 경쟁할 것이라는 것이 분명해졌습니다. 고품질 데이터를 많이 수집할수록 모델은 더 좋아집니다.

그러나 지난 1년 동안 AI 크롤러 활동의 급격한 증가 역시 놀라운 일이었습니다. Cloudflare Radar 데이터에 따르면 2024년 7월부터 2025년 7월까지 GPTBot(학습 데이터를 수집하여 ChatGPT에 사용)의 원시 요청이 147% 증가했습니다. 같은 기간 동안 Meta-ExternalAgent(메타의 AI 모델 훈련용)의 원시 요청은 843% 증가했습니다.

한편, 웹사이트에서는 다른 유형의 AI 봇의 활동도 계속해서 관찰되고 있습니다. 예를 들어, 악의적인 봇은 콘텐츠를 스크래핑하는 것이 아니라 웹 애플리케이션의 취약점을 스캔하고, 사용자 계정을 탈취하며, 사기성 구매를 하고, 온라인 양식을 통해 스팸을 제출하고, 사이트 성능을 저하시키는 등 다양한 행위를 합니다.

악의적인 봇 하나가 조직에 심각한 결과를 초래할 수 있습니다. 상장된 회사의 분기 실적을 임시 웹사이트에 일시적으로 올려두었다고 가정해 보겠습니다. 해당 실적은 오늘 주식 시장이 마감한 이후에만 공개할 계획입니다. 그러나 만약 봇이 이 정보를 사전에 접근하여 사용자 검색 결과에 공유하게 된다면 문제가 발생할 수 있습니다. 이러한 정보에 접근한 개인들이 비공개 핵심 정보를 바탕으로 주식을 거래할 수 있으며, 이로 인해 귀사는 규제 벌금과 소송에 휘말릴 수도 있는 것입니다.

새로운 AI 기반 봇 문제를 어떻게 해결할 수 있을까요?

사이버 보안 리더는 조직에 해를 끼칠 수 있는 모든 봇을 차단하는 데 집중해야 합니다. 하지만 그렇게 하는 것은 그리 간단하지 않습니다.

AI 도구로 인해 사이버 범죄자와 일부 AI 기업은 기존 방어 체계를 회피하는 봇을 더 쉽게 만들어 내고 있습니다. 예를 들어, 사이버 범죄자는 AI를 사용하여 봇의 서명이나 공격 벡터를 변경함으로써 위치 또는 IP 주소 차단과 같은 제어를 피할 수 있습니다. AI 기업과 사이버 범죄자는 인간의 행동을 모방한 AI 봇을 만들어 CAPTCHA 인증 질문에 답할 수 있습니다.

AI는 사이버 범죄자들이 더 스마트한 봇을 만드는 데 도움을 주는 것만으로 그치지 않습니다. 이를 통해 전례 없는 규모와 속도로 봇 침입을 시작하여 기존의 방어 및 제어 시스템을 압도해 버릴 수도 있습니다.

AI 봇을 대비한 다중 계층 보안 전략 구축

악의적인 AI 봇을 차단하고 크롤링 및 콘텐츠 스크래핑을 제어하기 위해 조직은 다중 계층 보안 전략이 필요합니다. 이 전략은 정적 제어와 보다 예측적이고 동적인 기능 및 세부적인 거버넌스를 결합한 것입니다.

계층 1: 기초/정적 제어

정적 제어는 다중 계층 전략의 기반을 제공하며, 대규모 봇 공격이 발생할 때 이를 차단하고 AI 기반 봇이 기존 방어를 회피하지 못하도록 합니다. 정적 제어에는 다음이 포함됩니다.

실제 사용자의 속도를 늦추지 않으면서 봇을 차단하는 CAPTCHA 없는 인증 방식.
자동화된 봇이 사용자 이름과 비밀번호를 사용하지 못하도록 차단하는다단계 인증(MFA).
봇 기반 무차별 대입 공격, 분산 서비스 거부(DDoS) 공격, 콘텐츠 스크래핑을 차단할 수 있는 레이트 리미팅.
원치 않는 봇의 리소스를 속도를 늦추고, 혼란을 주며, 의도적으로 낭비하도록 대체 콘텐츠로 봇을 리디렉션.

계층 2: 예측/동적 제어

이 기반 위에 보다 예측적이고 동적인 제어를 구현하여 봇 위협이 피해를 입히기 전에 이를 예측하고 감지할 수 있습니다. 예측 기능에는 다음과 같은 기능이 포함됩니다.

새로운 위협이 조직에 도달하기 전에 식별해내기 위한 실시간 위협 인텔리전스 피드 모니터링.
실제 사용자와 봇 모두 사이트에서 일반적으로 어떻게 행동하는지 이해하기 위한 자세한 사이트 트래픽 로깅.
머신 러닝을 사용하여 사용자 행동의 기준을 설정하고 편차를 식별하는 행동 이상 감지.

계층 3: AI 크롤러에 대한 세분화된 거버넌스 및 권한

기본적으로 모든 봇을 차단할 수 있습니다. 하지만 특정 AI 봇이 사이트를 스크래핑하여 콘텐츠가 AI 개요나 생성형 AI 응답에 나타나도록 허용하고 싶을 수도 있습니다. 사이트와 상호작용할 수 있는 AI 봇을 제어하려면 봇과 콘텐츠 사이에 거버넌스 계층이 필요합니다. 해당 계층에는 다음과 같이 상호 연관된 여러 기능이 필요합니다.

AI 감사: 감사 기능은 어떤 봇이 웹사이트에 액세스하는지, 어떻게 웹사이트와 상호 작용하는지에 대한 명확한 가시성을 제공합니다.
암호화 검증: 이러한 가시성을 제공하기 위해, 봇은 자신의 서비스에서 발생하는 요청에 암호화 서명을 통해 자신을 식별할 수 있습니다. 봇은 자신의 목적을 명시하고, 귀사에게 크롤링 허용 여부를 선택할 수 있는 옵션을 제공할 수도 있습니다.
콘텐츠에 대한 세밀한 제어: 사이트를 방문할 수 있는 봇과 액세스 가능한 페이지를 세밀하게 관리할 수 있습니다. 퍼블리셔는 원본 콘텐츠가 광고를 통해 수익화되는 페이지에 대해 스크래퍼의 접근을 차단할 수 있습니다. 그러나 기술 회사는 봇이 개발자 문서를 스크랩하도록 허용할 수도 있습니다.
크롤링당 결제: 크롤링당 결제 기능을 사용하면 콘텐츠를 스크래핑하는 회사에 비용을 청구할 수 있습니다. 어느 회사가 귀사의 콘텐츠를 모델 학습에 사용한다면, 그에 대한 대가를 지불해야 하지 않을까요?

권한 기반 인터넷 구축

Cloudflare는 다중 계층 AI 봇 전략을 구축하는 데 필요한 클라우드 기반 서비스를 제공합니다. Cloudflare를 사용하면 정적 및 동적 제어뿐만 아니라 세부적인 봇 관리를 통해 정밀하게 봇을 관리할 수 있습니다.

AI Audit 기능을 통해 팀은 AI 봇이 웹사이트 콘텐츠와 상호 작용하는 방식을 모니터링하고 제어할 수 있습니다. 어떤 AI 서비스가 사이트에 접근하는지 확인하고, 크롤러와 스크래퍼의 허용 또는 차단 정책을 설정하며, 어떤 봇이 지시를 따르는지 추적할 수 있습니다. AI Audit의 크롤링당 결제 기능을 통해 AI 봇 액세스를 수익화할 수 있으며, 이렇게 하면 봇 소유자는 사이트를 크롤링하고 스크래핑하는 데 비용을 지불해야 합니다.

이러한 기능을 통해 Cloudflare는 세계 최고의 퍼블리셔 및 AI 회사와 함께 인터넷을 위한 권한 기반 모델을 구축하고 있습니다. 유해한 봇을 차단하는 것 이상으로, 콘텐츠 크리에이터뿐만 아니라 AI 모델 학습을 위한 콘텐츠에 비용을 지불할 의사가 있는 합법적인 검색 엔진 및 AI 회사 등 여러 조직에 도움이 되는 모델을 만들고 있습니다.

AI가 인터넷 운영 방식을 변화시키고 있다는 것은 의심할 여지가 없습니다. Cloudflare를 통해 AI가 초래하는 위험으로부터 조직을 보호하고, 새로운 인터넷 시대의 기회를 최대한 활용할 수 있습니다.

이 글은 오늘날의 기술 의사 결정자에 영향을 주는 최신 동향 및 주제에 대한 시리즈 중 일부입니다.

이 주제에 관해 자세히 알아보세요.

안전한 AI 관행 보장: 확장 가능한 AI 전략 수립 방법에 대한 CISO 가이드에서 보안을 유지하면서 기업에서 AI 사용을 지원하는 방법에 대해 알아보세요.

작성자

Grant Bourzikas — @grantbourzikas
Cloudflare 최고 보안 책임자

핵심 사항

이 글을 읽고 나면 다음을 이해할 수 있습니다.

왜 AI 크롤러 및 기타 봇의 활동이 증가하고 있는가
AI 크롤러의 유입으로 인한 보안 위험
다중 계층 보안 전략을 사용하여 봇을 제어하는 방법

가장 인기있는 인터넷 인사이트에 대한 월간 요약을 받아보세요!

theNET 구독