우리는 AI가 주도하는 새로운 인터넷 시대에 접어들고 있습니다. AI 모델을 학습시키기 위해 웹사이트 크롤러와 스크래퍼를 포함한 AI 봇이 점점 더 많은 데이터를 수집하면서 이 새로운 시대가 시작되었습니다. 크롤링과 스크래핑은 새로운 것이 아닙니다. 검색 엔진 회사들은 항상 웹사이트를 크롤링하고 콘텐츠를 스크래핑하여 검색 결과를 채워 왔습니다. 검색 결과가 사이트로 트래픽을 다시 유도했기 때문에 그 과정은 항상 웹사이트 소유자에게 이익이 되었습니다.
그러나 AI 및 검색 엔진 회사들은 스크랩 한 콘텐츠를 사용하여 AI 모델을 학습시킴으로써 사용자가 웹에서 콘텐츠와 상호 작용하는 방식을 변화시키고 있습니다. 이러한 AI 모델은 이제 검색 엔진 결과 위에 개요로 나타나고 생성형 AI(GenAI) 도구 내에서 쿼리에 대한 응답으로 표시되는 파생 콘텐츠를 생성하기 시작했습니다. 사용자들이 이 파생 콘텐츠를 점점 더 신뢰하게 되면서, 원본 웹사이트를 방문하지 않고 있습니다. 이것은 브랜드와 콘텐츠 제작자, 특히 미디어 퍼블리셔에게 문제가 되었습니다. 웹사이트 방문자 수가 줄어들면 구독을 홍보하는 능력과 광고 수익에 영향을 미칠 수 있기 때문입니다.
동시에 파생 콘텐츠에 대한 신뢰가 높아지면서 데이터 출처, 지적 재산권, 콘텐츠 오용과 같은 문제가 발생합니다. 요약하자면, 콘텐츠 제작자는 더 이상 자신의 콘텐츠를 통제할 수 없게 되는 것입니다.
AI 봇은 모든 산업의 모든 조직에 심각한 보안 및 규제 준수 위험을 초래합니다. 이 봇은 지적 재산을 탈취하고, 웹 애플리케이션을 손상시키며, 보안 사고나 데이터 유출로 이어질 수 있는 취약점을 발견할 수 있습니다.
우리는 AI 봇의 보안 문제에 정면으로 대응해야 하며, 위협이 계속 증가할 것이기 때문에 지금 당장 해결해야 합니다. 사이버 보안 리더로서 우리는 새로운 인터넷 시대의 기회를 제한하지 않으면서 유해한 봇으로부터 조직을 보호할 메커니즘이 필요합니다.
제가 데이터 과학 및 머신 러닝 전공으로 대학원 과정을 거치고 있을 때, AI 회사들이 고품질 데이터를 대량으로 수집하기 위해 경쟁할 것이라는 것이 분명해졌습니다. 고품질 데이터를 많이 수집할수록 모델은 더 좋아집니다.
그러나 지난 1년 동안 AI 크롤러 활동의 급격한 증가 역시 놀라운 일이었습니다. Cloudflare Radar 데이터에 따르면 2024년 7월부터 2025년 7월까지 GPTBot(학습 데이터를 수집하여 ChatGPT에 사용)의 원시 요청이 147% 증가했습니다. 같은 기간 동안 Meta-ExternalAgent(메타의 AI 모델 훈련용)의 원시 요청은 843% 증가했습니다.
한편, 웹사이트에서는 다른 유형의 AI 봇의 활동도 계속해서 관찰되고 있습니다. 예를 들어, 악의적인 봇은 콘텐츠를 스크래핑하는 것이 아니라 웹 애플리케이션의 취약점을 스캔하고, 사용자 계정을 탈취하며, 사기성 구매를 하고, 온라인 양식을 통해 스팸을 제출하고, 사이트 성능을 저하시키는 등 다양한 행위를 합니다.
악의적인 봇 하나가 조직에 심각한 결과를 초래할 수 있습니다. 상장된 회사의 분기 실적을 임시 웹사이트에 일시적으로 올려두었다고 가정해 보겠습니다. 해당 실적은 오늘 주식 시장이 마감한 이후에만 공개할 계획입니다. 그러나 만약 봇이 이 정보를 사전에 접근하여 사용자 검색 결과에 공유하게 된다면 문제가 발생할 수 있습니다. 이러한 정보에 접근한 개인들이 비공개 핵심 정보를 바탕으로 주식을 거래할 수 있으며, 이로 인해 귀사는 규제 벌금과 소송에 휘말릴 수도 있는 것입니다.
사이버 보안 리더는 조직에 해를 끼칠 수 있는 모든 봇을 차단하는 데 집중해야 합니다. 하지만 그렇게 하는 것은 그리 간단하지 않습니다.
AI 도구로 인해 사이버 범죄자와 일부 AI 기업은 기존 방어 체계를 회피하는 봇을 더 쉽게 만들어 내고 있습니다. 예를 들어, 사이버 범죄자는 AI를 사용하여 봇의 서명이나 공격 벡터를 변경함으로써 위치 또는 IP 주소 차단과 같은 제어를 피할 수 있습니다. AI 기업과 사이버 범죄자는 인간의 행동을 모방한 AI 봇을 만들어 CAPTCHA 인증 질문에 답할 수 있습니다.
AI는 사이버 범죄자들이 더 스마트한 봇을 만드는 데 도움을 주는 것만으로 그치지 않습니다. 이를 통해 전례 없는 규모와 속도로 봇 침입을 시작하여 기존의 방어 및 제어 시스템을 압도해 버릴 수도 있습니다.
악의적인 AI 봇을 차단하고 크롤링 및 콘텐츠 스크래핑을 제어하기 위해 조직은 다중 계층 보안 전략이 필요합니다. 이 전략은 정적 제어와 보다 예측적이고 동적인 기능 및 세부적인 거버넌스를 결합한 것입니다.
정적 제어는 다중 계층 전략의 기반을 제공하며, 대규모 봇 공격이 발생할 때 이를 차단하고 AI 기반 봇이 기존 방어를 회피하지 못하도록 합니다. 정적 제어에는 다음이 포함됩니다.
실제 사용자의 속도를 늦추지 않으면서 봇을 차단하는 CAPTCHA 없는 인증 방식.
자동화된 봇이 사용자 이름과 비밀번호를 사용하지 못하도록 차단하는다단계 인증(MFA).
봇 기반 무차별 대입 공격, 분산 서비스 거부(DDoS) 공격, 콘텐츠 스크래핑을 차단할 수 있는 레이트 리미팅.
원치 않는 봇의 리소스를 속도를 늦추고, 혼란을 주며, 의도적으로 낭비하도록 대체 콘텐츠로 봇을 리디렉션.
이 기반 위에 보다 예측적이고 동적인 제어를 구현하여 봇 위협이 피해를 입히기 전에 이를 예측하고 감지할 수 있습니다. 예측 기능에는 다음과 같은 기능이 포함됩니다.
새로운 위협이 조직에 도달하기 전에 식별해내기 위한 실시간 위협 인텔리전스 피드 모니터링.
실제 사용자와 봇 모두 사이트에서 일반적으로 어떻게 행동하는지 이해하기 위한 자세한 사이트 트래픽 로깅.
머신 러닝을 사용하여 사용자 행동의 기준을 설정하고 편차를 식별하는 행동 이상 감지.