Blog · GEO & AI Search

Cloudflare chặn AI crawler mặc định: bạn có đang tự chặn mình?

Sảnh vào văn phòng Cloudflare - công ty hạ tầng internet đầu tiên chặn AI crawler mặc định

Ảnh: Khu vực sảnh vào văn phòng Cloudflare (2021), HaeB / Wikimedia Commons, giấy phép CC BY-SA 4.0.

Bạn dày công viết bài chuẩn GEO để được ChatGPT hay Perplexity trích dẫn. Nhưng nếu website đang dùng Cloudflare và không kiểm tra lại cấu hình, rất có thể chính hạ tầng của bạn đang âm thầm chặn cửa các AI đó.

Tóm tắt nhanh

Từ 1/7/2025, gọi là "Content Independence Day", Cloudflare - công ty hạ tầng internet lớn, phục vụ khoảng 20% website toàn cầu - bắt đầu chặn AI crawler chưa được cấp phép theo mặc định trên mọi domain mới. Lý do: các nền tảng AI lấy nội dung miễn phí để huấn luyện và trả lời, trong khi lượng traffic giới thiệu ngược lại cho website nguồn giảm mạnh, có nơi thấp hơn tìm kiếm truyền thống tới 750 lần theo dữ liệu Cloudflare công bố. Nếu mục tiêu của bạn là được AI trích dẫn (GEO), cần chủ động kiểm tra và cho phép các AI crawler quan trọng, không để mặc định "chặn nhầm".

Content Independence Day là gì?

  • Chặn mặc định cho domain mới: mọi domain mới đăng ký qua Cloudflare sẽ tự động chặn các AI crawler chưa cấp phép, trừ khi chủ website chủ động bật cho phép.
  • Cho chủ website toàn quyền quyết định: có thể chọn cho phép AI crawler nào truy cập, với mục đích gì (huấn luyện mô hình, suy luận trả lời, hay tìm kiếm) - từng loại được phân biệt rõ.
  • Ra mắt dịch vụ "pay-per-crawl": chủ website có thể yêu cầu AI trả phí mỗi lần crawler ghé thăm, thay vì cho thu thập miễn phí như trước.

Nguồn: thông báo chính thức từ Cloudflare Blog, "Content Independence Day: no AI crawl without compensation!" (1/7/2025), dẫn lại qua MIT Technology Review.

Vì sao điều này quan trọng với chiến lược GEO?

GEO (Generative Engine Optimization) chỉ hoạt động nếu AI thực sự đọc được nội dung của bạn. Có 2 lớp chặn cần kiểm tra riêng biệt:

  • Lớp hạ tầng (Cloudflare hoặc CDN khác): nếu bật "AI Crawl Control" và chặn theo mặc định, các bot như GPTBot (OpenAI), ClaudeBot (Anthropic), PerplexityBot, Google-Extended sẽ bị từ chối truy cập trước khi chạm tới cả file robots.txt.
  • Lớp website (robots.txt): ngay cả khi hạ tầng cho phép, nếu robots.txt của chính website có dòng Disallow cho các bot này, chúng vẫn không thu thập được nội dung.
HAI LỚP KIỂM TRA ĐỂ AI ĐỌC ĐƯỢC NỘI DUNG CỦA BẠN AI Crawler (GPTBot, ClaudeBot, PerplexityBot...) Lớp 1: Hạ tầng Cloudflare AI Crawl Control phải cho phép Lớp 2: robots.txt Không có dòng Disallow chặn bot Cả hai lớp đều mở → AI đọc được, có thể trích dẫn thương hiệu

Nếu chỉ mở 1 trong 2 lớp, AI crawler vẫn bị chặn ở lớp còn lại.

Cách kiểm tra nhanh cho website của bạn

  • Nếu dùng Cloudflare: vào Dashboard → mục Bots hoặc AI Crawl Control, kiểm tra danh sách AI crawler đang bị chặn, bật lại những bot bạn muốn cho phép (GPTBot, ClaudeBot, PerplexityBot, Google-Extended, Applebot-Extended).
  • Kiểm tra robots.txt: truy cập trực tiếp tenmien.com/robots.txt, tìm các dòng User-agent tương ứng tên bot, đảm bảo không có Disallow: / cho các AI bot bạn muốn cho phép.
  • Cân nhắc thêm llms.txt: một file tóm tắt thương hiệu, dịch vụ, trang quan trọng dành riêng cho AI đọc - không bắt buộc nhưng đang được nhiều site chủ động thêm để tăng độ chính xác khi AI nhắc tới thương hiệu.

Không có công thức đúng cho tất cả. Nếu mục tiêu là được AI trích dẫn, lan tỏa thương hiệu (chiến lược GEO), nên mở cửa cho các AI crawler chính thống. Nếu nội dung của bạn là tài sản độc quyền, có giá trị thương mại cao (dữ liệu nghiên cứu, nội dung trả phí), cân nhắc chặn hoặc dùng dịch vụ pay-per-crawl để được trả công xứng đáng. Xem thêm cách tối ưu GEOGEO là gì để có bức tranh đầy đủ.

Câu hỏi thường gặp

Cloudflare chặn AI crawler từ khi nào?

Từ ngày 1/7/2025, gọi là Content Independence Day, Cloudflare bắt đầu chặn các AI crawler chưa được cấp phép truy cập nội dung theo mặc định trên mọi domain mới đăng ký qua Cloudflare, trừ khi chủ website chủ động cho phép.

Website của tôi có bị chặn AI crawler không?

Cần kiểm tra 2 nơi: cấu hình Cloudflare (mục AI Crawl Control nếu dùng Cloudflare) và file robots.txt của website. Nếu robots.txt có dòng Disallow cho GPTBot, ClaudeBot, PerplexityBot hoặc Google-Extended, các AI này sẽ không thu thập được nội dung.

Có nên chặn AI crawler không?

Tùy mục tiêu. Nếu muốn được ChatGPT, Perplexity, Google AI Overviews trích dẫn và nhắc tên thương hiệu (chiến lược GEO), cần cho phép các AI crawler này truy cập. Nếu ưu tiên bảo vệ nội dung độc quyền khỏi bị dùng huấn luyện AI mà không được trả phí, có thể cân nhắc chặn hoặc dùng dịch vụ pay-per-crawl.

Muốn kiểm tra website đã sẵn sàng cho GEO chưa?

Nhận tư vấn miễn phí