Robots.txt

robots.txt là tệp thường được đặt ở thư mục gốc của một trang web (ví dụ: https://www.example.com/robots.txt). Tệp này xác định liệu các trình thu thập thông tin có được phép truy cập vào toàn bộ trang web hay chỉ các tài nguyên được chỉ định hay không. Tệp robots.txt có tính hạn chế cao có thể giúp ngăn chặn các trình thu thập tiêu tốn băng thông quá mức.

Chủ sở hữu trang web có thể ngăn trình thu thập phát hiện một đường dẫn nhất định (và tất cả các tệp trong đường dẫn đó) hoặc một tệp cụ thể. Điều này thường được thực hiện để ngăn các tài nguyên đó bị lập chỉ mục hoặc hiển thị trong kết quả tìm kiếm.

Nếu trình thu thập được phép truy cập tài nguyên, bạn có thể định nghĩa quy tắc lập chỉ mục cho các tài nguyên đó thông qua các phần tử <meta name="robots"> (thường gọi là "thẻ robots") và HTTP header X-Robots-Tag. Các trình thu thập liên quan đến tìm kiếm sử dụng các quy tắc này để xác định cách lập chỉ mục và hiển thị tài nguyên trong kết quả tìm kiếm, hoặc để điều chỉnh tốc độ thu thập cho các tài nguyên cụ thể theo thời gian.